豆包上新同声传译,顺便狙击阿里AI眼镜?
1 天前 / 阅读约4分钟
来源:凤凰网
AI语音成大厂必争之地。

打开字节、阿里们的多模态能力地图,每块宝藏都标着"语音”。

近期,就在阿里通义千问团队发布翻译模型Qwen-MT的同一天,字节跳动旗下的火山引擎正式对外发布了豆包·同声传译模型 Seed LiveInterpret 2.0,后者的模型在多个Benchmark测试中都获得了大幅度领先,但其实该模型的首版发布已经是去年的事了。

时隔一年,字节再次将这个模型端出来,并花大力气更新换代了一次,字节想做什么?

我们可以把时间线串联起来看:字节豆包团队于 2024 年推出了旗舰语音生成基础模型 Seed-TTS,今年1月发布了豆包 Realtime Voice Model(首个端到端语音理解与生成模型),4月开源了中英双语TTS模型MegaTTS3,1个月前则发布了豆包播客语音模型。

作为豆包多模态能力中的重要一环,字节将同声传译补足到了语音能力之中。反观阿里,去年也曾高调推出了新一代端到端语音翻译大模型 Gummy,这回在翻译能力上又进一步。如果将视野再打开,环顾国内外,我们能看到阿里巴巴、字节、科大讯飞、Grok、OpenAI、Meta都在向语音类赛道疯狂投入资源。

吸引一众AI厂商纷纷加码语音模型的背后,则是行业对新一代“语义交互”方式的竞争。

一旦突破“实时语音+实时翻译+实时输出”的技术体验屏障,其将直接打开AI产品的商业化想象空间。

譬如AI硬件。新一代AI硬件浪潮正对语音翻译技术产生着强烈的需求牵引。尤其是国内正在打响的“百镜大战”。翻译模型Qwen-MT亮相两天后,阿里在WAIC上正式推出了首款AI眼镜。字节也被爆将在年内发布自家的AI眼镜。

不同于电脑和手机等终端硬件的文字交互方式,没有键盘的眼镜,天然便适合语音交互这一新形式。不过,当下阻碍AI眼镜普及的一大难点,也恰恰在语音交互体验的不完备上。

从这个角度来说,字节和阿里对语音模型的押注,颇有点给自家AI眼镜打好前站的意思。

那么,语音类赛道到底正在发生着什么?豆包同传2.0表现如何?

让我们先来看看这个产品的实际能力。

同声传译已经是各种圈子内的“老需求”了,并不新鲜。不过此模型,仍然吸引了全网不小的注意。这主要在于大家通过这次模型的升级,意识到了其背后的“泛商业价值”。

这款语音模型已经能够以极低的延迟、更丝滑的效果,输出与用户音色相一致的英语翻译。一边接收源语言语音输入,一边 0 样本声音复刻用户声音,直接输出目标语言的翻译语音。

我们来试一试。字节官方提供了体验地址,登录该网址后,每日有20次体验同声翻译的机会。

我们以在WAIC2025上进行的AI教父Geoffrey Hinton的演讲为例。

该同传大模型目前仅支持中英间转录,我们先来试试中文,Hinton谈论大语言模型的一段中文翻译:

今天的大语言模型(LLM)可以看作是当年我所构建的小型语言模型的后继者,是自 1985 年以来语言技术演进中的一个重要里程碑。它们以更长的词序列作为输入,采用更复杂的神经网络结构,并在特征学习中建立了更精妙的交互机制。

正如我当初设计的小模型那样,LLM 的基本原理与人类理解语言的方式本质一致:将语言转化为特征表示,并在多个层次上对这些特征进行精密的整合与重构。这正是 LLM 在其各个神经网络层中所执行的核心任务。

因此,我们有理由说,LLM 确实在某种意义上“理解”了它们所生成的语言。