Google 翻译中更稳定的实时语音翻译

文 / Naveen Arivazhagan,Google Research 高级软件工程师;Colin Cherry,Google Research 高级研究员

利用 Google 翻译应用中的转录功能,可为会议和演讲等活动创建实时翻译转录,也可以为用您不懂的语言讲述的餐桌故事创建实时翻译转录。在这样的环境中,及时显示译文能够帮助读者更好和更快地理解信息。

然而,在此功能的早期版本中,译文会被多次实时修订,很容易让人分心。这是由于源文和译文之间的非单调关系,其中源文语句末尾的单词会影响译文开头的单词。

image

转录(旧)- :来自语音识别的源文转录。:显示给用户的译文。对译文频繁修正会干扰阅读体验

今天,我们荣幸介绍 Google 翻译应用中转录功能最新更新背后的一些技术,此次更新显著减少了译文修订并改善了用户体验。有两篇论文描述了实现这一更新的研究。第一篇 制定了适合实时翻译的评估框架,并开发了减少不稳定性的方法。第二篇 对比其他方法,展现了这些方法的优越效果和等同于原始方法的便捷性。由此产生的模型更加稳定,并在 Google 翻译中明显改善阅读体验。

image

转录(新)- :来自语音识别的源文转录。:显示给用户的译文。以少量延迟为代价,很少再需要对译文进行修正

评估实时翻译

在尝试改进之前,首先要了解并量化衡量用户体验的不同方面,从而在最大限度提高质量的同时将延迟和不稳定性降到最低。在 Re-translation Strategies For Long Form, Simultaneous, Spoken Language Translation 中,我们开发了一种实时翻译评估框架,此后该框架一直指导着我们的研究和工程工作。这项工作提出了一个使用以下指标的性能衡量标准:

  • 纠删:衡量不稳定性给用户带来的额外阅读负担。它显示了最终译文中被擦除和替换的单词数量。

  • 延迟:衡量从用户说出单词到屏幕上显示的单词翻译变得稳定时经过的平均时间。要求稳定性避免了奖励由于频繁修正而只能做到快速的系统。

  • BLEU 分数:衡量最终翻译的质量 。中间翻译的质量差异由所有指标的组合体现。

需要注意的一点是,应该认识到指标在不同方面的内在取舍。转录 (Transcribe) 通过在实时自动语音识别的基础上叠加机器翻译以实现实时翻译。已识别转译的每一次更新都会实时生成一个新的译文;每一秒都可能发生多次更新。这种方法将 Transcribe 置于 3 维质量框架的一个极端:它表现出最小的延迟和最佳的质量,但也有很高的纠删。在了解到这一点之后,我们得以寻求更好的平衡。

稳定重译

减少纠删的一个直接解决方案是降低译文更新的频率。在这一思路下,“流式翻译”模型(如 STACLMILk)可以智能地学习识别何时已收到足够的源文信息来安全地扩展翻译,使译文无需改变。由此,流式翻译模型即可实现零纠删。

流式翻译模型的缺点是,再次处于一个极端的位置:零纠删必须牺牲 BLEU 且必定出现延迟。相对于完全消除纠删,为偶尔的不稳定性制定少量预算可能会带来更好的 BLEU 和延迟。更重要的是,流式翻译需要重新训练和维护专门用于实时翻译的专属模型。这就排除了在某些情况下使用流式翻译的可能,因为对于 Google 翻译这样支持 100 多种语言的产品来说,保持精简流水线是一个重要的考量因素。

在我们的第二篇论文 Re-translation versus Streaming for Simultaneous Translation 中,我们表示原始的“重译”实时翻译方法可以微调,减少纠删并实现更有利的纠删/延迟/BLEU 权衡。在不训练专属模型的情况下,我们对原始机器翻译模型应用了一对推断-时间启发式方法 - 遮蔽(masking) 和 偏向 (biasing)。

正在进行的翻译一般会在结尾出现闪烁,因为它可能更依赖尚未出现的源词。我们从翻译中截断一些单词,直到观察到源句结束,以减少这种情况。因此,这种遮蔽过程以延迟换取了稳定性,同时保证了质量。这与 Wait-k 等流式方法中使用的基于延迟的策略非常相似,但是仅应用于推断过程,不在非训练过程中使用。

神经机器翻译常在同样好的翻译之间“纠结”,造成不必要的纠删。我们将输出偏向已经向用户展示的内容,从而提高稳定性。在减少纠删的基础上,偏向可以通过提前稳定译文来减少延迟。偏向与遮盖可以很好地相互作用,因为遮盖可能不够稳定的词也可以防止模型偏向它们。然而,这个过程需要精细调整,因为偏向过高加上遮盖不足可能会对质量产生负面影响。

遮盖和偏向的结合,产生了高质量和低延迟的重译系统,同时几乎消除了纠删。下表显示了我们引入的启发式方法的指标结果,及其与上述其他系统的比较。该图表明,即使为纠删留出的预算很小,重译依然胜过专门为实时翻译训练的零闪烁流式翻译系统(MILk 和 Wait-k)。

系统 BLEU 延迟 (s) 纠删
重译 (旧) 20.4 4.1 2.1
+ 稳定 (新 20.2 4.1 0.1

在有和没有遮盖和偏向的推断-时间稳定启发式方法的情况下,对 IWSLT 测试 2018 英语到德语(TED 演讲) 的重译进行评估。稳定大幅减少了纠删。由于偏向,翻译质量(以 BLEU 衡量)受到的影响非常小。尽管存在遮盖,有效延迟仍保持不变,因为翻译会更快地稳定下来。

image

重译与 WMT 14 英语到德语中的稳定和专属流式模型(Wait-k 和 MILk)的对比。通过不同的偏向和遮盖组合,获得重译的 BLEU-延迟权衡曲线,同时保持纠删预算为每 10 个生成词中小于 2 个词。相较于无法修正且需要对每个权衡点进行专门训练的流式模型,重译提供了更好的 BLEU/延迟权衡

结论

上述解决方案可以快速返回合适的译文,同时允许在更多源句被说出后进行修改。重译的简单结构让我们能够轻松应用我们最好的语音和翻译模型。不过,减少纠删只代表了部分改进,我们还期待通过更多新技术改善整体语音翻译体验,比如减少翻译说出时的延迟,或者在多人讲话时实现更好的转录。

致谢

感谢 Te I、Dirk Padfield、George Foster、Wolfgang Macherey、Pallavi Baljekar、Sami Iqram、John Richardson、Kuang-Che Lee、Bryan Lin、Mengmeng Niu、Nathan Bain、Lindsey Boran、Shilip Vaishnav、Kannu Mehta、Chris Kau、Tom Small、Jeff Pitman 和 Macduff Hughes。

原文:Stabilizing Live Speech Translation in Google Translate
中文:谷歌开发者公众号