Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

tfwechat · October 30, 2021, 1:52pm

发布人：Google Research 软件工程师 Ye Jia 和 Michelle Tadmor Ramanovich

语音转语音翻译 (S2ST) 是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统级联组成。然而，此类级联系统可能会面临较长的延迟、信息（尤其是副语言和非语言信息）丢失，以及各子系统之间的错误叠加等问题。

2019 年，我们推出了 Translatotron，这是首款能够直接翻译两种语言间语音的模型。此款直接 S2ST 模型能够有效地进行端到端训练，并拥有一个独特功能——在生成的翻译语音中保留源说话者声音（非语言信息）。

不过，尽管该模型能够生成听起来自然的高保真翻译语音，但与强大的基准级联 S2ST 系统（例如，由语音转文字直接翻译模型[1、2]和 Tacotron 2 TTS 模型组成的系统）相比，其表现仍然欠佳。

在“Translatotron 2：稳健的语音转语音直接翻译 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中，我们介绍了 Translatotron 的一个改进版本。该版本的表现得到显著提高，同时我们还应用了一种新的方法来将源说话者的声音转换到翻译的语音中。即使输入语音中存在多位说话者轮流说话的情况，经过修订的语音转换方法也能取得成功，同时还能减少滥用的可能性，并且更加符合我们的 AI 原则。使用三个不同语料库进行的实验一致表明，Translatotron 2 在翻译质量、语音自然度和语音稳健性方面的表现明显优于原始版本 Translatotron。

Translatotron 2

Translatotron 2 由四个主要组件组成：语音编码器、目标音素 (Phoneme) 解码器、目标语音合成器，以及将它们连接起来的注意力模块。编码器、注意力模块和解码器的组合类似于典型的语音转文字直接翻译 (ST) 模型。合成器则使用编码器和注意力模块的输出作为条件。

Translatotron 2 的模型架构（将西班牙语语音翻译为英语语音）

相较于 Translatotron ，Translatotron 2 的更高表现主要源于以下三点新变化：

1. 尽管在原始版本 Translatotron 中，目标音素解码器的输出仅用作辅助损失使用，但在 Translatotron 2 中，它是声谱图合成器的输入之一。这一强大条件使 Translatotron 2 更易于训练，且表现更好。

2. 与 Tacotron 2 TTS 模型类似，原始版本 Translatotron 中的声谱图合成器基于注意力，因此其也存在类似 Tacotron 2 所表现出的稳健性问题。相比之下，Translatotron 2 中使用的是基于持续时间的声谱图合成器（类似于 Non-Attentive Tacotron 使用的声谱图合成器），这能够大大提高合成语音的稳健性。

3. Translatotron 和 Translatotron 2，都使用基于注意力的连接到编码的源语音。然而，在 Translatotron 2 中，这种基于注意力的连接由音素解码器而非声谱图合成器驱动，这确保了声谱图合成器所获取的声学信息与其合成的翻译内容相一致，从而有助于在不同说话者轮流说话时保留每位说话者的声音。

更强大、更负责任的声音保留

原始版本 Translatotron 能够在生成的翻译语音中保留源说话者的声音，方法是将其解码器限定于由单独训练的说话者编码器生成的说话者嵌入向量之上。然而，如果使用目标说话者的录音片段作为说话者编码器的参考音频，或者目标说话者的嵌入向量直接可用，则这种方法还能以不同说话者的声音生成翻译后的语音。虽然这一功能非常强大，但有可能遭到滥用，如使用任意内容制作欺诈音频，这会给生产部署带来问题。

为解决这一问题，Translatotron 2 这样设计：只使用一个语音编码器，该编码器同时负责语言理解和语音录制。这样，训练后的模型便无法用于重现非源语音。这种方法也可以应用于原始版本 Translatotron。

为了在翻译过程中保留说话者的声音，研究人员通常倾向于使用两端都是同一位说话者声音的平行说话内容来训练 S2ST 模型。这样一个两边都有人类录音的数据集很难收集，因为它需要大量流利的双语使用者。为了避免这一难题，我们使用了 PnG NAT 的修改版本，这是一种能够跨语言语音转换来合成此类训练目标的 TTS 模型。我们的修改版 PnG NAT 模型采用了与旧版 TTS 工作方式相同（即使用的策略与原始版本 Translatotron 相同）的单独训练的说话者编码器，因此能够实现零样本语音传输。

以下是使用 Translatotron 2 进行语音转语音直接翻译的示例，其中保留了源说话者的声音：

输入（西班牙语）：

TTS 合成的参考音频（英语）：

Translatotron 2 预测（英语）：

Translatotron 预测（英语）：

当输入语音包含多个说话者轮流说话时，为了使 S2ST 模型能够在翻译后的语音中保留每个说话者的声音，我们提出了一种简单的基于串联的数据增强技术，称为 ConcatAug。该方法会对成对的训练示例随机采样，并将源语音、目标语音和目标音素序列串联成新的训练示例，以增强训练数据。由此得到的样本在源语音和目标语音中都包含两位说话者的声音，这使模型能够根据不同说话者轮流说话的示例进行学习。以下来自 Translatotron 2 的音频样本展示了不同说话者轮流说话的场景：

输入（西班牙语）：

TTS 合成的参考音频（英语）：

Translatotron 2（采用 ConcatAug）预测（英语）：

Translatotron 2（未采用 ConcatAug）预测（英语）：

点击此处获取更多音频样本。

表现

在我们衡量的各个方面，Translatotron 2 的表现都大大优于原始版本 Translatotron：更高的翻译质量（以 BLEU 衡量，数值越高越好），更好的语音自然度（以 MOS 衡量，数值越高越好），以及更强的语音稳健性（以 UDR 衡量，数值越低越好）。它在难度更大的 Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量方面的表现接近强大的基准级联系统，并且在语音稳健性方面优于级联基准。

使用两个西班牙语-英语语料库评估的翻译质量（以 BLEU 衡量，数值越高越好）

使用两个西班牙语-英语语料库评估的语音自然度以 MOS 衡量，数值越高越好）

使用两个西班牙语-英语语料库评估的语音稳健性（以 UDR 衡量，数值越低越好）

多语言语音翻译

除了西班牙语到英语的 S2ST，我们还评估了 Translatotron 2 在多语言情境中的表现，该模型接收四种不同语言的语音输入并将其翻译为英语。由于事先未提供输入语音的语言，这迫使模型需要自行检测语言。

源语言	fr	de	es	ca
Translatotron 2	27.0	18.8	27.7	22.5
Translatotron	18.9	10.8	18.8	13.9
ST（Wang等人，2020）	27.0	18.9	28.0	23.9
训练目标	82.1	86.0	85.1	89.3

使用 CoVoST 2 语料库评估的多语言 X=>En S2ST 表现

在此任务中，Translatotron 2 的表现同样明显优于原始版本 Translatotron。尽管 S2ST 和 ST 之间的结果没有直接可比性，但接近的数字表明Translatotron 2的翻译质量与基准语音转文字翻译模型相当。这些结果表明，Translatotron 2 在多语言 S2ST 上也非常有效。

致谢

这项工作的直接贡献者包括 Ye Jia、Michelle Tadmor Ramanovich、Tal Remez 和 Roi Pomerantz。同时感谢 Chung-Cheng Chiu、Quan Wang、Heiga Zen、Ron J. Weiss、Wolfgang Macherey、Yu Zhang、Yonghui Wu、Hadar Shemtov、Ruoming Pang、Nadav Bar、Hen Fitoussi、Benny Schlesinger、Michael Hassid，感谢他们提供有益的讨论和支持。

原文：High-Quality, Robust and Responsible Direct Speech-to-Speech Translation
中文：TensorFlow 公众号