用于研究翻译中性别偏见的数据集

tfwechat · August 28, 2021, 10:14am

发布人：Google 翻译产品经理 Romina Stella

得益于神经机器翻译 (NMT) 的进步，译文更加自然流畅，但与此同时，这些译文也反映出训练数据存在社会偏见和刻板印象。因此，Google 持续致力于遵循 AI 原则，开发创新技术，减少机器翻译中的性别偏见。

其中一个研究领域是利用句子或段落等上下文，来提高性别表述的准确性。传统 NMT 方法是单独翻译句子，但单独的句子中并不是总能带有对性别信息的明确说明，因此这无疑会带来挑战。例如，在下方西班牙语（该语言并不总是明确提及主语 (Null-subject language)）段落中，第一句话明确将 Marie Curie 视为主语，但第二句话没有明确提及主语。孤立来看，第二句话可以指任何性别的人。然而，在翻译成英语时，需要选择一个代词，而翻译准确所需的信息就在第一句话中。

西班牙语文本	英语译文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades.	Marie Curie was born in Warsaw.She was the first person to receive two Nobel Prizes in different specialties.

如果想推动翻译技术，让其不止步于单句翻译，则需要新指标来衡量进展，并且需要新数据集，其中包括最常见的上下文错误。翻译性别错误（如选择正确的代词或性别一致）可能直接涉及到人及自我认同方式，因此尤其敏感。而这一点则进一步加剧了挑战。

为应对上下文翻译的常见挑战（如代词省略、性别一致和准确使用所有格），我们发布了 Translated Wikipedia Biographies（维基百科传记译本）数据集，可用于评估翻译模型的性别偏见。发布此数据集的目的在于提供衡量模型改变前后的翻译准确性的基准，从而对翻译中代词和性别的 ML 系统进行长期改进。

常见翻译错误的来源

“维基百科传记 (Wikipedia:Biographies of living persons) ”经过精心撰写，涵盖多个地域，包含多个句子，并以第三人称指代主语（所以包含大量代词）。因此极有可能出现性别相关的翻译错误。当文章在段落前几句中明确提及某人，但在后面的句子中没有明确提及时，通常会出现性别相关的翻译错误。一些示例如下：

翻译错误	文本	译文
西班牙语→英语中的代词省略*(Pro-drop language)*	Marie Curie nació en Varsovia.Recibió el PremioNobel en 1903 y en 1911.	Marie Curie was born in Warsaw.He received the Nobel Prize in 1903 and in 1911.
西班牙语→英语中的中性所有格(Possessive determiner)	Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia.	Marie Curie was born in Warsaw.His professional career was developed in France.
英语→德语中的性别一致(Grammatical gender)	Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize in 1903 and in 1911.	Marie Curie wurde in Varsovia geboren.Der angesehene Wissens- chaftler erhielt 1903 und 1911 den Nobelpreis.
英语→西班牙语中的性别一致*(Grammatical gender)*	Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize in 1903 and in 1911.	Marie Curie nació en Varsovia.El distinguido científico recibió el Premio Nobel en 1903 y en 1911.

构建数据集

如上文所示，Translated Wikipedia Biographies（维基百科传记译本）数据集旨在分析机器翻译中常见的性别表述错误。该数据集中的每个实例代表个人（在传记中被认为是女性或男性）、摇滚乐队或运动队（被视为性别无关）。每个实例都均由 8 到 15 个相互关联的句子组成的长文本翻译来表示，且这些句子中会提到中心主语（人、摇滚乐队或运动队）。文章撰写的源语言为英语，并由专业人士处理，翻译成西班牙语和德语。我们已针对代词省略，对西班牙语译文进行优化，因此可以使用相同的集合来分析代词省略（西班牙语→英文）和性别一致（英语→西班牙语）。

我们选择一组在不同地域和性别之间具有同等代表性的实例构建该数据集。为此，我们根据职业、专业、工作和/或活动，从维基百科中提取传记。为了确保职业选择的公平性，我们根据维基百科的统计数据，选择了九种职业。这些职业代表了一系列刻板的性别联想（女性、男性或两者都不是）。为了减轻任何基于地域的偏见，之后我们根据不同地域来划分所有这些实例。对于每个职业类别，我们希望每个地区（使用 census.gov 中的地区作为不同地域的代表）都有一名人选。在关联实例与地区时，我们会检查被选者是否与指定地区的国家具有相关性（国籍、出生地、长期居住之地等等）。该数据集使用此标准，包含了来自世界 90 多个国家和所有地区的个人条目。

虽然性别并非二元化，但我们专注于令“女性”和“男性”实体具有同等代表性。值得一提的是，由于维基百科通过这种方式来表示实体，目前其中的实例还不足以准确反映非二元群体。因此很遗憾，该集合并不包括标识为非二元的个人。为了将每个实例贴上“女性”或“男性”标签，我们依靠的是维基百科上的传记信息，其中包含对此人特定性别的参考资料（她、他、女人、儿子、父亲等）。

在应用所有这些过滤条件之后，我们会为每个“职业-地区-性别”三元组随机选择一个实例。针对七个地理区域的每一种职业，我们都挑选了两份传记（一份男性传记和一份女性传记）。

最后，我们添加了 12 个性别无关实例。之所以选择摇滚乐队和运动队，是因为它们通常由无性别的第三人称代词（如“它”或复数形式的“它们”）所指代。包含这些实例是为了研究过度触发 (over triggering)，即当模型得知其因产生特定性别的代词而获得奖励时，它们会在本不应该的情况下产生这些代词。

结果和应用

该数据集为降低机器翻译中的性别偏见提供了一种新的评估方法（前一篇文章中已有所介绍）。每个实例都指向已知性别的主语，因此我们可以计算出指向该主语的、特定性别翻译的准确性。在翻译成英语（该语言有代词省略或中性代词）时，因为主要计算基于英语的特定性别代词，所以这种计算更为容易。在这些情况下，与先前模型相比，上下文感知模型利用性别数据集，将错误数量减少了 67%。如前所述，我们可利用中性实体，如使用阴性或阳性代词来指代无性别实体，来发现过度触发的情况。这个新数据集还为不同类型的职业或地理区域中不同模型的性能提供了新的研究方向。

比如，我们利用该数据集，在翻译自西班牙语的 Marie Curie 传记节选中发现了以下改进之处。

使用先前 NMT 模型的翻译结果

使用新上下文模型的翻译结果

结论

Translated Wikipedia Biographies（维基百科传记译本）数据集是我们在研究识别与性别和机器翻译有关的偏见方面的工作成果。该数据集侧重于与性别偏见有关的具体问题，并不旨在涵盖整个问题。值得一提的是，我们发布此数据集的目的并不在于强调确定解决性别偏见的最佳方法，而是帮助推动全球研究界在应对这一方面挑战。

致谢

这些数据集的构建得到了以下人员的帮助：Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

原文：A Dataset for Studying Gender Bias in Translation
中文：TensorFlow 公众号