文 / Kellie Webster,软件工程师,Google Research
自然语言处理 (NLP) 在过去几年中取得了长足的进步,BERT、ALBERT、ELECTRA 和 XLNet 等预训练模型在各种任务中均达到理想的准确率。在预训练中,我们尝试通过反复遮盖单词并对其进行预测,进而从大型文本语料库(如 Wikipedia)中学习表征(这一过程称为遮蔽语言建模)。习得的表征会针对不同概念(例如外科医生和手术刀)之间的语言和相关丰富信息进行编码。随后进入第二个训练阶段,即微调 (fine-tuning),在此阶段中,模型会使用特定任务的训练数据来学习如何使用通用的预训练表征来执行具体任务(例如分类)。由于此类表征已在 NLP 任务中得到广泛采用,因此,最重要的便是了解表征中编码的信息,以及任何习得相关性对下游性能的影响,以确保此类模型的应用符合我们的 AI 原则。
在《衡量和减少预训练模型中的性别相关性》(Measuring and Reducing Gendered Correlations in Pre-trained Models) 一文中,我们针对 BERT 及其低内存使用率版本 ALBERT 进行了案例研究,探讨了与性别的相关性,并总结了一系列使用预训练语言模型的最佳做法。我们展示了在公开模型检查点和学术任务数据集上进行的实验的结果,以说明如何应用最佳做法,为探索本案例研究范围以外的设置提供了基础。我们将很快发布一系列检查点, Zari1,这些检查点可以减少性别相关性,同时保持标准 NLP 任务指标的超高准确率。
衡量相关性
为了解预训练表征中的相关性对下游任务性能的影响,我们采用多种评估指标来研究性别的表征。在这篇文章中,我们将基于指代消解 (Coreference Resolution) 对其中一项测试的结果进行讨论,指代消解能够让模型理解句子中给定代词的正确先行词。例如,在下方的句子中,模型可以识别出 his (他的)指的是 nurse(护士),而不是 patient(患者)。
该任务的标准学术测试方法为 OntoNotes 测试(Hovy 等人,2006 年),而我们通过在此类数据上使用 F1 值 (F-score) 来衡量通用设置下的模型在指代消解方面的准确率(如在 Tenney 等人,2019 年中所述)。OntoNotes 仅代表一种数据分布,因此我们还考虑了 WinoGender 基准测试,以提供额外的平衡数据,而该基准测试旨在确认性别与职业之间的模型关联何时错误地影响指代消解。WinoGender 指标值高(接近 1),则表示此模型在进行决策时,会依据性别与职业之间的标准关联(例如,将护士与女性而不是男性相关联)。当模型的决策结果在性别与职业之间没有形成一致的关联时,指标值为零,这表示决策会基于其他信息,例如句子结构或语义。
BERT 和 ALBERT 在 OntoNotes(准确率)和 WinoGender(性别相关性)测试中的指标值。WinoGender 指标值低,则表示模型在推理中不会偏好于使用性别相关性
在这项研究中我们可以看到,尽管两者在 OntoNotes 上实现了接近 100% 的惊人准确率,但(大型)BERT 或 ALBERT 公开模型在 WinoGender 示例上均未取得零分。其中有一部分原因在于推理中的模型偏好使用性别相关性。这并不完全令人惊讶,因为模型在理解文本时,有多种线索可采用,而通用模型有可能采用任何一种或全部线索。但是,这样做也需要谨慎,因为我们不希望模型在进行预测时,主要基于先验学习的性别相关性,而不是输入中的现有线索。
最佳做法
预训练模型表征中的意外相关性有可能影响下游任务推理,因此我们现在要提出这样一个问题:在开发新的 NLP 模型时,我们可以采取哪些措施来减轻这些意外相关性造成的风险?
- 衡量意外相关性很重要:模型质量可以通过准确率指标来评估,但是这些指标只能评估性能的一个维度,尤其是在提取测试数据的分布与训练数据相同时。例如,BERT 和 ALBERT 检查点的准确率彼此相差不超过 1%,但它们使用性别相关性进行指代消解的准确率却相差 26%(相对值)。这种差异在某些任务中可能很重要;如果应用所包含的文本可能具有不符合历史上的社会规范的职业(如男护士),则选择 WinoGender 分数较低的模型可能得到理想的结果。
- 更改看似无害的配置时也要小心:神经网络模型训练由许多超参数控制,我们通常会选择这些参数来最大化某些训练目标。尽管选择何种配置通常看起来无害,但我们发现这些参数可能会导致性别相关性发生显著变化。例如,丢弃正则化 (Dropout Regulation) 就可用于减少大型模型的过拟合。即使在对模型进行微调之后,当我们增加预训练 BERT 和 ALBERT 模型所使用的 Dropout rate 时,我们也会看到性别相关性显著降低。这一结果令人鼓舞,因为通过简单的配置更改就可以让我们在训练模型时减少模型损害的风险,但是这也表明,在对模型配置进行任何更改时,我们应该仔细评估并谨慎行事。
- 我们有机会获得通用的缓解措施:我们从 Dropout 对性别相关性可能造成的非预期影响得出了进一步的推论,即 Dropout 让使用通用方法减少意外相关性成为了可能:通过增加研究中的 Dropout rate,我们改进了模型对 WinoGender 示例进行推理的方式,而完全不需要手动指定有关任务的任何内容,或更改微调阶段。遗憾的是,OntoNotes 准确率确实会随着 Dropout rate 的提高而开始下降(BERT 结果中已体现),但是,我们很高兴看到在预训练中存在缓解意外相关性的可能,即我们做出的更改便可实现模型改进,而无需执行特定于任务的更新。在我们的论文中,我们探讨了另一种具有不同权衡的缓解策略,即反事实数据增强。
未来计划
我们相信,以这些最佳做法为起点,这些系统可以在尽可能广泛的语言环境和应用范围内提供良好的表现,最终可以开发出强大的 NLP 系统。当然,这些技术本身不足以发现并解决所有潜在问题。部署于现实环境中的所有模型都应经过严格的测试,对模型的多种用途进行考量,并实施保护措施以确保其符合道德规范(例如 Google 的 AI 原则)。我们期待评估框架和数据能够得到进一步的发展,变得更加全面和包容,以涵盖语言模型的多种用途及其计划服务的人群的广度。
致谢
本文是 Xuezhi Wang、Ian Tenney、Ellie Pavlick、Alex Beutel、Jilin Chen、Emily Pitler 和 Slav Petrov 共同的研究成果。在整个项目过程中,与 Fernando Pereira、Ed Chi、Dipanjan Das、Vera Axelrod、Jacob Eisenstein、Tulsee Doshi 和 James Wexler 的讨论使我们受益匪浅。
1 Zari 是一个阿富汗布偶,旨在表现“其他人能做到的事情,小女孩一样可以做到”。
原文:Measuring Gendered Correlations in Pre-trained NLP Models
中文:谷歌开发者公众号