XTREME:评估跨语言泛化的大规模多语言多任务基准

文 / Google Research 高级软件工程师 Melvin Johnson 与 DeepMind 研究员 Sebastian Ruder

自然语言处理 (NLP) 面临的主要挑战之一在于:构建的系统不仅要能在英语环境中运行,而且还需能适用于全球 所有 语言(约有 6900 种)。幸运的是,尽管全球大多数语言都 存在语料数据稀疏的问题 ,没有足够的数据可用于单独训练稳健的模型,但许多语言都有着大量相同的基底结构 (Underlying Structure)。如在词汇层面,不同语言之间常存在不少同源词,例如,英语的 “ desk ” 和德语的 “ Tisch ” 均源自拉丁文 “ discus ”。同样,许多语言也以类似的方式来标注语义角色,例如,中文和土耳其语均使用后置词来标注时空关系。

在 NLP 中,大多都采用在训练中利用多种不同语言的共享结构的方法来解决数据稀疏性问题。根据以往的经验来看,这些方法大多专注于使用多种语言执行特定任务。而过去几年间,在深度学习技术进步的推动下,尝试通过学习 通用多语言表示法 (例如,mBERTXLMXLM-R)的训练方法有所增加,这些方法旨在捕获可在多种语言之间共享的且可用于多种任务的知识。但在实践过程中,此类方法主要集中用于评估少量任务,以及语言学层面上有相似性的语言上。

为鼓励更多关于多语言学习的研究的开展,我们推出 用于评估跨语言泛化的大规模多语言多任务基准 XTREME (XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization) ,此基准包括了 40 种类型多样的语言(涵盖 12 个语系),且包括九项推理任务,这些任务需要共同对不同级别的语法或语义进行推理。XTREME 使用的基准语言旨在最大化提升语言多样性、现有任务的覆盖范围以及训练数据的可用性。

在这些语言中,包括许多尚未得到充分研究的语言,例如德拉维语系的泰米尔语(印度南部、斯里兰卡和新加坡使用的语言),泰卢固语和马拉雅拉姆语(主要在印度南部使用的语言)以及尼日尔-刚果语系的斯瓦希里语和约鲁巴语(来自非洲)。如需相关代码和数据(包括用于运行各种基准的示例),请参阅此处 (GitHub - google-research/xtreme: XTREME is a benchmark for the evaluation of the cross-lingual generalization ability of pre-trained multilingual models that covers 40 typologically diverse languages and includes nine tasks.)。

XTREME 任务和语言

XTREME 中的任务涵盖一系列范式,如 句子分类、结构化预测、句子检索和问答系统 。因此,为了使模型在 XTREME 基准中获得成功,它们必须学习可泛化到多种标准跨语言迁移环境的表示法。

image

XTREME 基准支持的任务

每个任务都包含一个 40 种语言的子集。为获取低资源语言的其他数据以供 XTREME 分析,我们将针对自然语言推理 (XNLI) 和问答系统 (XQuAD) 这两种代表性任务的测试集数据,从英语翻译成其他语言。我们发现,模型在执行这些任务时,使用翻译转换的测试集与使用人工标记的测试集所实现的性能相当。

零样本评估

在使用 XTREME 评估性能前,必须先使用鼓励跨语言学习的目标对多语言文本进行模型预训练。鉴于英语是最可能有提供标记数据的语言,我们对特定任务的英语数据进行微调。接着,XTREME评估模型在 零样本 (Zero-Shot) 跨语言迁移的性能 ,如在其他未见过的特定任务数据的语言。下图展示了从预训练、微调到零样本迁移的三步流程。

给定模型的跨语言迁移学习流程

对多语言文本进行预训练,然后使用英语对下游任务进行微调,最后用 XTREME 进行零样本评估

这种零样本设置在实践中有诸多优势,其中之一便是提高计算效率:我们只需针对每个任务在英语数据上对预训练模型进行微调,然后便可在其他语言上直接进行评估。但是,对于在其他语言中有提供标签数据的任务,我们也将对该语言数据与微调结果进行了比较。最终,我们获得了全部九项 XTREME 任务的零样本得分,并计算综合得分。

迁移学习的测试台

我们选择了几种当前最前沿的预训练多语言模型进行实验,其中包括:基于热门的 BERT 模型扩展的 多语言 BERT 模型;经过更多数据训练且规模更大的两种多语言 BERT 模型 XLM 和 XLM-R;以及大规模多语言机器翻译模型 M4。这些模型的共同之处是,它们已经在大量多语言数据上完成了预训练。在我们的实验中,我们选择使用这些模型的变体,它们已在大约 100 种语言(包括基准的 40 种语言)中进行了预训练。

我们发现,尽管模型在大多数现有英语任务上有着接近于人类的表现,但针对其他语言的任务而言,表现明显不尽人意。纵观所有模型的表现,英语与其余语言之间的性能差距在结构化预测和问答任务上最为突出,而在结构化预测和句子检索任务中,不同语言之间的结果分布差异最大。

如下图所示,为了说明这一点,我们按任务和语言的不同,展示了性能最佳模型 XLM-R 在零样本设置的表现。各任务之间的得分不可比较,因此我们重点讨论语言在各任务中的相对排名。正如我们所见,许多语料数据丰富的语言(特别是印欧语系的语言)排名一直比较靠前。相反,模型在其他语系(如汉藏语、日语、韩语和尼日尔-刚果语系)等语言上的表现较差。

在零样本设置条件下,性能最佳模型 (XLM-R) 针对 XTREME 中所有任务和语言的表现。呈现的分数基于任务特定指标的百分比,因此无法直接在各任务之间进行比较。人类表现(如有)以红色星号表示。各语系的特定示例使用各自的 ISO 639-1 代码表示

总体上,我们得到了一系列有趣的观察结果:

  • 在零样本设置条件下,M4 和 mBERT 在某些较为简单的任务上与 XLM-R 旗鼓相当,而在某些颇有挑战性的问答任务中,后者表现则优于前两者。例如,在 XQuAD 上,XLM-R 的得分为 76.6,而 mBERT 的得分为 64.5,M4 的得分为 64.6,同时,在 MLQA 和 TyDi QA 上的结果分布情况类似。
  • 我们发现,使用机器翻译(翻译训练数据或测试数据)的基准数据颇具竞争优势。在 XNLI 任务上,mBERT 在零样本迁移设置中的得分为 65.4,而使用翻译的训练数据时得分为 74.0。
  • 我们观察到,小样本设置(即使用有限的语言内标签数据(如有))在较为简单的任务上(如 NER)颇具竞争力,但在处理较复杂的问答系统任务时用处不大。从 mBERT 的表现结果可以看出,在小样本设置中,NER 任务的得分从 62.2 提升到 88.3,提高了 42%,但对于问答系统任务 (TyDi QA),其得分仅提高了 25%(从 59.7 提升到 74.5)。
  • 整体而言,在所有模型和设置中,英语和其他语言之间的性能表现仍然有很大差距,这表明跨语言迁移的研究存在巨大潜力。
  • MLQA

跨语言迁移分析

与先前关于深度模型泛化能力的观察结果类似,我们发现,如果为某种语言有更多可用的预训练数据,则性能表现将得到改善(如 mBERT 与 XLM-R),后者拥有更多预训练数据。然而,我们也发现这种相关性并不适用于结构化预测任务(如词性标注 (POS) 和命名实体识别 (NER)),这表明当前的深度预训练模型无法充分利用预训练数据来迁移至此类语法任务。同时,我们也发现模型很难迁移至非拉丁文文本。这一点在 POS 任务中表现明显,其中 mBERT 在西班牙语上的零样本准确率达到 86.9,而在日语上仅为 49.2。

我们在自然语言推理任务 XNLI 中发现,针对英语的测试用例和另一种语言的同一用例,模型大约在 70% 的情况下都做出了相同的预测。半监督式方法可能有助于提高用例预测与其他不同语种译文之间的一致性。我们还发现,如果未在微调后的英语训练数据上进行 POS 序列标记,模型很难进行预测,这凸显了此类模型很难从用于预训练的大量未标注数据中学习其他语言的语法。对于命名实体识别,模型遇到的最大难题是预测英语训练数据中未显示且语言差异较大的实体,具体表现在:其在印尼语和斯瓦希里语中的准确率分别为 58.0 和 66.6,而在葡萄牙语和法语中的准确率分别为 82.3 和 80.1。

多语言迁移学习前景展望

尽管英语的使用人群大约只占世界人口的 15%,但其在 NLP 的最新进展中一直占据重要地位。我们相信,通过构建深度上下文表示法,我们目前掌握的工具有能力为服务于全球其他语言的系统提供实质性的技术进展。

我们希望 XTREME 能够推进多语言迁移学习的研究,就像 GLUESuperGLUE 等基准一样,催生出 BERTRoBERTaXLNetALBERT 等优秀的深度单语言模型。

我们即将发布包含提交门户和排行榜的网站,敬请关注我们了解相关信息。

致谢

这项成果离不开许多人的辛勤工作,包括但不限于以下人士(按姓氏字母排序):Jon Clark、Orhan Firat、Dan Garrette、Sebastian Goodman、Junjie Hu、James Kuczmarski、Graham Neubig、Jason Riesa、Aditya Siddhant 和 Tom Small。

image

原文: XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
中文:TensorFlow 公众号