TyDi QA:多语言问答基准

文 / Google Research 研究员 Jonathan Clark

问答技术每天都在为人们提供帮助,例如遇到 “墨鱼汁能安全食用吗?”之类的问题时,用户会询问语音助手或输入搜索内容并期望 得到答案。去年,我们面向研究社区发布了英语版的 自然问题 数据集,以反映 用户的真实需求与我们面临的挑战

但世界上有成千上万种不同的语言,其中很多语言都使用完全不同的方法来构词表意。例如,英语的变形用于区分单数(“book”)和复数(“books”);而阿拉伯语采用三种形态来区分双数(“كتابان”, kitaban)、单数(“كتاب”, kitab)或复数(“كتب”, kutub)。此外,有些语言,如日语,在单词之间不使用空格。要创建一个能够理解各种语言的诸多表意方式的机器学习系统,是一项挑战,而要训练这样的系统,则需要收集不同语言的大量样本。

为了鼓励对多语言问答系统的研究,今天我们发布了 TyDi QA,这是一个涵盖 11 种不同类型语言的问答语料库。根据我们的论文《TyDi QA:不同类型语言中信息查询问答技术的基准(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages) 中的描述,我们语料库的灵感来源于表意类型多样性,这一观念认为不同的语言采用不同的结构方式来表达意义。我们为该语料库选择了一组在类型上彼此相去甚远的语言,我们期望在这个数据集上表现良好的模型,能推广运用到世界上的众多其他语言。

类型多样的语言集

TyDi QA 包含来自 11 种语言的 200,000 多个问答对,代表一系列不同的语言现象和数据挑战。许多语言使用非拉丁字母,例如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语和泰语。一些语言的构词方式很复杂,如阿拉伯语、芬兰语、印尼语、斯瓦希里语、俄语。日语使用四种字母(“24時間でのサーキット周回数”——image 以四种颜色表示),而韩语字母本身就具有很强的组合性。这些语言在网络上可获得的数据量也大相径庭,英语和阿拉伯语有很多,而孟加拉语和斯瓦希里语的数据则非常少。我们期望新系统能应对这些挑战,并可成功应用于多种语言。

创建真实数据

研究社区早期使用的问答数据集大多是这样创建的:先给人们一些段落,然后让他们根据阅读后的理解来编写问题。然而,因为人们在编写每个问题时心中都已有答案,通过这种方法创建的问题往往包含与答案相同的单词。所以,针对这类数据进行训练的机器学习算法更倾向于单词匹配,而忽略了满足用户需求所需的更细微的答案。

为了构建更自然的数据集,我们转换了角度:从 想要 答案但 还不 知道答案的人那里收集问题。为了收集问题,我们向人们展示了一段来自维基百科的有趣内容,这段内容被翻译成他们的母语。阅读后我们让他们 任意 提出一个问题,这个问题必须是他们 无法 从这段内容中直观得到解答,但他们又 渴望 知道的。

这就类似于你在逛街时,看到有趣的事物想要进一步了解时而产生的问题。我们鼓励提问者天马行空地放飞想象力。看到关于冰的文章会让你联想到夏天的冰棒吗?很好!那么是谁发明了冰棒呢?重要的是,这些问题直接用每种语言编写,而并非通过翻译,因此多数问题不同于之前以英语编写的语料库。孟加拉语中有一个问题:“সফেদা ফল খেতে কেমন?”(人参果吃起来是什么味道?) 从没听说过人参果吗?那可能是因为人参果在印度比在美国更常见。

对于每个问题,我们均以对应的语言使用 Google 搜索,找到匹配度最高的维基百科文章,并让提问者在相应文章中查找并划出答案。尽管我们的预期是当提问者不知道答案时,问题和答案之间会产生 一些 有趣的分歧,但结合世界各语言中极为广泛的语言现象,我们发现情况甚至更为复杂。

例如,在芬兰语中出现了一些有趣的例子,比如 在问题和答案中的表达完全不同。要在整篇维基百科文章中成功选出含有其答案的句子,系统需要能够分辨芬兰语单词 viikonpäivät (平日)、seitsenpäiväinen (七天) 和 viikko (周) 之间的关系。

image1

作为研究社区共同取得进步

我们希望这个数据集能够推动研究社区进行创新,为世界各地的用户创建更实用的问答系统。为了跟踪社区的进展,我们建立了一个 排行榜,参与者可以评估其机器学习系统的质量。此外,我们还正在开源一个使用该数据集的 问答系统。如要查看排行榜并了解更多信息,请访问该项挑战的网站。

致谢

本数据集是由众多 Google 员工组成的团队通力合作的成果,包括(按字母顺序)Dan Garrette、Eunsol Choi、Jennimaria Palomaki、Michael Collins、Tom Kwiatkowski 和 Vitaly Nikolaev。上述芬兰语注释由 Jennimaria Palomaki 提供。

image

原文: TyDi QA: A Multilingual Question Answering Benchmark
中文:TensorFlow 公众号