根据滚动交互预测文本的可读性

发布人:Google Research 实习生 Sian Gooding

全球至少有 7.73 亿人受到文盲问题的影响,其中既包括老年人,也包括年轻人。对于这些人来说,从不熟悉的来源或主题获取信息可能非常困难。然而,由于获得阅读和写作方面的教育机会并不平等,导致这种差距在世界遭遇疫情之际被进一步扩大。据 联合国教科文组织报告,由于新冠疫情导致学校停课,已经有超过 1 亿儿童的阅读能力落后于最低应有水平。

随着技术在全球范围内的普及,在平板电脑或手机等设备上进行阅读,已在很大程度上取代了传统阅读形式。而这提供了一个观察阅读交互的独特机会,例如,观察读者如何滚动浏览文本,以便了解哪些因素会导致文本难以阅读。在为低水平的阅读者和语言学习者设计教育应用时,了解这些因素至关重要,因为它可以用于为学习者匹配相应水平的文本,还可以帮助阅读者理解超出其阅读水平的文本。

CoNLL 2021 的 “根据滚动交互预测文本的可读性 (Predicting Text Readability from Scrolling Interaction)”中,我们证明了设备端阅读交互产生的数据可以用于预测文本的可读性。这种新颖的方法分析了主观可读性(阅读者个人是否认为文本具有可读性),还证明了可以通过添加基于滚动的阅读交互产生的反馈,改进现有的可读性模型。为了鼓励这一领域的研究,帮助实现更多个性化的语言学习和文本简化工具,我们即将发布 阅读交互数据集,该数据集基于滚动行为的英语文本可读性评估。

了解文本难度

文本的阅读难度受到多个方面的影响,包括词汇级别、句法结构和整体连贯性。衡量可读性的传统机器学习方法完全依赖于这些语言学特征。然而,对于网络文本而言,仅仅利用这些特征无法产生比较好的结果,因为此类文本常常包含缩写、表情符号、不完整文本和较短段落,这会对可读性模型的性能产生不利影响。

为了解决这个问题,我们探究了是否可以利用群体的阅读交互综合数据来预测文本的难度,以及阅读者的理解程度会对阅读交互产生怎样的影响。在设备上阅读时,阅读者通常会以垂直滚动的方式与文本进行交互,我们假设这可以作为阅读理解的一个粗略代理。考虑到这一点,我们招募了 518 名有偿参与者,请他们阅读不同难度的英语文本。我们通过衡量参与者滚动行为的不同特征(例如滚动的速度、加速度和重新访问文本区域的次数)来记录阅读交互。然后,我们利用这些信息为可读性分类器生成了一组特征。

根据滚动行为预测文本难度

我们探究了哪些类型的滚动行为受文本难度的影响最大,并使用线性混合效应模型 (linear mixed effect models) 检验了其显著性。我们的设置中有重复衡量,因为多位参与者阅读了相同的文本,而且每位参与者阅读了不止一个文本。使用线性混合效应模型能够让我们更加确定,所观察到的交互差异是由文本难度造成的,而不是其他随机的影响因素。

我们的结果显示,文本难度水平会对多种阅读行为造成显著的影响,例如,滚动的平均加速度、最大和最小加速度。我们发现最重要的特征是总阅读时间和最大阅读速度。

然后我们将这些特征作为机器学习算法的输入。设计并训练了一个支持向量机 (Support-vector machine),即二元分类器,来预测文本难度是高级还是初级,仅仅根据个人与之互动时的滚动行为。训练该模型的数据集包含 60 篇文章,每篇文章平均由 17 名参与者阅读。在这些交互中,我们计算各位参与者重要指标的平均值来生成总体特征。

我们用一个名为 f-score 的指标来衡量该方法的准确率,该指标衡量模型将文本分类为“容易”或“困难”的准确程度(其中 1.0 表示分类准确率为百分之百)。在这项任务中,仅使用交互特征就能让 f-score 达到 0.77。这项研究首次证明了只用交互特征来预测文本可读性是可行的。

改进可读性模型

为了证明将基于滚动行为的可读性衡量方法应用于现有可读性模型的价值,我们将基于滚动的特征集成到前沿的自动可读性评估工具中,该工具是作为 OneStopEnglish 语料库的一部分发布的。我们发现,增加交互特征后,这个模型的 f-score 从 0.84 提高到了 0.88。此外,我们将交互信息与简单的词汇特征(如文本中的字数)结合使用,实现的性能远远优于本系统,f-score 达到了令人吃惊的 0.96 分。

我们在研究中记录了理解力的分数,以评估个人对文本的理解能力和阅读能力。读完每篇文章之后,参与者需要回答三个问题,以此来评估他们对所读内容的理解程度。用高维向量来表示个人滚动行为的交互特征。为了探索这些数据,我们用 t 分布随机邻域嵌入 (t-distributed stochastic neighbor embedding) 算法将每个参与者的阅读交互特征可视化,这是一种用于高维数据可视化的统计方法。结果显示,理解力得分(根据个人对文本的理解程度)出现了集群。这表明,在阅读交互中存在隐性信息,与个人理解给定文本的可能性有关。我们把这种现象称为主观可读性。对于教育应用的开发或在线内容的简化,这类信息是非常有用的。

图中显示了滚动交互的二维 t-SNE 投影。每个数据点的颜色与理解力分数相对应。理解力分数的集群表明,阅读行为和理解力之间存在关联性

最后,我们调查了不同受众之间阅读交互的差异程度。通过比较不同读者群体的平均滚动速度,涉及阅读熟练程度和读者的第一语言,我们发现,速度分布因受众熟练程度和第一语言的不同而有所差异。这说明第一语言和熟练程度会改变受众的阅读行为,因此我们可以对群体的阅读行为进行背景分析,以便更好地了解哪些领域的文本对他们来说具有较高的阅读难度。

直方图 (Histogram) 显示了不同水平的读者(初级、中级和高级)的平均滚动速度(以每毫秒垂直像素为单位),线条显示了每组的平滑趋势。平均滚动速度越高,表明阅读速度越快。例如,难度较大的文本,对应于高级读者较慢的滚动速度,而初级读者的滚动速度会比较快,因为他们只是粗浅地略读文本

直方图显示了不同受众的平均滚动速度(以每毫秒垂直像素为单位),按读者的第一语言(泰米尔语或英语)划分,线条显示了每组的平滑趋势。平均滚动速度越高,表明阅读速度越快。深蓝色的条形图是直方图重叠的部分

结论

本研究首次表明了阅读交互(例如滚动行为)可以用来预测文本的可读性,并由此可以带来许多好处。这种衡量方式与语言无关,无法察觉,并且面对嘈杂的文本依然具有稳健性。隐性的用户反馈让我们能在个人层面上分析可读性,从而能够对文本难度进行更加包容和个性化的评估。此外,具有判断文本主观可读性的能力,将有利于语言学习应用和教育应用的开发。我们进行了一项 518 人的研究,调查了文本可读性对阅读交互的影响,还将发布一个 相关阅读交互的新数据集。我们证实了,读者与高级和初级文本的交互方式在统计学层面上存在显著差异,而且个人的理解得分与滚动交互的具体衡量方式相关。欲了解更多信息,欢迎查看我们的 会议报告

致谢

感谢与我们合作的 Yevgeni Berzak、Tony Mak 和 Matt Sharifi,以及 Dmitry Lagun 和 Blaise Aguera y Arcas 为本文提供的宝贵反馈意见。

原文:Predicting Text Readability from Scrolling Interactions
中文:TensorFlow 公众号