机器学习中的数据级联

tfwechat · July 15, 2021, 11:08pm

发布人：Google Research 研究员 Nithya Sambasivan

数据是机器学习 (ML) 的基本要素，会影响机器学习系统的性能、公平性、稳健性和可扩展性。矛盾的是，构建机器学习模型的工作通常是优先级较高的，但与数据本身相关的工作却通常是优先级最低的。数据方面的工作可能需要多个角色（例如数据收集者、标注者以及机器学习开发者）且通常需要多个团队（例如数据库、法务或授权团队），才能为数据基础架构提供支持，这就会增加所有数据相关项目的复杂性。因此，注重实现技术对人们实用性和可用性的人机交互 (Human-Computer Interaction，HCI) 领域，可在与数据相关的工作未得到优先处理时，对确定潜在问题以及评估对模型的影响两方面提供帮助。

在 2021 年发表于 ACM CHI 会议的论文《所有人都想从事模型工作而非数据工作：高风险 AI 中的数据级联》(Everyone wants to do the model work, not the data work: Data Cascades in High-Stakes AI) 中，我们研究并验证了会随时间推移导致技术负债的数据问题所产生的下游影响（定义为“数据级联，Data Cascades”）。具体而言，我们通过全球机器学习各重要领域（例如癌症检测、山体滑坡检测、信贷分配）内的机器学习从业者在数据方面的实践和面临的挑战，阐释了数据级联现象；机器学习不仅推动了这些领域的进步，还有机会通过解决数据级联方面的问题来改进这些领域。在我们所知的工作中，这项工作率先对适用于实际项目的机器学习中的数据级联进行了规范、测量和探讨。我们还进一步探讨了，如果大家转变观念，将机器学习数据视为高优先级工作，能够带来什么机遇，如为机器学习数据工作和相关工作者提供奖励、认可机器学习数据研究中的科学经验论、扩大数据流水线的公开范围以及改进全球的数据平等性。

数据级联的起源

我们观察到，数据级联通常源自机器学习系统生命周期早期的数据定义和收集阶段。此外，在诊断和表现形式方面，级联通常具有复杂性和不透明性，因此往往没有明确的指标、工具或度量单位来检测和测量这种现象带来的影响。正因如此，与数据相关的小障碍可能会演变为更大的问题，甚至成为更复杂的挑战，从而对模型的开发和部署方式造成影响。数据级联带来的挑战包括：工作者需要在开发流程末期执行成本高昂的系统级变更，或者数据问题会导致模型错误预测，进而造成用户信任度降低。但令人欣慰的是，我们发现可以通过在机器学习开发流程的早期中进行干预来避免此类数据级联。

不同颜色的箭头表示不同类型的数据级联，它们通常在上游产生，在机器学习开发流程中混合，再在下游显现

数据级联示例

将在无噪声数据集中训练的模型部署到通常较为嘈杂的实际环境中是造成数据级联最为常见的一个原因。例如，模型偏移即为一种常见的数据级联类型，这是一种常在目标变量与独立变量产生偏离时出现的情况，并最终会导致模型准确性降低。在模型与新的数字环境（包括空气质量检测、海洋检测、超声扫描等高风险领域）紧密交互时，由于没有预先存在的和（或）精心设计的数据集，所以常常会出现偏移。此类偏移可能会进一步带来降低模型性能的多种因素（例如与硬件、环境和人类知识相关的因素）。例如，为了确保模型性能良好，工作者通常会在受控的内部环境中收集数据。但是，在资源受限的新数字环境的实时系统中，更常见的是收集到带有指纹、阴影、灰尘、光照强度不一致和笔迹划痕等的数据，这会影响模型性能。在其他情况下，风雨天气等环境因素可能会意外地导致部署中的图像传感器偏移，继而导致出现级联。正如一位受访模型开发者所言，即便是小小的一滴油或水都会影响可能用于训练癌症检测的数据，从而影响模型性能。偏移产生的原因往往是实际环境中的噪声，所以这些偏移也需要较长时间（长达 2-3 年）才会显现，而且几乎总是显现在生产阶段。

当机器学习从业者在其专业知识较为有限的领域中执行数据管理任务时，便可能会产生另一种常见的数据级联类型。例如在处理识别偷猎地点或者在收集水下探索数据这种类型的数据时，就需要凭借生物科学、社会科学方面的专业知识，并结合周围环境来处理。不过，我们研究中的部分开发者表示，当他们不得不采取一系列超出其领域专业知识（例如舍弃数据、更正相关值、合并数据或重启数据收集）时，便会出现导致限制模型性能的数据级联。通过依靠技术专业知识而非领域专业知识的做法（例如与数据相关的操作领域专家合作），似乎可抵消这些级联。

此论文中观察到的其他两种级联是数据收集者、机器学习开发者和其他合作伙伴之间相互冲突的激励制度及整理做法造成的，例如其中一种级联是由数据集文档记录不佳所导致。尽管与数据相关的工作需要多个团队之间仔细协调，但在各利益相关方在工作优先级和工作流方面未达成一致的情况下，这项工作会变得非常困难。

如何应对数据级联

应对数据级联需要在机器学习研究和实践中采用多方配合的系统性方法：

开发并沟通机器学习系统可采用的数据的优度 (goodness) 概念，类似于我们对模型拟合优度的看法。这包括开发标准化指标，并经常使用这些指标来对数据各方面进行衡量，例如现象保真度（即数据准确、全面地表现出现象的程度）以及有效性（即数据对其所捕获的现象相关因素的解释程度），类似于我们开发用于衡量模型性能的良好指标（如 F1-scores）的方式。
创新激励制度，以此来认可与数据相关的工作，例如在会议中鼓励工作者发表与数据相关的经验，对数据集维护工作进行奖励，或对员工在企业中的数据相关工作（如数据收集、加标签、清理或维护）进行奖励。
数据工作通常需要在多个角色和团队中进行协调，但目前协调非常受限（部分而非全部受限，其原因是上文所述因素）。我们的研究着眼于在数据收集者、领域专家和机器学习开发者之间促进更强的协作、更高的透明度和更公平的利益分配的价值，尤其是在依赖于收集或标记冷门数据集的机器学习系统中。
最后，我们跨多个国家/地区的研究表明，在收入越低的国家/地区，数据稀缺的情况越为明显。在这些国家/地区，机器学习开发者还面临定义和手动挑选新数据集等额外问题，使得连开始开发机器学习系统都成为难题。要应对当前全球数据不均衡 (inequality) 的问题，那么建立开放式数据集资源库、制定数据政策、培养政策制定者和民间社团在机器学习方面的能力就尤为重要。

结论

在此研究中，我们针对机器学习系统中的数据级联提供了经验证据，并正式提出这一概念。我们希望能让相关工作者意识到对高质量数据进行激励所带来的潜在价值。我们也希望为 HCI 提出虽尚未全面探究，但十分重要的新研究议题。经过对数据级联的研究，我们在面向机器学习开发者和设计师的修订版《PAIR 指导手册》中提出了适用于数据收集和评估的指南；这些指南均有证据支持，属业内顶尖水平

致谢

本文由 Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh 和 Lora Aroyo 协作撰写。衷心感谢我们的研究参与者以及 Sures Kumar Thoddu Srinivasan、Jose M. Faleiro、Kristen Olson、Biswajeet Malik、Siddhant Agarwal、Manish Gupta、Aneidi Udo-Obong、Divy Thakkar、Di Dang 和 Solomon Awosupin。

原文：Data Cascades in Machine Learning
中文：TensorFlow 公众号