ALIGN：通过嘈杂文本监督扩展视觉和视觉语言表征学习

tfwechat · June 20, 2021, 10:59am

发布人：Google Research 软件工程师 Chao Jia 和 Yinfei Yang

学习良好的视觉和视觉语言表征对于解决计算机视觉问题（如图像检索、图像分类、视频理解）至关重要，并有助于开发出能够改变人们日常生活的工具和产品。例如，良好的视觉语言匹配模型可以帮助用户找到给定文本描述或图像输入的最相关图像，并帮助诸如 Google 智能镜头等工具查找有关图像的更细粒度的信息。

为了学习这样的表征，目前最先进的 (SOTA) 视觉和视觉语言模型在很大程度上依赖于特定的训练数据集，需要专家知识和大量标签。视觉应用主要在具有显式类别标签的大规模数据集（例如 ImageNet、OpenImages 和 JFT-300M）上学习表征。对于视觉语言应用，流行的预训练数据集（如 ConceptualCaptions 和 Visual Genome Dense Captions）都需要特殊的数据收集和清理步骤，这就限制了数据集的大小，阻碍了训练模型的规模。相较而言，自然语言处理 (NLP) 模型利用无人类标签的原始文本进行大规模预训练，在 GLUE 和 SuperGLUE 基准上实现了 SOTA 性能。

在收录到 ICML 2021 的“Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision”一文中，我们建议使用公开的图像替代文本数据（即当图像无法在用户屏幕上加载时，代替图像出现在网页上的文字）以弥合这种差距，从而训练更大的先进视觉和视觉语言模型。为此，我们采用了由超过 10 亿的图像和替代文本对组成的嘈杂数据集，而且并未在 Conceptual Captions 数据集中进行昂贵的过滤或后处理步骤。我们语料库的规模可以弥补嘈杂数据并得到 SOTA 表征，在转移到 ImageNet 和 VTAB 等分类任务时还可以实现强大的性能。即使是与更复杂的交叉注意模型相对比，对齐的视觉和语言表征也在 Flickr30K 和 MS-COCO 基准上获得了新的 SOTA 结果。此外，其还实现了零样本图像分类和复杂文本与文本 + 图像查询的跨模式搜索。

创建数据集

替代文本通常提供图像内容的描述，但数据集之所以“嘈杂”，是因为部分文本可能与其配对图像部分或完全不相关。

从 ALIGN 的训练数据集中随机采样的示例图像文本对。用斜体标记明显嘈杂的文本标签

在这项工作中，我们遵循构造 Conceptual Captions 数据集的方法，以获取原始英语替代文本数据（图像和替代文本对）的版本。Conceptual Captions 数据集由大量过滤和后处理进行清理，而这项工作通过放宽原始工作中的大部分清理步骤来扩展视觉和视觉语言表征学习。我们仅应用基于最小频率的过滤。得出由 18 亿个图像文本对组成的更大但更嘈杂的数据集。

ALIGN：大规模 ImaGe 和嘈杂文本嵌入向量

为了轻松构建更大更强劲的模型，我们采用了一种简单的双编码器架构，学习如何对齐图像和文本对的视觉和语言表征。图像和文本编码器学习自对比损失（以归一化 softmax 表示），将匹配的图像文本对的嵌入向量推到一起，同时将不匹配的图像文本对（同一批次内）的嵌入向量推开。大规模数据集使我们可以将模型规模扩大到等同于从头开始训练的 EfficientNet-L2（图像编码器）和 BERT-large（文本编码器）。学到的表征可用于下游视觉和视觉语言任务。

ImageNet 图和 VTAB 图

结果表征可用于纯视觉或视觉语言任务传输。ALIGN 无需微调即可实现跨模式搜索，包括图像到文本搜索、文本到图像搜索，甚至是图像 + 文本联合查询的搜索，如下所示。

评估检索和表征

以 BERT-Large 和 EfficientNet-L2 为文本和图像编码器主干的学习型 ALIGN 模型在零样本设置和微调设置下，可以在多种图像文本检索任务（Flickr30K 和 MS-COCO）上实现 SOTA 性能，如下所示。

Flickr30K 和 MS-COCO 数据集（零样本和微调）上的图像文本检索结果 (recall@1)。ALIGN 明显优于现有方法，包括对大规模检索应用而言过于昂贵的跨模式注意模型

ALIGN 也是一个强大的图像表征模型。如下图所示，在有冻结特征的情况下，ALIGN 略优于 CLIP，在 ImageNet 上实现了 85.5% top-1 准确率的 SOTA 结果。通过微调，ALIGN 实现了比大多数通用模型（如 BiT 和 ViT）更高的准确率，仅次于 Meta Pseudo Labels，而后者需要在 ImageNet 训练和大规模无标签数据之间进行更深入的互动。

ImageNet 分类结果与监督训练（微调）的比较

零样本图像分类

传统上，图像分类问题将每个类视为独立 ID，人们必须在每个类用至少几个标记数据训练分类层。类名实际上也是自然语言短语，所以我们可以自然扩展 ALIGN 的图像文本检索功能，用于图像分类，而无需任何训练数据。

在对齐的嵌入向量空间中检索最接近的类名，可以直接用预训练的图像和文本编码器将图像分为一组类。这种方式不需要为定义的类空间提供任何训练数据

在 ImageNet 验证数据集上，ALIGN 实现了 76.4% top-1 零样本准确率，并在具有分布偏移的 ImageNet 的不同变体中表现出强大的稳健性，类似于同期的 CLIP。我们还使用了与 CLIP 相同的文本提示工程与组合。

在 ImageNet 及其变体上零样本分类的 Top-1 准确率。

图像搜索中的应用

为了说明上述定量结果，我们用 ALIGN 训练的嵌入向量构建了一个简单的图像检索系统，并以包含 1.6 亿张图片的图片库中的少数文本查询展示了 Top-1 文本到图像的检索结果。ALIGN 可以根据给定的场景详细描述或地标和艺术品等细粒度或实例级概念检索精确图像。这些示例表明，ALIGN 模型可以将具有相似语义的图像和文本对齐，而且 ALIGN 可以泛化到新颖的复杂概念。

利用 ALIGN 的嵌入向量，以细粒度文本查询进行图像检索

用于图像搜索的多模式（图像 + 文本）查询

单词向量的一个特殊属性是单词的类比往往可以由向量算术解决。常见的示例是“king – man + woman = queen”。图像与文本嵌入向量之间的这种线性关系也出现在 ALIGN 中。

具体来说，给定一个查询图像和一个文本字符串，将其 ALIGN 嵌入向量相加，使用余弦相似度检索相关图像，如下所示。这些示例不仅证明了 ALIGN 嵌入向量在视觉和语言领域中的构成性，还展现出使用多模式查询进行搜索的可行性。例如，现在人们可以寻找熊猫在“Australia”或“Madagascar”中的对等物，或者将一双黑色鞋子变成外形相同的米色鞋子。同样，可以在嵌入向量空间中执行减法，从场景中移除对象/特性，如下所示。

以图像文本查询进行图像检索。通过增加或减少文本查询嵌入向量，ALIGN 可以检索相关图像

社会影响和未来工作

从简单数据收集方法的方法论角度来看，这项工作显示出可靠的结果，但在实践中，使用模型之前仍有必要对数据和生成的模型进行额外的分析。例如，应该考虑到使用替代文本中的有害文本数据增强此类危害的可能性。在公平性方面，可能需要进行数据平衡，防止网络数据增强刻板印象。应该对敏感的宗教或文化条目进行额外的测试和培训，以了解和减轻可能误标的数据的影响。

还应采取进一步分析，确保人类的人口分布和相关文化条目，如服装、食品和艺术，不会造成模型性能的偏斜。如果要在生产中使用此类模型，还需要进行分析和平衡。

结论

我们提出了一种利用大规模嘈杂图像文本数据扩大视觉和视觉语言表征学习的简单方法。最终模型 ALIGN 具有跨模式检索能力，并且显著优于 SOTA 模型。在纯视觉的下游任务中，ALIGN 甚至等同或胜过使用大规模标记数据训练的 SOTA 模型。

致谢

我们要感谢 Google Research 的共同作者：Ye Xia、Yi-Ting Chen、Zarana Parekh、Hieu Pham、Quoc V. Le、Yunhsuan Sung、Zhen Li、Tom Duerig。这项工作也得到了 Google 其他同事的宝贵帮助。我们要感谢 Jan Dlabal 和 Zhe Li 在基础架构训练方面的持续支持、Simon Kornblith 在 ImageNet 变体上构建的零样本和稳健性模型评估、Xiaohua Zhai 在 VTAB 评估方面的帮助、Mingxing Tan 和 Max Moroz 对 EfficientNet 训练的建议、Aleksei Timofeev 的多模式查询检索的早期构思、Aaron Michelony 和 Kaushal Patel 在数据生成上的早期工作，以及 Sergey Ioffe、Jason Baldridge 和 Krishna Srinivasan 的深刻反馈与讨论。

原文：ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
中文：TensorFlow 公众号