交叉描述:图像和文本的语义相似度

发布人:Google Research 软件工程师 Zarana Parekh 和研究员 Jason Baldridge

自动生成图像描述指的是由计算机算法为图像创建书面说明,在过去十年中,这一领域已取得显著进展。其中大部分进展的实现离不开为计算机视觉和自然语言处理而开发的现代深度学习方法的使用,也离不开将图像与人类所创建的说明进行配对的 大规模数据集。这些数据集除了为重要的实际应用提供支持,如为视障人士提供图像说明,还可为有关视觉输入中的基础语言提供支持,有助于调查其中重要且令人兴奋的研究问题。例如,学习诸如“car”之类的单词的深层表征,意味着同时使用语言和视觉环境。

MS-COCOFlickr30k 等图像描述制作数据集包含成对的文本说明及其相应图像,已在学习相对应的图像和文本表征方面得到广泛应用,并可用于构建描述制作模型。遗憾的是,这些数据集在跨模态关联方面颇为受限:图像未与其他图像配对,描述仅与同一图像的其他描述(也称为辅助描述)配对,有些图像-描述对虽然匹配,但未被标记为匹配,并且没有标签表明图像-描述对何时匹配。这不利于研究模态间学习(例如,将描述连接到图像)对模态内任务(将描述连接到描述或将图像连接到图像)的影响。解决这一问题至关重要,尤其是因为大量关于从与文本配对的图像中学习的研究都是基于有关视觉元素应如何影响并改善语言表征的论点而展开。

为了填补这一评估空白,我们最近在 EACL 2021 上发表了题为《交叉描述:MS-COCO 的扩展模态内和模态间语义相似度判断》*(Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO)*的文章。交叉描述 (CxC) 数据集扩展了 MS-COCO 的开发和测试分块,对图像-文本、文本-文本和图像-图像对进行语义相似度评分。评分标准为 语义文本相似度,我们已将这种现有的衡量短文本对之间寓意相似性的方法进行了扩展,并在将其扩展到视觉领域。CxC 总共包含对 267095 个配对所进行的语义相似度人工评分(来自 1335475 份独立判断),大幅扩展了 MS-COCO 开发和测试分块中 5 万个原始二进制配对的规模和细节。我们已经发布了 CxC 评分,以及将 CxC 与现有 MS-COCO 数据合并的代码。因此,任何熟悉 MS-COCO 的人都可以轻松使用 CxC 以优化其实验。

交叉描述通过为现有图像-描述对和辅助描述添加语义相似度人工评分来扩展 MS-COCO 评估集(实线),并通过为新的图像-描述、描述-描述和图像-图像对添加人工评分来提高评分密度(虚线)*

创建 CxC 数据集

如果一张图片胜过千言万语,那很可能是因为图片中所描绘的对象之间存在很多细节,有着诸多关系。我们可以描述一只狗的皮毛质地,说出其正在追逐的飞盘上的标志,提到扔飞盘者脸上的表情,或者注意到此人头顶上方树上大片叶子的鲜红色等等。

CxC 数据集通过在模态内和模态间使用分级相似度关联,扩展了 MS-COCO 的评估分块。MS-COCO 每幅图像有五个描述,分为 41 万个训练描述、2.5 万个开发描述和 2.5 万个测试描述(分别用于 8.2 万幅图像、5000 幅图像、5000 幅图像)。理想情况下,扩展应对数据集中的每个配对(描述-描述、图像-图像,以及图像-描述)进行评分,但这并不切实可行,因为这需要获得数十亿配对的人工评分。

鉴于随机选择的图像和描述配对可能不同,我们提出了一种方法,选择项目以进行人工评分,从而至少得到一些具有较高预期相似度的新配对。为了减少所选配对对用于查找它们的模型的依赖性,我们引入了间接采样方案(如下图所示),在该方案中,我们使用不同的编码方法对图像和描述进行编码,并计算相同模态项配对之间的相似度,从而得出相似度矩阵。我们使用 Graph-RISE 嵌入对图像进行编码,使用通用句子编码器 (USE) 和基于 GloVe 嵌入的平均词袋 (BoW) 等两种方法对描述进行编码。由于每个 MS-COCO 示例都有五个辅助描述,我们对辅助描述编码进行平均化处理,以创建每个示例的单一表征,从而确保所有描述对均可映射到图像对(有关如何选择模态间配对,请参阅下文)。

image

**上图:**使用平均辅助描述编码构建的文本相似度矩阵(每个单元格对应一个相似度分数),因此每个文本条目对应单幅图像,从而形成一个 5000 x 5000 的矩阵;我们使用了两种不同的文本编码方法,但为了简单起见,仅显示一个文本相似度矩阵;**下图:**数据集中每幅图像的图像相似度矩阵,形成一个 5000 x 5000 的矩阵

在间接采样方案中,下一步是利用计算出的图像相似度对描述对进行有偏采样,以进行人工评分(或是利用计算出的描述相似度对图像对进行有偏采样,以进行人工评分)。例如,我们从文本相似度矩阵中选择两个具有较高计算相似度的描述,然后分别取其图像,从而形成新图像对。这两幅图像虽然外观有所不同,但根据其说明,它们所描绘的内容却很相似。例如,描述“一只狗害羞地看向一边”和“一只黑狗侧抬头享受微风”具有相当高的模型相似度,因此可以选择下图中两只狗的对应图像进行图像相似度评分。也可以从两幅具有较高计算相似度的图像开始此步骤,以形成新描述对。现在我们已经间接采样了新的模态内配对,至少其中一些高度相似,并获得了人工评分。

image

**上图:**根据计算出的描述相似度选取图像对;**下图:**根据所描述图像的计算相似度选取的描述对

最后,我们使用这些新的模态内配对及其人工评分,以选择新的模态间配对进行人工评分。我们的方法是使用现有的图像-描述对在模态间进行关联。例如,如果人类将一个描述对示例 ij 评为高度相似,我们会从示例 i 中选取图像,从示例 j 中选取描述,从而获得一个新的模态间配对以进行人工评分。同样,我们使用相似度评分最高的模态内配对进行采样,因为其中至少包括一些具有高相似度的新配对。最后,我们还为所有现有的模态间配对和大型辅助描述示例添加了人工评分。

每个评分所对应的语义图像相似度 (SIS) 和语义图像-文本相似度 (SITS) 配对的示例如下表所示,其中 5 为最相似,0 为完全不同。

image
image
image
image
image
image

基于 SIS(中图)和 SITS(右图)任务的图像对的相似度人工评分示例(左图:5 到 0,其中 5 表示非常相似,0 表示完全不同);请注意,这些示例仅用于说明目的,本身并不在 CxC 数据集中

评估

MS-COCO 支持三项检索任务:

1. 给定图像,从评估集中的所有其他描述中找到与其匹配的描述。

2. 给定描述,从评估集中的所有其他图像中找到与其对应的图像。

3. 给定描述,从评估集中的所有其他描述中找到自己的其他辅助描述。

MS-COCO 的配对并不完整,因为有时为一幅图像创建的描述同样适用于其他图像,但这些关联并未记录到数据集中。CxC 使用全新正样本对,优化了这些现有的检索任务,而且还支持新的图像-图像检索任务。CxC 还可凭借其分级相似度判断,测量模型和人类排名之间的相关性。检索指标一般只关注正样本对,而 CxC 的相关性分数还考虑了相似度的相对排序,并将低分项(非匹配项)纳入了考量范围。与描述-图像、描述-描述和图像-图像关联的不相交集合相比,支持对一组共同的图像和描述进行这些评估,对于理解模态间学习更有价值。

我们进行了一系列实验,以展示 CxC 评分的效用。为此,我们将 BERT-base 用作文本编码器,并使用 EfficientNet-B4 作为图像编码器,构建了三个双编码器 (DE) 模型:

1. 文本-文本 (DE_T2T) 模型,双方使用共享的文本编码器。

2. 图像-文本模型 (DE_I2T),使用上述文本和图像编码器,并在文本编码器上方加入一层,以匹配图像编码器输出。

3. 多任务模型 (DE_I2T+T2T),基于文本-文本和图像-文本任务的加权组合进行训练。

image

我们在所有四项检索任务中对文本-文本 (T2T)、图像-文本 (I2T) 和多任务 (I2T+T2T) 双编码器模型进行了比较,得出的 CxC 检索结果

从检索任务的结果可以看出,在图像-文本和文本-图像检索任务中,DE_I2T+T2T(黄色条)的性能优于 DE_I2T(红色条)。因此,添加模态内(文本-文本)训练任务有助于提高模态间(图像-文本、文本-图像)的性能。至于其他两项模态内任务(文本-文本和图像-图像),DE_I2T+T2T 在这两项任务中均表现出强大而均衡的性能。

image

相同模型的 CxC 相关性结果如上图所示

对于相关性任务,DE_I2T 在 SIS 方面表现最好,而 DE_I2T+T2T 总体表现最佳。相关性得分还显示,DE_I2T 仅在图像方面表现良好:其 SIS 最高,但 STS 却差很多。在 DE_I2T 训练中加入文本-文本损失 (DE_I2T+T2T) 可以使整体性能更为均衡。

与原始的 MS-COCO 图像-描述对相比,CxC 数据集 在图像、描述和二者之间提供了更完整的关系集。新评分已经发布,我们会在 论文 提供更多详情。我们希望促进研究社区利用更好的模型以共同学习模态间和模态内的表征,从而推动在引入 CxC 的任务方面达到尖端水平。

致谢

本次研究的核心团队成员包括 Daniel Cer、Yinfei Yang 和 Austin Waters。感谢 Julia Hockenmaier 对 CxC 表述方式的意见,感谢 Google 数据计算团队,特别是 Ashwin Kakarla 和 Mohd Majeed 所提供的工具和注解支持,Yuan Zhang 和 Eugene Ie 对本文初始版本的意见,以及 Daphne Luong 对数据收集的执行支持。

*本文所有图像均来自 Open Images 数据集,并已经过 CC-by 4.0 许可。

原文:Crisscrossed Captions: Semantic Similarity for Images and Text
中文:TensorFlow 公众号

1 Like