ViP-DeepLab 的整体视频场景理解

发布人:Google Research 学生研究员 Siyuan Qiao 和高级研究员 Liang-Chieh Chen

人们能够非常轻松地从图片中检索出有关 3D 环境的视觉信息——我们可以使用包含在 2D 图像中的有限信号来识别对象、确定实例大小,以及重建 3D 场景布局。这种能力通常被称为 逆投影问题,它是指重建从视网膜图像到视网膜刺激源的模糊映射。

计算机视觉在现实世界中的应用,例如自动驾驶技术,在很大程度上依赖这些功能来定位和识别 3D 对象,这需要视觉模型来推断投影到 2D 图像的每个 3D 点的空间位置、语义类和实例标签。从图像重建 3D 世界的能力可以分解为两个不相连的计算机视觉任务:单目深度估测(依据单个图像预测深度)和视频全景分割(实例分割和语义分割的统一,在视频领域中)。然而,研究界通常分开考虑这两个任务。通过多个任务之间的共享计算,可以将这些任务与统一的计算机视觉模型一起处理,以简化部署并提高效率。

模型可以同时预测深度和视频全景分割,在其潜在价值的驱动下,我们提出“ViP-DeepLab:通过深度感知视频全景分割学习视觉感知 (ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation)”,此论文已被 CVPR 2021 收录。在本研究中,我们提出一项新任务——深度感知视频全景分割,这项任务的目标是同时处理单目深度预测和视频全景分割。为了这项新任务,我们推出了两个衍生数据集,并附带了一个新的评估指标, 被称为“深度感知视频全景质量 (DVPQ)”。此新指标包含深度估测指标和视频全景分割指标,需要视频模型来同时处理两项子任务。为此,我们通过添加用于深度和视频预测的网络分支来扩展 Panoptic-DeepLab,以创建 ViP-DeepLab,它是一个统一模型,可以对图像平面上的每个像素共同执行视频全景分割和单目深度估测,并且能够在数个学术数据集上实现子任务的最先进性能。本视频演示了新任务,并显示了 ViP-DeepLab 的结果。

image

ViP-DeepLab 获取的深度感知视频全景分割结果。左上角:作为输入的视频框架。右上角:视频全景分割结果。左下角:估测深度。右下角:重建的 3D 点。每个对象实例都有一个唯一的且在时间上一致的标签,例如 pedestrain_1、pedestrain_2 等

Vip-DeepLab 概览

虽然 Panoptic-DeepLab 能够为单个框架输出语义分割、中心预测和中心回归,但它缺乏为多个框架进行深度估测以及在时间上一致的实例 ID 预测的功能。但是,ViP-DeepLab 可以从两个作为输入的连续框架来执行附加预测,以实现此目的。第一附加输出是第一框架的深度估测,在估测中为每个像素分配一个估测深度。此外,ViP-DeepLab 还仅对出现在第一框架中的对象中心执行两个连续框架的中心回归。此过程被称为中心偏移预测,它允许 ViP-DeepLab 将两个框架中的所有像素分组到出现在第一框架中的同一个对象。如果未被分组到先前检测到的实例中,则会出现新实例。对于视频序列中的每两个连续框架(有一个重叠框架)的情况,此过程继续执行,并将全景预测拼接在一起以形成最终预测,除此之外这些预测具有在时间上一致的实例 ID。也就是说,它可以将对象的位置以及对象在视频场景中随时间移动的方式拼接在一起。

视频全景分割的 ViP-DeepLab 输出。串联两个连续的框架作为输入。语义分割输出关联了每个像素与其语义类,而实例分割输出则通过与第一框架中的单个对象相关联的两个框架来识别像素

image

视频全景预测拼接的可视化。ViP-DeepLab 对 ID 的传递基于遮盖地区对之间的交并比。它能够追踪运动幅度较大的对象,例如图像中的骑行者

神经网络设计

ViP-DeepLab 建立在 Panoptic-DeepLab 之上,另外还包含两个预测分支:(1) 一个深度预测分支 (depth prediction branch),以及 (2) 一个下一框架实例分支 (next-frame instance branch)。具体地说,深度预测头 (depth prediction head) 是一种简单的设计,它可以预测每个像素的深度回归,而下一框架实例分支可以预测第二框架中的像素相对于第一框架中心的中心偏移。

结果

我们已经在多个热门基准上测试了 ViP-DeepLab,这些基准包括 Cityscapes-VPS、KITTI 深度预测KITTI 多对象追踪和分割 (MOTS)。

具体而言,ViP-DeepLab 取得了最先进的 (SOTA) 结果,在 Cityscapes-VPS 测试集上,其视频全景质量 (VPQ) 相较于先前的方法有了大幅提升,提升了 5.1%。

Cityscapes-VPS 测试集上的 VPQ 对比

ViP-DeepLab 在 KITTI 深度预测基准上排名第一,相较于先前的方法优化了 0.65 SILog(数值越小越好)。

KITTI 深度预测基准上的单目深度估测对比。注意深度估测指标,数值越小,代表其性能越好。虽然差距可能看起来很小,但在此基准上性能最高的方法的 SILog 差距通常小于 0.1

此外,ViP-DeepLab 在 KITTI MOTS 行人基准上的排名也是第一,在 KITTI MOTS 汽车基准上的排名是第三,排名指标为 sMOTSA,按照更新指标 HOTA,ViP-DeepLab 如今在行人和汽车基准上的排名都是第三。

KITTI 多对象追踪和分割性能对比

最后,我们还为新任务(深度感知视频全景分割)推出了两个新的数据集,并在其上测试了 ViP-DeepLab。希望我们在这两个新数据集上获得的 ViP-DeepLab 结果能够成为社群进行比较的强基线。结果如下。

ViP-DeepLab 在两个新数据集上执行深度感知视频全景分割任务的性能

结论

在简单的架构之内,ViP-DeepLab 在视频全景分割、单目深度估测以及多对象追踪和分割方面实现了最先进的性能。希望 ViP-DeepLab 能够和 MaX-DeepLab(提出了能够实现端到端图像全景分割的高效双路径转换器模块) 一起 为社群所用,并推动研究,以对现实世界中场景的形成更为整体的理解。

致谢

在此感谢 Yukun Zhu、Hartwig Adam、Alan Yuille(这三位是 ViP-DeepLab 的合著者)、Maxwell Collins 和 Mobile Vision 团队提供的支持和宝贵的讨论意见。

原文:Holistic Video Scene Understanding with ViP-DeepLab
中文:TensorFlow 公众号