论文摘要 | 基于3D视频重建虚实场景交互，Meta提出3D mask volume

广东客 ☉ 文来源：映维网
2021-11-04 @ 哈希力量文库

文库划重点：已改名为Meta的Facebook和加利福尼亚大学研究了一种特定的设置，其中输入视频来自静态的双目摄像头，并且新视图大多是从输入视频中推断出来。团队相信，随着双摄像头和多摄像头智能手机越来越受欢迎，这种情况将非常有用，而且可能会对3D电话会议、监控或虚拟现实头显带来非常有趣的影响。另外，研究人员可以从静态摄像头装置中获取数据集。

输入视频来自静态的双目摄像头，并且新视图大多是从输入视频中推断出来

视图合成的最新进展显示了从图像创建沉浸式虚拟体验的出色结果。尽管如此，为了重建与虚拟场景的忠实交互，我们非常需要结合时间信息的能力。

在名为《Deep 3D Mask Volume for View Synthesis of Dynamic Scenes》的论文中，已改名为Meta的Facebook和加利福尼亚大学研究了一种特定的设置，其中输入视频来自静态的双目摄像头，并且新视图大多是从输入视频中推断出来。团队相信，随着双摄像头和多摄像头智能手机越来越受欢迎，这种情况将非常有用，而且可能会对3D电话会议、监控或虚拟现实头显带来非常有趣的影响。另外，研究人员可以从静态摄像头装置中获取数据集。

尽管可以在每个单独的视频帧应用最先进的图像视图合成算法，但结果缺乏时间一致性，并且经常显示闪烁伪影。问题主要来自于看不见的遮挡区域，因为算法在每帧基础上预测它们。由此产生的估计在整个时间维度上不一致，并且在视频中显示时会导致某些区域变得不稳定。

在研究中，团队通过利用跨时间的静态背景信息来解决外推视图时的时间不一致性。为此，研究人员采用了一个3D mask volume，它允许在3D空间（而不是2D mask）中进行操作，以推断场景中的移动对象，并在整个视频中重复使用静态背景观察。

团队首先通过MPI网络将瞬时和背景输入提升为两组多平面图像（MPI）。然后，扭曲同一组输入图像以创建时间平面扫描volume，从而提供有关场景三维结构的信息。mask网络将这个volume转换为3D mask volume，使得能够在两组MPI之间混合。最后，混合MPI volume可以渲染具有最小闪烁瑕疵的新视图。

由于GPU内存的限制，团队选择了两步训练方案来训练网络。首先在RealEstate10K数据集上训练MPI网络，然后在自己的视频数据集上只训练mask网络。这种训练方案可以使内存使用保持在合理的范围内，并且速度足够快。MPI生成网络是通过预测一个新的视图并应用渲染损失L作为监控来训练。本阶段训练800K步。

在前一个预训练阶段之后，团队冻结MPI网络的权重，并使用loss L仅训练mask网络。所述网络从10个视图中随机选取2个视图作为输入，然后在每一步从其余视图中随机选择一个目标camera位置。团队从96个场景中选择86个作为训练数据集，并将图像重新缩放到640×360。第二阶段为100K步的训练。训练管道在PyTorch中实施，在单个RTX 2080Ti GPU上训练大约需要5天。分辨率为640×360时，使用完整管道推断Mo大约需要1.75秒，而渲染需要另外0.28秒。请注意，渲染管道在PyTorch中实现，无需进一步优化。在实践中，使用OpenGL或其他光栅化器可以大大加快速度。

为了训练这个网络，团队同时引入了一个新的多视图视频数据集来解决公共可用数据的不足。研究人员构建了一个由10个动作摄像头组成的定制摄像装置，并使用静态装置捕捉高质量的120FPS视频。所述数据集包含96个不同户外环境和人类交互的动态场景。实验证明，所述方法能够在仅使用两个输入视图的情况下生成时间稳定的结果。

对于比较，团队从数据集中选择了7个看不见的视频，并将它们细分为14个片段，重点关注场景中的显式运动。结果显示，团队的渲染损失依然提供了时间上最稳定的结果，而其他两个损失则为了更好的解释性而牺牲了时间一致性。

当然，团队提出的数据集和算法存在一定的局限性：首先，摄像头限制为拍摄时保持静止。这主要是由于同步和姿态估计的限制。尽管可以使用基于软件的方法实现良好的同步，但仍然会存在几毫秒的错误。当摄影装备处于运动状态时，错误可能会被放大，并导致对camera姿势的错误估计。摄像头在不同时间的姿态同时需要更多的计算，这可能会导致系统中累积错误。所述问题可以通过校准其中一个摄像头的camera轨迹并利用刚性假设推断其他camera轨迹来解决。

另一个限制是，团队需要对静态背景进行估计。这很容易通过应用中值滤波器实现。尽管它适用于大多数场景，但这种方法有时并不可靠。不过，业内有更先进的方法可以在未来使用。

总的来说，团队讨论了立体输入视频动态场景的视图合成。主要的挑战是，渲染结果容易出现时间伪影，如无序区域中的闪烁。为了解决这个问题，团队引入了一种新的3D mask volume扩展，用从时间帧获取的背景信息小心地替换无序区域。另外，团队还介绍了一个高质量的多视图视频数据集，其中包含96个以120FPS拍摄的各种人类交互场景和室外环境。在未来的研究中，研究人员希望扩大数据集以考虑动态摄像头运动，并在更大的基线操作。团队相信，动态场景的视频视图合成是沉浸式应用的下一个前沿领域，而本次研究在这方面迈出了关键的一步。

研究贡献可以总结为：

1.一个由96个动态场景组成的多视图视频数据集。

2.一种新颖的3D mask volume，其能够在3D中从静态背景分割动态对象，并产生更高质量和时间稳定的结果。

高质量的视频数据集对于基于学习的新型视点视频合成算法至关重要。理想的数据集将包含多种场景，在多个同步视图中捕获。在这项研究中，团队介绍了一种新的多视图视频数据集，并讨论了现有数据集与所述数据集相比的局限性。

团队的目标是在给定立体视频输入的情况下合成时间一致的新视图视频。所以，研究人员在多平面图像的前期研究基础上构建了算法，并提出了一种新的mask volume结构，以充分利用时间背景信息和分层表示。（2021年11月04日）