基于前馈网络的3D建模方法因其快速且高质量的重建能力而备受关注。尤其是直接生成显式3D表示的方法,因其快速渲染能力和广泛的应用前景而受到青睐。但多数现有的基于Transformer架构的模型在处理多视图输入时面临严重的可扩展性问题。
这些方法依赖于对所有输入视图的图像token进行全注意力计算,随着视图数量或图像分辨率的增加,计算成本呈二次方增长。所以,成均馆大学、延世大学的研究人员提出了创新3D重建模型iLRM来解决难题。

iLRM通过迭代细化机制生成3D高斯表示,并严格遵循三大核心原则:解耦场景表示与输入图像,从而实现紧凑的三维表示;将全注意力多视图交互分解为两阶段注意力方案,以减少计算成本;在每一层注入高分辨率信息,以实现高保真重建。
在架构设计的起始阶段,iLRM采用了视点标记化模块,其作用是将输入视图的相机姿态信息转化为模型可以处理的格式。研究人员利用Plücker射线嵌入来表示每个输入视图的几何信息。
Plücker坐标作为一种数学工具,能够有效捕捉像素和视图空间的变化,从而区分不同视图中的像素块。通过将每个视图的Plücker射线嵌入划分为非重叠的块,并将其重塑为一维向量,研究人员能够生成一个紧凑的视点标记集合。这些视点标记随后通过一个线性层进行编码,为后续的三维重建过程提供了一个高效的初始表示。

在处理输入图像时,iLRM进一步采用了多视图图像标记化。该模块的作用是将输入图像中的视觉信息提取出来,并将其与视点标记进行融合。对于每个输入视图图像,研究人员首先将其划分为非重叠的块,然后分别提取RGB图像块和Plücker射线块。这两个块被拼接在一起,并通过一个线性层进行投影,从而生成图像标记。
这些图像标记不仅包含了输入图像的视觉信息,还融合了相机姿态信息,为三维重建提供了丰富的上下文线索。这种设计使得模型能够在处理多视图输入时,充分利用每个视图的视觉信息,从而提高重建的准确性和细节表现。
在多视图上下文建模方面,iLRM提出了一种高效的两阶段注意力机制,以应对传统三维重建方法中常见的计算复杂度问题。传统的三维重建方法通常依赖于全注意力机制来处理多视图输入,但这种方法会导致计算复杂度随着视图数量和图像分辨率的增加而呈二次方增长。
为了解决这一问题,iLRM将多视图交互分解为两个阶段:交叉注意力和自注意力。在交叉注意力阶段,每个视点标记与其对应的图像标记进行交互,这种一对一的交互方式计算效率非常高。而在自注意力阶段,所有视点标记之间进行全局信息交互,从而捕捉到不同视图之间的依赖关系。这种两阶段设计不仅降低了计算复杂度,还保留了全局信息交互的能力,使得模型能够在处理大规模输入视图时保持高效的性能。

iLRM的核心是其更新块,这是一个迭代细化机制,用于逐步优化三维场景表示。更新块由多个Transformer模块组成,每个模块包含一个交叉注意力层和一个自注意力层。在交叉注意力层中,视点标记通过与图像标记的交互进行更新,从而引入视觉信息。在自注意力层中,视点标记之间进行全局信息交互,进一步优化其表示。
为了更好地捕捉视点标记和图像标记之间的空间对应关系,iLRM引入了一种标记提升策略。由于视点标记的分辨率通常低于图像标记,这种分辨率差异可能会限制模型对细节信息的捕捉能力。标记提升模块通过一个线性查询层将低分辨率的视点标记提升到更高的分辨率,从而生成更细粒度的查询标记。
这些提升后的标记与高分辨率的图像标记进行交叉注意力计算,从而更好地捕捉视觉对应关系。在交叉注意力计算完成后,提升后的标记被重新映射回原始分辨率,并通过一个线性投影层恢复到原始的嵌入维度。这种设计不仅保留了更新后的信息,还保持了后续自注意力层的计算效率。

在处理大规模输入视图时,交叉注意力的计算成本可能会成为瓶颈。为了解决这一问题,iLRM提出了一种小批量交叉注意力机制。该机制通过选择性地采样图像标记和视点标记,显著降低了交叉注意力的计算复杂度。研究人员设计了几种结构化的采样策略,这些策略在保持计算效率的同时,还能够有效地捕捉视图之间的视觉信息。
在训练阶段,iLRM通过最小化重建图像与真实图像之间的均方误差和感知损失来优化模型参数。感知损失使用预训练的VGG网络计算,以确保生成的图像在视觉上与真实图像相似。这种训练目标不仅关注重建图像的像素级准确性,还考虑了图像的视觉质量,从而使得模型能够生成高质量的三维场景表示。
在经过多层迭代更新后,iLRM将最终的视点标记解码为三维高斯参数。这一过程通过一个线性层完成,并应用后激活函数来生成高斯分布的均值、协方差、颜色和不透明度等参数。这些参数随后被用于渲染目标视图的图像,从而实现高质量的三维重建。