用于形状精确三维感知图像合成的着色引导生成隐式模型 NeurIPS2021

作者：admin更新时间 2024年5月14日2024年5月13日

编译莓酊

编辑青暮

生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个视点看起来十分逼真，这些方法引入了多视图约束作为正则化，以从2D图像学习有效的3D辐射场。尽管取得了进展，但由于形状-颜色的模糊性，它们往往无法捕获准确的3D形状，从而限制了在下游任务中的适用性。

在这项研究工作中，来自马普所和港中文大学的学者通过提出一种新的着色引导生成隐式模型ShadeGAN来解决这种模糊性，它学习了一种改进的形状表示。

论文地址：https://arxiv.org/pdf/2110.15678.pdf

代码地址：https://github.com/xingangpan/shadegan

关键在于，精确的3D形状还应在不同的照明条件下产生逼真的渲染效果。多重照明约束通过显式建模照明和在各种照明条件下执行着色实现。梯度是通过将合成图像馈送到鉴别器得到的。

为了补偿计算曲面法线的额外计算负担，研究团队进一步设计了通过曲面跟踪的高效体绘制策略，将训练和推理时间分别减少24%和48%。

在多个数据集上实验表明，在捕获精确的底层三维形状的同时，ShadeGAN做到了实现具备真实感的三维感知图像合成。他们还展示了该方法在三维形状重建方面相对于现有方法的改进性能，在图像重照明方面亦有适用性。

介绍

高级深度生成模型，例如StyleGAN和BigGAN，在自然图像合成方面取得了巨大成功。但这些基于2D表示的模型无法以3D一致性方式合成实例新视图。它们也无法表示明确的三维物体形状。

为了克服这些限制，研究人员提出了新的深度生成模型，将3D场景表示为神经辐射场。3D感知生成模型可以显式控制视点，同时在图像合成过程中保持3D一致性。它们展示了在无监督情况下从一组无约束的2D图像中学习3D形状的巨大潜力。如果可以训练出学习精确3D物体形状的3D感知生成模型，各种下游应用就可以的到拓展，如3D形状重建和图像重照明。

现有3D感知图像合成尝试倾向于学习不准确且有噪声的粗略3D形状，如下图所示。研究发现，这种不准确是由于方法所采用的训练策略不可避免地存在模糊性。特别是一种正则化，称之为“多视图约束”，用于强制三维表示，使其从不同的视点看起来更逼真。

这种约束通常首先将生成器的输出（例如，辐射场）投影到随机采样视点，然后将它作为假图像提供给鉴别器进行训练。虽然这种约束使模型能够以3D感知的方式合成图像，但会受到形状-颜色模糊关联的影响，即便有微小的形状变化也能生成类似的RGB图像，这些图像在鉴别器看来同样可信，因为许多物体颜色是局部平滑的。因此，不准确的形状仍然隐藏在这个约束下。

在本文中，研究团队提出了一种新的着色引导生成隐式模型（ShadeGAN）来解决上述歧义。特别是，ShadeGAN通过显式建模着色（即照明和形状的交互）学习更精确的3D形状。

一个精确的3D形状不仅应该从不同的角度看起来很逼真，在不同的照明条件下也应该十分逼真，即满足“多重照明约束”。这一想法与光度立体有着相似的直觉，它表明可以从不同照明条件下拍摄的图像中恢复精确表面法线。

请注意，多重照明约束是可行的，因为用于训练的真实图像通常是在各种照明条件下拍摄的。为了满足此约束，ShadeGAN采用可重新照明的颜色场作为中间表示，近似反照率，但不一定满足视点独立性。渲染期间，颜色场在随机采样的照明条件下着色。由于通过这种着色处理的图像外观强烈依赖于曲面法线，因此与早期的着色不可知生成模型相比，不准确的3D形状表示将更清晰地显示出来。通过满足多重照明约束，可以鼓励ShadeGAN推断更精确的3D形状，如上图中右下所示。

上述着色处理需要通过反向传播来通过生成器计算法线方向，并且在3D体绘制中，对于单个像素的计算需要重复几十次，从而引入额外的计算开销。现有高效体绘制技术主要针对静态场景，面对动态特性无法直接应用于生成模型。为了提高ShadeGAN的渲染速度，研究团队建立了一个有效的曲面跟踪网络，以评估基于潜在代码的渲染对象曲面。这使他们能够通过仅查询预测曲面附近的点来节省渲染计算，从而在不影响渲染图像质量的情况下减少24%和48%的训练和推理时间。

通过多个数据集上进行综合实验验证ShadeGAN的有效性。结果表明，与之前的生成方法相比，本文提出的方法能够合成照片级真实感图像，同时捕获更精确的底层三维形状。学习到的三维形状分布能够实现各种下游任务，比如三维形状重建，其中ShadeGAN明显优于BFM数据集上的其他基线。对着色过程进行建模，可以显式控制照明条件，实现图像重照明效果。

ShadeGAN可以总结如下：

1）使用满足多重照明约束的着色引导生成模型，从而解决现有三维感知图像合成中形状-颜色模糊问题。ShadeGAN能够学习更精确的3D形状，从而更好地进行图像合成。

2）通过曲面跟踪设计了一种高效的绘制技术，这大大节省了基于体绘制生成模型的训练和推理时间。

3）ShadeGAN学会了将阴影和颜色分离，更接近反照率，在图像合成中达到了自然重新照明效果。

ShadeGAN

神经体绘制

从神经辐射场（NeRF）的开创性工作开始，神经体绘制在表示3D场景和合成新视图方面得到了广泛的应用。通过基于坐标神经网络与体绘制相结合，NeRF以3D一致性完成高保真视图合成。目前已经提出了一些尝试扩展或改进NeRF。比如进一步模拟照明，然后学习在给定对齐多视图、多照明图像情况下，将反射与着色分离。此外，许多研究从空间稀疏性、建筑设计或高效渲染角度加速了静态场景的渲染。这些照明和加速技术应用于基于体绘制的生成模型并非易事，因为它们通常从为定位、未配对的图像中学习，表示相对于输入潜在编码变化的动态场景。

研究团队首次尝试在基于体绘制的生成模型中对照明进行建模，作为精确三维形状学习的正则化。并进一步为方法设计了高校的渲染技术，它具有相似的见解，但不依赖于通过真实深度进行训练，也不限于视点小范围。

生成三维感知图像合成

生成对抗网络（GANs）可以生成高分辨率的真实照片图像，但对摄像机视点的明确控制却很匮乏。为了能够以3D感知的方式合成图像，许多最新方法研究了如何将3D表示合并到GANs中。

有些研究直接从3D数据中学习，但在本文中，研究团队关注的是只能访问无约束2D图像方法，因为这是更实际的设置。

研究团队多次尝试采用3D体素特征和学习神经渲染，虽然产生了逼真的3D感知合成，但3D体素不可解释，无法转换为3D形状。

NeRF可以成功促使在GANs中使用辐射场作为中间3D表示，是有一些令人印象深刻、具有多视图一致性的3D感知图像合成，但这些方法提取的3D形状通常不精确且有噪声。

在本文中，研究团队的主要目标是通过在渲染过程中显式地建模照明来解决不准确形状。这项创新有助于实现更好的3D感知图像合成，将具有更广泛的应用。

从2D图像进行无监督的3D形状学习

ShadeGAN涉及无监督方法，即从无约束单目视图2D图像中学习3D物体形状。虽然一些方法使用外部3D形状模板或2D关键点作为弱监督，但本文考虑了更有难度的设置——只有2D图像是可用的。

大多数方法采用“综合分析”范式，就是设计了照片几何自动编码器，以在重建损失情况下推断每个图像的三维形状和视点。这是可以学习一些对象类的3D形状，只是通常依赖正则化来防止琐碎的解决方案，如常用的对象形状对称假设。这种假设倾向于产生对称结果，可能忽略对象的不对称方面。最近，GAN2Shape表明，可以为2D GAN生成的图像恢复3D形状。但这种方法需要低效的实例特定训练，并恢复深度贴图，而不是完整的三维表示。

本文提出的三维感知生成模型也可以作为无监督三维形状学习的有力方法。与上述基于自动编码器的方法相比，基于GAN的方法避免了推断每个图像的视点需求，而且不依赖于强正则性。通过实验更加证明了与最新、最先进的方法Unsp3d和GAN2Shape相比，ShadeGAN具有更高的性能。

ShadeGAN方

ShadeGAN通过无约束和未标记的 2D 图像学习考虑3D 感知图像合成问题。在生成隐式模型中建模着色，也就是照明和形状的交互，实现对更精确三维对象形状的无监督学习。

接下来会先提供关于神经辐射场（NeRF）的初步介绍，然后详细介绍着色引导生成隐式模型。

3.1 神经辐射场的初步研究

作为一种深度隐式模型，NeRF使用MLP网络将3D场景表示为辐射场。

取三维坐标

和观察方向

作为输入，并输出体积密

和颜色

。为了在给定的相机姿势下渲染图像，通过沿其对应的相机光线

的体绘制获得图像的每个像素颜色C，如下所示：

实践中，这种体绘制是使用分层和分层采样的离散形式实现的。由于该渲染过程是可微分的，因此通过静态场景的姿势图像直接优化NeRF。经过训练后，NeRF允许在新的相机姿势下渲染图像，实现高质量新颖视图合成。

3.2着色引导生成隐式模型

开发生成隐式模型是十分有趣的，它可以为3D感知图像合成显式着色过程建模。研究团队对NeRF中的MLP网络进行了两个扩展。首先，与大多数深度生成模型类似，它进一步取决于从先验分布

中采样的潜在编码z。其次，它不直接输出颜色c，而是输出可重新点亮的前余弦颜色项

。

它在概念上类似于反照率，在给定的光照条件下，它可以被遮蔽。虽然反照率是独立于视点的，但在这项工作中，为了解释数据集偏差，并没有严格地对一个数据集实现这种独立性。

因此，本文的生成器

取坐标x、观察方向d和潜在方向编码z作为输入，并输出体积密度σ和前余弦颜色a。注意，这里σ独立于d，而a对d的依赖是可选的。为了获得相机光线

的颜色C，近界和远界

和

，研究团队通过以下方式计算最终的前余弦颜色A：

研究团队还使用以下公式计算法向n：

是体积密度σ相对于其输入坐标的导数，它自然捕捉局部法线方向，并可通过反向传播计算。然后通过Lambertian着色获得最终颜色C，如下所示：

是照明方向，

和

是环境系数和漫反射系数。

摄像机和照明采样

等式（2-4）描述了给定相机光线r（t）和照明条件

渲染像素颜色的过程。生成完整图像

要求除潜在编码z外，还需对摄像姿势

和照明条件μ进行采样，即

。

在设置中，摄像姿态

可以用俯仰角和偏航角来描述，并从先前的高斯分布或均匀分布

中采样，正如在以前的工作中所做的一样。在训练过程中随机采样相机姿势将激发学习的3D场景从不同角度看起来逼真。虽然这种多视图约束有利于学习有效的三维表示，但它通常不足以推断准确的三维对象形状。

因此，在本文中，研究团队还通过从先验分布

中随机采样照明条件μ来进一步引入多重照明约束。实际上，可以使用现有方法从数据集估算

。在实验中，一个简单且手动调整的先验分布也可以产生合理结果。由于等式（4）中的漫反射项

导致着色过程对法线方向敏感，该多重照明约束将使模型正则化，学习产生自然着色的更精确3D形状。

训练

生成模型遵循GANs范例，生成器与参数为φ的鉴别器D一起以对抗的方式进行训练。在训练期间，生成器通过相应的先验分布pz、

和

中采样潜在编码z、相机姿势

和照明条件μ来生成假图像

让l表示从数据分布pI中采样的真实图像。用

正则化的非饱和GAN损耗来训练ShadeGAN模型：

公式中

λ 控制正则化强度。

探讨

在等式（2-4）中，研究团队通过体绘制获得A和n之后执行着色。另一种方法是在每个局部空间点执行着色，其中：

是局部正常。

然后可以使用c(r(t), z) 执行体积排序，从而获得最终的像素颜色。在实践中，研究团队观察到该公式获得了次优结果。

直观原因是，在此公式中，法线方向在每个局部点处归一化，忽略了

在物体表面附近趋于较大。

本文使用的Lambertian着色近似于真实照明场景。虽然作为改进学习的三维形状的良好正则化，但它可能会在生成图像的分布和真实图像的分布之间引入额外的间隙。

为了补偿这种风险，可以选择将预测的a调节到光照条件，即a = a(r(t), d, μ, z)。在照明条件偏离实际数据分布的情况下，生成器可以学习调整a值并减小上述间隙。

3.3通过曲面跟踪实现高效体绘制

与NeRF类似，研究团队使用离散积分实现体绘制，这通常需要沿摄影机光线采样几十个点，如图所示。

在本文中，还需要在等式（3）中对生成器执行反向传播，以获得每个点的法线方向，这会大大增加计算成本。为了实现更高效的体绘制，一个自然的想法是利用空间稀疏性。通常，体绘制中的权重T (t, z)σ(r(t), z)在训练过程中会集中在物体表面位置上。如果在渲染之前知道粗糙曲面的位置，就可以在曲面附近采样点以节省计算。对于静态场景，将这种空间稀疏性存储在稀疏体素网格中，但这种技术不能直接应用于我们的生成模型，因为3D场景相对于输入的潜在编码不断变化。

为了在生成隐式模型中实现更高效的体绘制，研究团队进一步提出了一种曲面跟踪网络S，该网络学习模仿以潜在编码为条件的曲面位置。特别是，体渲染自然允许通过以下方式对对象曲面进行深度估计：

T (t, z)的定义方式与（2）中的方式相同。因此，给定相机姿态

和潜在编码z，可以渲染全深度贴图

。如上图（b）所示，使用表面跟踪网络

模拟

，这是一个以z，

为输入并输出深度图的轻量级卷积神经网络。深度模拟损失为：

其中，Prec是促使

更好地捕捉表面边缘的感知损失。

在训练过程中，

与发生器和鉴别器一起进行优化。每次在采样一个潜在编码z和一个相机姿势

之后，可以得到深度贴图的初始猜测

。

然后，对于具有预测深度s像素，可以在等式（2,3,6）中执行体绘制，且近边界

和远界

，

是体积渲染的间隔，该间隔随着训练迭代i的增长而减小。

具体来说，我们从一个大的间隔开始

并减小到

。像

减少时，用于渲染m的点数也相应减少。与生成器相比，高效的曲面跟踪网络的计算成本是微乎其微的，因为前者只需要一次前向过程来渲染图像，而后者将被查询H × W × m 次。因此，m的减少将显著加快ShadeGAN的训练和推理速度。

实验

实验表明，ShadeGAN学习的3D形状比以前的方法精确得多，同时允许对照明条件进行显式控制。使用的数据集包括CelebA、BFM和CAT，它们都只包含无约束的2D RGB图像。

在模型结构方面，我们采用了基于SIREN的MLP作为生成器，卷积神经网络作为鉴别器。对于光照条件的先验分布，使用Unsup3d估计真实数据的光照条件，然后拟合

的多元高斯分布作为先验。消融研究中还包括手工制作的先验分布。除非另有说明，否则在所有实验中，让前余弦颜色a取决于照明条件μ以及观察方向d。

与基线进行比较

将ShadeGAN与两种最先进的生成隐式模型（GRAF和pi-GAN）进行比较。具体地，图4包括合成图像以及它们对应的3D网格，其通过在体积密度σ上执行 marching cubes而获得。

虽然GRAF和pi-GAN可以合成具有可控姿势的图像，但它们学习到的3D形状不准确且有噪声。相比之下，本文的方法不仅合成真实感的3D一致图像，而且还学习更精确的3D形状和曲面法线，这表明所提出的多重照明约束作为正则化的有效性。

图5中包含了更多的合成图像及其相应的形状。除了更精确的3D形状外，ShadeGAN还可以从本质上了解反照率和漫反射着色组件。如图所示，尽管并不完美，ShadeGAN已成功以令人满意的质量分离阴影和反照率，因为这种分离是多照明约束的自然解决方案。

在BFM数据集上对学习的3D形状的质量进行定量评估。具体来说，使用每个生成隐式模型生成50k图像及其相应的深度贴图。来各个模型的图像深度对被用作训练数据，来训练额外的卷积神经网络（CNN），这个网络学习预测输入图像的深度图。

然后，在BFM测试集上测试每个经过训练的CNN，并将其预测与真实深度图进行比较，作为对所学3D形状质量的测量。

本文报告了尺度不变深度误差（SIDE）和平均角度偏差（MAD）度量。其中ShadeGAN的表现明显优于GRAF和pi GAN。ShadeGAN还优于其他先进的无监督3D形状学习方法，包括unsupervised和GAN2Shape，在无监督3D形状学习都有着巨大潜力。

不同模型合成的图像的FID分数上，其中ShadeGAN的FID分数略差于BFM和CelebA中的pi GAN。直观地说，这是由近似着色（即朗伯着色）和真实照明之间的差距造成的，可以通过采用更真实的着色模型和改进之前的照明来避免。

消融研究

研究团队进一步研究了ShadeGAN中几种设计选择的影响。首先，执行局部点特定的着色。如图所示，局部着色策略的结果明显比原始策略差，这表明考虑

是有益的。

为了验证所提出的高效体绘制技术的有效性，研究团队将其对图像质量和训练/推理时间的影响包含在选项中。据观察，高效体绘制对性能影响不大，但ShadeGAN的训练和推理时间分别显著减少了24%和48%。

此外，在下图中可视化了曲面跟踪网络预测的深度图和通过体绘制获得的深度图。结果表明，在不同的身份和相机姿态下，曲面跟踪网络可以一致地预测非常接近真实曲面位置的深度值，因此可以在不牺牲图像质量的情况下采样预测曲面附近的点进行渲染。

光照感知图像合成

由于ShadeGAN对着色过程进行建模，因此在设计上允许对照明条件进行显式控制。下图提供了这样的照明感知图像合成结果，其中ShadeGAN在不同的照明方向下生成有希望的图像。在预测的a以照明条件μ为条件的情况下，a会略微改变w.r.t.照明条件，如在阴影过暗的区域，a会更亮，最终图像更自然。我们还可以在等式4（即Blinn Phong着色，其中h是视点和照明方向之间角度的平分线）中选择性地添加镜面反射项

，以创建镜面反射高光效果。