1. 引言
1.1. 背景
随着神经辐射场(NeRF)的引入,新视角合成领域经历了范式转变,NeRF将场景编码为连续神经函数[1]。最近,3D高斯泼溅(3DGS)通过将场景表示为显式各向异性3D高斯,彻底改变了这一领域,实现了高帧率下的实时真实感渲染。与隐式表示不同,3DGS利用可微分光栅化进行高效优化,已成为需要交互式新视角合成的实际应用的首选方法[2]。
尽管具有令人印象深刻的能力,但3DGS关键依赖于精确的相机内参和外参,这些参数通常通过运动恢复结构(SfM)管道(如COLMAP)获得。在具有挑战性的真实世界场景中,传统SfM方法经常失败[3],原因是:
(1) 低纹理区域:缺乏足够的独特特征进行可靠的特征匹配和跟踪。
(2) 重复模式:导致模糊对应关系,从而产生错误的姿态估计。
(3) 受限视角分布:缺乏足够的基线进行稳定的三角化和束调整。
这种校准误差会在渲染流程中传播,降低学习到的3D高斯质量,并最终损害新视角合成性能。基于NeRF的场景表示的最新研究表明,场景几何和相机参数的联合优化可以缓解这些问题,然而在3DGS背景下,类似的方法仍未得到充分探索。
针对这些问题,本文提出了一个联合优化相机参数和3D高斯表示的框架。主要技术包括:
(1) 偏移参数化,将相机参数表示为从初始SfM估计中学习的偏移,确保优化稳定性。
(2) 对数尺度焦距表示,改善数值条件。
(3) 余弦衰减自适应正则化,动态调整正则化强度。
1.2. 相关工作
1.2.1. 3D高斯泼溅及其扩展
3D高斯泼溅将场景表示为由位置、不透明度、缩放、旋转和球谐系数参数化的各向异性3D高斯集合[4]。通过可微分光栅化,3DGS实现了具有实时渲染能力的真实感新视角合成,在推理速度方面显著优于隐式神经表示[5]。最近的扩展改进了原始公式,包括压缩技术、抗锯齿和动态场景建模[6]。然而,这些方法主要假设精确的相机校准,在优化过程中将相机参数视为固定。
1.2.2. 神经渲染中的相机姿态优化
基于NeRF的方法,认识到不准确的相机姿态会显著降低新视角合成质量,这激发了关于联合姿态–场景优化的广泛研究。光束法平差神经辐射场(BARF)在NeRF优化的同时引入了渐进姿态校正,证明了精确姿态对于高保真重建至关重要[7]。后续工作探索了稀疏控制点、空间自适应姿态细化和鲁棒优化策略来处理具有挑战性的初始化场景。虽然这些方法取得了令人印象深刻的结果,但它们主要关注隐式神经表示,与显式3D表示相比,隐式表示在训练和推理速度上较慢[8]。传统多视图立体(MVS)和运动恢复结构方法长期以来一直结合束调整进行联合姿态和几何细化。在可微分渲染的背景下,最近的工作探索了神经辐射场的相机优化和基于网格的表示。然而,3D高斯泼溅的相机参数优化仍然相对未被探索,尽管它具有重要的实用意义和基于点渲染带来的独特挑战[9]。有效的参数化对于稳定的神经网络优化至关重要[10]。偏移参数化(可学习参数表示与初始估计的偏差)已在姿态图优化和神经网络训练中得到广泛采用。对于相机内参,对数空间参数化防止了不切实际的缩放并改善了数值条件。自适应正则化(正则化强度在优化期间变化)在计算机视觉任务中已被证明是有效的。基于调度的正则化通过动态调整约束强度防止过拟合并实现稳定收敛[11]。偏移参数化(将可学习参数表示为与初始估计的偏差)在姿态图优化和神经网络训练中已得到广泛应用。
2. 本文的方法
本文基于3D高斯泼溅提出了独特特性的联合相机-3D优化统一框架,目的是在训练3D高斯的同时联合优化相机参数,以获得更精确的场景表示
2.1. 联合优化
(1) 3D高斯参数:位置、不透明度、缩放、旋转、球谐系数。
(2) 相机参数:外参(旋转四元数
、平移
)和内参(焦距
、主点
)。
将相机参数表示为11维向量:
为了实现稳定有效的联合优化,采用以下关键技术:
(1) 偏移参数化:将相机参数表示为COLMAP初始估计的偏移,确保数值稳定性并增强可解释性。
(2) 对数尺度焦距:在对数空间中参数化焦距以获得更好的数值条件。
(3) 自适应正则化。
2.2. 偏移参数化
本文不直接优化原始相机参数,而是将它们参数化为初始COLMAP估计的偏移:
外参(直接优化,无偏移):
(1) 四元数旋转:
(单位四元数)。
(2) 平移:
。
内参(带偏移):
对于焦距,我们采用对数尺度参数化:
对于主点,采用归一化偏移:
其中
是COLMAP的初始估计值,
是可学习的偏移参数,
和
分别是图像的宽度和高度。
该公式确保:
(1) 焦距在对数空间的数值稳定性。
(2) 主点偏移的归一化尺度。
(3) 可解释性:接近零的偏移表示对COLMAP的置信度。
偏移参数化的核心思想是将相机参数的优化问题转化为对初始估计的修正问题。这种参数化方式具有以下优势:(1) 减小优化空间的搜索范围,使优化过程更加稳定;(2) 保持对初始估计的可解释性,偏移量的大小直接反映了优化的程度;(3) 避免参数漂移,确保优化结果不会偏离合理的物理约束。
2.3. 自适应正则化
我们应用正则化以防止相机参数偏离初始估计太远。正则化损失定义为:
其中第一项
是单位四元数约束,确保旋转四元数保持单位长度;其余项约束焦距和主点的偏移参数接近零。
总损失函数为:
其中
是重建损失(L1损失和SSIM损失的组合),
是随时间变化的自适应正则化权重,采用余弦衰减策略:
其中
是当前迭代次数,
是总迭代次数。在我们的实现中,
,
。正则化权重初始较强以防止早期发散,然后逐渐衰减,允许训练进展时更大的灵活性。余弦衰减策略的设计基于以下观察:在训练初期,3D高斯参数尚未稳定,此时需要较强的正则化约束来防止相机参数的剧烈变化;随着训练的进行,3D高斯逐渐收敛,可以适当放宽正则化强度,允许相机参数进行更精细的调整。这种自适应策略平衡了优化稳定性和最终精度。
2.4. 实现细节
我们的实现使用Adam优化器,初始学习率为1e−4,通过余弦退火调度降至1e−5。总训练迭代次数为15000次,分别在7000次和15000次迭代时进行评估。相机参数采用11维向量表示,包含外参(四元数旋转和平移)和内参(焦距和主点的偏移)。正则化权重从初始值0.01按余弦衰减至0.001。
3. 实验设置
3.1. 数据集
主要数据集:杏果实数据集(自制)–使用手机拍摄的真实世界数据集,包含低纹理和复杂光照等具有挑战性的场景。
模拟真实场景误差:Garden数据集(扰动实验)–选自Mip-NeRF 360数据集的户外场景,包含丰富的植被和复杂几何结构。为了系统评估相机优化框架对初始COLMAP估计误差的校正能力,我们对相机参数进行了扰动处理。具体而言,考虑到移动设备拍摄场景中的典型误差来源(如运动模糊、手持抖动、低纹理区域等),我们向COLMAP输出的相机参数添加了温和级别的高斯噪声:
1. **外参扰动**:向平移向量
添加噪声
。
2. **内参扰动**:焦距参数按
缩放,其中
。
所有实验训练15,000次迭代,在迭代7000和15,000时在训练集上评估指标,在单个GPU上使用默认3DGS超参数进行训练。
3.2. 评估指标
使用三个标准指标来评估重建质量:
PSNR(峰值信噪比):衡量重建图像与真实图像之间的像素级差异,定义为:
其中
是图像的最大可能像素值,
是均方误差。
SSIM(结构相似性指数):评估结构信息的保留程度,定义为:
其中
是均值,
是方差,
是协方差,
是稳定常数。
LPIPS (学习感知图像块相似性):使用预训练深度网络提取特征并计算感知距离,定义为:
其中
表示网络层,
是第
层的特征图,
是学习的通道权重。
4. 实验结果
4.1. 杏果实数据集
如图1所示,基线3DGS (原始3DGS)与本文方法的训练L1损失曲线对比。蓝色实线表示基线3DGS,红色实线表示本文方法,本文的相机优化方法的训练L1损失降低47.47%,说明重建质量有所提升。
如表1所示,本文的相机优化方法在所有指标上均优于基线3DGS,PSNR提升至37.22,SSIM提升至0.970,LPIPS降低至0.157。
图2展示了在杏果实数据集上基线3DGS与我们的相机优化方法的渲染结果对比。左边为基线3DGS渲染结果,右边为本文的相机优化方法渲染结果,可以看出本文方法在细节保留和整体视觉质量上均有改善。
4.2. Garden数据集
如表2所示,Garden数据集上,本文的相机优化方法在所有指标上略优于基线3DGS,PSNR提升至24.19,SSIM提升至0.631,LPIPS降低至0.357。这说明在存在相机参数扰动(1.0 cm平移误差 + 0.5%焦距误差)的情况下,本文方法能够有效校正初始估计误差,实现高质量的3D重建。这证明了联合优化相机参数与3D高斯表示的框架在实际标定不精确场景中的可行性。
Figure 1. L1 loss comparison of baseline 3DGS vs. our method on apricot fruit dataset
图1. 杏果实数据集基线3DGS与本文方法的L1Loss的对比
Table 1. Comparative analysis of training set results on apricot fruit dataset
表1. 杏果实数据集训练集结果对比分析
方法 |
PSNR↑ |
SSIM↑ |
LPIPS↓ |
3DGS(基线) |
36.97 |
0.969 |
0.161 |
本文(相机优化) |
37.22 |
0.970 |
0.157 |
Figure 2. Comparison between baseline 3DGS and the proposed method
图2. 基线3DGS与本文方法对比
Table 2. Comparative analysis of training set results on the garden dataset
表2. Garden数据集训练集结果对比分析
方法 |
PSNR↑ |
SSIM↑ |
LPIPS↓ |
3DGS (基线) |
23.84 |
0.588 |
0.373 |
本文(相机优化) |
24.19 |
0.631 |
0.357 |
4.3. 讨论
真实世界场景中的有效性:在自制杏果实数据集以及带有扰动的garden数据集上的实验表明,相机参数优化能够显著改善重建质量,所有评估指标均有提升。这些改善验证了联合优化框架在真实世界应用中的有效性。在手机拍摄的数据集中,COLMAP的估计可能因运动模糊、低纹理或复杂光照而不准确。本文方法通过偏移参数化和自适应正则化,能够在优化3D高斯的同时微调相机参数,获得更精确的场景表示。
适用场景:本方法特别适用于以下具有挑战性的真实世界场景:移动设备拍摄(存在运动模糊和相机抖动)、低纹理环境、重复模式场景,以及视角受限的数据集。在这些情况下,COLMAP的初始估计往往不够精确,而相机优化能够有效校正误差。
计算权衡:相机优化会增加每次迭代的计算时间,但考虑到重建质量的全面提升,这种额外的计算开销是值得的。对于对重建质量要求高的应用,这种权衡是可接受的。
5. 结论
本文提出了一个统一的框架,用于在训练期间联合优化相机参数和3D高斯表示。通过采用偏移参数化、对数尺度焦距表示、自适应余弦衰减正则化,来对相机参数进行优化。本文方法在具有挑战性的真实世界数据上相比基线3DGS取得了显著改进。与基线3DGS相比,本文方法使PSNR提高了0.25 db (36.97→37.22),SSIM提高了0.001 (0.969→0.970),LPIPS降低了0.004 (0.161→0.157),训练损失降低了45.44%。这些结果证明了对于难以获得精确相机校准的场景,联合相机–几何优化既实用又有效。本工作强调了在实际3DGS应用中考虑相机参数不确定性的重要性,特别是对于移动设备拍摄以及表现出低纹理、重复模式或受限视角分布的环境。所提出的优化策略能够在不修改核心3DGS渲染管道的情况下实现鲁棒的场景重建,使本文方法可直接应用于现有实现。
局限性与未来工作。虽然本文方法取得了显著成果,但仍有一些方向值得进一步研究:
(1) 进一步实验:验证三个模块对性能的影响。
(2) 动态场景:扩展到时变场景和基于视频的新视角合成。
(3) 高级相机模型:集成径向畸变、偏斜等其他内参以实现更全面的建模。
(4) 自适应优化:开发自动检测机制,判断何时相机优化有益以及校准中的不确定性。