MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!
1. 一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。
2. 核心问题
当前 3D 场景重建方法受限于:
[*]数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。
[*]数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
[*]计算成本高昂:现有优化方法(如 3DGS)计算成本高,推理速度慢,难以应用于大规模场景。
MegaSynth 通过合成数据突破数据瓶颈,使 3D 场景重建更高效、精准,并能泛化至真实数据。
3. 技术亮点
大规模非语义数据生成:提出 MegaSynth 数据集,通过程序化生成 70 万个场景,无需建模语义信息(如物体属性和布局),避免语义复杂性带来的计算开销。
合成数据+真实数据混合训练:通过 MegaSynth 预训练 + 真实数据微调,提高模型泛化能力,实现 1.2~1.8 dB PSNR 提升。
新型 LRM 训练策略:基于 GS-LRM 和 Long-LRM 两种模型,利用合成数据进行高效重建,使模型性能与仅用真实数据训练的模型相当。
4. 方法框架
MegaSynth 通过以下步骤完成 3D 场景重建:
1)合成数据生成:
• 场景布局:生成 3D 立方体空间,随机分布几何体(如立方体、球体、圆柱等)。
• 几何和纹理生成:随机组合几何形状并添加高度场扰动。
• 光照建模:使用环境光、太阳光和发光物体生成多样化光照条件。
2)数据训练策略:
• 训练 GS-LRM 和 Long-LRM,分别基于 Transformer 和 Mamba 架构。
• 混合训练:先用 MegaSynth 预训练,再用 DL3DV 真实数据微调,以增强泛化能力。
3) 损失优化:
• 渲染损失(Limg):基于 MSE 误差和感知损失优化 3D 纹理。
• 几何损失(Lloc):基于合成数据提供的精准几何信息,优化 3D 高斯中心位置,提高几何精度。
5. 实验结果速览
• 数据集:
a.训练:MegaSynth(70 万场景)+ DL3DV(7K 场景)
b.测试:DL3DV、Hypersim(高真实感渲染)、MipNeRF360、Tanks & Temples(真实世界数据)
• 关键实验结论:
a.训练包含 MegaSynth 数据的模型在 所有测试数据集 上均优于仅用真实数据训练的模型,特别是在 Hypersim 和 MipNeRF360 这样的跨域数据集上提升更明显。
b.LRMs 仅用 MegaSynth 训练,性能接近于仅用真实数据训练的模型,表明 3D 场景重建的本质是低层几何建模,对语义信息的依赖较小。
6. 实用价值与应用
MegaSynth 及其训练方法在多个领域有潜在应用:
• 自动驾驶:提升激光雷达与视觉融合的 3D 场景建模精度。
• 机器人导航:增强环境感知,提高路径规划可靠性。
• 增强现实(AR)与虚拟现实(VR):支持高质量 3D 资产生成和交互式虚拟场景建模。
• 城市建模与测绘:基于大规模图像数据进行高精度 3D 重建,提高城市规划与测绘效率。
7. 开放问题
1)合成数据的泛化性:MegaSynth 在多种数据集上表现良好,但在 超大规模室外场景 或 极端环境光照 下,是否仍能维持高性能?
2)与其他生成式方法的结合:是否可以结合扩散模型或神经辐射场(NeRF),进一步优化数据生成质量?
3) 数据合成策略优化:当前 MegaSynth 采用 非语义建模,如果引入一定的高层语义控制(如物体语义标签),是否能进一步提升泛化能力?
页:
[1]