基于先验残差与位置参考信息的新视角合成方法

专利2025-12-13 19

本发明涉及三维成像领域，具体为一种基于先验残差与位置参考信息的新视角合成方法。

背景技术：

1、新视角图像合成任务是指在给定一组三维场景不同视角的图像集及这组图像对应的相机参数和位姿的条件下，渲染生成新视角下三维场景对应的图像。该任务在三维重建、影视制作、元宇宙、数据集制作等任何需要内容创建的领域都有着广泛的应用。

2、随着深度学习技术的快速发展，基于深度学习的方法已经在新视角图像合成任务上超越了传统基于几何或基于图像的方法，解决了它们在合成高分辨率或高质量图像时面临的挑战。这种方法主要通过神经网络和其他启发式方法预测混合权重和视图相关效果，常常与传统方法结合使用，以提高效果。

3、神经辐射场(nerf)模型是目前最受关注的新视角图像合成算法之一，它通过多层感知器隐式表示场景的连续辐射场，再使用体渲染方法合成新视角图像。但神经辐射场具有训练和渲染速度慢、输入视角图像多、环境光照不能改变、只能描述静态场景、模型不能泛化的缺点。

4、为解决上述问题，针对模型训练和渲染速度慢的缺点，本专利提出的先验残差网络的神经渲染新视点合成方法通过采用先进的位置编码技术和残差预规范化设计，不依赖于外部深度信息进行学习，极大地扩展了其应用范围。模型通过利用位置编码模块捕获输入数据的深层次特征关系，有效提升了渲染图像的细节和质量。此外，通过集成先进的前馈网络设计，该模型能够有效地进行特征转换和信息融合，从而在输出过程中无需针对每个新场景进行优化即可达到高质量的渲染效果。实验结果表明，该方法充分利用图像的已知信息，提高了图像的渲染速度和质量，具备较优的结果。尤其在当前技术文献中尚未广泛探索的领域中显示出独到之处。

技术实现思路

1、针对现有技术中存在的缺陷，提供了一种基于先验残差与位置参考信息的新视角合成方法，以加快渲染速度完成高质量新视角合成。

2、为达到以上目的，本发明采取的技术方案是：一种具有先验残差网络的神经渲染新视点合成方法，其中，包括以下步骤：

3、(1)获取真实场景的多视角图像及相机位姿；

4、(2)根据位置编码技术获取每条光线采样点的特征信息与位置信息；

5、(3)构建密度和颜色体素网格；

6、(4)将每条光线上的采样点的特征信息和位置信息以及体素网格输入进构建的残差预规范化网络来获得每个采样点的颜色和密度。

7、(5)

8、(6)

9、(7)其中，，表示第i+1个采样点和第i个采样点之间的距离；为神经辐射场网络中密度预测网络预测的采样点体积密度；为神经辐射场网络中颜色预测网络预测的采样点颜色值。

10、(8)所述的神经辐射场网络的训练损失函数为

11、

12、其中是光线采样点所对应像素的真实颜色，是神经辐射场所预测的像素颜色。

13、(9)将每条光线上所有的采样点的体密度和颜色按照体渲染公式进行求得到每个像素的颜色，将像素排列从而渲染出新视角的图像。

14、与现有技术相比，本发明的优点在于：不依赖于外部深度信息进行学习，极大地扩展了其应用范围。模型通过利用位置编码模块捕获输入数据的深层次特征关系，有效提升了渲染图像的细节和质量。此外，通过集成先进的前馈网络设计，该模型能够有效地进行特征转换和信息融合，从而在输出过程中无需针对每个新场景进行优化即可达到高质量的渲染效果。从而生成真实的新视角图像合成。

技术特征：

1.一种基于先验残差与位置参考信息的新视角合成方法，其特征在于：

2.根据权利要求1所述的一种基于先验残差与位置参考信息的新视角合成方法，其特征在于：神经渲染新视点合成由先进的位置编码技术和残差预规范化模块组成。

3.根据权利要求2所述的先进的位置编码技术，其特征在于：先进位置编码技术建立了不同采样点与其周围采样点之间线性关系，可根据不同光线的不同采样点信息自动寻找最佳的位置采样频率，从而得到更加准确的特征信息和位置信息。在本发明中，通过将频率带宽变量fred_bands设置为可训练参数，实现了一个动态调整频率的机制，使得模型在训练过程中能够自主学习并优化频率设置。这种创新性的方法允许模型根据不同任务和数据集的需求，自动调整位置编码的频率，从而显著提高位置编码的精度和适应性。通过在正向传播过程中利用调整后的频率对位置进行编码，并在反向传播中不断优化这些频率值，通过这种方式，本发明实现了对传统位置编码方法的显著改进，为相关技术领域提供了一种高效且可靠的解决方案。

4.根据权利要求2所述的残差预规范化模块，其特征在于：残差预规范化模块将采样点的位置信息和网格体素信息通过残差mlp网络训练够生成具有逼真颜色和光照效果的渲染图像。该模块首先对输入数据进行规范化处理，确保数据分布符合标准正态分布。然后规范化后的数据经过一个包含多个全连接层和激活函数的子模块，用于提取输入数据的特征。最后，将子模块输出与输入数据进行残差连接，保留原始输入信息并逐步传递特征表示给更深层的网络。该块有助于网络更好地理解场景中的物体和视角信息，提高图像合成和场景重建的准确性和质量。同时这种设计使网络更快地收敛，更有效地学习复杂的场景特征，从而提高图像渲染的效率和质量。

5.根据权利要求1所述的一种基于先验残差与位置参考信息的新视角合成方法，其特征在于：所生成的位置编码信息为：

6.根据权利要求1所述的一种基于先验残差与位置参考信息的新视角合成方法，其特征在于：所述的神经辐射场网络的训练损失函数为：

技术总结
本发明提出了一种基于先验残差与位置参考信息的新视角合成方法，该模型融合了位置编码技术和残差预规范化设计，旨在提升三维图像新视角合成的效率和质量。本方法特别适用于三维渲染、重建和视角合成等领域的应用。本方法首先获取真实场景的多视角输入图像及相机位姿信息。然后，根据这些信息创建体积和颜色的体素网格。设计并实施先验残差网络，结合体积渲染技术，预测像素颜色，最终生成具有高度真实感的新视角图像。本发明的位置编码模块能够精确捕获输入数据的深层次特征关系，从而显著提高渲染图像的细节和质量。此外，模型采用的残差预规范化设计，使得模型在不依赖外部深度信息的情况下，当输入参考图像时，输出的新视角图像更加真实。

技术研发人员：朴燕,马玉玺
受保护的技术使用者：长春理工大学
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-436277.html

专利

最新回复(0)