虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转

新闻热点 2025-01-02 14:06www.robotxin.com纳米机器人

近日,来自德国埃尔兰根-纽伦堡大学的学者创新性地提出了一种全新的神经网络方法,该方法在3D图像的场景细化和新视图合成方面取得了显著进展。只需要输入点云和相机参数的初步估计,该神经网络就能够输出由任意相机角度合成的图像,实现360度旋转无死角的效果。

研究人员指出,他们的方法之所以能够实时显示超过一亿像素点的点云场景,关键在于高效的单像素点光栅化技术。那么,一亿像素点是什么概念呢?简而言之,这些3D图像的真实感令人叹为观止,几乎与真实拍照无异。

这一研究成果最近在推特上引起了广泛关注,获得了网友们的纷纷点赞和评论,称其令人印象深刻。也有专家指出,这项研究确实利用了大规模动态输入点云的优势,解决了原本被视为“超级难题”的问题。

具体来说,该方法的核心在于利用神经网络自动学习合成高清3D图像,并实现了大动态的视角变换。那么,他们是如何做到的呢?秘密就在于点云输入和可微优化。

合成逼真的虚拟环境是计算机图形学和计算机视觉研究的热门领域之一。在这个过程中,3D形状的编码形式是关键环节。虽然存在多种表示方法,如三角形网格、体素网格、隐函数和点云等,每种方法都有其优缺点。其中,点云因其易于使用的特点,成为了3D图像合成的中间输出阶段的理想选择。

近年来,随着计算机图形学的发展,点云渲染技术逐渐受到关注。与此基于神经图像的渲染方法也开始崭露头角。这些方法存在一些输入不精确的问题。而Aliev等人的研究为这一问题提供了新的思路,他们成功地将传统的点光栅化器与深度神经网络相结合。

在这项研究中,研究人员的方法建立在Aliev等人的工作基础上,并进行了一系列改进。具体来说,他们建立了一个基于点的HDR神经渲染管道,由纹理点云和环境图组成的场景被光栅化为一组具有多种分辨率的稀疏神经图像。然后,深度神经网络被用来重建HDR图像,并通过一个基于物理的可微色调映射器将其转换为给定新视点场景的LDR图像。

在训练阶段,研究人员可以同时优化一系列参数,包括相机模型、相机角度、点云位置、颜色、环境贴图、渲染网络权重等。整个系统可以根据神经渲染网络的视觉损失来调整这些参数。这种可微分的好处是,不仅可以优化神经点特征,还可以在训练阶段校正不精确的输入。

该方法还能够合成任意的高动态范围成像(HDR)和LDR设置,并校正曝光不足或过度曝光的视图。与其他可微渲染器相比,该方法在效率上高出大约两个数量级。

这篇论文的主要成果包括:用于场景细化和可视化的端到端可训练的基于点的神经渲染管道;使用伪影几何概念的单像素点碎片的可微分光栅化器;以及可模拟数码摄影镜头和传感器效果的基于物理的可微分色调映射器。这些成果为3D图像渲染技术带来了新的突破,为未来的计算机图形学和计算机视觉研究提供了新的思路和方法。在深入解析大型点云数据时,我们引入了一种高效的多层渲染技术——随机点丢弃技术(ADOP)。该技术已经开源,供公众探索和使用:

图11展示了在罗马船只数据集上通过我们的技术合成的新视图。与参考照片使用相同的曝光值进行渲染,右列中的每个像素误差都可视化呈现。

接下来,让我们深入探讨模型的管道工作原理。

第一步是可微分光栅化器(如图2左所示)。这一环节通过将每个点投影到图像空间,以相机参数为依据,将其呈现为单个像素大小的碎片。通过一项测试后,这些碎片将在神经渲染的图像输出中占据一个描述符。未被投影的像素点则填充为背景颜色。

由于点被渲染为单个像素大小的碎片,输出的图像可能会非常稀疏,这取决于点云的空间分辨率和相机距离。为了解决这个问题,我们采用多层渲染技术,以不同的比例渲染多个图层,使输出图像更为密集,并处理遮挡和照明问题。

神经渲染器(如图2中间)采用多分辨率神经图像生成单个高动态范围(HDR)输出图像。它基于一个四层全卷积U-Net架构,通过跳跃连接将较低分辨率的输入图像与中间特征张量相结合。下采样通过平均池化执行,上采样则通过双线性插值实现。

我们在网络设计中主要使用了门控卷积,这种技术最初是为填孔任务而开发的,因此非常适合处理稀疏点输入。

我们的网络架构与Aliev等人提出的架构类似,但减少了一层并做了一些修改,以支持HDR成像。我们移除了批归一化层,因为它们会将中间图像的均值和标准差归一化为固定值,导致传感器辐照度等关键信息丢失。对于场景的亮度范围非常大的情况,我们会以对数方式存储神经点描述符。

管道的最后一步(如图2右侧)是可学习的色调映射操作,它将渲染的HDR图像转换为低动态范围(LDR)图像。这个色调映射器模拟了数码相机的物理镜头和传感器的特性,因此能够捕捉到智能手机、数码单反相机和摄像机所呈现的LDR图像的特点。

尽管合成效果令人惊艳,但在实验过程中我们也发现了一些局限性。其中之一是寻找合适的超参数并不容易,因为参数空间非常大。必须仔细平衡纹理颜色、结构参数、色调映射设置和神经网络权重的学习速率。

点位置的优化对于较大的学习率来说是不稳定的。这个管道需要合理的初始点云作为输入,例如通过多视图立体系统或LiDaR扫描仪获得。

我们认为这些问题主要源于光栅化过程中的梯度逼近。对于相机模型和角度优化,由于空间梯度的平均效应,问题并不突出。对于点位置的优化,只有一个近似梯度用于更新坐标,因此需要非常低的学习率来平均随时间变化的点梯度。

由于是单像素点渲染,当相机过于接近物体或点云非常稀疏时,可能会出现孔洞。为了缓解这个问题,在实验中我们尝试了增加点密度的方法,但这并不是长久之计。未来的工作将聚焦于在放大过程中动态生成新的点,并赋予其内插神经描述符。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by