一种基于RGBD相机的无监督位姿估计网络构建方法与流程

专利2022-06-28  137


本发明属于计算机视觉领域,具体涉及一种基于rgbd相机的无监督位运动估计网络构建方法



背景技术:

slam(simultaneouslocalizationandmapping)即时定位和建图是机器视觉的一个重要研究方向,经过近30年的发展,slam及相关技术日渐成为机器人、图像处理、深度学习、运动恢复结构、增强现实等领域的研究热点。而从连续帧中恢复运动结构即sfm(structureofmotion)是其中的一大重点。虽然传统的sfm方法在许多情况下是高效的,但是需要依赖于精确的图像,易在低纹理、复杂的几何结构和光照、遮蔽等环境下失效。

为了解决这个问题,也随着近几年深度学习的发展,一些基于深度学习的方法被提出来,应用在传统sfm的各个阶段。由于深度学习的方法使用了大量的数据集用来训练,且这些方法在训练期间利用精准的外部监督,这使得在固定场景下的帧间估计变得更加准确,弥补了传统方法的不足之处。但是外部监督数据,特别是帧间的相对运动的真值不易获取,需要使用额外的传感器如imu、gps等,这使工作变得更加复杂,并且提高了成本。

近几年深度相机被广泛地使用于slam的研究,精准的彩色图和对应的深度图能够较容易且准确地获取。彩色图有丰富的特征信息,能够使用神经网络学习出特征表示,不同帧间的特征相关性也能被感知。而深度图提供了物体的距离信息。将深度图的距离信息和深度学习融合,结合几何知识,为网络的无监督提供新思路。



技术实现要素:

本发明的目的就是克服传统方法的不足和有监督深度学习的局限,提出了一种基于rgbd相机的无监督位姿估计网络构建方法。本方法不仅使用深度学习方法学习帧间转换的关系,还结合传统几何知识,利用网络生成的帧间变换关系和深度图的距离信息,结合传统的几何知识去指导网络生成更加准确的结果,以此达到无监督,并且通过一个正序逆序网络增加约束,使得网络的估计更加准确。具体步骤如下:

步骤(1):利用rgb-d相机获取同场景彩色图像和深度图像

使用rgb-d相机得到连续彩色图像和对应的连续深度图像其分辨率为h*w,h和w分别为图像的高和宽;选取t时刻彩色图像与其临近图像每张彩色图都是rgb三通道,将三张彩图以的形式拼接成一个9通道的序列其中feature指的是经卷积层后得到的特征图,0指的是第0次卷积操作;

步骤(2):基于位姿网络学习帧间结构关系

位姿网络由卷积神经网络构成,在每一次卷积层后都经过一层relu激活层;首先9通道序列经过一层卷积核大小为7*7的卷积层,然后再是一层卷积核大小为5*5的卷积层,接下来是五层卷积核为3*3的卷积层,得到通道数为256的然后在经过一层卷积核大小为1*1的卷积核实现降维,得到通道数为12的最后将h和w维度取平均数成一个数字,得到12维的一组数字;将数字拆分为两组6维数字,分别记为tt→t-1、tt→t 1;对于tt→t-1,前三位表示的坐标系平移,后三位是用欧拉角表示的坐标系旋转,tt→t 1表示同理;

步骤(3):利用帧间相机位姿关系,结合深度图的距离信息,利用几何知识完成自监督:

对于图像对应的深度图为与t 1时刻对应的图像之间的转换关系为tt→t 1;对于图像上的某点像素所对应上的像素为由相机投影模型和帧间三角关系可得对应到的像素有关系:

其中k为相机的内参;根据映射到所对应的空间,得到每个像素值所对应到的大小,再根据像素值大小和初始像素的位置,使用可微分双线性采样插值的方法得到的对应的合成图其中合成图的每个像素值不是简单的映射可微分双线性采样插值采取该像素四周的四个像素加权后得到;

其中i=top或者bottom,j=left或者right,代表周围的四个像素,其中wij代表四个像素的权值,有∑wij=1;合成视图后,与原来的视图两帧之间构成自监督,有损失函数:

以此达到利用depth图合成新图,构建光度误差来达到自监督无外部监督的目的;

步骤(4):通过掩膜网络来防止网络训练梯度被破坏

由于在前面步骤使用传统几何知识时,需要满足图像中无动态物体,无遮挡物体等前提,为了防止网络训练被抑制,提出了掩膜网络;掩膜网络与位姿网络共享前五层卷积网络,与位姿网络一起训练,采用上采样经过四层4*4卷积层,再经过一层3*3的卷积层得到一个序列相对应的掩膜对于每个像素所对应的掩膜则对于两帧之间的损失函数由公式(3)变为

步骤(5):通过逆序列网络来添加约束使网络更准确地估计帧间相对位姿

使用正序图像输入时,输入序列为逆序网络的图像输入为一个好的位姿估计网络不仅能估计正序时帧间的位姿关系,同样在图像序列以逆序输入的时候,也能估计帧间位姿,以此增加约束;对一个三张图片的序列,正序列时网络得到的位姿为逆序列得到的位姿为理想情况下,有但网络估计总有误差,以此误差增加约束,损失函数如下

表示正序列输入时网络估计的位移,表示逆序列输入时网络估计的位移,表示正序列输入时网络估计的旋转,表示逆序列输入时网络估计的旋转,ω表示权重;

以此增加约束来训练位姿网络,使网络能有准确估计帧间相对运动的能力。

本发明的有益效果:使用深度学习的方法,从彩色图的特征信息中寻找相邻帧之间的关联,并利用深度图提供的距离信息,结合传统的几何方法,使网络免去复杂的外部监督达到无监督学习,并且通过正序逆序网络增加约束,从而更准确地估计相机的运动。

附图说明

图1为本发明的单序流程图;

图2为图像重建过程;

图3为正序逆序联合网络。

具体实施方式

以下结合附图对本发明作进一步说明,本发明包括以下步骤:

步骤(1):利用rgb-d相机获取同场景彩色图像和深度图像

使用rgb-d相机得到连续彩色图像和对应的连续深度图像其分辨率为h*w,h和w分别为图像的高和宽。选取t时刻彩色图像与其临近图像每张彩色图都是rgb三通道,将三张彩图以的形式拼接成一个9通道的序列(其中feature指的是经卷积层后得到的特征图,0指的是第0次卷积操作)。

步骤(2):基于卷积神经网络学习帧间结构关系

位姿网络:主要由卷积神经网络构成,在每一次卷积层后都经过一层relu激活层。首先9通道序列经过一层卷积核大小为7*7的卷积层,然后再是一层卷积核大小为5*5的卷积层,接下来是五层卷积核为3*3的卷积层,得到通道数为256的然后在经过一层卷积核大小为1*1的卷积核实现降维,得到通道数为12的最后将h和w维度取平均数成一个数字,得到12维的一组数字。将数字拆分为两组6维数字,分别记为tt→t-1、tt→t 1。对于tt→t-1,前三位表示的坐标系平移,后三位是用欧拉角表示的坐标系旋转,tt→t 1表示同理。

步骤(3):利用帧间相机位姿关系,结合深度图的距离信息,利用几何知识完成自监督:对于图像对应的深度图为与t 1时刻对应的图像之间的转换关系为tt→t 1。对于图像上的某点像素所对应上的像素为由相机投影模型和帧间三角关系可得对应到的像素有关系:

其中k为相机的内参。根据映射到所对应的空间,我们易得每个像素值所对应到的大小,再根据像素值大小和初始像素的位置,使用可微分双线性采样插值的方法得到的对应的合成图其中合成图的每个像素值不是简单的映射可微分双线性采样插值采取该像素四周的四个像素加权后得到。如说明书附图图2所示

其中i=top或者bottom,j=left或者right,代表周围的四个像素,其中wij代表四个像素的权值,有∑wij=1。合成视图后,与原来的视图两帧之间构成自监督,有损失函数:

以此达到利用depth图合成新图,构建光度误差来达到自监督无外部监督的目的。

步骤(4):掩膜网络,用来防止网络训练梯度被破坏。由于在前面步骤使用传统几何知识时,需要满足图像中无动态物体,无遮挡物体等前提,为了防止网络训练被抑制,提出了掩膜网络。掩膜网络与位姿网络一起训练,采用上采样经过四层4*4卷积层,再经过一层3*3的卷积层得到一个序列相对应的掩膜对于每个像素所对应的掩膜则对于两帧之间的损失函数由公式(3)变为

步骤(5):逆序列网络,网络结构如图3所示,用来添加约束使网络更准确地估计帧间相对位姿。使用正序图像输入时,输入序列为逆序网络的图像输入为一个好的位姿估计网络不仅能估计正序时帧间的位姿关系,同样在图像序列以逆序输入的时候,也能估计帧间位姿,以此增加约束。对一个三张图片的序列,正序列时网络得到的位姿为逆序列得到的位姿为理想情况下,有但网络估计总有误差,以此误差增加约束,损失函数如下

表示正序列输入时网络估计的位移,表示逆序列输入时网络估计的位移,表示正序列输入时网络估计的旋转,表示逆序列输入时网络估计的旋转,ω表示权重。

以此增加约束来训练位姿网络,使网络能有准确估计帧间相对运动的能力。


技术特征:

1.一种基于rgbd相机的无监督位姿估计网络构建方法,其特征在于,具体步骤如下:

步骤(1):利用rgb-d相机获取同场景彩色图像和深度图像

使用rgb-d相机得到连续彩色图像和对应的连续深度图像其分辨率为h*w,h和w分别为图像的高和宽;选取t时刻彩色图像与其临近图像每张彩色图都是rgb三通道,将三张彩图以的形式拼接成一个9通道的序列其中feature指的是经卷积层后得到的特征图,0指的是第0次卷积操作;

步骤(2):基于位姿网络学习帧间结构关系

位姿网络由卷积神经网络构成,在每一次卷积层后都经过一层relu激活层;首先9通道序列经过一层卷积核大小为7*7的卷积层,然后再是一层卷积核大小为5*5的卷积层,接下来是五层卷积核为3*3的卷积层,得到通道数为256的然后在经过一层卷积核大小为1*1的卷积核实现降维,得到通道数为12的最后将h和w维度取平均数成一个数字,得到12维的一组数字;将数字拆分为两组6维数字,分别记为tt→t-1、tt→t 1;对于tt→t-1,前三位表示的坐标系平移,后三位是用欧拉角表示的坐标系旋转,tt→t 1表示同理;

步骤(3):利用帧间相机位姿关系,结合深度图的距离信息,利用几何知识完成自监督:

对于图像对应的深度图为与t 1时刻对应的图像之间的转换关系为tt→t 1;对于图像上的某点像素所对应上的像素为由相机投影模型和帧间三角关系可得对应到的像素有关系:

其中k为相机的内参;根据映射到所对应的空间,得到每个像素值所对应到的大小,再根据像素值大小和初始像素的位置,使用可微分双线性采样插值的方法得到的对应的合成图其中合成图的每个像素值不是简单的映射可微分双线性采样插值采取该像素四周的四个像素加权后得到;

其中i=top或者bottom,j=left或者right,代表周围的四个像素,其中wij代表四个像素的权值,有∑wij=1;合成视图后,与原来的视图两帧之间构成自监督,有损失函数:

以此达到利用depth图合成新图,构建光度误差来达到自监督无外部监督的目的;

步骤(4):通过掩膜网络来防止网络训练梯度被破坏

掩膜网络与位姿网络共享前五层卷积网络,与位姿网络一起训练,采用上采样经过四层4*4卷积层,再经过一层3*3的卷积层得到一个序列相对应的掩膜itmask,对于每个像素所对应的掩膜ptmask,则对于两帧之间的损失函数由公式(3)变为

步骤(5):通过逆序列网络来添加约束使网络更准确地估计帧间相对位姿

使用正序图像输入时,输入序列为逆序网络的图像输入为一个好的位姿估计网络不仅能估计正序时帧间的位姿关系,同样在图像序列以逆序输入的时候,也能估计帧间位姿,以此增加约束;对一个三张图片的序列,正序列时网络得到的位姿为逆序列得到的位姿为理想情况下,有但网络估计总有误差,以此误差增加约束,损失函数如下

表示正序列输入时网络估计的位移,表示逆序列输入时网络估计的位移,表示正序列输入时网络估计的旋转,表示逆序列输入时网络估计的旋转,ω表示权重;

以此增加约束来训练位姿网络,使网络能有准确估计帧间相对运动的能力。

技术总结
本发明公开了一种基于RGBD相机的无监督位姿估计网络构建方法。根据图像估计相机的运动是目前视觉移动机器人的一大研究课题。传统的方法易在低纹理、复杂的几何结构和光照、遮蔽等环境下失效。而大多数基于深度学习的方法又需要额外的监督数据,这使得工作变得复杂,而且提高了成本。本发明使用卷积神经网络的方法弥补传统方法的不足,并且利用深度图像的距离信息,结合传统的几何知识,利用正序逆序输入增加约束,使得网络能准确估计相机的位姿。

技术研发人员:杨宇翔;潘耀辉;高明煜;何志伟;黄继业;董哲康
受保护的技术使用者:杭州电子科技大学
技术研发日:2020.01.13
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-10039.html

最新回复(0)