本发明属于手势估计领域,尤其是涉及一种三维跟踪的手势观测似然建模方法。
背景技术:
随着人工智能技术的发展和普及,手势姿态的建模与识别被越来越多的应用在了人类情感识别和智能交通控制之中,想要得到较好的理解和识别结果就必须要建立一种高效的手势模型,其中尤其是以手势的状态跟踪在手势理解和识别中应用的最为广泛,但是目前使用的手势建模方法在后期具体识别中还是遵循着梯度下降的原则、因此避免不了陷入到局部极小的尴尬,为了解决这一问题本发明提出了一种基于三维跟踪的手势观测似然建模方法的手势建模,因此本发明面向三维跟踪的手势观测释然模型也在此背景下应运而生。
技术实现要素:
有鉴于此,本发明旨在提出一种三维跟踪的手势观测似然建模方法,以解决上述背景技术中提到的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种三维跟踪的手势观测似然建模方法,利用经典三维手势建模方法的前景信息与chamfer距离匹配的高维度井深信息进行手势观测似然建模,根据手势轮廓和经典三维手势建模结果得到三维跟踪的手势观测似然模型。
进一步的,所述手势观测似然建模方法包括高维井深图像信息的预处理以及高维井深图像信息手势相似性度量。
进一步的,所述高维井深图像信息的预处理包括手势相似性度量预处理,具体包括采集手势数据源,然后进行手势分割、手势增强、手势建模以及边缘检测。
进一步的,还包括在采集手势数据前对干扰信号做预处理,具体包括依次调用creatcaputurewindow()方法建立数据源的捕捉窗口、调用craetwebdriver()方法构建手势摄像机与vs之间的连接、调用dlgcammorsource()方法完成对于摄像机捕捉手势图像相关参数的设定,最后使用cameracallbackimg()方法的回调指针指向捕捉窗口完成数字图像的传递,每一次传递之后vs都会自动判断一下捕获的对象是否满足最小帧频率规则,满足的话继续捕捉数字信号,否则要对图像重新进行采样提取。
进一步的,所述高维井深图像信息手势相似性度量具体包括,首先定义两个数据点
然后构造各个数字图元的扫描和遍历过程:我们首先定义p和p分别代表二值图中的高维井深像素集和三维手势建模像素集,本文采用如式子(1-3)所示的二值图元法进行一次遍历,即当下一边缘图像的点坐标元素不再属于边缘时一次扫描的结果记为0,当下一边缘图像的点坐标元素属于边缘时一次扫描的结果在上一状态上 1,并最终采用最小化处理,这是为了保证chamfer距离具有一定的数字帧梯度。
f1(p)=min{f1(q) 1:q∈b(p)}fp∈<p>(1-3)
然后我们定义p的坐标为(x,y),在该点处的四邻域分别存在(x 1,y),(x-1,y),(x,y 1)和(x,y-1)四个元素点,对于经过第一次扫描的边缘点要进行如式子(1-4)所示的第二次扫描,这样的处理可以保证二阶梯度的井深可以匹配经典三维手势建模得到的模型。为了保证两次扫描的精度可以相互叠加所以采取与第一次扫描相反的方向进行二次扫描。
f2(p)=min{f1(p),f2(q) 1:q∈a(p)}(1-4)
在将边缘引入chamfer距离变换之后就可以定义经典三维手势模型的边缘与手势轮廓的手势相似性度量,如式子(3-5)所示,这样就可以得到三维跟踪的手势观测似然信息。
pedge=exp(-dchamfef(edge,counter))(1-5)。
进一步的,所述经典三维手势模型的相似性度量包括定义经典三维手势模型前景信息和高阶投影手势信息的相似性似然函数,如式子(1-6)所示,其中的并集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点的最大合并像素区域、其中的交集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点共同的区域,这样形成的相似性度量记作pforeground,由表达式可以看出后者的相似性度量在经典模型的基础上增添了高阶投影手势信息。
相对于现有技术,本发明所述的一种三维跟踪的手势观测似然建模方法具有以下优势:本发明通过三维跟踪的手势观测似然建模方法和高维井深图像信息手势相似性度量方法建立三维跟踪的手势观测似然模型,验证了该模型的有效性,应用该模型能够提高手势识别的效率以及精度。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的手势相似性度量预处理示意图;
图2为本发明实施例所述的canny边缘检测结果示意图;
图3为本发明实施例所述的经典模型基础上增设高阶投影手势信息的相似性度量结果示意图;
图4为本发明实施例所述的实验结果示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
11高维井深图像信息的预处理
我们定义手势状态模型和手势所处的场景信息即为相似性度量似然模型,手势状态模型本文第二章提出的经典三维手势建模方法,手势所处的场景信息主要涉及三维场景的深度信息相似性度量提取,然后将经典三维手势建模方法的前景信息与chamfer距离匹配的高维度井深信息进行手势观测似然建模方法的创建,根据手势轮廓和经典三维手势建模结果即可得到三维跟踪的手势观测似然模型。
对于手势相似性度量我们首先要按照图1的表述进行基础的预处理,手势原始信号取自于标定摄像机,但是由于摄像机在采集图像过程中会出现过度曝光、非高斯环境介入等干扰事件,这就使得采集到的手势数字图像出现较为严重的畸变,这种畸变会在很大程度上影响后期手势姿态的识别,所以必须预先对干扰信号做出预处理操作,以满足高质量数字图像处理的需要。
手势图像获取是预处理过程的第一步,本文建立在c 集成开发环境的opencv库函数之下,所以可以依次调用creatcaputurewindow()方法建立数据源的捕捉窗口、调用craetwebdriver()方法构建手势摄像机与vs之间的连接、调用dlgcammorsource()方法完成对于摄像机捕捉手势图像相关参数的设定,最后使用cameracallbackimg()方法的回调指针指向捕捉窗口完成数字图像的传递,每一次传递之后vs都会自动判断一下捕获的对象是否满足最小帧频率规则,满足的话继续捕捉数字信号、否则要对图像重新进行采样提取。
手势图像序列化是在三维rgb数字图像信号中添加第四时间维度,一般采用settimecaputure()方法予以设定,当图像有了关于时间的第四维度之后就可以采用分割和增强等各类数字图像处理方法进行相应的处理了。我们知道数字图像处理是建立在灰度图像的基础上的,所以这里有必要给出数字图像处理的灰度化,拉普拉斯算子是对彩色rgb图像进行矫正的常用算子,这里我们不加证明的给出结论可以采用如式子(3-1)所示的拉普拉斯灰度级变换对彩色手势图像进行灰度化处理:
gray(x,y)=0.286*r(x,y) 0.584*g(x,y) 0.128*b(x,y)(1-1)
随后进行canny边缘检测,要用高斯滤波器平滑图像、用一阶偏导的有限差分来计算梯度的幅值和方向,然后对角点进行提取深度信息,对联合的canny检测图像进行非极大值抑制,最后用双阈值算法检测和连接边缘,并进行滞后阈值处理,就可以得到边缘检测的高维度井深信息。尽管边缘检测可以最大程度上提取出背景的深度信息,但是依然会由于角点提取的不充分而造成边缘不连续问题,为此我们提出了一种根据手型拓扑学信息形成的chamfer距离变换,利用拓扑的互补作用可以将缺失的轮廓进行补全。边缘检测结果如图2所示。
12高维井深图像信息手势相似性度量
我们首先定义两个数据点
然后构造各个数字图元的扫描和遍历过程:我们首先定义p和
f1(p)=min{f1(q) 1:q∈b(p)}fp∈<p>(1-3)
然后我们定义p的坐标为(x,y),在该点处的四邻域分别存在(x 1,y),(x-1,y),(x,y 1)和(x,y-1)四个元素点,对于经过第一次扫描的边缘点要进行如式子(1-4)所示的第二次扫描,这样的处理可以保证二阶梯度的井深可以匹配经典三维手势建模得到的模型。为了保证两次扫描的精度可以相互叠加所以采取与第一次扫描相反的方向进行二次扫描。
f2(p)=min{f1(p),f2(q) 1:q∈a(p)}(1-4)
在将边缘引入chamfer距离变换之后就可以定义经典三维手势模型的边缘与手势轮廓的手势相似性度量,如式子(3-5)所示,这样就可以得到三维跟踪的手势观测似然信息。
pedge=exp(-dchamfef(edge,counter))(1-5)
1.3经典三维手势模型相似性度量
在得到了高阶投影手势信息的相似性度量之后我们还要进行经典三维手势模型的相似性度量,以便得到观测似然模型。首先我们定义经典三维手势模型前景信息和高阶投影手势信息的相似性似然函数,如式子(1-6)所示,其中的并集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点的最大合并像素区域、其中的交集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点共同的区域,这样形成的相似性度量记作pforeground,由表达式可以看出后者的相似性度量在经典模型的基础上增添了高阶投影手势信息。
如图3所示,第一幅图表示了原始的手势信息,第二幅图表示了高阶信息增加到了手势投影之中,其中的绿色信息表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点的最大合并像素区域,蓝色部分表示典三维手势模型前景信息像素点与高阶投影手势信息像素点共同的区域。
1.4本次发明实验结果
本次试验是录入者保持手掌姿态不变、而食指的姿态产生按照x坐标轴的平移运动、按照y坐标轴的慢速旋转运动和沿着z坐标轴进行的慢速旋转运动组成的,然后我们根据实验的特征选取了三组有代表性的手型运动分别表示手掌的平动和手指绕两个轴的转动,如图4所示,每幅图的左侧表示经典三维跟踪的手势与具有高阶投影手势信息,从图中可以观察的到两者融合新的三维跟踪的手势观测似然模型结果能够很好的匹配三维跟踪的手势观测似然模型基础平台原有的手势信息,取得了较好的建模效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种三维跟踪的手势观测似然建模方法,其特征在于:利用经典三维手势建模方法的前景信息与chamfer距离匹配的高维度井深信息进行手势观测似然建模,根据手势轮廓和经典三维手势建模结果得到三维跟踪的手势观测似然模型。
2.根据权利要求1所述的一种三维跟踪的手势观测似然建模方法,其特征在于:所述手势观测似然建模方法包括高维井深图像信息的预处理以及高维井深图像信息手势相似性度量。
3.根据权利要求2所述的一种三维跟踪的手势观测似然建模方法,其特征在于:所述高维井深图像信息的预处理包括手势相似性度量预处理,具体包括采集手势数据源,然后进行手势分割、手势增强、手势建模以及边缘检测。
4.根据权利要求3所述的一种三维跟踪的手势观测似然建模方法,其特征在于:还包括在采集手势数据前对干扰信号做预处理,具体包括依次调用creatcaputurewindow()方法建立数据源的捕捉窗口、调用craetwebdriver()方法构建手势摄像机与vs之间的连接、调用dlgcammorsource()方法完成对于摄像机捕捉手势图像相关参数的设定,最后使用cameracallbackimg()方法的回调指针指向捕捉窗口完成数字图像的传递,每一次传递之后vs都会自动判断一下捕获的对象是否满足最小帧频率规则,满足的话继续捕捉数字信号,否则要对图像重新进行采样提取。
5.根据权利要求1所述的一种三维跟踪的手势观测似然建模方法,其特征在于:所述高维井深图像信息手势相似性度量具体包括,首先定义两个数据点
然后构造各个数字图元的扫描和遍历过程:我们首先定义p和p分别代表二值图中的高维井深像素集和三维手势建模像素集,本文采用如式子(1-3)所示的二值图元法进行一次遍历,即当下一边缘图像的点坐标元素不再属于边缘时一次扫描的结果记为0,当下一边缘图像的点坐标元素属于边缘时一次扫描的结果在上一状态上 1,并最终采用最小化处理,这是为了保证chamfer距离具有一定的数字帧梯度。
f1(p)=min{f1(q) 1:q∈b(p)}fp∈<p>(1-3)
然后我们定义p的坐标为(x,y),在该点处的四邻域分别存在(x 1,y),(x-1,y),(x,y 1)和(x,y-1)四个元素点,对于经过第一次扫描的边缘点要进行如式子(1-4)所示的第二次扫描,这样的处理可以保证二阶梯度的井深可以匹配经典三维手势建模得到的模型。为了保证两次扫描的精度可以相互叠加所以采取与第一次扫描相反的方向进行二次扫描。
f2(p)=min{f1(p),f2(q) 1:q∈a(p)}(1-4)
在将边缘引入chamfer距离变换之后就可以定义经典三维手势模型的边缘与手势轮廓的手势相似性度量,如式子(3-5)所示,这样就可以得到三维跟踪的手势观测似然信息。
pedge=exp(-dchamfef(edge,counter))(1-5)。
6.根据权利要求1所述的一种三维跟踪的手势观测似然建模方法,其特征在于:所述经典三维手势模型的相似性度量包括定义经典三维手势模型前景信息和高阶投影手势信息的相似性似然函数,如式子(1-6)所示,其中的并集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点的最大合并像素区域、其中的交集表示经典三维手势模型前景信息像素点与高阶投影手势信息像素点共同的区域,这样形成的相似性度量记作pforeground,由表达式可以看出后者的相似性度量在经典模型的基础上增添了高阶投影手势信息。
pforeground=exp{-[sforeground∪sprojection]-[sforeground∩sprojection]}(1-6)。
技术总结