本发明属于行为识别的技术领域,具体涉及一种基于交互建模的第一人称视角视频交互行为识别方法。
背景技术:
目前主要的第一人称群体行为识别方法分为两类,一类使用运动轨迹、光流等手工设计的运动特征,结合支持向量机等传统的分类器;另一类使用深度学习进行特征学习,这一类方法采用和第三人称视角的视频行为识别相类似的模型,使用卷积神经网络和长短时记忆模型从视频帧中直接学习行为特征。
上述现有技术的主要缺点是没有显式建模摄像头佩戴者和交互者之间的交互关系。现有技术通常直接学习交互行为的整体特征,但第一人称视角的交互行为是由摄像头佩戴者和交互者之间的交互产生的,显式对这一交互关系进行建模能更好地描述交互行为,现有技术缺乏显式的交互建模,因此无法很好地描述交互行为。
技术实现要素:
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于交互建模的第一人称视角视频交互行为识别方法,本发明能很好的对第一人称视角的交互行为进行描述和识别,并在常用的第一人称视角交互行为研究数据集上取得当前较优的识别结果。
为了达到上述目的,本发明采用以下技术方案:
基于交互建模的第一人称视角视频交互行为识别方法,包括下述步骤:
s1、将摄像头佩戴者和交互者显式分离,分别学习二者的行为特征,包括:
s1.1、通过注意力模块将交互者从背景中分离出来;
s1.2、分别提取和学习摄像头佩戴者和交互者的行为特征,所述行为特征包括静态外观特征和动态运动特征;所述静态外观特征为摄像头佩戴者看见的静态视觉内容的特征,即对应摄像头佩戴者的视频帧it的全局外观特征,以及对应交互者的视频帧it的局部外观特征;
s1.3、运动特征学习,对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的;对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵d∈rhxw来表示交互者的运动信息,并通过和注意力模块生成的掩码mt(3)逐渐相乘,使运动矩阵d只作用于交互者而不作用于背景;
s1.4、对于每一对相邻的视频帧it-1,it,通过上述的注意力模块和运动模块分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ftl,a和运动特征ftl,m。摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ftl,a,ftl,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模。
s2、对偶交互关系建模;
s2.1、构建用于交互建模的长短时记忆模块;
s2.2、用于交互建模的长短时记忆模块通过把对偶模块在上一帧的输出作为当前帧的输入,显式建模了摄像头佩戴者和交互者的交互关系。
作为优选的技术方案,步骤s1.1中,所述注意力模块具体为:
对视频中的相邻两者it-1,it∈rhxwx3,其中t是帧号,h,w分别是视频帧的高度和宽度,3是视频帧的通道数,表示rgb三通道,用一个深度卷积神经网络分别提取特征,得到这两帧对应的视觉特征ft-1,ft∈rh0xw0xc,其中h0,w0分别为特征图的高和宽,c为特征的通道数,这些特征提取了视频中的静态外观信息;所述注意力模块在视觉特征ft基础上添加一系列反卷积层,得到一组不同大小的掩码mt(0),mt(1),mt(2),mt(3),其中mt(0)的大小是h0xw0,即与特征图ft大小相同,而mt(3)的大小是hxw,即与视频帧it的大小相同,mt(0)用于从特征ft中将交互者的外观特征分离出来,而mt(3)用于后续的运动特征模块。
作为优选的技术方案,还包括下述步骤:
在注意力模块中引入人体解析模型和一个对应的人体分割损失辅助注意力模块进行学习,具体为:
使用已有的人体解析模型jppnet对视频帧it生成对应的参考掩码mtrf,注意力模型对应的人体分割损失为:
作为优选的技术方案,步骤s1.2中,所述静态外观特征,通过下述方式提取:
基于注意力模块生成的掩码mt(0),分别提取摄像头佩戴者和交互者的静态外观特征,对于摄像头佩戴者,其在第一人称视频中是不可见的,因此其静态外观特征定义为摄像头佩戴者看见的静态视觉内容的特征,即视频帧it的全局外观特征:
其中i,j为特征图ft上的二维坐标索引,全局外观特征ftg,a是维度为c的向量;
对于交互者,注意力模块生成的掩码mt(0)给出了交互者的空间位置信息,交互者的静态外观特征可以通过视频帧的外观特征ft和掩码mt(0)得到:
作为优选的技术方案,步骤s1.3中,所述动态特征为:
对于摄像头佩戴者,使用一个全局变换矩阵t∈r3x3描述全局运动信息,对视频帧中的每一像素位置(x,y),将其扩展为三维向量p=(x,y,1)t后,用全局变换矩阵t进行变换t*p,变换结果等价于对视频帧进行旋转、缩放和平移;
对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵d∈rhxw来表示交互者的运动信息,并通过和注意力模块生成的掩码mt(3)逐渐相乘,使运动矩阵d只作用于交互者而不作用于背景,给定全局变换矩阵t和局部运动矩阵d,以及t-1帧的坐标矩阵xt-1,预测t帧的坐标矩阵xt:
由预测得到的t帧坐标矩阵xt,通过插值的方式重构出t帧视频帧it,并通过重构出的视频帧和真实视频帧之间的重构损失对t和m进行学习:
其中x是各个二维空间坐标的索引。
作为优选的技术方案,所述全局变换矩阵t和局部运动矩阵d是由运动模块生成的,运动模块以t-1帧和t帧的视觉特征ft-1,ft作为输入,将ft-1和ft进行乘法性比较计算其相关性,并结果与ft-1和ft按通道方向进行拼接得到新的特征图,在此特征图基础上添加一个卷积层,然后分别输入两个分支,其中一个分支进行全局池化得到对应于摄像头佩戴者的全局运动特征ftg,m,并在这一全局特征上添加全连接层得到全局变换矩阵t;另一个分支与注意力模块生成的掩码mt(0)进行逐点相乘,得到的特征添加三个反卷积层和一个卷积层得到对应于视频帧大小的局部运动矩阵d,反卷积层之前的特征进行全局池化则得到对应于交互者的局部运动特征ftl,m。
作为优选的技术方案,步骤s2.1中,构建用于交互建模的长短时记忆模块具体为:
摄像头佩戴者和交互者的个体行为特征分别输入对应的长短时记忆模块,这两个模块互为对偶模块,采用对称的更新方式:
[it;ot;gt;at]=σ(wft uft-1 jt-1 b)
ct=itat gtct-1
ft=ottanh(ct)
其中it,ot,gt,at分别是长短时记忆模块的输入门限值,输出门限值,遗忘门限值和输入特征,σ是非线性函数sigmoid函数,φ是线性整流函数,ft是摄像头佩戴者或交互者的个体行为特征,ct是长短时记忆模块的中间特征,ft则是对应的长短时记忆模块的输出特征,ft*是对偶模块的输出特征。
作为优选的技术方案,步骤s2.2中,还包括下述步骤:
将两个长短时记忆模块在视频的最后一帧n时的输出逐点相加并通过非线性操作得到融合后的特征:
在rn上添加一个线性分类器,并通过softmax函数可以得到对应于各个行为类别的概率:
p(y|rn)=softmax(wrn b)
使用交叉熵损失函数对分类结果进行优化:
其中yk为类别k的标签,即如果行为类别编号为k,则yk=1,否则yk=0;k为总的类别数。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出将摄像头佩戴者和交互者显式分离并分别学习其特征,通过一个注意力模块将交互者从背景中分离出来,从而得到分别对应于摄像头佩戴者和交互者的静态外观特征,并通过一个运动模块分别学习对应于摄像头佩戴者和交互者的运动特征。基于二者的行为特征,本发明进一步提出用于显式交互关系建模的长短时记忆模块,从而对摄像头佩戴者和交互者之间的交互行为进行描述和识别。通过本发明的技术方案,能够很好地对第一人称视角下的不同交互行为进行识别和分类,并且获得在各个研究数据集上的较优性能。因此,本发明提出的基于显式交互建模的第一人称视角交互行为识别模型是一种有效的交互行为识别模型,能够在智能可穿戴设备系统中下进行部署,从而使得智能系统能自动识别和处理不同的交互行为。
附图说明
图1是本发明注意力模块的结构示意图。
图2是本发明运动模块的结果示意图;
图3是本发明用于交互建模的长短时记忆模块结构示意图。
图4是本发明基于交互建模的第一人称视角视频交互行为识别方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明所要解决的问题是,给定一个视频片段,智能视频分析系统需要对视频中人的行为类别进行识别。对基于可佩戴设备的智能视频分析系统,摄像头佩戴在某一个人身上,此时视频为第一人称视角,需要对第一人称视角下佩戴人与他人的交互行为类别进行识别。目前主要的第一人称视角交互行为识别方法主要是采用和第三人称视角下行为识别相类似的方法,直接从视频整体的静态外观和动态运动信息中进行特征学习,没有显式地将摄像头佩戴者和与其产生交互行为的交互者分离开并建模两者间的关系。本发明关注单一视角下的第一人称视角交互行为识别问题,提出一种将摄像头佩戴者和交互者显式分离分别学习特征,并用对偶的关系模型建模两者之间关系的方法。为了将摄像头佩戴者和交互者显式分离,本发明在深度卷积神经网络的特征上提出一个注意力模块,使用人体解析算法辅助该注意力模块进行学习,使其能够将交互者及其周围的信息从背景中分离出来;为了分别学习摄像头佩戴者和交互者的运动特征,本发明在注意力模块的基础上进一步提出一个运动信息模块,针对摄像头佩戴者和交互者分别学习一个全局运动矩阵和一个密集的局部运动矩阵,将这两个矩阵作用在视频中的某一帧上以尝试重构出其对应的下一帧,并通过重构误差学习这两个运动矩阵及其对应的运动特征。本发明进一步将学习的运动特征和基于卷积神经网络的静态外观特征相结合,并提出了一个对偶的长短时记忆模型以建模摄像头佩戴者和交互者之间的关系。通过将摄像头佩戴者和交互者显式分离分别学习特征,并建模二者之间的交互关系,本发明提出的模型能很好地对第一人称视角下的交互行为进行描述和识别,并在常用的第一人称视角交互行人识别数据集上取得了当前最优的结果。
如图4所示,本实施例基于交互建模的第一人称视角视频交互行为识别方法,具体包括下述步骤:
s1、个体行为特征表达:
为了显式建模摄像头佩戴者和交互者之间的交互关系,我们首先需要将二者进行分离,并分别学习二者的行为特征。这里主要包括两个步骤,第一步是通过一个注意力模块将交互者从背景中分离出来,第二步是分别提取和学习摄像头佩戴者和交互者的行为特征,包括静态外观特征和动态运动特征。
s1.1、注意力模块;
注意力模块的作用是在第一人称视角视频中,从背景中将交互者分离出来。对视频中的相邻两者it-1,it∈rhxwx3,其中t是帧号,h,w分别是视频帧的高度和宽度,3是视频帧的通道数,表示rgb三通道,我们用一个深度卷积神经网络resnet-50分别提取特征,得到这两帧对应的视觉特征ft-1,ft∈rh0xw0xc,其中h0,w0分别为特征图的高和宽,c为特征的通道数。这些特征提取了视频中的静态外观信息。本发明提出的注意力模块在视觉特征ft基础上添加一系列反卷积层,得到一组不同大小的掩码mt(0),mt(1),mt(2),mt(3),其中mt(0)的大小是h0xw0,即与特征图ft大小相同,而mt(3)的大小是hxw,即与视频帧it的大小相同。mt(0)用于从特征ft中将交互者的外观特征分离出来,而mt(3)用于后续的运动特征模块。
为了使注意力模块生成的掩码mt(k)(k=0,1,2,3)能够将交互者从背景中分离出来,引入人体解析模型和一个对应的人体分割损失辅助注意力模块进行学习。具体而言,使用已有的人体解析模型jppnet对视频帧it生成对应的参考掩码mtrf,注意力模型对应的人体分割损失为:
s1.2、静态外观特征提取;
基于注意力模块生成的掩码mt(0),可以分别提取摄像头佩戴者和交互者的静态外观特征。对于摄像头佩戴者,其在第一人称视频中是不可见的,因此其静态外观特征定义为摄像头佩戴者看见的静态视觉内容的特征,即视频帧it的全局外观特征:
其中i,j为特征图ft上的二维坐标索引,全局外观特征ftg,a是维度为c的向量。
对于交互者,注意力模块生成的掩码mt(0)给出了交互者的空间位置信息,交互者的静态外观特征可以通过视频帧的外观特征ft和掩码mt(0)得到:
这一特征描述了交互者的局部静态外观信息。
s1.3、运动特征学习:
要描述视频行为,仅依赖静态外观信息是不够的,还需要从视频中提取动态运动信息,并分别对摄像头佩戴者和交互者学习对应的运动特征。对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的。使用一个全局变换矩阵t∈r3x3描述这一全局运动信息。对视频帧中的每一像素位置(x,y),将其扩展为三维向量p=(x,y,1)t后,用全局变换矩阵t进行变换t*p,变换结果等价于对视频帧进行旋转、缩放和平移。由于视频帧中的每一个像素都进行了相同的变换,因此这一变换t所对应的运动信息是全局性的。
对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵d∈rhxw来表示交互者的运动信息,并通过和注意力模块生成的掩码mt(3)逐渐相乘,使运动矩阵d只作用于交互者而不作用于背景。给定全局变换矩阵t和局部运动矩阵d,以及t-1帧的坐标矩阵xt-1,可以预测t帧的坐标矩阵xt:
由预测得到的t帧坐标矩阵xt,可以通过插值的方式重构出t帧视频帧it,并通过重构出的视频帧和真实视频帧之间的重构损失对t和m进行学习:
其中x是各个二维空间坐标的索引。
全局变换矩阵t和局部运动矩阵d是由运动模块生成的。运动模块以t-1帧和t帧的视觉特征ft-1,ft作为输入,将ft-1和ft进行乘法性比较计算其相关性,并结果与ft-1和ft按通道方向进行拼接得到新的特征图,在此特征图基础上添加一个卷积层,然后分别输入两个分支,其中一个分支进行全局池化得到对应于摄像头佩戴者的全局运动特征ftg,m,并在这一全局特征上添加全连接层得到全局变换矩阵t;另一个分支与注意力模块生成的掩码mt(0)进行逐点相乘,得到的特征添加三个反卷积层和一个卷积层得到对应于视频帧大小的局部运动矩阵d,反卷积层之前的特征进行全局池化则得到对应于交互者的局部运动特征ftl,m,运动模块的参数通过上述的重构损失进行学习。图2给出了运动模块的结果示意图。
s1.4、个体行为特征:
对于每一对相邻的视频帧it-1,it,通过上述的注意力模块和运动模块分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ftl,a和运动特征ftl,m。摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ftl,a,ftl,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模。
s2、对偶交互关系建模;
s2.1、用于交互建模的长短时记忆模块;
第一人称视角的交互行为涉及摄像头佩戴者和交互者两人之间的交互,因此只使用摄像头佩戴者和交互者的个体行为特征进行识别效果不佳。为了建模二者之间的交互关系,本发明提出一个用于交互建模的长短时记忆模块。摄像头佩戴者和交互者的个体行为特征分别输入对应的长短时记忆模块(longshort-termmemory,lstm),这两个模块互为对偶模块,采用对称的更新方式:
[it;ot;gt;at]=σ(wft uft-1 jt-1 b)
ct=itat gtct-1
ft=ottanh(ct)
其中it,ot,gt,at分别是长短时记忆模块的输入门限值,输出门限值,遗忘门限值和输入特征,σ是非线性函数sigmoid函数,φ是线性整流函数(rectifiedlinearunit,relu),ft是摄像头佩戴者或交互者的个体行为特征,即1.1.4节中的ftego或ftexo,ft则是对应的长短时记忆模块的输出特征,ft*是对偶模块的输出特征。即若对于摄像头佩戴者,其长短时记忆模块的输入特征ft为ftego,输出特征为ft,则ft*为对应于交互者的长短时记忆模块的输出特征,反之亦然。w,u,v,b,v为长短时记忆模块的可学习参数。对于常规的长短时记忆模块,t帧的输入包括t帧的特征和该模块本身在t-1帧的输出;而对于本发明提出的用于建模交互关系的长短记忆模块,t帧的输入不仅包含t帧的特征和该模块t-1帧的输出,还包括其对偶模块在t-1帧的输出,这一特征使该模块能建模摄像头携带者和交互者之间的交互关系。用于交互建模的长短时记忆模块的模型结构如图3所示。
s2.2、交互行为识别;
上述用于交互建模的长短时记忆模块通过把对偶模块在上一帧的输出作为当前帧的输入,显式建模了摄像头佩戴者和交互者的交互关系。最后,为了对交互行为进行识别,将两个长短时记忆模块在视频的最后一帧n时的输出逐点相加并通过非线性操作得到融合后的特征:
在rn上添加一个线性分类器,并通过softmax函数可以得到对应于各个行为类别的概率:
p(y|rn)=softmax(wrn b)
使用交叉熵损失函数对分类结果进行优化:
其中yk为类别k的标签,即如果行为类别编号为k,则yk=1,否则yk=0;k为总的类别数。
s2.3、模型的整体学习
对于已经定义了一个用于辅助注意力模块进行学习的人体解析损失lseg、用于运动特征学习的重构损失lrec、用于对交互行为进行分类的损失lcls。模型整体的损失函数为这三个损失函数的加权和:
l=lcls αlseg βlrec
其中α,β分别是lseg和lrec的权重,提出的整体模型根据上述损失函数进行端到端的学习。
目前基于深度学习的第一人称视角交互行为识别主要是通过把摄像头佩戴者和交互者之间的交互行为看成一个整体,来学习和交互行为相关的外观和运动特征。然而,交互行为涉及的是两个人之间的交互,二者有不同的外观和运动信息,二者各自的外观和运动信息以及二者间的交互关系共同决定了交互行为的类别。直接从整体对交互行为进行描述,能以有效表达交互关系。本发明提出的方案先通过注意力模块和运动模块分别学习对应于摄像头佩戴者和交互者的外观和运动特征,再通过长短时记忆模块显式建模二者间的交互关系,以获得对交互行为的描述。这种建模方式与第一人称视角的交互行为的特点更加符合,因此本发明提出的方法能够更好地描述第一人称视角的交互行为,进而帮助交互行为识别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
1.基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,包括下述步骤:
s1、将摄像头佩戴者和交互者显式分离,分别学习二者的行为特征,包括:
s1.1、通过注意力模块将交互者从背景中分离出来;
s1.2、分别提取和学习摄像头佩戴者和交互者的行为特征,所述行为特征包括静态外观特征和动态运动特征;所述静态外观特征为摄像头佩戴者看见的静态视觉内容的特征,即对应摄像头佩戴者的视频帧it的全局外观特征,以及对应交互者的视频帧it的局部外观特征;
s1.3、运动特征学习,对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的;对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵d∈rhxw来表示交互者的运动信息,并通过和注意力模块生成的掩码mt(3)逐渐相乘,使运动矩阵d只作用于交互者而不作用于背景;
s1.4、对于每一对相邻的视频帧it-1,it,通过上述的注意力模块和运动模块分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ftl,a和运动特征ftl,m,摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ftl,a,ftl,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模;
s2、对偶交互关系建模;
s2.1、构建用于交互建模的长短时记忆模块;
s2.2、用于交互建模的长短时记忆模块通过把对偶模块在上一帧的输出作为当前帧的输入,显式建模了摄像头佩戴者和交互者的交互关系。
2.根据权利要求1所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,步骤s1.1中,所述注意力模块具体为:
对视频中的相邻两者it-1,it∈rhxwx3,其中t是帧号,h,w分别是视频帧的高度和宽度,3是视频帧的通道数,表示rgb三通道,用一个深度卷积神经网络分别提取特征,得到这两帧对应的视觉特征ft-1,ft∈rh0xw0xc,其中h0,w0分别为特征图的高和宽,c为特征的通道数,这些特征提取了视频中的静态外观信息;所述注意力模块在视觉特征ft基础上添加一系列反卷积层,得到一组不同大小的掩码mt(0),mt(1),mt(2),mt(3),其中mt(0)的大小是h0xw0,即与特征图ft大小相同,而mt(3)的大小是hxw,即与视频帧it的大小相同,mt(0)用于从特征ft中将交互者的外观特征分离出来,而mt(3)用于后续的运动特征模块。
3.根据权利要求2所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,还包括下述步骤:
在注意力模块中引入人体解析模型和一个对应的人体分割损失辅助注意力模块进行学习,具体为:
使用已有的人体解析模型jppnet对视频帧it生成对应的参考掩码mtrf,注意力模型对应的人体分割损失为:
4.根据权利要求2所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,步骤s1.2中,所述静态外观特征,通过下述方式提取:
基于注意力模块生成的掩码mt(0),分别提取摄像头佩戴者和交互者的静态外观特征,对于摄像头佩戴者,其在第一人称视频中是不可见的,因此其静态外观特征定义为摄像头佩戴者看见的静态视觉内容的特征,即视频帧it的全局外观特征:
其中i,j为特征图ft上的二维坐标索引,全局外观特征ftg,a是维度为c的向量;
对于交互者,注意力模块生成的掩码mt(0)给出了交互者的空间位置信息,交互者的静态外观特征可以通过视频帧的外观特征ft和掩码mt(0)得到:
5.根据权利要求1所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,步骤s1.3中,所述动态特征为:
对于摄像头佩戴者,使用一个全局变换矩阵t∈r3x3描述全局运动信息,对视频帧中的每一像素位置(x,y),将其扩展为三维向量p=(x,y,1)t后,用全局变换矩阵t进行变换t*p,变换结果等价于对视频帧进行旋转、缩放和平移;
对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵d∈rhxw来表示交互者的运动信息,并通过和注意力模块生成的掩码mt(3)逐渐相乘,使运动矩阵d只作用于交互者而不作用于背景,给定全局变换矩阵t和局部运动矩阵d,以及t-1帧的坐标矩阵xt-1,预测t帧的坐标矩阵xt:
由预测得到的t帧坐标矩阵xt,通过插值的方式重构出t帧视频帧it,并通过重构出的视频帧和真实视频帧之间的重构损失对t和m进行学习:
其中x是各个二维空间坐标的索引。
6.根据权利要求5所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,所述全局变换矩阵t和局部运动矩阵d是由运动模块生成的,运动模块以t-1帧和t帧的视觉特征ft-1,ft作为输入,将ft-1和ft进行乘法性比较计算其相关性,并结果与ft-1和ft按通道方向进行拼接得到新的特征图,在此特征图基础上添加一个卷积层,然后分别输入两个分支,其中一个分支进行全局池化得到对应于摄像头佩戴者的全局运动特征ftg,m,并在这一全局特征上添加全连接层得到全局变换矩阵t;另一个分支与注意力模块生成的掩码mt(0)进行逐点相乘,得到的特征添加三个反卷积层和一个卷积层得到对应于视频帧大小的局部运动矩阵d,反卷积层之前的特征进行全局池化则得到对应于交互者的局部运动特征ftl,m。
7.根据权利要求5所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,步骤s2.1中,构建用于交互建模的长短时记忆模块具体为:
摄像头佩戴者和交互者的个体行为特征分别输入对应的长短时记忆模块,这两个模块互为对偶模块,采用对称的更新方式:
[it;ot;gt;at]=σ(wft uft-1 jt-1 b)
ct=itat gtct-1
ft=ottanh(ct)
其中it,ot,gt,at分别是长短时记忆模块的输入门限值,输出门限值,遗忘门限值和输入特征,σ是非线性函数sigmoid函数,φ是线性整流函数,ft是摄像头佩戴者或交互者的个体行为特征,ct是长短时记忆模块的中间特征,ft则是对应的长短时记忆模块的输出特征,ft*是对偶模块的输出特征。
8.根据权利要求5所述基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,步骤s2.2中,还包括下述步骤:
将两个长短时记忆模块在视频的最后一帧n时的输出逐点相加并通过非线性操作得到融合后的特征:
在rn上添加一个线性分类器,并通过softmax函数可以得到对应于各个行为类别的概率:
p(y|rn)=softmax(wrn b)
使用交叉熵损失函数对分类结果进行优化:
其中yk为类别k的标签,即如果行为类别编号为k,则yk=1,否则yk=0;k为总的类别数。
技术总结