1.本发明属于图像识别、图像分类技术领域,具体涉及一种基于多视觉线索融合的在线学习投入识别方法,以期通过融合多视觉线索中隐含的心理与生理信息推断在线学习投入,为个性化学习和自适应干预等教育应用提供技术支撑,助力教育向精准化、个性化和智能化方向发展。
背景技术:2.人工智能、大数据等新兴信息技术与教育教学的深度融合,助推了在线教育的快速蓬勃发展,推动了在线教育应用走向大规模与常态化发展。在线教育已成为教育生态系统中不可或缺的重要组成部分。
3.在线教育在为学习者提供跨时空支持和资源共享保障的同时,却面临着日益凸显的“质量危机”,主要表现为“高辍课率”和“低完成率”等。研究表明,导致上述“质量危机”的主要原因之一是在线学习系统缺乏对学习投入的精准感知。学习投入的内隐性、动态性和复杂性,给其感知带来巨大挑战。因此,在线学习投入感知已成为在线教育领域的关注焦点。基于自我报告和人工观察的传统感知方法耗时费力,已无法满足大规模在线学习需要。因此,在线学习领域迫切需要适合大规模应用的学习投入感知方法。
4.目前在线学习投入感知主要存在人工感知和自动感知两种思路。人工感知方法耗时费力,不适合大规模个性化在线学习应用。因此,研究者们逐渐将研究重点转向自动感知方法,以日志数据、可穿戴设备和计算机视觉的方法为三类具有代表性的自动感知方法。但是日志数据主要针对学习行为进行记录,重点呈现行为投入,在表征情感和认知投入方面存在局限。基于可穿戴设备的方法通常受制于应用环境,其易用性和经济性不高,且会给学习者带来不便和不安,不适合目前在线学习的大规模应用。基于计算机视觉的自动感知方法因其具有非接触、非侵入、低成本以及实时性好等优势,成为当前在线学习投入感知领域的重要研究方向。基于计算机视觉的方法通常利用表情、眼动、体态和生理信号等多种视觉线索感知在线学习投入。近年来,基于深度学习的特征学习方法逐渐引起重视,虽然目前的深度学习方法可以提高学习投入的识别效果,但是这些方法对多维学习投入感知缺乏足够关注。同时,基于多视觉线索的在线学习投入识别还面临着内隐投入特征难以提取、多粒度识别困难等问题。
5.综上所述,在线学习投入自动感知是在线教育发展的重要方向。虽然,目前已有相关研究利用表情、体态等视觉线索进行学习投入感知,但是在学习投入的多维细粒度表征、内隐动态投入特征提取,以及多粒度投入识别等方面还存在困难。
6.因此,本发明立足于研究内容,设计一种基于多视觉线索融合的识别方法实现在线学习投入的感知,为精准识别与感知在线学习投入提供技术支撑。
技术实现要素:7.本发明针对当前在线学习投入的多维细粒度表征、内隐动态投入特征提取以及多
粒度投入识别等问题,从视觉线索入手,设计基于多视觉线索融合的在线学习投入智能感知方法评估学习者投入状态。本发明提供了一种基于多视觉线索融合的在线学习投入识别方法,为非接触、非侵扰式在线学习投入自动感知提供支撑。
8.本发明提供了一种基于多视觉线索融合的在线学习投入识别方法,包括如下步骤:
9.步骤1,从多视觉线索角度出发,构建基于多视觉线索的学习投入感知数据库;
10.步骤2,提取多视觉线索数据,进行学习投入感知的视觉线索分析,基于多视觉线索从不同维度构建在线学习投入表征概要模型,进行基于多视觉线索的多维投入特征提取;
11.步骤3,采用深度学习的方法融合步骤2得到的投入特征,然后将融合后的特征输入到深度卷积网络进行认知投入识别,进一步通过grad-cam方法感知学习者在不同维度下的细粒度在线学习投入水平。
12.进一步的,多视觉线索包括面部表情、身体姿态、头部姿态、rppg信号以及眼动信号。
13.进一步的,步骤2中以多视觉线索数据为基础,利用深度相关分析方法,挖掘视觉线索的相关性,进而确定某一维度下采用的视觉线索;
14.深度相关分析方法的目标函数是最大化网络输出的相关性,即
[0015][0016]
其中xi和xj分别表示两个不同视觉线索的特征,表示需要被优化的网络参数,表示最优网络参数,fi,fj表示最后输出;
[0017]
进一步的,经过网络映射之后,判断两种视觉线索的非线性相关性,该判断可以通过计算输出的相关性进行评估,计算公式如下所示:
[0018][0019]
其中ρ
i,j
表示了两个视觉线索之间的相关性,分别表示fi,fj的标准差,将评估结果作为确定各维度用哪些视觉线索表征的依据。
[0020]
进一步的,从行为、情感以及认知三个维度构建在线学习投入表征概要模型。
[0021]
进一步的,在线学习投入表征概要模型的具体构建步骤如下;
[0022]
a.图构建
[0023]
给定一个动态输入序列,首先构造一个无向图g=(v,e)来获取其中的学习投入特征,其中v是节点,e是所有节点之间的边所构成的集合,邻接矩阵a∈rm×m表示无向图g中节点的邻接关系;其次,为了通过图结构获取动态信息,将序列中的片段或帧转化为图中的节点,用表示,每一个节点vi都可用一个特征向量ni∈rf与之关联,f表示特征维数,邻接矩阵a中节点间的权重通过学习的方式得到;
[0024]
b.可学习图网络
[0025]
所采用的图网络模型具体包括如下四个部分;
[0026]
(1)非线性图卷积
[0027]
首先定义图卷积操作,其定义为:
[0028]g*
(hk)=σ(mlpk(relu(a)hk)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0029]
其中k表示层数,k=0,
…
,k),hk为第k+1层的输入,mlpk表示第k层上多层感知机,σ是非线性激活函数,a是待学习的邻接矩阵,g
*
表示图卷积层,relu是非线性激活函数;
[0030]
(2)图inception
[0031]
给定输入hk,则图inception可表示为:
[0032][0033]
其中和是两个不同的图卷积操作,maxpool(hk)是池化操作,该层输出由两个图卷积层和一个池化层拼接而成;
[0034]
(3)可学习池化
[0035]
采用可学习的池化方法,对hk层设计池化方法,具体计算公式如下:
[0036]
hg=[maxpool(hk)|hkp|meanpool(hk)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0037]
其中p为池化向量,是可学习的池化参数,hg是池化层输出;
[0038]
(4)目标函数
[0039]
图分类损失l
gc
可使用分类问题中常见的交叉熵损失进行定义,具体计算公式如下:
[0040][0041]
其中是对第n个输入序列的投入测量结果,即模型的输出;
[0042]
图结构学习损失l
gl
的设计是为了方便学习池化向量p和邻接矩阵a,其定义为:
[0043][0044]
其中
⊙
表示元素乘积,e是元素均为1的向量,λ1,λ2和λ3分别控制各部分的权重,结构矩阵ad定义为:
[0045]
(ad)
ij
=(i-j)2,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0046]
其中,i,j表示节点序号,ad可以迫使时间上相邻的节点有更强的关联;
[0047]
为了得到紧致的表示,定义图表示损失为:
[0048]
l
gr
=λ4i
α
(n;hk)=λ4(e
α
(n)+e
α
(hk)-e
α
(n,hk))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0049]
其中,n表示模型的输入,λ4是权重系数,i
α
是互信息,e
α
为α阶矩阵表示renyi熵,因此整体最优化目标函数为:
[0050][0051]
其中,θ表示其它待学习的参数。
[0052]
进一步的,步骤1中构建基于多视觉线索的学习投入感知数据库,具体实现方式如下;
[0053]
(1)征集使用云平台学习的本科生和研究生共若干名被试,使其在线开展自主学习活动,涵盖不同的学习活动和学习阶段;
[0054]
(2)使用前置摄像头录制学生在线学习视频,录制过程中采用经验采样法获取学
生瞬时学习投入,通过穿戴设备获取的数据作为学习者生理信号的标注来源,并通过眼动设备捕获学习者视线数据,每次学习活动完成后通过问卷方式获取其学习活动的投入情况,并通过人工方式对上述学习者反馈投入状态进行校正;
[0055]
(3)在视频录制过程中,通过学习平台记录学习行为和学习结果数据,为数据的标注提供参考;
[0056]
(4)根据需要将视频切割成视频片段,并进行多维多粒度数据标注,用来训练在线学习投入表征概要模型。
[0057]
进一步的,步骤3中通过如下方法实现行为、情感以及认知这三个维度下的认知投入识别;
[0058]
(1)假设在时刻i感知得到的三种投入特征向量分别为和其中为情感投入,为行为投入,表示认知投入,n1,n2,n3分别表示三种投入的特征向量的维数,三种投入特征向量通过深度卷积网络得到;
[0059]
(2)给定学习活动,假设在整个学习活动进行中共有次实时投入识别,则所有特征向量可形成三个学习投入图,分别为情感投入图行为投入图和认知投入图
[0060]
(3)从三个投入图中得到学习者在学习活动中的投入,每个图可以对应一种投入,三个图联合则可以感知整体投入。
[0061]
进一步的,rppg信号的提取包括三个环节如下;
[0062]
a)感兴趣区域选择:首先,采用人脸检测与跟踪算法从视频帧中获取人脸图像,并拟合主动表观模型aam;其次,根据通过amm模型确定的关键点选取感兴趣区域,此处感兴趣区域为人脸上半部除去眼睛的部分;最后,取感兴趣区域的每个颜色通道的均值,则视频序列可以形成三个一维信号,分别对应视频感兴趣区域的r、g和b三个通道;
[0063]
b)信号抽取:首先,选定一个窗口,分别从视频中获取头部运动信号和颜色信号,其中头部运动信号包括pitch,roll和yaw三个角度对应的跟踪信号,颜色信号包括r、g和b三个通道对应的跟踪信号;其次,通过pos方法从r、g和b三个颜色通道信号中提取原始 rppg信号;
[0064]
c)信号滤波:首先,将头部运动信号和rppg信号均通过fft变换到频率域;其次,从 rppg频谱中减去头部运动频谱的平均,得到新的频谱;然后,根据新的频谱最大值确定滤波器通带范围;最后,通过带通滤波的方式得到滤波后的rppg信号,并通过后处理得到最终 rppg信号。
[0065]
本发明与现有研究和技术相比,具有有益效果:
[0066]
1.本发明结合教育学理论和深度学习方法,建立多视觉线索驱动的多维细粒度学习投入表征模型,解析学习投入的内在机制,满足在线学习投入的实时精准感知需求,为多粒度在线学习投入感知奠定基础。
[0067]
2.本发明将时间序列的特征学习问题转化为基于图的特征学习问题,提出基于互信息正则化的图网络模型,提高模型对内隐动态投入特征的学习能力。该网络模型参数规模小,方便实际应用。
[0068]
3.本发明构建融合多视觉线索的细粒度学习投入识别方法,并在此基础上设计基于投入图的粗粒度学习投入识别方法整合细粒度变长学习投入序列,最终实现多粒度在线学习投入识别,满足实际应用中多层次、多阶段的学习投入感知需求。
附图说明
[0069]
图1为多视觉线索驱动的在线学习投入表征模型图;
[0070]
图2为用于头部姿态估计的基本网络结构图;
[0071]
图3为用于视线估计的基本网络结构图;
[0072]
图4为rppg信号提取流程图;
[0073]
图5为视觉线索深度相关分析方法图;
[0074]
图6为基于互信息正则化的网络模型图;
[0075]
图7为以认知投入为例的细粒度学习投入识别流程图;
[0076]
图8为面向学习活动的学习投入识别流程图。
具体实施方式
[0077]
以下参照附图,对本发明的技术方案做进一步详细描述。
[0078]
本发明提供了一种基于多视觉线索融合的在线学习投入识别方法,包括如下步骤:
[0079]
步骤1,从多视觉线索角度出发,构建基于多视觉线索的学习投入感知数据库,视觉线索包括面部表情、身体姿态、头部姿态、rppg信号以及眼动信号;
[0080]
步骤2,提取多视觉线索数据,进行学习投入感知的视觉线索分析,进一步的结合手工特征与学习特征,基于多视觉线索从不同维度构建在线学习投入表征概要模型,进行基于多视觉线索的多维投入特征提取,进行学习投入识别;
[0081]
步骤3,采用具备可解释性的深度学习模型进行细粒度学习投入识别的特征融合,同时提出基于图的深度学习方法感知粗粒度的面向学习活动的投入水平。
[0082]
为实现上述目的,按照本发明的第一方面,从多视觉线索角度出发,构建基于多视觉线索的学习投入感知数据库,具体步骤包括:
[0083]
1.征集使用云平台学习的本科生和研究生共100名左右的被试,使其在线开展自主学习活动,涵盖不同的学习活动和学习阶段;
[0084]
2.使用前置摄像头录制学生在线学习视频,录制过程中采用经验采样法获取学生瞬时学习投入,通过穿戴设备获取的数据作为学习者生理信号的标注来源,并通过眼动设备捕获学习者视线数据,每次学习活动完成后通过问卷方式获取其学习活动的投入情况,并通过人工方式对上述学习者反馈投入状态进行校正;
[0085]
3.在视频录制过程中,通过学习平台记录学习行为和学习结果数据,为数据的标注提供参考;
[0086]
4.根据需要将视频切割成视频片段,并进行多维多粒度数据标注,用来训练关键算法。
[0087]
进一步的,按照本发明的第二方面,面向在线学习投入感知进行多视觉线索数据提取,本发明所涉及的视觉线索包括面部表情、身体姿态、头部姿态、rppg信号以及眼动信
号等,如图1所示;
[0088]
进一步的,表情线索数据的提取方法如下;
[0089]
1)通过yolo_v4人脸检测算法检测出每帧图像中的人脸;
[0090]
2)将每帧图像形成人脸图像序列;
[0091]
3)提取每一帧的底层特征,形成表情线索序列。
[0092]
进一步的,身体姿态的视觉线索将提取学习者的骨架特征,为捕获动态行为投入提供支撑。
[0093]
进一步的,针对头部姿态线索,本发明采用基于深度学习的方法估计头部的pitch和yaw 两个角度,主要包括头部检测、预处理和cnn三部分,图2为用于头部姿态估计的基本网络结构图。
[0094]
图3为用于实现眼动信号估计的网络结构图,该方法以左右眼和眼角坐标估计学习者在屏幕上的注视点,形成视线跟踪序列。
[0095]
进一步的,如图4所示,rppg信号的提取主要包括三个环节如下;
[0096]
a)感兴趣区域选择:首先,采用人脸检测与跟踪算法从视频帧中获取人脸图像,并拟合主动表观模型(active appearance model,aam)。其次,根据通过amm模型确定的关键点选取感兴趣区域,此处感兴趣区域可选为人脸上半部除去眼睛的部分。最后,取感兴趣区域的每个颜色通道的均值,则视频序列可以形成三个一维信号,分别对应视频感兴趣区域的 r、g和b三个通道。
[0097]
b)信号抽取:首先,选定一个窗口,分别从视频中获取头部运动信号和颜色信号,其中头部运动信号包括pitch,roll和yaw三个角度对应的跟踪信号,颜色信号包括r、g和b三个通道对应的跟踪信号。其次,通过pos方法从r、g和b三个颜色通道信号中提取原始 rppg信号。
[0098]
c)信号滤波:首先,将头部运动信号和rppg信号均通过fft变换到频率域。其次,从 rppg频谱中减去头部运动频谱的平均,得到新的频谱。然后,根据新的频谱最大值确定滤波器通带范围。最后,通过带通滤波的方式得到滤波后的rppg信号,并通过后处理得到最终 rppg信号。
[0099]
进一步的,如图5所示,以表情、rppg、体态、眼动等视觉线索为基础,利用深度相关分析方法,挖掘视觉线索的相关性,结合不同的学习活动进行分析,分析不同学习场景下各线索之间的相关性,确定该场景下哪些线索可以被采用,进一步揭示学习投入的内在机制;
[0100]
深度相关分析方法的目标函数是最大化网络输出的相关性,即
[0101][0102]
其中xi和xj分别表示两个不同视觉线索的特征,表示需要被优化的网络参数,表示最优网络参数,fi,fj表示最后输出。
[0103]
进一步的,经过网络映射之后我们可以判断两种视觉线索的非线性相关性,该判断可以通过计算输出的相关性进行评估,计算公式如下所示:
[0104]
[0105]
其中ρ
i,j
表示了两个视觉线索之间的相关性,分别表示fi,fj的标准差;将评估结果作为确定各维度用哪些视觉线索表征的依据,进一步结合不同学习活动和学习场景进行分析,最终确定基于多视觉线索的在线学习投入多维度细粒度表征模型,为后续学习投入感知奠定基础。
[0106]
进一步的,本发明在多视觉线索数据提取的基础上,利用基于多视觉线索的在线学习投入多维度细粒度表征模型进行各维度的特征提取。
[0107]
如图6所示,本发明提供了一种基于互信息正则化的图网络模型,提高模型对内隐动态投入特征的学习能力,该网络模型参数规模小,方便实际应用。具体步骤包括:
[0108]
1.图构建
[0109]
给定一个动态输入序列(如表情序列),首先构造一个无向图g=(v,e)来获取其中的学习投入特征,其中v是节点(假设有m个),e是所有节点之间的边所构成的集合,邻接矩阵a∈rm×m表示无向图g中节点的邻接关系。其次,为了通过图结构获取动态信息,将序列中的片段(或帧)转化为图中的节点(用表示),每一个节点vi都可用一个特征向量ni∈rf与之关联(f表示特征维数),邻接矩阵a中节点间的权重可以通过学习的方式得到。
[0110]
2.可学习图网络
[0111]
本发明所采用的图网络模型具体主要包括如下四个部分;
[0112]
1)非线性图卷积:
[0113]
首先定义图卷积操作,其定义为:
[0114]g*
(hk)=σ(mlpk(relu(a)hk)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3
[0115]
其中k表示层数(k=0,
…
,k),hk为第k+1层的输入,mlpk表示第k层上多层感知机,σ是非线性激活函数,a是待学习的邻接矩阵,g
*
表示图卷积层,relu是非线性激活函数。
[0116]
2)图inception:
[0117]
给定输入hk,则图inception网络可表示为:
[0118][0119]
其中和是两个不同的图卷积操作,maxpool(hk)是池化操作,该层输出由两个图卷积层和一个池化层拼接而成。
[0120]
3)可学习池化:
[0121]
采用可学习的池化方法,对hk层设计池化方法,具体计算公式如下:
[0122]
hg=[maxpool(hk)|hkp|meanpool(hk)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5
[0123]
其中p为池化向量,是可学习的池化参数,hg是池化层输出。
[0124]
4)目标函数:
[0125]
图分类损失l
gc
可使用分类问题中常见的交叉熵损失进行定义,具体计算公式如下:
[0126][0127]
其中是对第n个输入序列的投入测量结果,即模型的输出。
[0128]
图结构学习损失l
gl
的设计是为了方便学习池化向量p和邻接矩阵a,其定义为:
[0129][0130]
其中
⊙
表示元素乘积,e是元素均为1的向量,λ1,λ2和λ3分别控制各部分的权重,结构矩阵ad定义为:
[0131]
(ad)
ij
=(i-j)2,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式8 其中,i,j表示节点序号,ad可以迫使时间上相邻的节点有更强的关联。
[0132]
为了得到紧致的表示,定义图表示损失为:
[0133]
l
gr
=λ4i
α
(n;hk)=λ4(e
α
(n)+e
α
(hk)-e
α
(n,hk))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式9
[0134]
其中,n表示模型的输入,λ4是权重系数,i
α
是互信息,e
α
为α阶矩阵表示renyi熵。所以整体最优化目标函数为:
[0135][0136]
其中,θ表示其它待学习的参数。
[0137]
如图7所示,按照本发明的第三部分,采用具备可解释性的深度学习模型进行细粒度学习投入识别的特征融合。具体步骤包括;
[0138]
1.将提取的面部表情(外观特征、facs特征)、身体姿态、头部姿态、rppg信号以及眼动信号特征进行联合;
[0139]
2.将其输入到1d深度卷积网络进行认知投入识别;
[0140]
3.根据grad-cam(gradient-weighted class activation mapping)方法生成针对不同投入水平的情况,即通过grad-cam方法生成针对不同投入水平的激活图,通过直方图统计解释针对不同维度下学习者的投入水平情况,从而解释影响认知投入的特征分布情况,为理解认知投入识别结果提供参考。
[0141]
如图8所示,本发明设计基于投入图的粗粒度学习投入识别方法整合细粒度变长学习投入序列,最终实现多粒度在线学习投入识别。具体步骤包括:
[0142]
1.假设在时刻i感知得到的三种投入特征向量(取自深度卷积网络中的全连接层)分别为和其中为情感投入,为行为投入,表示认知投入, n1,n2,n3分别表示三种投入的特征向量的维数;
[0143]
2.给定学习活动,假设在整个学习活动进行中共有次实时投入识别,则所有特征向量可形成三个学习投入图,分别为情感投入图行为投入图和认知投入图
[0144]
3.本发明从三个投入图中得到学习者在学习活动中的投入,每个图可以对应一种投入,三个图联合则可以感知整体投入。
[0145]
类似地,我们可以按照由细到粗的方式感知更高层次或水平上的投入,有助于实现不同层次、不同阶段的在线学习投入识别。
[0146]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
技术特征:1.一种基于多视觉线索融合的在线学习投入识别方法,其特征在于,包括如下步骤:步骤1,从多视觉线索角度出发,构建基于多视觉线索的学习投入感知数据库;步骤2,提取多视觉线索数据,进行学习投入感知的视觉线索分析,基于多视觉线索从不同维度构建在线学习投入表征概要模型,进行基于多视觉线索的多维投入特征提取;步骤3,采用深度学习的方法融合步骤2得到的投入特征,然后将融合后的特征输入到深度卷积网络进行认知投入识别,进一步通过grad-cam方法感知学习者在不同维度下的细粒度在线学习投入水平。2.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:多视觉线索包括面部表情、身体姿态、头部姿态、rppg信号以及眼动信号。3.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:步骤2中以多视觉线索数据为基础,利用深度相关分析方法,挖掘视觉线索的相关性,进而确定某一维度下采用的视觉线索;深度相关分析方法的目标函数是最大化网络输出的相关性,即其中x
i
和x
j
分别表示两个不同视觉线索的特征,表示需要被优化的网络参数,表示最优网络参数,f
i
,f
j
表示最后输出;进一步的,经过网络映射之后,判断两种视觉线索的非线性相关性,该判断可以通过计算输出的相关性进行评估,计算公式如下所示:其中ρ
i,j
表示了两个视觉线索之间的相关性,分别表示f
i
,f
j
的标准差,将评估结果作为确定各维度用哪些视觉线索表征的依据。4.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:从行为、情感以及认知三个维度构建在线学习投入表征概要模型。5.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:在线学习投入表征概要模型的具体构建步骤如下;a.图构建给定一个动态输入序列,首先构造一个无向图g=(v,e)来获取其中的学习投入特征,其中v是节点,e是所有节点之间的边所构成的集合,邻接矩阵a∈r
m
×
m
表示无向图g中节点的邻接关系;其次,为了通过图结构获取动态信息,将序列中的片段或帧转化为图中的节点,用表示,每一个节点v
i
都可用一个特征向量n
i
∈r
f
与之关联,f表示特征维数,邻接矩阵a中节点间的权重通过学习的方式得到;b.可学习图网络所采用的图网络模型具体包括如下四个部分;(1)非线性图卷积首先定义图卷积操作,其定义为:
g
*
(h
k
)=σ(mlp
k
(relu(a)h
k
)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中k表示层数,k=0,
…
,k),h
k
为第k+1层的输入,mlp
k
表示第k层上多层感知机,σ是非线性激活函数,a是待学习的邻接矩阵,g
*
表示图卷积层,relu是非线性激活函数;(2)图inception给定输入h
k
,则图inception可表示为:其中和是两个不同的图卷积操作,max pool(h
k
)是池化操作,该层输出由两个图卷积层和一个池化层拼接而成;(3)可学习池化采用可学习的池化方法,对h
k
层设计池化方法,具体计算公式如下:h
g
=[max pool(h
k
)|h
k
p|meanpool(h
k
)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中p为池化向量,是可学习的池化参数,h
g
是池化层输出;(4)目标函数图分类损失l
gc
可使用分类问题中常见的交叉熵损失进行定义,具体计算公式如下:其中是对第n个输入序列的投入测量结果,即模型的输出;图结构学习损失l
gl
的设计是为了方便学习池化向量p和邻接矩阵a,其定义为:其中
⊙
表示元素乘积,e是元素均为1的向量,λ1,λ2和λ3分别控制各部分的权重,结构矩阵a
d
定义为:(a
d
)
ij
=(i-j)2,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,i,j表示节点序号,a
d
可以迫使时间上相邻的节点有更强的关联;为了得到紧致的表示,定义图表示损失为:l
gr
=λ4i
α
(n;h
k
)=λ4(e
α
(n)+e
α
(h
k
)-e
α
(n,h
k
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,n表示模型的输入,λ4是权重系数,i
α
是互信息,e
α
为α阶矩阵表示renyi熵,因此整体最优化目标函数为:其中,θ表示其它待学习的参数。6.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:步骤1中构建基于多视觉线索的学习投入感知数据库,具体实现方式如下;(1)征集使用云平台学习的本科生和研究生共若干名被试,使其在线开展自主学习活动,涵盖不同的学习活动和学习阶段;(2)使用前置摄像头录制学生在线学习视频,录制过程中采用经验采样法获取学生瞬时学习投入,通过穿戴设备获取的数据作为学习者生理信号的标注来源,并通过眼动设备捕获学习者视线数据,每次学习活动完成后通过问卷方式获取其学习活动的投入情况,并通过人工方式对上述学习者反馈投入状态进行校正;
(3)在视频录制过程中,通过学习平台记录学习行为和学习结果数据,为数据的标注提供参考;(4)根据需要将视频切割成视频片段,并进行多维多粒度数据标注,用来训练在线学习投入表征概要模型。7.如权利要求1所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:步骤3中通过如下方法实现行为、情感以及认知这三个维度下的认知投入识别;(1)假设在时刻i感知得到的三种投入特征向量分别为(1)假设在时刻i感知得到的三种投入特征向量分别为和其中为情感投入,为行为投入,表示认知投入,n1,n2,n3分别表示三种投入的特征向量的维数,三种投入特征向量通过深度卷积网络得到;(2)给定学习活动,假设在整个学习活动进行中共有次实时投入识别,则所有特征向量可形成三个学习投入图,分别为情感投入图行为投入图和认知投入图(3)从三个投入图中得到学习者在学习活动中的投入,每个图可以对应一种投入,三个图联合则可以感知整体投入。8.如权利要求2所述的一种基于多视觉线索融合的在线学习投入识别方法,其特征在于:rppg信号的提取包括三个环节如下;a)感兴趣区域选择:首先,采用人脸检测与跟踪算法从视频帧中获取人脸图像,并拟合主动表观模型aam;其次,根据通过amm模型确定的关键点选取感兴趣区域,此处感兴趣区域为人脸上半部除去眼睛的部分;最后,取感兴趣区域的每个颜色通道的均值,则视频序列可以形成三个一维信号,分别对应视频感兴趣区域的r、g和b三个通道;b)信号抽取:首先,选定一个窗口,分别从视频中获取头部运动信号和颜色信号,其中头部运动信号包括pitch,roll和yaw三个角度对应的跟踪信号,颜色信号包括r、g和b三个通道对应的跟踪信号;其次,通过pos方法从r、g和b三个颜色通道信号中提取原始rppg信号;c)信号滤波:首先,将头部运动信号和rppg信号均通过fft变换到频率域;其次,从rppg频谱中减去头部运动频谱的平均,得到新的频谱;然后,根据新的频谱最大值确定滤波器通带范围;最后,通过带通滤波的方式得到滤波后的rppg信号,并通过后处理得到最终rppg信号。
技术总结本发明公开了一种基于多视觉线索融合的在线学习投入识别方法,首先本发明面向大规模在线学习投入感知需求,从多视觉线索角度出发,挖掘在线学习投入的关联视觉线索,构建在线投入多维细粒度表征模型;其次,将时间序列的特征学习问题转化为基于图的特征学习问题,提出基于互信息正则化的图网络模型,同时,为本发明所采用的机器学习方法提供训练支持,构建了基于多视觉线索的学习投入感知数据库;最后构建融合多视觉线索的细粒度学习投入识别方法,并在此基础上设计基于投入图的粗粒度学习投入识别方法整合细粒度变长学习投入序列,最终实现多粒度在线学习投入识别,满足实际应用中多层次、多阶段的学习投入感知需求。多阶段的学习投入感知需求。多阶段的学习投入感知需求。
技术研发人员:魏艳涛 高洁 胡美佳 姚璜 邓伟 徐家臻
受保护的技术使用者:华中师范大学
技术研发日:2022.08.05
技术公布日:2022/12/1