一种表情识别方法和装置与流程

专利2022-06-29  82

本发明涉及视联网
技术领域
:,特别是涉及一种表情识别方法和装置。
背景技术
::随着视联网
技术领域
:的不断发展,视联网在远程教育以及远程医疗等方面得到广泛应用。目前,视联网在远程教育及远程医疗等方面缺少对表情识别的应用技术,只有人脸识别签到的功能。示例的,一些远程教育系统可以基于简单的人脸识别,实时的获取学习者的面部表情。但是,简单的人脸识别只能检测出有哪些学生在教师中上课,而无法进一步准确的识别出哪些学生在认真听课以及哪些学生听课,导致无法对教学质量进行把控。技术实现要素:鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种表情识别方法和装置。为了解决上述问题,本发明实施例提供了一种表情识别方法,应用于第一视联网终端,所述方法包括:接收第二视联网终端发送的针对目标用户的人脸图像序列;所述第二视联网终端为与所述第一视联网终端进行可视电话业务的终端;采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值;基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类;基于所述目标表情种类,生成相应的提示信息,并将所述提示信息发送至所述第二视联网终端。可选地,所述采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值,包括:获取每帧所述人脸图像上的3x3像素点的第一区域;将所述第一区域的边缘像素点对应的边缘像素值,和所述第一区域的中心像素点对应的中心像素值进行比较,得到比较结果;在所述边缘像素值大于或者等于所述中心像素值时,将所述边缘像素点的像素值设置为1;在所述边缘像素点对应的像素值小于所述中心像素点对应的像素值时,将所述边缘像素点的像素值设置为0。可选地,所述基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类,包括:将各所述特征数值输入至预置神经网络;获取所述预置神经网络输出的所述目标用户的面部表情;基于所述面部表情确定所述目标用户的目标表情种类。可选地,所述基于所述面部表情确定所述目标用户的目标表情种类,包括:将所述面部表情和预先生成的表情样本库中的各面部表情进行比较,确定比较结果;基于所述比较结果,确定所述目标用户的目标表情种类。可选地,所述接收第二视联网终端发送的针对目标用户的人脸图像序列,包括:接收所述第二视联网终端发送的采集的视频数据;对所述视频数据进行解码,得到针对所述目标用户的人脸图像序列。为了解决上述问题,本发明实施例提供了一种表情识别装置,应用于第一视联网终端,所述装置包括:接收模块,用于接收第二视联网终端发送的针对目标用户的人脸图像序列;所述第二视联网终端为与所述第一视联网终端进行可视电话业务的终端;转换模块,用于采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值;确定模块,用于基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类;生成模块,用于基于所述目标表情种类,生成相应的提示信息,并将所述提示信息发送至所述第二视联网终端。可选地,所述转换模块包括:第一获取子模块,用于获取每帧所述人脸图像上的3x3像素点的第一区域;比较子模块,用于将所述第一区域的边缘像素点对应的边缘像素值,和所述第一区域的中心像素点对应的中心像素值进行比较,得到比较结果;第一设置子模块,用于在所述边缘像素值大于或者等于所述中心像素值时,将所述边缘像素点的像素值设置为1;第二设置子模块,用于在所述边缘像素点对应的像素值小于所述中心像素点对应的像素值时,将所述边缘像素点的像素值设置为0。可选地,所述确定模块包括:输入子模块,用于将各所述特征数值输入至预置神经网络;第二获取子模块,用于获取所述预置神经网络输出的所述目标用户的面部表情;确定子模块,用于基于所述面部表情确定所述目标用户的目标表情种类。为了解决上述问题,本发明实施例提供了一种电子设备,其特征在于,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行上述表情识别方法。为了解决上述问题,本发明实施例提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行上述表情识别方法。本发明实施例包括以下优点:在本发明实施例中,第一视联网终端可以接收第二视联网终端发送的针对目标用户的人脸图像序列,采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值,局部二值模式对图像序列进行特征转换较为准确,基于各特征数值,确定目标用户的面部表情对应的目标表情种类,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。附图说明图1示出了本发明实施例一提供的一种表情识别方法的步骤流程图;图2示出了本发明实施例提供的一种视联网场景下进行表情识别的示意图;图3示出了本发明实施例提供的一种局部二值模式转换图像特征的示意图;图4示出了本发明实施例二提供的一种表情识别方法的步骤流程图;图5示出了本发明实施例提供的一种表情识别系统的结构示意图;图6示出了本发明实施例提供的一种联网场景下进行表情识别的示意图;图7示出了本发明实施例三提供的一种表情识别装置的结构框图;图8示出了本发明的一种视联网的组网示意图;图9示出了本发明的一种节点服务器的硬件结构示意图;图10示出了本发明的一种接入交换机的硬件结构示意图;图11示出了本发明的一种以太网协转网关的硬件结构示意图。具体实施方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。参照图1,示出了本发明实施例一提供的一种表情识别方法的步骤流程图,该方法可以应用于第一视联网终端,具体可以包括如下步骤:步骤501,接收第二视联网终端发送的针对目标用户的人脸图像序列。在本发明实施例中,第二视联网终端为与第一视联网终端进行可视电话业务的终端。此处的终端即为接入视联网的终端,可以为接入视联网的移动终端,如手机、pad(portableandroiddevice,平板电脑)等移动电子设备。也可以为接入视联网的pc(personalcomputer,个人计算机)端,如台式电脑、笔记本电脑等电子设备,具体地,可以根据业务需求而定,本发明实施例对此不加以限制。在本发明实施例中,可以结合图2对本发明实施例的技术方案进行详细描述。参照图2,示出了本发明实施例提供的一种视联网场景下进行表情识别的示意图,如图2所示,第二视联网终端601获取视联网摄像头拍摄的视频数据;第二视联网终端601向第二视联网服务器602发送视频数据;第二视联网服务器602在接收到视频数据后,将视频数据发送至第一视联网服务器603,第一视联网服务器603将视频数据发送至第一视联网终端604,第一视联网终端604对视频数据进行解码,得到针对目标用户的人脸图像序列。在接收第二视联网终端发送的针对目标用户的人脸图像序列之后,执行步骤502。步骤502,采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值。局部二值模式(localbinarypatterns,lbp)是一种将图像局部特征转化为数值的算法。上述步骤502的实现过程可以参考图3,示出了本发明实施例提供的一种局部二值模式转换图像特征的示意图:获取每帧人脸图像上的3x3像素点的第一区域,进一步的,将第一区域的边缘像素点对应的边缘像素值,和第一区域的中心像素点对应的中心像素值进行比较,得到比较结果,在边缘像素值大于或者等于中心像素值时,将边缘像素点的像素值设置为1,在边缘像素点对应的像素值小于中心像素点对应的像素值时,将边缘像素点的像素值设置为0。进一步地,将得到的3x3像素点的第一区域中的九位二进制数转换为一个十进制数,再滑动第一区域范围,按照上述步骤依次得到多个十进制数,最终以直方图的方式统计出图像中的每个第一区域的十进制数。其中,可以根据公式(1)和公式(2)将九位二进制数转换为一个十进制数,其中,lbpp,r表示取以r为半径的邻域,使用p个相邻的采样点,nc为中心点,np为邻域点,可以通过改变p,r的值,生成多尺度lbp,将所有0、1值进行顺时针串联,再转换成十进制数,该十进制数即为本发明所述的特征数值。参见图3,二进制值为10110001,十进制值为177。在将图像序列中每帧人脸图像的局部特征转换为特征数值之后,执行步骤503。步骤503,基于各特征数值,确定目标用户的面部表情对应的目标表情种类。参见图2,可视电话业务包括第一视联网终端604前的教师通过视联网对第二视联网终端601前的学生进行视频教学,远程教育可是电话模式下,教师这端的第一视联网终端604的显示屏模式为三分屏显示,其中一个分屏用来实时显示教室端第二视联网终端601推送过来的视频数据,第二个分屏显示教师本地摄像头的画面,第三个分屏显示的是经过处理后的叠加了学生表情信息的视频画面信息。第一视联网服务器603将视频数据发送至第一视联网终端604,第一视联网终端604可以首先对视频数据进行拷贝,并对视频数据进行解码,解码得到的针对用户的人脸图像序列显示在三分屏的第一分屏上,将拷贝的视频数据发送给第二卷积神经网络(convolutionalneuralnetworks,cnn)表情识别系统605,cnn表情识别系统605中存储有提前训练好的相关人脸数据,cnn表情识别系统将上述获得的各特征数值输入至预置神经网络,进一步地,获取预置神经网络输出的目标用户的面部表情,最后,基于面部表情确定目标用户的目标表情种类。具体的,可以将面部表情和预先生成的表情样本库中的各面部表情进行比较,确定比较结果,并基于比较结果,确定目标用户的目标表情种类。需要说明的是,目标表情种类可以包括“走神”、“认真听讲”、“闭着眼睛”以及“张嘴说话”等,本发明实施例对此不做具体限定,可以在实际应用中根据应用场景做相关设置。其中,cnn是一类包含卷积计算且具有深度结构的前馈神经网络(feedforwardneuralnetworks,fnn),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(shift-invariantartificialneuralnetworks,siann)”。cnn卷积神经网络可以减少计算时间,cnn处理图像可以把原图直接输入网络,特征提取也简单,因为会简化处理,加快处理速度。在确定目标用户的面部表情对应的目标表情种类之后,执行步骤504。步骤504,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端。参见图2,cnn表情识别系统605基于目标表情种类,可以实时在相对应的人脸上显示文本框,文本框内生成相对应的提示信息,并将该处理后的视频数据(包括提示信息)发送至第一视联网终端604,第一视联网终端604在接收到返回的视频数据后,将其显示在三分屏的第三个分屏上。在本发明实施例中,第一视联网终端可以接收第二视联网终端发送的针对目标用户的人脸图像序列,采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值,局部二值模式对图像序列进行特征转换较为准确,基于各特征数值,确定目标用户的面部表情对应的目标表情种类,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。参照图4,示出了本发明实施例二提供的一种表情识别方法的步骤流程图,该方法可以应用于第一视联网终端,具体可以包括如下步骤:步骤701,接收第二视联网终端发送的针对目标用户的人脸图像序列。在本发明实施例中,第二视联网终端为与第一视联网终端进行可视电话业务的终端。此处的终端即为接入视联网的终端,可以为接入视联网的移动终端,如手机、pad(portableandroiddevice,平板电脑)等移动电子设备。也可以为接入视联网的pc(personalcomputer,个人计算机)端,如台式电脑、笔记本电脑等电子设备,具体地,可以根据业务需求而定,本发明实施例对此不加以限制。在本发明实施例中,可以结合图2对本发明实施例的技术方案进行详细描述。参照图2,示出了本发明实施例提供的一种视联网场景下进行表情识别的示意图,如图2所示,第二视联网终端601获取视联网摄像头拍摄的视频数据;第二视联网终端601向第二视联网服务器602发送视频数据;第二视联网服务器602在接收到视频数据后,将视频数据发送至第一视联网服务器603,第一视联网服务器603将视频数据发送至第一视联网终端604,第一视联网终端604对视频数据进行解码,得到针对目标用户的人脸图像序列。在接收第二视联网终端发送的针对目标用户的人脸图像序列之后,执行步骤702。步骤702,获取每帧人脸图像上的3x3像素点的第一区域。如图3所示,获取了每帧人脸图像上的3x3像素点的第一区域,并分别得到第一区域内的九个像素值,分别为77、54、57、88、55、97、17、27和12。步骤703,将第一区域的边缘像素点对应的边缘像素值,和第一区域的中心像素点对应的中心像素值进行比较,得到比较结果。如图3所示,第一区域内的九个像素值分别为77、54、57、88、55、97、17、27和12,将第一区域的边缘像素点对应的边缘像素值,和第一区域的中心像素点对应的中心像素值进行比较,得到比较结果。步骤704,在边缘像素值大于或者等于中心像素值时,将边缘像素点的像素值设置为1。参见图3,77、57、88、97均大于55,故将该相应的像素点的像素值设置为1。步骤705,在边缘像素点对应的像素值小于中心像素点对应的像素值时,将边缘像素点的像素值设置为0。参见图3,54、17、27、12均小于55,故将该相应的像素点的像素值设置为0。进一步地,将得到的3x3像素点的第一区域中的九位二进制数转换为一个十进制数,再滑动第一区域范围,按照上述步骤依次得到多个十进制数,最终以直方图的方式统计出图像中的每个第一区域的十进制数。其中,可以根据公式(1)和公式(2)将九位二进制数转换为一个十进制数,其中,lbpp,r表示取以r为半径的邻域,使用p个相邻的采样点,nc为中心点,np为邻域点,可以通过改变p,r的值,生成多尺度lbp,将所有0、1值进行顺时针串联,再转换成十进制数,该十进制数即为本发明所述的特征数值。步骤706,基于各特征数值,确定目标用户的面部表情对应的目标表情种类。如图2所示,可视电话业务包括第一视联网终端604前的教师通过视联网对第二视联网终端601前的学生进行视频教学,远程教育可是电话模式下,教师这端的第一视联网终端604的显示屏模式为三分屏显示,其中一个分屏用来实时显示教室端第二视联网终端601推送过来的视频数据,第二个分屏显示教师本地摄像头的画面,第三个分屏显示的是经过处理后的叠加了学生表情信息的视频画面信息。第一视联网服务器603将视频数据发送至第一视联网终端604,第一视联网终端604可以首先对视频数据进行拷贝,并对视频数据进行解码,解码得到的针对用户的人脸图像序列显示在三分屏的第一分屏上,将拷贝的视频数据发送给第二卷积神经网络(convolutionalneuralnetworks,cnn)表情识别系统605,cnn表情识别系统605中存储有提前训练好的相关人脸数据,cnn表情识别系统将上述获得的各特征数值输入至预置神经网络,进一步地,获取预置神经网络输出的目标用户的面部表情,最后,基于面部表情确定目标用户的目标表情种类。具体地,可以将面部表情和预先生成的表情样本库中的各面部表情进行比较,确定比较结果,并基于比较结果,确定目标用户的目标表情种类。需要说明的是,目标表情种类可以包括“走神”、“认真听讲”、“闭着眼睛”以及“张嘴说话”等,本发明实施例对此不做具体限定,可以在实际应用中根据应用场景做相关设置。参见图5,示出了本发明实施例提供的一种表情识别系统的结构示意图,如图5所示,表情识别系统,需要经过图像的采集、人脸区域的定位、预处理和识别分类等过程。人脸表情的整个识别过程,就是实现将从摄像头获取的图像数据进行处理,输出最大可能的人脸表情标签,整个流程可以分为三个部分:系统初始化模块、加载模型模块和表情识别模块。系统初始化模块:检测系统运行环境,调用检测终端摄像头是否存在,相机是否处于可视电话业务,检测均正常时提醒用户可以处理视频数据。加载模型模块:载入预设路径下训练好的模型文件,检测模型参数是否正常,并显示模型加载进度,加载成功后提示用户加载完成。表情识别模块:分析可视电话收到的视频数据,对视频图像序列调取图像,进行人脸检测,检测定位后分割出人脸进行预处理,再输入到训练好的cnn模型中进行识别,实时输出识别标签到人脸检测框上,实现人脸表情实时识别。步骤707,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端。如图2所示,cnn表情识别系统605基于目标表情种类,可以实时在相对应的人脸上显示文本框,文本框内生成相对应的提示信息,并将该处理后的视频数据(包括提示信息)发送至第一视联网终端604,第一视联网终端604在接收到返回的视频数据后,将其显示在三分屏的第三个分屏上。参见图6,示出了本发明实施例提供的一种联网场景下进行表情识别的示意图,以同一个视联网中的两个终端为例,a终端(教师端终端设备),与b终端(学生端终端设备)通过可视电话的方式,进行远程教育:a终端通过服务器与b终端进行可视电话业务成功后,接收b视频数据,a终端收到b终端的视频数据后,对视频数据进行一次拷贝,解码收到的原始视频数据后显示在三分屏中的第一分屏上,将拷贝的视频数据发送给a地的cnn表情识别系统,cnn表情识别系统的调度模块收到数据后,调用数据处理模块,对数据进行处理,并将处理后的数据返回给调度模块,发送给a终端,a终端的调度模块收到处理后的数据后,通过调度模块发送给数据处理模块,进行解码处理,并且显示在三分屏模式下的第三个分屏上。在本发明实施例中,第一视联网终端接收第二视联网终端发送的针对目标用户的人脸图像序列,获取每帧人脸图像上的3x3像素点的第一区域,将第一区域的边缘像素点对应的边缘像素值,和第一区域的中心像素点对应的中心像素值进行比较,得到比较结果,在边缘像素值大于或者等于中心像素值时,将边缘像素点的像素值设置为1,在边缘像素点对应的像素值小于中心像素点对应的像素值时,将边缘像素点的像素值设置为0,局部二值模式对图像序列进行特征转换较为准确,基于各特征数值,确定目标用户的面部表情对应的目标表情种类,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。参照图7,示出了本发明实施例三提供的一种表情识别装置的结构框图,该表情识别装置800可以应用于第一视联网终端,装置包括:接收模块801,用于接收第二视联网终端发送的针对目标用户的人脸图像序列;第二视联网终端为与第一视联网终端进行可视电话业务的终端;转换模块802,用于采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值;确定模块803,用于基于各特征数值,确定目标用户的面部表情对应的目标表情种类;生成模块804,用于基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端。可选地,转换模块包括:第一获取子模块,用于获取每帧人脸图像上的3x3像素点的第一区域;比较子模块,用于将第一区域的边缘像素点对应的边缘像素值,和第一区域的中心像素点对应的中心像素值进行比较,得到比较结果;第一设置子模块,用于在边缘像素值大于或者等于中心像素值时,将边缘像素点的像素值设置为1;第二设置子模块,用于在边缘像素点对应的像素值小于中心像素点对应的像素值时,将边缘像素点的像素值设置为0。可选地,确定模块包括:输入子模块,用于将各特征数值输入至预置神经网络;第二获取子模块,用于获取预置神经网络输出的目标用户的面部表情;确定子模块,用于基于面部表情确定目标用户的目标表情种类。可选地,确定子模块包括:第一确定单元,用于将面部表情和预先生成的表情样本库中的各面部表情进行比较,确定比较结果;第二确定单元,用于基于比较结果,确定目标用户的目标表情种类。可选地,接收模块包括:接收子模块,用于接收第二视联网终端发送的采集的视频数据;解码子模块,对视频数据进行解码,得到针对目标用户的人脸图像序列。在本发明实施例中,第一视联网终端可以通过接收模块,接收第二视联网终端发送的针对目标用户的人脸图像序列,再通过转换模块,采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值,局部二值模式对图像序列进行特征转换较为准确,通过确定模块,基于各特征数值,确定目标用户的面部表情对应的目标表情种类,最后通过生成模块,基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本发明实施例还提供了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上述表情识别方法。本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述表情识别方法。视联网是网络发展的重要里程碑,是一个实时网络,能够实现高清视频实时传输,将众多互联网应用推向高清视频化,高清面对面。视联网采用实时高清视频交换技术,可以在一个网络平台上将所需的服务,如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、vod点播、电视邮件、个性录制(pvr)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台,通过电视或电脑实现高清品质视频播放。为使本领域技术人员更好地理解本发明实施例,以下对视联网进行介绍:视联网所应用的部分技术如下所述:网络技术(networktechnology)视联网的网络技术创新改良了传统以太网(ethernet),以面对网络上潜在的巨大视频流量。不同于单纯的网络分组包交换(packetswitching)或网络电路交换(circuitswitching),视联网技术采用packetswitching满足streaming需求。视联网技术具备分组交换的灵活、简单和低价,同时具备电路交换的品质和安全保证,实现了全网交换式虚拟电路,以及数据格式的无缝连接。交换技术(switchingtechnology)视联网采用以太网的异步和包交换两个优点,在全兼容的前提下消除了以太网缺陷,具备全网端到端无缝连接,直通用户终端,直接承载ip数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态,是一个实时交换平台,能够实现目前互联网无法实现的全网大规模高清视频实时传输,将众多网络视频应用推向高清化、统一化。服务器技术(servertechnology)视联网和统一视频平台上的服务器技术不同于传统意义上的服务器,它的流媒体传输是建立在面向连接的基础上,其数据处理能力与流量、通讯时间无关,单个网络层就能够包含信令及数据传输。对于语音和视频业务来说,视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多,效率比传统服务器大大提高了百倍以上。储存器技术(storagetechnology)统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统,将服务器指令中的节目信息映射到具体的硬盘空间,媒体内容不再经过服务器,瞬间直接送达到用户终端,用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动,资源消耗仅占同等级ip互联网的20%,但产生大于传统硬盘阵列3倍的并发流量,综合效率提升10倍以上。网络安全技术(networksecuritytechnology)视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题,一般不需要杀毒程序、防火墙,杜绝了黑客与病毒的攻击,为用户提供结构性的无忧安全网络。服务创新技术(serviceinnovationtechnology)统一视频平台将业务与传输融合在一起,不论是单个用户、私网用户还是一个网络的总合,都不过是一次自动连接。用户终端、机顶盒或pc直接连到统一视频平台,获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程,可以使用非常少的代码即可实现复杂的应用,实现“无限量”的新业务创新。视联网的组网如下所述:视联网是一种集中控制的网络结构,该网络可以是树型网、星型网、环状网等等类型,但在此基础上网络中需要有集中控制节点来控制整个网络。如图8所示,视联网分为接入网和城域网两部分。接入网部分的设备主要可以分为3类:节点服务器,接入交换机,终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连,接入交换机可以与多个终端相连,并可以连接以太网。其中,节点服务器是接入网中起集中控制功能的节点,可控制接入交换机和终端。节点服务器可直接与接入交换机相连,也可以直接与终端相连。类似的,城域网部分的设备也可以分为3类:城域服务器,节点交换机,节点服务器。城域服务器与节点交换机相连,节点交换机可以与多个节点服务器相连。其中,节点服务器即为接入网部分的节点服务器,即节点服务器既属于接入网部分,又属于城域网部分。城域服务器是城域网中起集中控制功能的节点,可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机,也可直接连接节点服务器。由此可见,整个视联网络是一种分层集中控制的网络结构,而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。形象地称,接入网部分可以组成统一视频平台(虚线圈中部分),多个统一视频平台可以组成视联网;每个统一视频平台可以通过城域以及广域视联网互联互通。视联网设备分类1.1本发明实施例的视联网中的设备主要可以分为3类:服务器,交换机(包括以太网网关),终端(包括各种机顶盒,编码板,存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。1.2其中接入网部分的设备主要可以分为3类:节点服务器,接入交换机(包括以太网网关),终端(包括各种机顶盒,编码板,存储器等)。各接入网设备的具体硬件结构为:节点服务器:如图9所示,主要包括网络接口模块201、交换引擎模块202、cpu模块203、磁盘阵列模块204;其中,网络接口模块201,cpu模块203、磁盘阵列模块204进来的包均进入交换引擎模块202;交换引擎模块202对进来的包进行查地址表205的操作,从而获得包的导向信息;并根据包的导向信息把该包存入对应的包缓存器206的队列;如果包缓存器206的队列接近满,则丢弃;交换引擎模202轮询所有包缓存器队列,如果满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制,包括对硬盘的初始化、读写等操作;cpu模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理,对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置,以及,对磁盘阵列模块204的配置。接入交换机:如图10所示,主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和cpu模块304;其中,下行网络接口模块301进来的包(上行数据)进入包检测模块305;包检测模块305检测包的目地地址(da)、源地址(sa)、数据包类型及包长度是否符合要求,如果符合,则分配相应的流标识符(stream-id),并进入交换引擎模块303,否则丢弃;上行网络接口模块302进来的包(下行数据)进入交换引擎模块303;cpu模块304进来的数据包进入交换引擎模块303;交换引擎模块303对进来的包进行查地址表306的操作,从而获得包的导向信息;如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的,则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列;如果该包缓存器307的队列接近满,则丢弃;如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的,则根据包的导向信息,把该数据包存入对应的包缓存器307的队列;如果该包缓存器307的队列接近满,则丢弃。交换引擎模块303轮询所有包缓存器队列,在本发明实施例中分两种情形:如果该队列是下行网络接口往上行网络接口去的,则满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零;3)获得码率控制模块产生的令牌;如果该队列不是下行网络接口往上行网络接口去的,则满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零。码率控制模块308是由cpu模块304来配置的,在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌,用以控制上行转发的码率。cpu模块304主要负责与节点服务器之间的协议处理,对地址表306的配置,以及,对码率控制模块308的配置。以太网协转网关:如图11所示,主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、cpu模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和mac添加模块409、mac删除模块410。其中,下行网络接口模块401进来的数据包进入包检测模块405;包检测模块405检测数据包的以太网macda、以太网macsa、以太网lengthorframetype、视联网目地地址da、视联网源地址sa、视联网数据包类型及包长度是否符合要求,如果符合则分配相应的流标识符(stream-id);然后,由mac删除模块410减去macda、macsa、lengthorframetype(2byte),并进入相应的接收缓存,否则丢弃;下行网络接口模块401检测该端口的发送缓存,如果有包则根据包的视联网目地地址da获知对应的终端的以太网macda,添加终端的以太网macda、以太网协转网关的macsa、以太网lengthorframetype,并发送。以太网协转网关中其他模块的功能与接入交换机类似。终端:主要包括网络接口模块、业务处理模块和cpu模块;例如,机顶盒主要包括网络接口模块、视音频编解码引擎模块、cpu模块;编码板主要包括网络接口模块、视音频编码引擎模块、cpu模块;存储器主要包括网络接口模块、cpu模块和磁盘阵列模块。1.3城域网部分的设备主要可以分为2类:节点服务器,节点交换机,城域服务器。其中,节点交换机主要包括网络接口模块、交换引擎模块和cpu模块;城域服务器主要包括网络接口模块、交换引擎模块和cpu模块构成。2、视联网数据包定义2.1接入网数据包定义接入网的数据包主要包括以下几部分:目的地址(da)、源地址(sa)、保留字节、payload(pdu)、crc。如下表所示,接入网的数据包主要包括以下几部分:dasareservedpayloadcrc其中:目的地址(da)由8个字节(byte)组成,第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等),最多有256种可能,第二字节到第六字节为城域网地址,第七、第八字节为接入网地址;源地址(sa)也是由8个字节(byte)组成,定义与目的地址(da)相同;保留字节由2个字节组成;payload部分根据不同的数据报的类型有不同的长度,如果是各种协议包的话是64个字节,如果是单组播数据包话是32 1024=1056个字节,当然并不仅仅限于以上2种;crc有4个字节组成,其计算方法遵循标准的以太网crc算法。2.2城域网数据包定义城域网的拓扑是图型,两个设备之间可能有2种、甚至2种以上的连接,即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是,城域网设备的城域网地址却是唯一的,为了精确描述城域网设备之间的连接关系,在本发明实施例中引入参数:标签,来唯一描述一个城域网设备。本说明书中标签的定义和mpls(multi-protocollabelswitch,多协议标签交换)的标签的定义类似,假设设备a和设备b之间有两个连接,那么数据包从设备a到设备b就有2个标签,数据包从设备b到设备a也有2个标签。标签分入标签、出标签,假设数据包进入设备a的标签(入标签)是0x0000,这个数据包离开设备a时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程,也就意味着城域网的地址分配、标签分配都是由城域服务器主导的,节点交换机、节点服务器都是被动的执行而已,这一点与mpls的标签分配是不同的,mpls的标签分配是交换机、服务器互相协商的结果。如下表所示,城域网的数据包主要包括以下几部分:dasareserved标签payloadcrc即目的地址(da)、源地址(sa)、保留字节(reserved)、标签、payload(pdu)、crc。其中,标签的格式可以参考如下定义:标签是32bit,其中高16bit保留,只用低16bit,它的位置是在数据包的保留字节和payload之间。基于视联网的上述特性,提出了本发明实施例的核心构思之一,本发明应用第一视联网终端,第一视联网终端接收第二视联网终端发送的针对目标用户的人脸图像序列;第二视联网终端为与第一视联网终端进行可视电话业务的终端;采用局部二值模式,将图像序列中每帧人脸图像的局部特征转换为特征数值;基于各特征数值,确定目标用户的面部表情对应的目标表情种类;基于目标表情种类,生成相应的提示信息,并将提示信息发送至第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本发明所提供的一种表情识别方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 当前第1页1 2 3 
技术特征:

1.一种表情识别方法,其特征在于,应用于第一视联网终端,所述方法包括:

接收第二视联网终端发送的针对目标用户的人脸图像序列;所述第二视联网终端为与所述第一视联网终端进行可视电话业务的终端;

采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值;

基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类;

基于所述目标表情种类,生成相应的提示信息,并将所述提示信息发送至所述第二视联网终端。

2.根据权利要求1所述的方法,其特征在于,所述采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值,包括:

获取每帧所述人脸图像上的3x3像素点的第一区域;

将所述第一区域的边缘像素点对应的边缘像素值,和所述第一区域的中心像素点对应的中心像素值进行比较,得到比较结果;

在所述边缘像素值大于或者等于所述中心像素值时,将所述边缘像素点的像素值设置为1;

在所述边缘像素点对应的像素值小于所述中心像素点对应的像素值时,将所述边缘像素点的像素值设置为0。

3.根据权利要求1所述的方法,其特征在于,所述基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类,包括:

将各所述特征数值输入至预置神经网络;

获取所述预置神经网络输出的所述目标用户的面部表情;

基于所述面部表情确定所述目标用户的目标表情种类。

4.根据权利要求3所述的方法,其特征在于,所述基于所述面部表情确定所述目标用户的目标表情种类,包括:

将所述面部表情和预先生成的表情样本库中的各面部表情进行比较,确定比较结果;

基于所述比较结果,确定所述目标用户的目标表情种类。

5.根据权利要求1所述的方法,其特征在于,所述接收第二视联网终端发送的针对目标用户的人脸图像序列,包括:

接收所述第二视联网终端发送的采集的视频数据;

对所述视频数据进行解码,得到针对所述目标用户的人脸图像序列。

6.一种表情识别装置,其特征在于,应用于第一视联网终端,所述装置包括:

接收模块,用于接收第二视联网终端发送的针对目标用户的人脸图像序列;所述第二视联网终端为与所述第一视联网终端进行可视电话业务的终端;

转换模块,用于采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值;

确定模块,用于基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类;

生成模块,用于基于所述目标表情种类,生成相应的提示信息,并将所述提示信息发送至所述第二视联网终端。

7.根据权利要求6所述的装置,其特征在于,所述转换模块包括:

第一获取子模块,用于获取每帧所述人脸图像上的3x3像素点的第一区域;

比较子模块,用于将所述第一区域的边缘像素点对应的边缘像素值,和所述第一区域的中心像素点对应的中心像素值进行比较,得到比较结果;

第一设置子模块,用于在所述边缘像素值大于或者等于所述中心像素值时,将所述边缘像素点的像素值设置为1;

第二设置子模块,用于在所述边缘像素点对应的像素值小于所述中心像素点对应的像素值时,将所述边缘像素点的像素值设置为0。

8.根据权利要求6所述的装置,其特征在于,所述确定模块包括:

输入子模块,用于将各所述特征数值输入至预置神经网络;

第二获取子模块,用于获取所述预置神经网络输出的所述目标用户的面部表情;

确定子模块,用于基于所述面部表情确定所述目标用户的目标表情种类。

9.一种电子设备,其特征在于,包括:

一个或多个处理器;和

其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行权利要求1至5任一项所述的表情识别方法。

10.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行权利要求1至5任一项所述的表情识别方法。

技术总结
本发明实施例提供了一种表情识别方法和装置,应用于第一视联网终端,所述方法包括:接收第二视联网终端发送的针对目标用户的人脸图像序列;所述第二视联网终端为与所述第一视联网终端进行可视电话业务的终端;采用局部二值模式,将所述图像序列中每帧人脸图像的局部特征转换为特征数值;基于各所述特征数值,确定所述目标用户的面部表情对应的目标表情种类;基于所述目标表情种类,生成相应的提示信息,并将所述提示信息发送至所述第二视联网终端,使得视联网可以应用于更多需要进行表情识别的领域,拓展了业务范围,例如,在远程教育领域,可以使得教师适时获取学生的听课状态,以使得老师准确把控教学进度。

技术研发人员:胡贵超;谢飞;韩杰;王艳辉
受保护的技术使用者:视联动力信息技术股份有限公司
技术研发日:2019.12.30
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-18950.html

最新回复(0)