本发明涉及图像识别技术,特别是涉及一种目标对象的识别方法、系统、设备及介质。
背景技术:
近来年,人脸识别技术在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而,在已建摄像头中,有80%以上的摄像头并非在任何情况下都可以拍摄到清晰人脸,加之作案人员反侦察能力的提高,会故意躲避摄像头,及时抓拍到人脸信息,并及时报警处置难度较大;不仅如此,在实际的场景中,一个摄像头往往无法覆盖所有区域,而多摄像头之间一般也没有重叠。因此,本申请提出一种目标对象的识别方法、系统、设备及介质,通过识别视频中的人脸即可构建行人完整活动轨迹,实现对行人的跨镜头跟踪。
技术实现要素:
鉴于以上所述现有技术的缺点,本发明的目的在于提供目标对象的识别方法、系统、设备及介质,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种目标对象的识别方法,包括以下步骤:
获取包含有一个或多个人脸或人体的图像;
将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
可选地,所述图像包括单帧或多帧图像,所述多帧图像包括一个或多个连续帧图像、多个单帧图像;
获取包含有一个或多个人脸或人体的单帧或多帧图像;
将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;
根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。可选地,将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;
对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;
对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
获取所述某一帧图像的人脸或人体特征向量。
可选地,若识别出某一帧图像中包含有所述一个或多个目标对象的人脸或人体;
获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。
可选地,所述运动信息包括以下至少之一:运动时间、运动地理位置。
可选地,所述分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
可选地,所述局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。
可选地,将所述眼睛的形状、所述鼻子的形状、所述嘴的形状作为一层;所述眼睛的间隔距离、所述五官的位置、所述脸的轮廓作为另一层。
可选地,所述人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
可选地,通过一个或多个图像采集设备,获取包含有一个或多个人脸或人体的图像。
可选地,所述一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
本发明还提供一种目标对象的识别系统,包括有:
图像模块,用于获取包含有一个或多个人脸或人体的图像;
特征模块,用于将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
识别模块,用于根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
可选地,所述图像包括单帧或多帧图像,所述多帧图像包括一个或多个连续帧图像、多个单帧图像。
可选地,所述特征模块具体用于:
将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;
对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;
对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
获取所述某一帧图像的人脸或人体特征向量。
可选地,若所述识别模块识别出某一帧图像中包含有所述一个或多个目标对象的人脸或人体;
获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。
可选地,所述运动信息包括以下至少之一:运动时间、运动地理位置。
可选地,所述分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
可选地,所述局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。
可选地,将所述眼睛的形状、所述鼻子的形状、所述嘴的形状作为一层;所述眼睛的间隔距离、所述五官的位置、所述脸的轮廓作为另一层。
可选地,所述人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
可选地,通过一个或多个图像采集设备,获取包含有一个或多个人脸的一个或多个连续帧图像。
可选地,所述一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
本发明还提供一种目标对象的识别设备,包括有:
获取包含有一个或多个人脸或人体的图像;
将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
本发明还提供一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如上述内容中一个或多个所述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如上述内容中一个或多个所述的方法。
如上所述,本发明提供的一种目标对象的识别方法、系统、设备及介质,具有以下有益效果:获取包含有一个或多个人脸或人体的图像;将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。通过本发明能够识别出单帧或多帧图像中是否包含有一个或多个目标对象的人脸或人体,再判断这单帧或多帧图像来源于何处的图像采集设备,根据图像采集设备对应的地理位置,生成一个或多个目标对象的运动信息,从而可以对一个或多个目标对象进行跨境头跟踪。
附图说明
图1为一实施例提供的目标对象的识别方法的流程示意图;
图2为另一实施例提供的目标对象的识别方法的流程示意图;
图3为一实施例提供的分层矢量化模型的连接结构示意图;
图4为一实施例提供的目标对象的识别系统的硬件结构示意图;
图5为一实施例提供的终端设备的硬件结构示意图;
图6为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
m10图像模块
m20特征模块
m30识别模块
1100输入设备
1101第一处理器
1102输出设备
1103第一存储器
1104通信总线
1200处理组件
1201第二处理器
1202第二存储器
1203通信组件
1204电源组件
1205多媒体组件
1206语音组件
1207输入/输出接口
1208传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明提供一种目标对象的识别方法,包括以下步骤:
获取包含有一个或多个人脸或人体的图像;其中,所述图像包括有单帧图像或多帧图像,多帧图像包括一个或多个连续帧图像、多个单帧图像;作为示例,可以将多个单帧图像合成为一个多帧图像。
将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
具体地,如图1所示,在一个实施例中,
s100,获取包含有一个或多个人脸或人体的单帧或多帧图像;
s200,将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;
s300,根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。
本方法通过获取包含有人脸或人体的单帧或多帧图像,将单帧或多帧图像中的某一帧图像输入至分层矢量化模型中,得到该帧图像的人脸或人体特征向量;再根据该帧图像的人脸或人体特征向量识别出该帧图像中的一个或多个人脸或人体是否包含有一个或多个目标对象的人脸或人体,能够判断目标对象是否出现在该单帧或多帧图像中。
分层矢量化模型实际上是一个多层的特征编码的过程。一个单层的特征编码由以下几个步骤组成:首先,对图片库里包含有人脸或人体的所有图像进行分块;其次,提取每块区域的局部特征(如lbp、sift),形成局部特征描述子;然后,对所有局部特征描述子进行量化形成字典;最后,根据字典信息和人脸或人体图像的映射,编码形成人脸或人体图像的人脸或人体特征向量,定义该人脸或人体特征向量为人脸或人体dna。
在一示例性实施例中,具体地:
s210,将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
s200,对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
s230,提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;其中,本申请实施例中的局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。作为示例,在计算机人脸识别过程中,可以将人脸的明显外在特征:眼睛大小形状(例如丹凤眼、浓眉大眼等)、鼻子形状(例如鹰钩鼻、平鼻等)、嘴的大小形状(例如樱桃小嘴等)作为第一层;将眼睛的距离、五官的位置、脸的轮廓等作为第二层。
s240,对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
s250,根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
s260,获取所述某一帧图像的人脸或人体特征向量,作为示例,本申请将某一帧图像的人脸或人体特征向量定义为人脸或人体dna。其中,人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
在一些示例性实施例中,通过一个或多个图像采集设备获取包含有一个或多个人脸或人体的单帧或多帧图像。作为示例,本申请中的图像采集设备可以为摄像机,例如复用过去已经建设完成的网络摄像机,通过复用已经建设完成的摄像机采集监控视频,与新安装的摄像机相比,免去了弱电线路改造和消防审批,实施起来简单便捷,没有技术门槛。由于居民区、学校、车站、机场、商场、医院等地方人流量通常较大,且覆盖人数多;所以本申请实施例中的一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
在一示例性实施例中,若识别出所述某一帧图像中包含有所述一个或多个目标对象的人脸或人体;从所述单帧或多帧图像中获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。所述运动信息包括以下至少之一:运动时间、运动地理位置。具体地,先获取一个或多个摄像机拍摄的一个或多个视频,再确定这些视频中的每一帧图像所呈现出的画面中是否包含有一个或多个目标对象的人脸或人体。如果某些视频中的某些帧图像所呈现出的画面中包含有一个或多个目标对象的人脸或人体,则根据这些图像画面确定一个或多个目标对象的运动时间和运动地理位置。作为示例示例,例如获取某一居民区中其中5个摄像机拍摄的视频,每个摄像机均拍摄有一段视频,人工观看这5段视频中是否存在人脸或人体,剪切出这5段视频中存在人脸或人体的视频片段,再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像,然后将每一帧包含有人脸或人体的图像输入至分层矢量化模型中,获取所述每一帧图像的人脸或人体特征向量;根据每一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。其中,分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络,深度神经网络根据包含有目标对象的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标对象的人脸或人体,直接从视频片段中获得这一个或多个目标对象的运动时间,再判断这些视频片段来源于哪些摄像机,根据摄像机的安装位置,则可以大致得到这一个或多个目标对象的运动地理位置;从而可以对这一个或多个目标对象实现跨镜头跟踪。其中,本申请实施例中的目标对象是人,例如失踪的小孩、存在某种状态的嫌疑人等。
本方法通过获取包含有一个或多个人脸或人体的单帧或多帧图像;将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。通过本方法能够识别出单帧或多帧图像中是否包含有一个或多个目标对象的人脸或人体,再判断这单帧或多帧图像来源于何处的图像采集设备,根据图像采集设备对应的地理位置,生成一个或多个目标对象的运动信息,从而可以对一个或多个目标对象进行跨境头跟踪。
如图3和图4所示,本发明还提供一种目标对象的识别系统,包括有:
图像模块m10,用于获取包含有一个或多个人脸或人体的图像;其中,所述图像包括有单帧图像或多帧图像,多帧图像包括一个或多个连续帧图像、多个单帧图像;作为示例,可以将多个单帧图像合成为一个多帧图像。
特征模块m20,用于将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
识别模块m30,用于根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
具体地,在一个实施例中,
图像模块m10,用于获取包含有一个或多个人脸或人体的单帧或多帧图像;
特征模块m20,用于将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;
识别模块m30,用于根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。
本系统通过获取包含有人脸或人体的单帧或多帧图像,将单帧或多帧图像中的某一帧图像输入至分层矢量化模型中,得到该帧图像的人脸或人体特征向量;再根据该帧图像的人脸或人体特征向量识别出该帧图像中的一个或多个人脸或人体是否包含有一个或多个目标对象的人脸或人体,能够判断目标对象是否出现在该单帧或多帧图像中。
分层矢量化模型实际上是一个多层的特征编码的过程。一个单层的特征编码由以下几个步骤组成:首先,对图片库里包含有人脸或人体的所有图像进行分块;其次,提取每块区域的局部特征(如lbp、sift),形成局部特征描述子;然后,对所有局部特征描述子进行量化形成字典;最后,根据字典信息和人脸或人体图像的映射,编码形成人脸或人体图像的人脸或人体特征向量,定义该人脸或人体特征向量为人脸或人体dna。
如图3所示,在一示例性实施例中,所述特征模块具体用于:
将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;其中,本申请实施例中的局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。作为示例,在计算机人脸识别过程中,可以将人脸的明显外在特征:眼睛大小形状(例如丹凤眼、浓眉大眼等)、鼻子形状(例如鹰钩鼻、平鼻等)、嘴的大小形状(例如樱桃小嘴等)作为第一层;将眼睛的距离、五官的位置、脸的轮廓等作为第二层。
对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
获取所述某一帧图像的人脸或人体特征向量,作为示例,本申请将某一帧图像的人脸或人体特征向量定义为人脸或人体dna。其中,人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
在一些示例性实施例中,通过一个或多个图像采集设备获取包含有一个或多个人脸或人体的单帧或多帧图像。作为示例,本申请中的图像采集设备可以为摄像机,例如复用过去已经建设完成的网络摄像机,通过复用已经建设完成的摄像机采集监控视频,与新安装的摄像机相比,免去了弱电线路改造和消防审批,实施起来简单便捷,没有技术门槛。由于居民区、学校、车站、机场、商场、医院等地方人流量通常较大,且覆盖人数多。所以本申请实施例中的一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
在一示例性实施例中,若识别出所述某一帧图像中包含有所述一个或多个目标对象的人脸或人体;从所述单帧或多帧图像中获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。所述运动信息包括以下至少之一:运动时间、运动地理位置。具体地,先获取一个或多个摄像机拍摄的一个或多个视频,再确定这些视频中的每一帧图像所呈现出的画面中是否包含有一个或多个目标对象的人脸或人体。如果某些视频中的某些帧图像所呈现出的画面中包含有一个或多个目标对象的人脸或人体,则根据这些图像画面确定一个或多个目标对象的运动时间和运动地理位置。作为示例,例如获取某一医院中其中10个摄像机拍摄的视频,每个摄像机均拍摄有一段视频,人工观看这10段视频中是否存在人脸或人体,剪切出这10段视频中存在人脸或人体的视频片段,再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像,然后将每一帧包含有人脸或人体的图像输入至分层矢量化模型中,获取所述每一帧图像的人脸或人体特征向量;根据每一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。其中,分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络,深度神经网络根据包含有目标对象的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标对象的人脸或人体,直接从视频片段中获得这一个或多个目标对象的运动时间,再判断这些视频片段来源于哪些摄像机,根据摄像机的安装位置,则可以大致得到这一个或多个目标对象的运动地理位置;从而可以对这一个或多个目标对象实现跨镜头跟踪。其中,本申请实施例中的目标对象是人,例如医生、病人、票贩子等。
本系统通过图像模块获取包含有一个或多个人脸或人体的单帧或多帧图像;通过特征模块将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;根据所述某一帧图像的人脸或人体特征向量,通过识别模块识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。通过本系统能够识别出单帧或多帧图像中是否包含有一个或多个目标对象的人脸或人体,再判断这单帧或多帧图像来源于何处的图像采集设备,根据图像采集设备对应的地理位置,生成一个或多个目标对象的运动信息,从而可以对一个或多个目标对象进行跨境头跟踪。
本申请实施例还提供了一种目标对象的识别设备,包括有:
获取包含有一个或多个人脸或人体的图像;其中,所述图像包括有单帧图像或多帧图像,多帧图像包括一个或多个连续帧图像、多个单帧图像;作为示例,可以将多个单帧图像合成为一个多帧图像。
将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;
根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。
在本实施例中,该目标对象的识别设备执行上述系统或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准语音层面3,movingpictureexpertsgroupaudiolayeriii)播放器、mp4(动态影像专家压缩标准语音层面4,movingpictureexpertsgroupaudiolayeriv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中所述方法所包含步骤的指令(instructions)。
图5为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(centralprocessingunit,简称cpu)、应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如usb接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图6为本申请的一个实施例提供的终端设备的硬件结构示意图。图6是对图5在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(randomaccessmemory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(lcd)和触摸面板(tp)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(mic),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个实施例中,该终端设备中可以包括sim卡插槽,该sim卡插槽用于插入sim卡,使得终端设备可以登录gprs网络,通过互联网与服务器建立通信。
由上可知,在图6实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图5实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
1.一种目标对象的识别方法,其特征在于,包括以下步骤:
获取包含有一个或多个人脸或人体的图像;
将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
2.根据权利要求1所述的目标对象的识别方法,其特征在于,所述图像包括单帧或多帧图像,所述多帧图像包括一个或多个连续帧图像、多个单帧图像;
获取包含有一个或多个人脸或人体的单帧或多帧图像;
将包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中,获取所述某一帧图像的人脸或人体特征向量;
根据所述某一帧图像的人脸或人体特征向量,识别所述某一帧图像中是否包含有一个或多个目标对象的人脸或人体。
3.根据权利要求1或2所述的目标对象的识别方法,其特征在于,将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;
对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;
对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
获取所述某一帧图像的人脸或人体特征向量。
4.根据权利要求1或2所述的目标对象的识别方法,其特征在于,若识别出某一帧图像中包含有所述一个或多个目标对象的人脸或人体;
获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。
5.根据权利要求4所述的目标对象的识别方法,其特征在于,所述运动信息包括以下至少之一:运动时间、运动地理位置。
6.根据权利要求1或2所述的目标对象的识别方法,其特征在于,所述分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
7.根据权利要求3所述的目标对象的识别方法,其特征在于,所述局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。
8.根据权利要求7所述的目标对象的识别方法,其特征在于,将所述眼睛的形状、所述鼻子的形状、所述嘴的形状作为一层;所述眼睛的间隔距离、所述五官的位置、所述脸的轮廓作为另一层。
9.根据权利要求1至3任一所述的目标对象的识别方法,其特征在于,所述人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
10.根据权利要求1或2所述的目标对象的识别方法,其特征在于,通过一个或多个图像采集设备,获取包含有一个或多个人脸或人体的图像。
11.根据权利要求10所述的目标对象的识别方法,其特征在于,所述一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
12.一种目标对象的识别系统,其特征在于,包括有:
图像模块,用于获取包含有一个或多个人脸或人体的图像;
特征模块,用于将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
识别模块,用于根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
13.根据权利要求12所述的目标对象的识别系统,其特征在于,所述图像包括单帧或多帧图像,所述多帧图像包括一个或多个连续帧图像、多个单帧图像。
14.根据权利要求12或13所述的目标对象的识别系统,其特征在于,所述特征模块具体用于:
将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中;
对包含有一个或多个人脸或人体的所述某一帧图像进行分割,分割为一个或多个图像块;
提取每一个图像块的局部特征,根据所述局部特征获取每一个图像块的局部特征描述子;
对所述每一个图像块的局部特征描述子进行量化,生成图像块特征字典;
根据所述图像块特征字典与所述某一帧图像的映射,编码形成所述某一帧图像的人脸或人体特征向量;
获取所述某一帧图像的人脸或人体特征向量。
15.根据权利要求12或13所述的目标对象的识别系统,其特征在于,若所述识别模块识别出某一帧图像中包含有所述一个或多个目标对象的人脸或人体;
获取包含有所述一个或多个目标对象的人脸或人体的每一帧图像,根据获取的包含有所述一个或多个目标对象的人脸或人体的每一帧图像确定所述一个或多个目标对象的运动信息。
16.根据权利要求15所述的目标对象的识别系统,其特征在于,所述运动信息包括以下至少之一:运动时间、运动地理位置。
17.根据权利要求12或13所述的目标对象的识别系统,其特征在于,所述分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络。
18.根据权利要求14所述的目标对象的识别系统,其特征在于,所述局部特征包括以下至少之一:眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。
19.根据权利要求18所述的目标对象的识别系统,其特征在于,将所述眼睛的形状、所述鼻子的形状、所述嘴的形状作为一层;所述眼睛的间隔距离、所述五官的位置、所述脸的轮廓作为另一层。
20.根据权利要求12至14任一所述的目标对象的识别系统,其特征在于,所述人脸或人体特征向量不受干扰因素的影响,所述干扰因素包括以下至少之一:光照、遮挡、角度、年龄、种族。
21.根据权利要求12或13所述的目标对象的识别系统,其特征在于,通过一个或多个图像采集设备,获取包含有一个或多个人脸的一个或多个连续帧图像。
22.根据权利要求21所述的目标对象的识别系统,其特征在于,所述一个或多个图像采集设备设置的地理位置包括以下至少之一:居民区、学校、车站、机场、商场、医院。
23.一种目标对象的识别设备,其特征在于,包括有:
获取包含有一个或多个人脸或人体的图像;
将包含有所述一个或多个人脸或人体的图像输入至分层矢量化模型中,获取所述图像的人脸或人体特征向量;
根据所述图像的人脸或人体特征向量,识别所述图像中是否包含有一个或多个目标对象的人脸或人体。
24.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-11中一个或多个所述的方法。
25.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-11中一个或多个所述的方法。
技术总结