对象识别方法、装置及设备与流程

专利2022-06-29  62


本公开涉及计算机技术领域,尤其涉及一种对象识别方法、装置及设备。



背景技术:

在计算机技术领域中,存在对多种对象进行识别的需求。然而,在大多数情况下,用户需要自己根据对象的特征,通过搜索引擎、专业字典等辅助工具来自行查找并识别出对象的类别。这种查找非常耗时,并且准确性不高。近年来,出现了通过拍摄对象的图像,然后将该图像作为输入以得到对象的类别信息的应用。然而,由于用户拍摄的图像可能存在图像范围过大、细节信息不足、未包括对象的关键特征部位等问题,直接基于所拍摄的图像进行对象类别识别可能会产生不准确的结果。因此,存在对改进的用于识别对象的类别的方法及设备的需求。



技术实现要素:

本公开提供了一种用于对象识别的方法,包括:获取所述对象的至少一部分的第一图像;基于第一图像,确定所述对象的特征部位;获取所述对象的所述特征部位的第二图像;和基于第二图像,识别所述对象的对象类别。

根据本公开的实施例,其中,确定所述对象的特征部位包括:基于第一图像,识别所述对象的初步类别;和基于识别出的所述对象的初步类别确定所述对象的特征部位。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:向用户提供提示信息,所述提示信息指示用户输入所述对象的所述特征部位的第二图像;和接收所述对象的所述特征部位的第二图像。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:确定所述第一图像是否包括所述对象的所述特征部位;和在所述第一图像包括所述对象的所述特征部位的情况下:对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

根据本公开的实施例,其中,确定所述第一图像是否包括所述对象的所述特征部位包括:通过预先训练的第一对象部位识别模型对所述第一图像中对象的各个部位进行识别和标注;以及基于识别和标注结果来确定所述第一图像是否包括所述对象的所述特征部位。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:确定所述第一图像是否包括所述对象的完整图像;和在所述第一图像包括所述对象的完整图像的情况下:对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

根据本公开的实施例,其中,所述对象为植物,并且所述第二图像的分辨率比第一图像的分辨率更高,其中,识别所述对象的初步类别包括:获取并记录获取第一图像时的位置信息和季节信息中的一个或多个,根据所述位置信息和季节信息中的一个或多个排除不可能的对象类别;以及在排除不可能的对象类别的情况下,识别所述对象的初步类别。

根据本公开的实施例,其中,识别所述对象的对象类别包括:识别与所述对象相关联的类别信息、位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个。

根据本公开的实施例,其中,将所述第一图像和第二图像中的一个或多个存储到与所述对象的对象类别相对应的样本库中,并记录与所述位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个相对应的生理周期信息和形态信息。

根据本公开的实施例,其中,向用户提供提示信息包括:通过文字方式、图形方式和语音方式中的一种或多种来向用户提供提示信息。

根据本公开的实施例,其中,所述对象的初步类别是基于预先训练的第一对象类别识别模型来识别的;所述对象的对象类别是基于预先训练的第二对象类别识别模型来识别的,其中,所述第一对象类别识别模型和第二对象类别识别模型相同或不同;其中,所述对象类别识别模型包括深度卷积神经网络或深度残差网络。

根据本公开的实施例,其中,所述第一和/或对象类别识别模型的训练步骤包括:获取训练样本集,所述训练样本集中的每一样本标注有其对应的类别;获取测试样本集,所述测试样本集中的每一样本标注有其对应的类别,其中,所述测试样本集不同于所述训练样本集;基于所述训练样本集对所述对象类别识别模型进行训练;基于所述测试样本集对所述对象类别识别模型进行测试;在所述测试结果指示所述对象类别识别模型的识别准确率小于预设准确率时,增加所述训练样本集中的样本数量进行再次训练;以及在所述测试结果指示所述对象类别识别模型的识别准确率大于或等于所述预设准确率时,完成训练。

本公开提供了一种用于对象识别的装置,包括:图像获取模块,被配置为获取所述对象的至少一部分的第一图像,和获取所述对象的特征部位的第二图像;特征部位确定模块,被配置为基于第一图像,确定所述对象的特征部位;以及对象类别识别模块,被配置为基于所述对象的特征部位的第二图像,识别所述对象的对象类别。

根据本公开的实施例,其中,确定所述对象的特征部位包括:基于第一图像,识别所述对象的初步类别;和基于识别出的所述对象的初步类别确定所述对象的特征部位。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:向用户提供提示信息,所述提示信息指示用户输入所述对象的所述特征部位的第二图像;和接收所述对象的所述特征部位的第二图像。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:确定所述第一图像是否包括所述对象的所述特征部位;和在所述第一图像包括所述对象的所述特征部位的情况下:对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

根据本公开的实施例,其中,获取所述对象的所述特征部位的第二图像包括:确定所述第一图像是否包括所述对象的完整图像;和在所述第一图像包括所述对象的完整图像的情况下:对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

本公开提供了一种用于对象识别的设备,包括:图像获取单元,用于获取输入图像;处理器;以及存储器,所述存储器被配置为存储一系列计算机可执行指令以及与所述一系列计算机可执行指令相关联的计算机可访问数据,其中,所述一系列计算机可执行指令在由所述处理器执行时,使得所述处理器执行根据本公开实施例中的任一项所述的方法。

本公开提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,使得所述处理器执行根据本公开实施例中的任一项所述的方法。

本公开提供一种用于对象识别的方法、装置及设备,通过获取对象的特征部位并基于特征部位进行对象的类别识别,操作简便,能够有效提升对象识别的准确性。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。

图1示出了根据本公开实施例的对象识别系统的网络环境示意图。

图2示出了根据本公开实施例的对象识别方法的流程图。

图3示出了根据本公开实施例的对象类别识别模型的训练方法的流程图。

图4示出了根据本公开另一实施例的对象识别方法的流程框图。

图5示出了根据本公开实施例的对象识别装置的示意图。

图6示出了根据本公开实施例的对象识别设备的示意图。

具体实施方式

以下将参照附图来详细描述本公开的各种示例性实施例。应当注意的是:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。为了更好地解释本公开,在下面的描述中阐述了许多细节,然而可以理解的是,在没有这些细节的情况下也可以实践本公开。

以下对各种示例性实施例的描述仅仅是说明性的,本领域普通技术人员将认识到其它变体、修改和替代方案是可能的。在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤等之间进行区分,而并不旨在表示时间顺序、优先级或重要性。

对于本领域普通技术人员已知的技术、方法和设备在本文中可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为本说明书的一部分。

本申请的发明人深入研究了用于对象识别的方法及系统。为了简化描述,以下示例性实施例中以植物作为对象的示例,但是应该认识到的是,本公开中的“对象”包括但不限于动物、人物、景物、自然物、建筑物、商品、食品、药品、和/或日用品等。

图1示出了根据本公开实施例的对象识别系统的网络环境100的示意图。

对象识别系统的网络环境100可以包括移动设备102、远程服务器103、训练设备104和数据库105,它们通过网络106彼此有线或无线地耦接。网络106可以体现为广域网(诸如移动电话网络、公共交换电话网络、卫星网络、互联网等)、局域网(诸如wi-fi、wi-max、zigbeetm、bluetoothtm等)和/或其它形式的联网功能。

移动设备102可以包括移动电话、平板计算机、膝上型计算机、个人数字助理和/或被配置用于捕获、存储和/或传输诸如数字照片之类的图像的其它计算装置。因此,移动设备102可以包括诸如数字相机之类的图像捕获装置和/或可以被配置为从其它装置接收图像。移动设备102可以包括显示器。显示器可以被配置用于向用户101提供一个或多个用户界面,所述用户界面可以包括多个界面元素,用户101可以与界面元素进行交互等。例如,用户101可以使用移动设备102对某一对象进行拍摄并上传或存储图像。移动设备102可以向用户输出有关该对象的类别信息和详细介绍等,或者可以向用户输出指示用户对该对象的特定部位进行拍摄的提示信息等。

远程服务器103可以被配置为对经由网络106从移动设备102接收的对象图像等进行分析以确定对象的类别,并提供对应对象的详细介绍等信息。远程服务器103还可以被配置为创建并训练根据本公开的一个实施例的对象类别识别模型。对象类别识别模型的具体训练过程将在下文结合具体实施例进行描述。

训练设备104可以耦合到网络106以促进对象类别识别模型的训练。训练设备104可以具有多个cpu和/或gpu以辅助训练对象类别识别模型。

数据库105可以耦合到网络106并提供远程服务器103进行相关计算所需的数据。例如,数据库105可以包括存储有大量的不同类别的对象的图像的样本库。在一个实施例中,以植物为例,样本库可以包括大量不同位置、不同季节、不同时间天气和不同拍摄角度下的不同类别的植物的图像样本。在一个实施例中,还可以将用户所拍摄的选定植物照片存储到与该植物类别相对应的样本库中,同时,还可以在数据库中记录与该植物的位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个相对应的生理周期信息和形态信息。数据库可以采取本领域中已知的各种数据库技术来实现。远程服务器103可以根据需要访问数据库105以进行相关操作。

应该理解的是,本文的网络环境100仅仅是一个示例。本领域技术人员可以根据需要,增加更多的装置或删减一些装置,并且可以对一些装置的功能和配置进行修改。下面,将以待识别对象为植物为例进行描述。

下面结合图2来描述根据本公开实施例的对象识别方法200。

图2示出了根据本公开实施例的对象识别方法200的流程图。如图2所示,在步骤s201中,获取对象的至少一部分的第一图像。

如前所述,第一图像可以是用户先前存储的或者是用户实时拍摄的。例如,第一图像可以是用户先前存储在移动设备102中或者是用户使用连接到移动设备102的外置摄像头或移动设备102内置的摄像头进行实时拍摄的。在一个实施例中,用户还可以通过网络实时获取第一图像。在一个实施例中,第一图像还可以是用户先前存储的或用户实时拍摄或获取的原始图像经过下采样处理后得到的降分辨率图像。经过下采样处理,可以减小数据处理量,从而提升后续的特征部位确定以及类别识别等步骤的运算效率。

在步骤s202中,基于第一图像,确定对象的特征部位。

根据本公开的实施例,对象的特征部位可以是能够用以明显识别该对象的类别的一个或多个关键部位。一个类别的对象可以具有一个或多个特征部位。例如,对于花类植物来说,其特征部位可以是其花瓣部位和/或其花茎部位。

在一个实施例中,确定对象的特征部位可以包括:基于第一图像,识别对象的初步类别;和基于识别出的对象的初步类别确定对象的特征部位。在一个实施例中,以待识别的对象为植物为例,识别对象的初步类别还可以包括:获取并记录获取第一图像时的位置信息和季节信息中的一个或多个,根据所述位置信息和季节信息中的一个或多个排除不可能的对象类别;以及在排除不可能的对象类别的情况下,识别所述对象的初步类别。例如,可以根据用户实时拍摄某植物的第一图像时所处的位置是中国东北地区而排除该植物是棕榈树的可能性,因为在中国棕榈树通常只分布于除西藏外秦岭以南的地区。例如,可以根据用户实时拍摄某植物的季节是在冬季而排除该植物是梨花的可能性,因为梨花通常只在春季开放。

在一个实施例中,可以基于第一图像,通过预先训练的第一对象类别识别模型来识别对象的初步类别。图3示出了根据本公开实施例的对象类别识别模型的训练方法300的流程图。如图3所示,第一对象类别识别模型的训练步骤可以包括:步骤s301,获取训练样本集,所述训练样本集中的每一样本标注有其对应的类别;步骤s302,获取测试样本集,所述测试样本集中的每一样本标注有其对应的类别,其中,所述测试样本集不同于所述训练样本集;步骤s303,基于所述训练样本集对所述第一对象类别识别模型进行训练;步骤s304,基于所述测试样本集对所述第一对象类别识别模型进行测试;步骤s305,在所述测试结果指示所述第一对象类别识别模型的识别准确率小于预设准确率时,增加所述训练样本集中的样本数量进行再次训练;以及步骤s306,在所述测试结果指示所述第一对象类别识别模型的识别准确率大于或等于所述预设准确率时,完成训练。

例如,为每个植物类别获取一定数量的标注有对应信息的图像样本,为每个植物类别准备的图像样本的数量可以相等也可以不等。为每个图像样本标注的对应信息可以包括图像样本中的植物类别(包括学名、别称、植物学分类的类别名称等)。为每个植物类别获取的图像样本可以尽可能包括该类别的植物的不同拍摄角度、不同光照条件、不同天气(例如同一植物在艳阳天和雨天的形态可能不同)、不同季节(例如同一植物在不同季节的形态可能不同)、不同时间(例如同一植物在每天的早晨和夜晚的形态可能不同)、不同生长环境(例如同一植物在室内和室外生长的形态可能不同)、不同地理位置(例如同一植物在不同的地理位置生长的形态可能不同)的图像。在这些情况下,为每个图像样本标注的对应信息还可以包括该图像样本的拍摄角度、光照、天气、季节、时间、生长环境或地理位置等信息。

可以将经过上述标注处理的图像样本划分为用于训练第一对象类别识别模型的训练样本集和用于对训练结果进行测试的测试样本集。通常训练样本集内的样本的数量明显大于测试样本集内的样本的数量,例如,测试样本集内的样本的数量可以占总图像样本数量的5%到20%,而相应的训练样本集内的样本的数量可以占总图像样本数量的80%到95%。本领域技术人员应该理解的是,训练样本集和测试样本集内的样本数量可以根据需要来调整。

可以利用训练样本集对第一对象类别识别模型进行训练,并利用测试样本集对经过训练的第一对象类别识别模型的识别准确率进行测试。若识别准确率不满足要求,则增加训练样本集中的图像样本的数量,并利用更新的训练样本集重新对第一对象类别识别模型进行训练,直到经过训练的第一对象类别识别模型的识别准确率满足要求为止。若识别准确率满足要求,则训练结束。在一个实施例中,可以基于识别准确率是否小于预设准确率来判断训练是否可以结束。如此,输出准确率满足要求的经过训练的第一对象类别识别模型可以用于进行对象类别的识别。

在一个实施例中,第一对象类别识别模型可以是深度卷积神经网络(cnn)或深度残差网络(resnet)。其中,深度卷积神经网络为深度前馈神经网络,其利用卷积核扫描植物图像,提取出植物图像中待识别的特征,进而对植物待识别的特征进行识别。另外,在对植物图像进行识别的过程中,可以直接将原始植物图像输入深度卷积神经网络模型,而无需对植物图像进行预处理。深度卷积神经网络模型相比于其他的识别模型,具备更高的识别准确率以及识别效率。而深度残差网络模型相比于深度卷积神经网络模型增加了恒等映射层,可以避免随着网络深度(网络中叠层的数量)的增加,卷积神经网络造成的准确率饱和、甚至下降的现象。残差网络模型中恒等映射层的恒等映射函数需要满足:恒等映射函数与残差网络模型的输入之和等于残差网络模型的输出。引入恒等映射以后,残差网络模型对输出的变化更加明显,因此可以大大提高植物生理期识别的识别准确率和识别效率,进而提高植物的识别准确率和识别效率。

应该注意的是,本发明的构思还可以使用其他已知或将来发展的训练及识别模型来实践。

仍以待识别的对象为植物为例,在一个实施例中,基于第一图像识别对象的初步类别可以包括:识别对象的属信息。例如,经过对对象的上述初步类别识别处理,可能只能识别出对象的属信息(例如,桃属、樱属或玫瑰等)而不能精确识别其种信息(即其准确类别),例如只能识别出对象属于桃属植物,而不能确定其具体是哪一桃种。在该实施例中,可以基于预先建立的植物的属及其对应的特征部位的对应关系来确定对象的特征部位。例如,对于桃属植物,可以进一步对其果、花瓣形态、花萼、整体形态(例如,是乔木还是灌木)、枝条有无毛或叶片正反面有无毛等部位或特征进行判断,以进一步确认该桃属植物的准确类别。对于樱属植物,可以进一步对其花萼是否反折、花萼是否有毛、萼片与萼筒的长度、花序整体形态、苞片、叶的整体形态、叶的两面是否无毛、叶边缘是否有锯齿、花瓣顶端形态以及托叶形态等部位或特征进行判断,以进一步确定该樱属植物的准确类别。对于玫瑰类植物,可以进一步对其花萼是否反折、花萼是否有毛、萼片与萼筒的长度、花序整体形态、苞片、叶的整体形态、叶的两面是否无毛、叶边缘是否有锯齿、花瓣顶端形态、托叶形态以及花茎是否有刺或刺的形态等部位或特征进行判断,以进一步确定该玫瑰类植物的准确类别。基于此,可以预先建立与桃属植物相对应的特征部位为包括:果、花瓣、花萼、整体、枝条和叶片部位等中的一个或多个;可以预先建立与樱属植物相对应的特征部位为包括:花萼、萼片、萼筒、花瓣、苞片和叶片部位等中的一个或多个;可以预先建立与玫瑰类植物相对应的特征部位为包括:花萼、萼片、萼筒、花瓣、苞片、叶片和花茎部位等中的一个或多个,如表1所示。

表1对象属别-特征部位对应关系表

在另一实施例中,例如,在经过初步识别处理后未能识别出对象的属信息,或者未预先建立初步识别出的对象的属信息及其特征部位的对应关系的情况下,还可以采用各种其它方式来确定对象的特征部位。例如,对于植物对象,可以按照植物学的部位划分,将其根、茎、叶、花、果部位中的一个或多个作为其特征部位。在一个实施例中,还可以将花部位进一步细分为花瓣正面部位、花瓣反面部位、花瓣侧面部位、花瓣边缘部位以及花梗部位等多个部位作为对象的特征部位。在一个实施例中,还可以将叶部位进一步细分为叶片正面部位、叶片反面部位、叶柄部位以及叶片边缘部位等一个或多个部位作为对象的特征部位。

在步骤s203中,获取对象的特征部位的第二图像。

在一个实施例中,获取对象的特征部位的第二图像可以包括:向用户提供提示信息,所述提示信息指示用户输入对象的特征部位的第二图像;和接收对象的特征部位的第二图像。在一个实施例中,该第二图像的分辨率比第一图像的分辨率更高。例如,若根据上述实施例识别出对象的初步类别为桃花(即,初步识别为属于桃属植物),则系统可以通过例如移动设备102的交互界面向用户输出指示用户输入对象的花瓣部位(即,与桃属植物相对应的特征部位)的第二图像的提示信息。然后,系统可以接收用户根据提示信息再次拍摄的图像,作为对象的特征部位的第二图像。在一个实施例中,可以通过文字方式、图形方式和语音方式中的一种或多种来向用户提供提示信息。

在一个实施例中,获取对象的特征部位的第二图像可以包括:确定第一图像是否包括对象的特征部位;和在第一图像包括对象的特征部位的情况下:对第一图像进行裁剪以得到特征部位的图像作为第二图像,或者在第一图像为第三图像进行下采样后的降分辨率图像的情况下,对该第三图像进行裁剪以得到特征部位的图像作为第二图像。

具体地,可以通过各种识别或匹配算法来确定第一图像是否包括对象(例如,桃花)的特征部位(例如,花瓣部位)。在一个实施例中,可以根据预先训练建立的第一对象部位识别模型来在第一图像中查找和定位该特征部位所在的相应区域,以便后续进行剪裁处理。第一对象部位识别模型可以是深度卷积神经网络(cnn)或深度残差网络(resnet),其可以是基于大量的不同对象的完整图像以及不同对象的各个部位的图像进行预先训练的。在该实施例中,可以利用第一对象部位识别模型将第一图像中对象的各个部位分别识别并标注出来,例如,对于花类对象,可以利用第一对象部位识别模型分别识别并标注出其叶子部位、花瓣部位或花茎部位等不同部位,然后再根据预先确定的该对象的特征部位(例如,花瓣部位)去定位并确定第一图像是否包括对象的特征部位。仍以上述关于桃花识别的实施例为例,在确定第一图像包括对象的花瓣部位的情况下,可以对第一图像进行裁剪以得到花瓣部位的图像作为第二图像。在一个实施例中,第一图像可以包括对象的花瓣部位、花茎部位、叶子部位以及一些其他的图片背景元素,在这种情况下,可以仅裁剪并提取花瓣部位作为第二图像。在一个实施例中,第一图像可以仅包括对象的花瓣部位,但可能包括多片花瓣,例如第一图像为一朵桃花,其总共包括五片花瓣,在这种情况下,可以仅裁剪并提取其中的一片花瓣作为第二图像。在一个实施例中,第一图像可以是用户拍摄的原始图像进行下采样处理后得到的降分辨率图像。在这种情况下,还可以对与第一图像相对应的原始图像进行裁剪以得到花瓣部位的图像作为第二图像。对原始图像进行裁剪,可以更大程度地保留对象的原始信息,从而提高识别准确性。在确定第一图像不包括对象的花瓣部位的情况下,可以如上所述向用户提供提示信息并接收用户重新拍摄的图像作为第二图像进行后续处理,这里不再赘述。

在一个实施例中,获取对象的特征部位的第二图像包括:确定第一图像是否包括对象的完整图像;和在第一图像包括对象的完整图像的情况下:对第一图像进行裁剪以得到特征部位的图像作为第二图像,或者在第一图像为第三图像进行下采样后的降分辨率图像的情况下,对该第三图像进行裁剪以得到特征部位的图像作为第二图像。

根据本发明的实施例,可以通过预先训练的第二对象部位识别模型来确定第一图像是否包括对象的完整图像。在一个实施例中,可以利用第二对象部位识别模型将第一图像中对象的各个部位分别识别并标注出来,例如,对于花类对象,可以利用第二对象部位识别模型分别识别并标注出其叶子部位、花瓣部位或花茎部位等不同部位,然后,可以基于预定规则来确定该第一图像是否包括对象的完整图像。在一个实施例中,该预定规则可以是:识别并标注出的各个部位是否包括该类对象预先确定的所有部位。例如,对于花类对象,其预先确定的所有部位可以是叶子部位、花瓣部位和花茎部位,在这种情况下,只有当识别并标注出的各个部位包括叶子部位、花瓣部位和花茎部位时,才将第一图像确定为包括对象的完整图像。在另一实施例中,该预定规则可以是:识别并标注出的部位数量大于或等于预定阈值。例如,同样对于花类对象,该预定阈值可以是3,在这种情况下,只有当识别并标注出的各个部位的数量大于或等于3(例如,包括叶子部位、花瓣部位和花茎部位三者)时,才将第一图像确定为包括对象的完整图像。应当理解,还可以基于任何其它预定规则来确定第一图像是否包括对象的完整图像。第二对象部位识别模型可以是深度卷积神经网络(cnn)或深度残差网络(resnet)。在一个实施例中,第二对象部位识别模型可以是基于大量的不同对象的完整图像以及不同对象的各个部位的图像进行训练的。该第二对象部位识别模型可以与上述第一对象部位识别模型为同一模型或不同模型。类似于上面的描述,在确定第一图像包括对象的完整图像的情况下,可以对第一图像或与第一图像相对应的原始图像进行裁剪以得到特征部位的图像作为第二图像;在确定第一图像不包括对象的完整图像的情况下,可以如上所述向用户提供提示信息并接收用户重新拍摄的图像作为第二图像进行后续处理,这里不再赘述。

最终,在步骤s204中,基于第二图像,识别对象的对象类别。

在一个实施例中,可以使用预先训练的第二对象类别识别模型来识别对象的对象类别。该第二对象类别识别模型可以与上述第一对象类别识别模型为同一模型或不同模型。例如,第二对象类别识别模型可以是深度卷积神经网络(cnn)或深度残差网络(resnet)。在一个实施例中,第二对象类别识别模型也可以使用如图3所示的训练方法300来进行训练。相较于上文所述的基于第一图像识别对象的初步类别,在步骤s204中,由于第二图像可以具有大于或等于第一图像的图像分辨率、并且可以比第一图像更有针对性的包括对象的特征部位,所以可以使得步骤s204中的识别结果更加准确。在一个实施例中,由于同一类别的对象在不同地理位置(例如生长在南方或北方)、在不同季节(例如在春季或在秋季)、在不同时间(例如在早上或晚上)、在不同天气(例如艳阳天或雨天)以及不同拍摄角度下的形态都有可能不相同,所以,识别对象的对象类别除了可以识别对象的类别信息之外,还可以识别与对象相关联的位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个。例如,可以根据用户拍摄的图像识别出图像中的植物的类别为向日葵,并且还可以基于其花盘挺拔微翘,识别出其是晴天的向日葵(阴天的向日葵花盘通常微低偏下)。例如,可以根据用户拍摄的图像识别出图像中的植物的类别为银杏树,并且还可以基于其树叶的颜色识别出该银杏树当前处于秋季(银杏树叶秋季变黄)。

此外,用户拍摄的原始图像、原始图像经压缩下采样处理后的第一图像或获取到的对象的特征部位的第二图像均可以存储到与该对象的对象类别相对应的样本库中,并记录与该对象的位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个相对应的生理周期信息和形态信息。

图4示出了根据本公开另一实施例的对象识别方法400的流程框图。

根据图4所示的实施例,首先,在401处,可以获取对象的原始图像。在402处,可以对对象的原始图像进行下采样处理,以获得降低分辨率后的第一图像。然后,在403处,可以基于上文所述的预先训练的第二对象部位识别模型来确定第一图像包括的是完整对象还是对象的一部分。若确定第一图像包含完整的对象,则流程前进到404。在404处,可以从包含完整对象的第一图像或其对应的原始图像中裁剪并提取出对应于对象的特征部位的第二图像。若在403处确定第一图像仅包含对象的一部分,则流程前进到405。在405处,可以进一步判断仅包含对象的一部分的第一图像是否对应于对象的特征部位,若是,则流程前进到404处进行相应的处理;若不是,则流程前进到406。在406处,可以向用户输出提示信息,该提示信息指示用户输入对象的特征部位的第二图像。接下来,在407处,可以基于用户的输入而接收第二图像。在404或407处获取到对应于对象的特征部位的第二图像之后,可以继续前进到409。最终,在409处,可以基于第二图像来识别对象的对象类别,例如,可以通过如上所述的预先训练的对象类别识别模型来实施。

图5示出了根据本公开实施例的对象识别装置500的示意图。

根据本公开实施例的对象识别装置500可以包括:图像获取模块501、特征部位确定模块502和对象类别识别模块503。其中,图像获取模块501被配置为获取对象的至少一部分的第一图像,和获取对象的特征部位的第二图像;特征部位确定模块502被配置为基于第一图像,确定对象的特征部位;以及对象类别识别模块503被配置为基于对象的特征部位的第二图像,识别对象的对象类别。

在一个实施例中,确定对象的特征部位可以包括:基于第一图像,识别对象的初步类别;和基于识别出的对象的初步类别确定对象的特征部位。

在一个实施例中,获取对象的特征部位的第二图像可以包括:向用户提供提示信息,该提示信息指示用户输入对象的特征部位的第二图像;和接收对象的特征部位的第二图像。

在一个实施例中,获取对象的特征部位的第二图像可以包括:确定第一图像是否包括对象的特征部位;和在第一图像包括对象的特征部位的情况下,对第一图像进行裁剪以得到特征部位的图像作为第二图像,或者在第一图像为第三图像进行下采样后的降分辨率图像的情况下,对第三图像进行裁剪以得到特征部位的图像作为第二图像。

在一个实施例中,获取对象的特征部位的第二图像可以包括:确定第一图像是否包括对象的完整图像;和在第一图像包括对象的完整图像的情况下,对第一图像进行裁剪以得到特征部位的图像作为第二图像,或者在第一图像为第三图像进行下采样后的降分辨率图像的情况下,对第三图像进行裁剪以得到特征部位的图像作为第二图像。

图6示出了根据本公开实施例的对象识别设备600的示意图。

如图6所示,根据本公开实施例的对象识别设备600可以包括:图像获取单元601、处理器602和存储器603。

图像获取单元601可以是能够获取各种形式的输入图像的任何图像接收单元。其可以获取先前存储的图像、用户实时拍摄的图像,或者可以直接通过网络实时获取图像。

处理器602可以根据存储在存储器603中的程序执行各种动作和处理。具体地,处理器602可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是x86架构或者是arm架构等。

存储器603存储有可执行指令代码,该指令代码在被处理器602执行上文所述的对象识别方法200或对象识别方法400。存储器603可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(sdram)、双倍数据速率同步动态随机存取存储器(ddrsdram)、增强型同步动态随机存取存储器(esdram)、同步连接动态随机存取存储器(sldram)和直接内存总线随机存取存储器(drram)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令在由处理器执行时实现上文所述的对象识别方法200或对象识别方法400。类似地,本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。应注意,本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本公开提供的用于对象识别的方法、装置及设备,通过获取对象的特征部位并基于特征部位进行对象的类别识别,操作简便,能够有效提升对象识别的准确性。

需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本发明的范围内。


技术特征:

1.一种用于对象识别的方法,包括:

获取所述对象的至少一部分的第一图像;

基于第一图像,确定所述对象的特征部位;

获取所述对象的所述特征部位的第二图像;和

基于第二图像,识别所述对象的对象类别。

2.根据权利要求1所述的方法,其中,确定所述对象的特征部位包括:

基于第一图像,识别所述对象的初步类别;和

基于识别出的所述对象的初步类别确定所述对象的特征部位。

3.根据权利要求1所述的方法,其中,获取所述对象的所述特征部位的第二图像包括:

向用户提供提示信息,所述提示信息指示用户输入所述对象的所述特征部位的第二图像;和

接收所述对象的所述特征部位的第二图像。

4.根据权利要求1-3中任一项所述的方法,其中,获取所述对象的所述特征部位的第二图像包括:

确定所述第一图像是否包括所述对象的所述特征部位;和

在所述第一图像包括所述对象的所述特征部位的情况下:

对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者

在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

5.根据权利要求4所述的方法,其中,确定所述第一图像是否包括所述对象的所述特征部位包括:

通过预先训练的第一对象部位识别模型对所述第一图像中对象的各个部位进行识别和标注;以及

基于识别和标注结果来确定所述第一图像是否包括所述对象的所述特征部位。

6.根据权利要求1-3任一项所述的方法,其中,获取所述对象的所述特征部位的第二图像包括:

确定所述第一图像是否包括所述对象的完整图像;和

在所述第一图像包括所述对象的完整图像的情况下:

对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者

在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

7.根据权利要求2所述的方法,其中,所述对象为植物,并且所述第二图像的分辨率比第一图像的分辨率更高,

其中,识别所述对象的初步类别包括:

获取并记录获取第一图像时的位置信息和季节信息中的一个或多个,根据所述位置信息和季节信息中的一个或多个排除不可能的对象类别;以及

在排除不可能的对象类别的情况下,识别所述对象的初步类别。

8.根据权利要求7所述的方法,其中,识别所述对象的对象类别包括:

识别与所述对象相关联的类别信息、位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个。

9.根据权利要求8所述的方法,其中,将所述第一图像和第二图像中的一个或多个存储到与所述对象的对象类别相对应的样本库中,并记录与所述位置信息、季节信息、时间信息、天气信息和拍摄角度信息中的一个或多个相对应的生理周期信息和形态信息。

10.根据权利要求3所述的方法,其中,向用户提供提示信息包括:通过文字方式、图形方式和语音方式中的一种或多种来向用户提供提示信息。

11.根据权利要求2所述的方法,其中,所述对象的初步类别是基于预先训练的第一对象类别识别模型来识别的;所述对象的对象类别是基于预先训练的第二对象类别识别模型来识别的,其中,

所述第一对象类别识别模型和第二对象类别识别模型相同或不同;

所述对象类别识别模型包括深度卷积神经网络或深度残差网络。

12.根据权利要求11所述的方法,其中,所述第一和/或第二对象类别识别模型的训练步骤包括:

获取训练样本集,所述训练样本集中的每一样本标注有其对应的类别;

获取测试样本集,所述测试样本集中的每一样本标注有其对应的类别,其中,所述测试样本集不同于所述训练样本集;

基于所述训练样本集对所述对象类别识别模型进行训练;

基于所述测试样本集对所述对象类别识别模型进行测试;

在所述测试结果指示所述对象类别识别模型的识别准确率小于预设准确率时,增加所述训练样本集中的样本数量进行再次训练;以及

在所述测试结果指示所述对象类别识别模型的识别准确率大于或等于所述预设准确率时,完成训练。

13.一种用于对象识别的装置,包括:

图像获取模块,被配置为获取所述对象的至少一部分的第一图像,和获取所述对象的特征部位的第二图像;

特征部位确定模块,被配置为基于第一图像,确定所述对象的特征部位;以及

对象类别识别模块,被配置为基于所述对象的特征部位的第二图像,识别所述对象的对象类别。

14.根据权利要求13所述的装置,其中,确定所述对象的特征部位包括:

基于第一图像,识别所述对象的初步类别;和

基于识别出的所述对象的初步类别确定所述对象的特征部位。

15.根据权利要求13所述的装置,其中,获取所述对象的所述特征部位的第二图像包括:

向用户提供提示信息,所述提示信息指示用户输入所述对象的所述特征部位的第二图像;和

接收所述对象的所述特征部位的第二图像。

16.根据权利要求13-15中任一项所述的装置,其中,获取所述对象的所述特征部位的第二图像包括:

确定所述第一图像是否包括所述对象的所述特征部位;和

在所述第一图像包括所述对象的所述特征部位的情况下:

对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者

在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

17.根据权利要求13-15中任一项所述的装置,其中,获取所述对象的所述特征部位的第二图像包括:

确定所述第一图像是否包括所述对象的完整图像;和

在所述第一图像包括所述对象的完整图像的情况下:

对所述第一图像进行裁剪以得到所述特征部位的图像作为第二图像,或者

在所述第一图像为第三图像进行下采样后的降分辨率图像的情况下,对所述第三图像进行裁剪以得到所述特征部位的图像作为第二图像。

18.一种用于对象识别的设备,包括:

图像获取单元,用于获取输入图像;

处理器;以及

存储器,所述存储器被配置为存储一系列计算机可执行指令以及与所述一系列计算机可执行指令相关联的计算机可访问数据,

其中,所述一系列计算机可执行指令在由所述处理器执行时,使得所述处理器执行根据权利要求1-12中任一项所述的方法。

19.一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,使得所述处理器执行根据权利要求1-12中任一项所述的方法。

技术总结
公开了一种对象识别方法、装置及设备,所述对象识别方法包括:获取所述对象的至少一部分的第一图像;基于第一图像,确定所述对象的特征部位;获取所述对象的所述特征部位的第二图像;和基于第二图像,识别所述对象的对象类别。本公开提供的用于对象识别的方法、装置及设备,通过获取对象的特征部位并基于特征部位进行对象的类别识别,操作简便,能够有效提升对象识别的准确性。

技术研发人员:徐青松;李青
受保护的技术使用者:杭州睿琪软件有限公司
技术研发日:2020.01.02
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53152.html

最新回复(0)