本发明涉及数据标记领域,具体而言,涉及一种标注数据的处理方法和装置。
背景技术:
数据标注的种类繁多,例如:分类、拉框、注释、标记等,其用于为机器学习构建训练数据,可以包括训练集和测试集。因此标注的准确度对训练结果的影响非常大。
为了保证数据标注的准确性,需要在数据标注后对标注结果进行审核,目前通常由人工的方式对标注的结果进行审核,导致审核的效率较低。
针对现有技术中对标注行为进行审核的效率较低的问题,目前尚未提出有效的解决方案。
技术实现要素:
本发明实施例提供了一种标注数据的处理方法和装置,以至少解决现有技术中对标注行为进行审核的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种标注数据的处理方法,包括:获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果;将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果;基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。
进一步地,将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果,包括:获取标注结果和训练结果中每个标注对象在目标场景内的位置;确定在标注结果和训练结果中处于相同位置的标注对象为同一个标注对象。
进一步地,标注子结果包括对标注对象标注得到的类别,识别子结果包括机器模型对标注对象识别得到的类别,基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确,包括:检测标注对象的标注子结果与标注对象的识别子结果是否相同;如果标注对象的标注子结果与标注对象的识别子结果不同,则确定标注对象存在错标。
进一步地,基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确的步骤还包括:如果标注对象不存在对应的标注子结果,则确定标注对象漏标。
进一步地,标注子结果包括标注得到的标注对象在目标场景中的第一区域,识别子结果包括通过机器模型识别得到的标注对象在目标场景中的第二区域,在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之前,上述方法还包括:获取第一区域和第二区域;比对同一个标注对象的第一区域和第二区域的大小;如果同一个标注对象的第一区域和第二区域大小不同,则根据第二区域对第一区域进行调整。
进一步地,基于标注对象的识别子结果对标注对象的标注子结果进行检测得到的检测结果包括:标注准确、错标和漏标,在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之后,上述方法还包括:显示提示信息,其中,提示信息用于指示检测结果为错标或漏标的标注对象;接收调整指令,其中,调整指令用于调整错标或漏标的标注对象的标注子结果;根据调整指令对错标或漏标的标注对象的标注子结果进行调整。
根据本发明实施例的一个方面,提供了一种标注的处理装置,包括:获取模块,用于获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果;匹配模块,用于将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果;检测模块,用于基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。
进一步地,匹配模块包括:获取子模块,用于获取标注结果和训练结果中每个标注对象在目标场景内的位置;确定子模块,用于确定在标注结果和训练结果中处于相同位置的标注对象为同一个标注对象。
在本发明实施例中,获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果;基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。上述方案对同一场景的标注结果和训练结果进行匹配,查找同一个标注对象的标注子结果和识别子结果,从而通过识别子结果对标注子结果进行验证,进而实现了通过机器模型输出的识别结果验证标注结果的目的,与人工审核相比,该自动化审核的过程极大的提高了审核的效率,解决了现有技术中对标注行为进行审核的效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的标注数据的处理方法的流程图;以及
图2是根据本发明实施例的标注数据的处理装置的示意图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种标注的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的标注数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤s102,获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果。
具体的,上述目标场景可以是待标注的场景,可以以二维图像或三维图像的方式展示。目标场景中包括多个标注对象,对应的,目标场景的标注结果中包括多个标注对象的标注子结果,目标场景的训练结果中包括多个标注对象的识别子结果。
在一种可选的实施例中,目标场景可以为行驶中的汽车所在的场景,通过安装在行驶的汽车内的雷达设备获取目标场景的点云数据,然后标注师基于点云数据对目标场景中的标注对象进行标注,得到目标场景的标注结果,且基于预先训练好的机器模型通过点云数据对标注对象进行识别,得到目标场景的训练结果。
标注结果中可以包括目标场景中的每个标注对象的位置,以及每个标注对象的类型,其中,可以通过在目标场景所对应的图像中设置标注对象的最小外接矩形来标识每个标识对象的位置;训练结果中的内容与标注结果中的数据内容相同,差别在于训练结果是由机器模型输出的。
步骤s104,将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果。
标注结果和训练结果均是在目标场景所对应的图像上得到的,在上述方案中,将标注结果和训练结果进行匹配,即可以是将标注过的图像和机器模型识别过的图像进行匹配。
在一种可选的实施例中,无论是标注结果还是训练结果,都会首先识别出目标场景对应的图像中的标注对象,例如,可以在目标场景对应的图像中通过长方形或长方体框出标注对象,以长方形或长方体作为标注对象的标识。在将标注结果和训练结果进行匹配时,即可以将标识出长方形或长方体进行匹配,以确定属于同一个标注对象的标注子结果和识别子结果。
上述匹配过程是将标注结果和训练结果进行初步匹配的结果,用于获取同一个标注对象分别在标注结果中的标注子结果和在训练结果中的识别子结果。
步骤s106,基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。
在上述方案中,标注对象的识别子结果是由已经训练成熟的机器模型输出的,因此其结果较为准确,因此可以使用识别子结果对标注子结果进行检测,以确定标注结果是否准确,进而提升对标注结果进行审核的效率。
对于同一个标注对象而言,如果其标注子结果和识别子结果相同,则该标注子结果大概率准确,而如果其标注子结果和识别子结果不同,则该标注子结果存在标注错误的可能性,因此通过机器模型输出的识别子结果对标注子结果进行检测,不仅能够检测出有可能标注错误的标注对象,与人工审核相比还能够提高审核效率。
由此可知,本申请上述实施例获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果;基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。上述方案对同一场景的标注结果和训练结果进行匹配,查找同一个标注对象的标注子结果和识别子结果,从而通过识别子结果对标注子结果进行验证,进而实现了通过机器模型输出的识别结果验证标注结果的目的,与人工审核相比,该自动化审核的过程极大的提高了审核的效率,解决了现有技术中对标注行为进行审核的效率较低的技术问题。
作为一种可选的实施例,将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果,包括:获取标注结果和训练结果中每个标注对象在目标场景内的位置;确定在标注结果和训练结果中处于相同位置的标注对象为同一个标注对象。
在上述步骤中,标注对象在标注结果和训练结果中的位置可以通过在目标场景对应的图像信息中的标识框来确定,该标识框可以为长方形或长方体。
对于同一个目标场景所对应的图像,处于相同位置的标注对象即为同一个标注对象,在确定出同一个标注对象后,即可在标注结果中获取到该标注对象的标注子结果,也可以在训练结果中获取到该标注对象的识别子结果。
作为一种可选的实施例,标注子结果包括对标注对象标注得到的类别,识别子结果包括机器模型对标注对象识别得到的类别,基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确,包括:检测标注对象的标注子结果与标注对象的识别子结果是否相同;如果标注对象的标注子结果与标注对象的识别子结果不同,则确定标注对象存在错标。
在上述方案中,在任意一个标注对象的标注子结果和识别子结果不同的情况下,确定该标注对象的标注子结果错误。
在一种可选的实施例中,仍以行驶中的汽车所在的场景为例,标注师对其中一个标注对象标注的类型为“大车”、但机器模型对标注对象识别的结果为“小车”,此时该标注对象的标注子结果和识别子结果不同,因此确定该标注对象的识别子结果错标。
需要说明的是,本申请上述方案用于借助机器模型对人工标注的标注结果进行验证,从而实现对标注结果进行审核的自动化过程,但由于机器模型输出的识别结果也难以保证完全准确,因此上述的错标并不表示该标注对象一定错标,仅能表示该标注对象的标注结果存在一定疑虑,需要进一步确认,也即在当检测到标注对象的标注子结果与标注对象的识别子结果不同时,认为该标注子结果可能存在错误,可以进行进一步核实。
由此可以确定,本申请实际是基于一种假设,即机器模型输出的识别子结果与标注师标注的标注子结果如果相同,则确定该标注结果大概率是准确的,而如果机器模型输出的识别子结果与标注师标注的标注子结果不同,则确定该标注结果存在一定概率是错误的,基于这种假设,通过机器模型对人工标注的标注结果进行审核,从而达到了提高审核效率的效果。
作为一种可选的实施例,基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确的步骤还包括:如果标注对象不存在对应的标注子结果,则确定标注对象漏标。
除了错标这一种标注的失误,还存在一种失误为漏标,即没有识别出目标场景对应的图像中的标注对象,或识别出了目标场景对应的图像中的标注对象,但并未对标注对象进行标注。因此在检测标注子结果是否准确的同时,还需要检测出漏标的情况,从而确保对所有的标注对象都进行了标注,以免由于漏标导致浪费标注数据资源。
作为一种可选的实施例,标注子结果包括标注得到的标注对象在目标场景中的第一区域,识别子结果包括通过机器模型识别得到的标注对象在目标场景中的第二区域,在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之前,上述方法还包括:获取第一区域和第二区域;比对同一个标注对象的第一区域和第二区域的大小;如果同一个标注对象的第一区域和第二区域大小不同,则根据第二区域对第一区域进行调整。
具体的,以用于在目标场景对应的图像中标识出标注对象的标识框为例,标识框可以是标注对象的最小外接矩形或最小外接长方体,上述第一区域即可以为标注师确定的标注对象的标识框,第二区域即可以为机器模型确定的标注对象的标识框,在识别准确的情况下,二者的尺寸应当相同。当二者尺寸不同时,则确定标注师存在欠分割或过分割的情况,因此需要对第一区域进行调整。
在一种可选的实施例中,标注师可以基于标识框中的标注对象的形状、外置、大小等信息对标识框进行调整,以使标识框的尺寸合适。
在上述方案中,对于人工标注过程中存在的欠分割和过分割的情况进行调整。
作为一种可选的实施例,基于标注对象的识别子结果对标注对象的标注子结果进行检测得到的检测结果包括:标注准确、错标和漏标,在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之后,上述方法还包括:显示提示信息,其中,提示信息用于指示检测结果为错标或漏标的标注对象;接收调整指令,其中,调整指令用于调整错标或漏标的标注对象的标注子结果;根据调整指令对错标或漏标的标注对象的标注子结果进行调整。
具体的,上述提示信息可以通过人机交互界面在目标场景对应的图像信息上,对错标或漏标的标注对象进行高光显示,从而使得标注师能够准确的发现错标或漏标的标注对象,其中,错标和漏标的情况可以使用两种不同颜色的高光进行显示。
如果标注对象为漏标,则标注师可以通过上述人机交互界面对漏标的标注对象进行标注,如果标注对象为错标,则标注师可以对标注对象的标注子结果进行进一步确认,来判断其标注子结果是否正确,并在确定其标注子结果错误的情况下,修改其标注子结果。
上述调整指令用于标注师修改错标的标注子结果,或补充漏标的标注子结果。在一种可选的实施例中,当标注师在人机交互界面中选中一个标注对象时,可以弹出下拉框,下拉框中包括允许标注师选择的标注类别,当选定一个标注类别后,还可以通过滑动的方式切换其他的标注类别,在这种实施例中,当标注师修改错标的标注子结果时,可以通过滑动的方式切换器标注类别,以对其标注子结果进行调整。
实施例2
根据本发明实施例,提供了一种标注的处理装置的实施例,图2是根据本发明实施例的标注数据的处理装置的示意图,如图2所示,该装置包括:
获取模块20,用于获取目标场景的标注结果和训练结果,其中,目标场景包括多个标注对象,标注结果包括对每个标注对象的标注子结果,训练结果包括机器模型输出的对每个标注对象的识别结果;
匹配模块22,用于将标注结果和训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果;
检测模块24,用于基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确。
作为一种可选的实施例,匹配模块包括:获取子模块,用于获取标注结果和训练结果中每个标注对象在目标场景内的位置;确定子模块,用于确定在标注结果和训练结果中处于相同位置的标注对象为同一个标注对象。
作为一种可选的实施例,标注子结果包括对标注对象标注得到的类别,识别子结果包括机器模型对标注对象识别得到的类别,检测模块包括:检测子模块,用于检测标注对象的标注子结果与标注对象的识别子结果是否相同;第一确定子模块,用于如果标注对象的标注子结果与标注对象的识别子结果不同,则确定标注对象存在错标。
作为一种可选的实施例,检测模块还包括:第二确定子模块,用于如果标注对象不存在对应的标注子结果,则确定标注对象漏标。
作为一种可选的实施例,标注子结果包括标注得到的标注对象在目标场景中的第一区域,识别子结果包括通过机器模型识别得到的标注对象在目标场景中的第二区域,上述装置还包括:区域获取模块,用于在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之前,获取第一区域和第二区域;比对模块,用于比对同一个标注对象的第一区域和第二区域的大小;第一调整模块,用于如果同一个标注对象的第一区域和第二区域大小不同,则根据第二区域对第一区域进行调整。
作为一种可选的实施例,基于标注对象的识别子结果对标注对象的标注子结果进行检测得到的检测结果包括:标注准确、错标和漏标,上述装置还包括:显示模块,用于在基于标注对象的识别子结果对标注对象的标注子结果进行检测,判断标注对象的标注子结果是否准确之后,显示提示信息,其中,提示信息用于指示检测结果为错标或漏标的标注对象;接收模块,用于接收调整指令,其中,调整指令用于调整错标或漏标的标注对象的标注子结果;第二调整模块,用于根据调整指令对错标或漏标的标注对象的标注子结果进行调整。
实施例3
根据本发明实施例,提供了一种存储介质,存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行实施例1所述的标注数据的处理方法。
实施例4
根据本发明实施例,提供了一种处理器,处理器用于运行程序,其中,所述程序运行时执行实施例1所述的标注数据的处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
1.一种标注数据的处理方法,其特征在于,包括:
获取目标场景的标注结果和训练结果,其中,所述目标场景包括多个标注对象,所述标注结果包括对每个标注对象的标注子结果,所述训练结果包括机器模型输出的对每个标注对象的识别结果;
将所述标注结果和所述训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果;
基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确。
2.根据权利要求1所述的方法,其特征在于,将所述标注结果和所述训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果,包括:
获取所述标注结果和所述训练结果中每个所述标注对象在所述目标场景内的位置;
确定在所述标注结果和所述训练结果中处于相同位置的标注对象为同一个标注对象。
3.根据权利要求1所述的方法,其特征在于,所述标注子结果包括对所述标注对象标注得到的类别,所述识别子结果包括所述机器模型对所述标注对象识别得到的类别,基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确,包括:
检测所述标注对象的标注子结果与所述标注对象的识别子结果是否相同;
如果所述标注对象的标注子结果与所述标注对象的识别子结果不同,则确定所述标注对象存在错标。
4.根据权利要求3所述的方法,其特征在于,基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确的步骤还包括:
如果所述标注对象不存在对应的标注子结果,则确定所述标注对象漏标。
5.根据权利要求1所述的方法,其特征在于,所述标注子结果包括所述标注得到的所述标注对象在所述目标场景中的第一区域,所述识别子结果包括通过所述机器模型识别得到的所述标注对象在所述目标场景中的第二区域,在基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确之前,所述方法还包括:
获取所述第一区域和所述第二区域;
比对同一个所述标注对象的第一区域和第二区域的大小;
如果同一个所述标注对象的第一区域和第二区域大小不同,则根据所述第二区域对所述第一区域进行调整。
6.根据权利要求1所述的方法,其特征在于,基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测得到的检测结果包括:标注准确、错标和漏标,在基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确之后,所述方法还包括:
显示提示信息,其中,所述提示信息用于指示检测结果为错标或漏标的标注对象;
接收调整指令,其中,所述调整指令用于调整错标或漏标的标注对象的标注子结果;
根据所述调整指令对错标或漏标的标注对象的标注子结果进行调整。
7.一种标注的处理装置,其特征在于,包括:
获取模块,用于获取目标场景的标注结果和训练结果,其中,所述目标场景包括多个标注对象,所述标注结果包括对每个标注对象的标注子结果,所述训练结果包括机器模型输出的对每个标注对象的识别结果;
匹配模块,用于将所述标注结果和所述训练结果进行匹配,查找得到同一个标注对象的标注子结果和识别子结果;
检测模块,用于基于所述标注对象的识别子结果对所述标注对象的标注子结果进行检测,判断所述标注对象的标注子结果是否准确。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块包括:
获取子模块,用于获取所述标注结果和所述训练结果中每个所述标注对象在所述目标场景内的位置;
确定子模块,用于确定在所述标注结果和所述训练结果中处于相同位置的标注对象为同一个标注对象。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的标注数据的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的标注数据的处理方法。
技术总结