本发明涉及数据处理技术领域,尤其涉及一种意图标签的标注方法、装置、服务器及存储介质。
背景技术:
随着科学技术的不断发展,人工智能(artificialintelligence)技术已广泛应用于各种产品中。人工智能的一大特点是智能设备可以与用户进行人机交互。例如聊天机器人,用户可以与聊天机器人进行聊天,也可以按照自己的意愿以及习惯的方式输入语音指令,以控制聊天机器人执行相应的动作。在这类人机交互过程中,智能设备的关键在于对用户的意图进行识别。因此,事先需要利用大量的标注意图标签的训练数据对智能设备进行训练。目前,通常是针对训练数据进行人工标注意图标签,但人工标注意图标签的效率低并且准确率也较低。
技术实现要素:
本发明实施例所要解决的技术问题在于,提供一种意图标签的标注方法、装置、服务器及存储介质,可以实现标注意图标签的自动化,有效提高标注意图标签的效率和准确率。
第一方面,本发明实施例提供了一种意图标签的标注方法,该方法包括:
获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
第二方面,本发明实施例提供了一种意图标签的标注装置,该装置包括:
获取模块,用于获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
第一处理模块,用于利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
第二处理模块,用于利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
第三方面,本发明实施例提供了一种服务器,包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面所述的意图标签的标注方法。
第四方面,本发明实施例提供了一种存储介质,所述存储介质中存储有指令,当所述指令在计算机上运行时,使计算机执行上述第一方面所述的意图标签的标注方法。
本发明实施例通过获取第一数据集合和第二数据集合,并利用相似度计算模型对第一数据集合和第二数据集合进行处理得到第三数据集合,利用分类模型对第二数据集合和第三数据集合进行处理,确定出多个意图对应的数据标注意图标签的目标数据集合,从而可以自动标注意图标签,有效提高标注意图标签的效率和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种意图标签的标注方法的流程示意图;
图2是图1所示步骤102的子流程图;
图3是图1所示步骤103的子流程图;
图4是本发明实施例提供的一种意图标签的标注装置的结构示意图;
图5是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
请参阅图1,图1为本发明实施例提供的一种意图标签的标注方法的流程示意图。本发明实施例中,意图标签的标注方法可以包括:
s101、服务器获取第一数据集合和第二数据集合。
本发明实施例中,第一数据集合包括第一数量个未标注意图标签的数据,第二数据集合包括第二数量个已标注意图标签的数据。第一数量对应的数值与第二数量对应的数值不同,且第一数量对应的数值远大于第二数量对应的数值。第一数据集合以及该第二数据集合中的数据可以是问句。第一数据集合中的数据可以是存储在第一数据库中的未标注意图标签的原始问句,也可以是网络大数据中未标注意图标签的原始问句。第二数据集合中的数据可以是存储在第二数据库中的已标注意图标签的问句。
其中,该第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图,或者说,第二数据集合中的第二数量个已标注意图标签的数据对应多个意图标签,且该多个意图标签对应着多个意图。该多个意图标签中的每个意图标签可以对应多个第二数据集合中已标注意图标签的数据。第二数据集合中各个数据对应的意图标签可以是人工标注的,也可以是服务器自动标注的。具体的,上述多个意图中的每一个意图,或者说上述多个意图标签中的每一个意图标签,分别对应第二数据集合中相同数量的已标注意图标签的数据,也即是说,第二数据集合中对应同一意图或者同一意图标签的数据有多个,且每一个意图或者每一个意图标签对应着相同数量的已标注意图标签的数据。
s102、所述服务器利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合。
本发明实施例中,第三数据集合包括多个标注第一意图标签的数据。请一并参阅图2,图2是步骤102的子流程图。如图2所示,步骤s102具体包括以下步骤:
步骤s1021、所述服务器将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签,所述第一目标数据为所述第一数据集合中的任意一个数据。
本发明实施例中,相似度计算模型可以是服务器预先存储的,具体包括第一相似度计算模型和第二相似度计算模型。该第一相似度模型可以是采用词频-逆向文件频率(termfrequency-inversedocumentfrequency,tf-idf)算法的相似度计算模型;该第二相似度模型可以是采用潜在语义索引(latentsemanticindexing,lsi)算法的相似度计算模型。该第一相似度计算模型和第二相似度计算模型均可以用于计算数据之间的相似度。
其中,服务器将第一数据集合和第二数据集合中的数据输入第一相似度计算模型中进行处理,确定出第一目标数据与第二目标数据之间的第一相似度。该第一目标数据为第一数据集合中的任意一个数据,该第二目标数据为第二数据集合中的任意一个数据。据此可以得到第一目标数据与第二数据集合中各个已标注意图标签的数据之间的第一相似度。服务器按照第一相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前n位的第二目标数据对应的n个意图标签;也即是说获取第二数据集合中与第一目标数据之间第一相似度最高的n个数据的意图标签。
与此同时,服务器将第一数据集合和第二数据集合中的数据输入第二相似度计算模型中进行处理,确定第一目标数据与第二目标数据之间的第二相似度。据此可以得到第一目标数据与第二数据集合中各个已标注意图标签的数据之间的第二相似度。服务器按照第二相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前m位的第二目标数据对应的m个意图标签;也即是说获取第二数据集合中与第一目标数据之间第二相似度最高的m个数据的意图标签。最后将获取到的上述n个意图标签以及上述m个意图标签均确定为第一目标数据对应的多个意图标签。其中,n和m均为正整数,且m等于n;m和n例如是3。
步骤s1022、所述服务器检测所述多个意图标签中相同意图标签的数量是否大于或等于预设数量。
本发明实施例中,服务器获取得到第一目标数据对应的多个意图标签之后,确定出该多个意图标签中的相同意图标签,并获取该相同意图标签的数量;检测该相同意图标签的数量是否大于或者等于预设数量。该预设数量例如是4。若检测到该相同意图标签的数量大于或者等于该预设数量,则执行步骤s1022;若检测到该相同意图标签的数量小于该预设数量,服务器则舍弃该第一目标数据。
步骤s1023、若所述多个意图标签中相同意图标签的数量大于或等于所述预设数量,所述服务器则将所述第一目标数据加入第三数据集合中,并将所述相同意图标签作为所述第一目标数据对应的第一意图标签。
本发明实施例中,若检测到该相同意图标签的数量大于或者等于该预设数量,服务器则保留该第一目标数据,将该第一目标数据加入到第三数据集合中,并将该相同意图标签作为第一目标数据对应的第一意图标签。采用上述方式,可以从第一数据集合中初步筛选出与上述多个意图对应的多个数据,并将该多个数据标注上第一意图标签。其中,第三数据集合中的数据的数量远小于第一数据集合中的数据的第一数量。
s103、所述服务器利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出多个意图对应的目标数据集合。
本发明实施例中,分类模型包括第一分类模型和第二分类模型。第一分类模型和第二分类模型均是基于本发明实施例中获取到的数据训练得到的。请一并参阅图3,图3是步骤103的子流程图。如图3所示,步骤s103具体包括以下步骤:
步骤s1031、所述服务器将所述第二数据集合和所述第三数据集合中的数据输入第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合。
本发明实施例中,第四数据集合包括多个标注第一意图标签的数据。第一分类模型可以是基于卷积神经网络(convolutionalneuralnetworks,cnn)的一个二分类模型,该第一分类模型是基于第二数据集合中的数据训练得到的,可以用于计算数据之间相似的概率,也即是计算数据之间的相似度。具体地,服务器搭建一个cnn卷积神经网络,并利用第二数据集合中的数据对搭建的cnn卷积神经网络进行训练,得到一个二分类模型,并将该二分类模型作为第一分类模型。该第一分类模型可以用于计算数据与第二数据集合中的数据之间的相似度。
进一步地,服务器将第二数据集合和第三数据集合中的数据输入该第一分类模型中进行处理,获取第三目标数据分别与第二数据集合中各个数据之间的相似度。该第三目标数据为第三数据集合中的任意一个数据。其中,根据步骤s101中的描述可知,第二数据集合中的第二数量个已标注意图标签的数据对应多个意图标签,且该多个意图标签中的每个意图标签均可以对应多个已标注意图标签的数据。服务器基于第三目标数据分别与第二数据集合中各个数据之间的相似度、以及第二数据集合中各个数据对应的意图标签,计算得到第三目标数据对应目标意图标签的平均概率以及最大概率。该目标意图标签为上述多个意图标签中的任意一个。
进一步地,服务器检测第三目标数据对应各个目标意图标签的最大概率是否均小于预设数值,若检测到第三目标数据对应各个目标意图标签的最大概率均小于该预设数值,服务器则将该第三目标数据舍弃。若检测到第三目标数据对应各个目标意图标签的最大概率不都小于该预设数值,也即是说第三目标数据对应各个目标意图标签的最大概率中存在不小于该预设数值的概率,服务器则将该第三目标数据所对应平均概率最大的目标意图标签,确定为第三目标数据对应的第二意图标签。服务器检测步骤102中确定出的第三目标数据对应的第一意图标签与此次确定出的第二意图标签是否相同,当第三目标数据对应的第一意图标签与第二意图标签相同时,服务器则将第三目标数据加入第四数据集合中。当第三目标数据对应的第一意图标签与第二意图标签不相同时,服务器则舍弃该第三目标数据。采用上述方式,可以从第三数据集合中筛选出与上述多个意图对应概率较大的多个数据,有效降低意图标签标注错误的概率。
举例来说,假设数据a1为第三数据集合中的一个数据,数据b、c、d、e、f、g、h为第二数据集合中的数据,且数据b、c、d均对应意图标签x,数据e、f、g、h均对应意图标签y。假设数据a1与数据b、c、d之间的相似度分别为0.3、0.4、0.5;则基于数据a1与数据b、c、d之间的相似度,可以确定出数据a1对应意图标签x的最大概率为0.5、以及平均概率为0.4。假设数据a1与数据e、f、g、h之间的相似度分别为0.6、0.7、0.8、0.9;则基于数据a1与数据e、f、g、h之间的相似度,可以确定出数据a1对应意图标签y的最大概率为0.9、以及平均概率为0.75。
假设数据a2为第三数据集合中的另一个数据,数据a2与数据b、c、d之间的相似度分别为0.1、0.2、0.3,则基于数据a2与数据b、c、d之间的相似度,可以确定出数据a2对应意图标签x的最大概率为0.3、以及平均概率为0.2。假设数据a2与数据e、f、g、h之间的相似度分别为0.3、0.3、0.4、0.2。基于数据a2与数据e、f、g、h之间的相似度,可以确定出数据a2对应意图标签y的最大概率为0.4、以及平均概率为0.3。
由于数据a2对应意图标签x的最大概率为0.3,小于预设数值0.7;且数据a2对应意图标签y的最大概率为0.4,也小于预设数值0.7;则舍弃该数据a2。虽然数据a1对应意图标签x的最大概率为0.5,小于预设数值0.7;但数据a1对应意图标签y的最大概率为0.9,大于预设数值0.7;则进一步确定数据a1对应的第二意图标签。由于数据a1对应意图标签y的平均概率为0.75,大于数据a1对应意图标签x的平均概率0.4;则将意图标签y确定为数据a1对应的第二意图标签。如果数据a1对应的第一意图标签也为意图标签y,则将数据a1加入第四数据集合中;反之,则舍弃数据a1。
在一实施方式中,服务器基于第三目标数据分别与第二数据集合中各个数据之间的相似度,以及第二数据集合中数据的第二数量,计算得到第三目标数据与第二数据集合中各个数据之间的相似度的平均值。检测该平均值是否大于或等于预设目标数值,若该平均值小于该预设目标数值,服务器则将该第三目标数据舍弃。若该平均值大于或等于该预设目标数值,服务器则将第二数据集合中与第三目标数据之间的相似度最大的数据对应的意图标签,确定为第三目标数据对应的第二意图标签。服务器检测步骤102中确定出的第三目标数据对应的第一意图标签与此次确定出的第二意图标签是否相同,当第三目标数据对应的第一意图标签与第二意图标签相同时,则将第三目标数据加入第四数据集合中。当第三目标数据对应的第一意图标签与第二意图标签不相同时,服务器则舍弃该第三目标数据。
步骤s1032、所述服务器将所述第三数据集合中的数据输入第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合。
本发明实施例中,第五数据集合包括多个标注第一意图标签的数据。第二分类模型可以是一个快速文本fasttext多分类模型,该第二分类模型是基于上述第四数据集合中的数据训练得到的,可以用于预测数据对应的意图标签。具体地,服务器利用第四数据集合中的数据对fasttext多分类模型进行训练,得到训练后的fasttext多分类模型,并将该训练后的fasttext多分类模型作为第二分类模型。该第二分类模型可以用于预测数据对应上述多个意图标签中的哪一个。
进一步地,服务器将第三数据集合中的数据输入该第二分类模型中进行处理,预测得到第三目标数据对应的第三意图标签。该第三目标数据为第三数据集合中的任意一个数据,该第三意图标签可以是上述多个意图标签中的任意一个。服务器检测步骤102中确定出的第三目标数据对应的第一意图标签与此次预测得到的第三意图标签是否相同,当第三目标数据对应的第一意图标签与第三意图标签相同时,则将第三目标数据加入第五数据集合中。当第三目标数据对应的第一意图标签与第二意图标签不相同时,服务器则舍弃该第三目标数据。采用上述方式,也可以进一步从第三数据集合中筛选出与上述多个意图对应概率较大的多个数据,有效降低意图标签标注错误的概率。
步骤s1033、所述服务器将所述第四数据集合和所述第五数据集合作为所述多个意图对应的目标数据集合。
本发明实施例中,服务器将第四数据集合和第五数据集合作为上述多个意图对应的目标数据集合。该目标数据集合中的数据与上述多个意图对应的概率较大,且均自动标注有意图标签。采用上述方式,可以自动从大量原始未标注意图标签的数据中确定出与多个意图对应概率较大的数据,并自动为确定出的数据标注上意图标签;不仅可以有效提高数据筛选的效率以及标注意图标签的效率,另外由于机器判定的客观性,以及进行了多次筛选,还可以有效降低意图标签标注错误的概率,有效提高意图标签标注的准确率。
为更好的理解本发明实施例中的意图标签的标注方法,下面举例进行说明。假设有200个意图,且每个意图至少需要200个已标注意图标签的问句做为训练数据,那么就需要至少给40000个问句标注意图标签。首先针对上述200个意图中的每个意图人工给20个问句标注意图标签,这样可以得到4000个已标注意图标签的问句。然后需要从大约600万条原始未标注意图标签的问句中选出至少40000个对应上述200个意图的问句,并为该40000个问句均标注上意图标签。具体可以包括以下步骤:
步骤1、利用已人工标注意图标签的4000个问句以及未标注意图标签的600万个原始问句跑tf-idf相似度计算模型,tf-idf相似度计算模型会得到一个600万*4000的相似度矩阵。从这个相似度矩阵中,可以得到第一目标问句与已人工标注意图标签的4000个问句中每一个问句之间的第一相似度,第一目标问句为未标注意图标签的600万个原始问句中的任意一个。从已人工标注意图标签的4000个问句中确定出与第一目标问句之间第一相似度最高的3个问句,并将该3个问句对应的意图标签作为第一目标问句的意图标签。
与此同时,利用已人工标注意图标签的4000个问句以及未标注意图标签的600万个原始问句跑lsi相似度计算模型,lsi相似度计算模型也会得到一个600万*4000的相似度矩阵。从这个相似度矩阵中,可以得到第一目标问句与已人工标注意图标签的4000个问句中每一个问句之间的第二相似度。从已人工标注意图标签的4000个问句中确定出与第一目标问句之间第二相似度最高的3个问句,并将该3个问句对应的意图标签作为第一目标问句的意图标签。
这样,第一目标问句就可以得到6个意图标签,如果这6个意图标签是相同的,则说明第一目标问句应该标注这个标签的可能性非常大。为了扩大选择范围,如果第一目标问句的6个意图标签中至少有4个意图标签是相同的,则保留该目标数据,并将该相同的意图标签作为第一目标问句对应的第一意图标签。如果第一目标问句的6个意图标签中不存在至少4个意图标签是相同的,则舍弃该目标数据。采用上述方式,可以从未标注意图标签的600万个原始问句中确定出大约30万个对应上述200个意图的问句,并将该30万个问句标注上第一意图标签。
步骤2、搭建一个卷积神经网络,利用已人工标注意图标签的4000个问句对该卷积神经网络进行训练,得到一个二分类模型。该二分类模型可以预测两个问句之间是否相似的概率,也即是相似度。将已标注第一意图标签的30万个问句以及已人工标注意图标签的4000个问句输入该二分类模型中进行处理,可以得到一个30万*4000的相似度矩阵。从这个相似度矩阵中,可以得到第二目标问句与已人工标注意图标签的4000个问句中每一个问句之间的相似度,第二目标问句为已标注第一意图标签的30万个问句中的任意一个。基于第二目标问句与已人工标注意图标签的4000个问句中每一个问句之间的相似度、以及已人工标注意图标签的4000个问句中每一个问句所标注的意图标签,计算得到第二目标问句对应目标意图标签的平均概率以及最大概率。该目标意图标签为已人工标注意图标签的4000个问句对应的多个意图标签中的任意一个。检测第二目标问句对应各个目标意图标签的最大概率是否均小于0.7,若是,则舍弃该第二目标问句;反之则将第二目标问句所对应平均概率最大的目标意图标签,作为第二目标问句对应的第二意图标签。判断第二目标问句对应的第二意图标签与步骤1确定出的第二目标问句对应的第一意图标签是否相同,若是,则保留该第二目标问句;若否,则舍弃该目标问句。采用上述方式,可以从已标注第一意图标签的30万个问句中,进一步确定出与上述200个意图对应概率较大的大约2万个问句,并将该2万个问句标注上第二意图标签。
步骤3、利用已标注第二意图标签的2万个问句训练一个fasttext多分类模型。训练后的fasttext多分类模型可以预测问句属于上述200个意图中的哪一个,或者说可以预测问句对应的意图标签,该意图标签对应的意图属于上述200个意图中的某一个。将已标注第一意图标签的30万个问句输入训练后的fasttext多分类模型中进行处理,预测得到第二目标问句对应的第三意图标签。第二目标问句为已标注第一意图标签的30万个问句中的任意一个。判断第二目标问句对应的第三意图标签与步骤1确定出的第二目标问句对应的第一意图标签是否相同,若是,则保留该第二目标问句;若否,则舍弃该第二目标问句。采用上述方式,可以从已标注第一意图标签的30万个问句中,进一步确定出与上述200个意图对应概率较大的大约10万个问句,并将该10万个问句标注上第三意图标签。
步骤4、将已标注第二意图标签的2万个问句,以及已标注第三意图标签的10万个问句确定为上述200个意图对应的已标注意图标签的问句。并将上述大约12万个已标注意图标签的问句作为机器标注的结果。进一步地,为了保证机器标注的准确性,可以人工对机器标注的结果进行核对,从而将上述大约12万个已标注意图标签的问句中核对通过的多个问句作为上述200个意图训练过程中的训练数据。
针对上述从大约600万条原始未标注意图标签的问句中选出至少40000个对应上述200个意图的问句,并为该40000个问句均标注上意图标签的操作,如果采用全人工处理,按人均400个每天的工作量,则至少需要100个人一天才能给40000个问句标注好意图标签,效率低,且人工分类出错率高。采用上述方式,只需人工给每个意图标注好20个问句的意图标签,剩下问句的标签可以由机器自动标注,这样可以把4万个的人工标注工作量降低到了4000个,只需要10个人一天即可完成;可以大大减少人工工作量,提高标注意图标签的效率,由于机器判断的客观性,还可以提高标注意图标签的准确率。
需要说明的是,上述例子中提供的数据是基于实验数据得到的,仅用于举例说明,并不是对本发明实施例所保护范围的限定。
本发明实施例通过获取第一数据集合和第二数据集合,并利用相似度计算模型对第一数据集合和第二数据集合进行处理得到第三数据集合,利用分类模型对第二数据集合和第三数据集合进行处理,确定出多个意图对应的数据标注意图标签的目标数据集合,从而可以自动标注意图标签,有效提高标注意图标签的效率和准确率。
请参阅图4,图4为本发明实施例提供的一种意图标签的标注装置的结构示意图。本实施例中,意图标签的标注装置,可以包括:
获取模块401,用于获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
第一处理模块402,用于利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
第二处理模块403,用于利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
在一实施方式中,所述第一处理模块402,具体用于:
将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签,所述第一目标数据为所述第一数据集合中的任意一个数据;
检测所述多个意图标签中相同意图标签的数量是否大于或等于预设数量;
若是,则将所述第一目标数据加入第三数据集合中,并将所述相同意图标签作为所述第一目标数据对应的第一意图标签。
在一实施方式中,所述相似度计算模型包括第一相似度计算模型和第二相似度计算模型,所述第一处理模块402,具体用于:
将所述第一数据集合和所述第二数据集合中的数据输入所述第一相似度计算模型中进行处理,确定第一目标数据与第二目标数据之间的第一相似度,所述第一目标数据为所述第一数据集合中的任意一个数据,所述第二目标数据为所述第二数据集合中的任意一个数据;
按照所述第一相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前n位的第二目标数据对应的n个意图标签,所述n为正整数;
将所述第一数据集合和所述第二数据集合中的数据输入所述第二相似度计算模型中进行处理,确定所述第一目标数据与所述第二目标数据之间的第二相似度;
按照所述第二相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前m位的第二目标数据对应的m个意图标签,所述m为正整数,所述m等于所述n;
将所述n个意图标签和所述m个意图标签确定为所述第一目标数据对应的多个意图标签。
在一实施方式中,所述分类模型包括第一分类模型和第二分类模型,所述第二处理模块403,具体用于:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合,所述第一分类模型是基于所述第二数据集合训练得到的,所述第四数据集合包括多个标注所述第一意图标签的数据;
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合,所述第二分类模型是基于所述第四数据集合训练得到的,所述第五数据集合包括多个标注所述第一意图标签的数据;
将所述第四数据集合和所述第五数据集合作为所述多个意图对应的目标数据集合。
在一实施方式中,所述第二数据集合中的第二数量个已标注意图标签的数据对应多个意图标签,且所述多个意图标签对应着所述多个意图,所述第二处理模块403,具体用于:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,获取第三目标数据分别与所述第二数据集合中各个数据之间的相似度,所述第三目标数据为所述第三数据集合中的任意一个数据;
基于所述第三目标数据分别与所述第二数据集合中各个数据之间的相似度、以及所述第二数据集合中各个数据对应的意图标签,确定所述第三目标数据对应目标意图标签的平均概率以及最大概率,所述目标意图标签为所述多个意图标签中的任意一个;
检测所述第三目标数据对应各个目标意图标签的最大概率是否均小于预设数值,若否,则将所述第三目标数据所对应平均概率最大的目标意图标签,确定为所述第三目标数据对应的第二意图标签;
当所述第三目标数据对应的第一意图标签与所述第二意图标签相同时,将所述第三目标数据加入第四数据集合中。
在一实施方式中,所述第二分类模型用于预测数据对应的意图标签,所述第二处理模块403,具体用于:
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,预测得到第三目标数据对应的第三意图标签,所述第三目标数据为所述第三数据集合中的任意一个数据;
检测所述第三目标数据对应的第一意图标签与所述第三意图标签是否相同;
若所述第三目标数据对应的第一意图标签与所述第三意图标签相同,则将所述第三目标数据加入第五数据集合中。
在一实施方式中,所述第二数据集合中各个数据对应的意图标签是人工标注的,所述多个意图中的每一个意图分别对应所述第二数据集合中相同数量的已标注意图标签的数据。
可以理解的是,本发明实施例的意图标签的标注装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本发明实施例通过获取第一数据集合和第二数据集合,并利用相似度计算模型对第一数据集合和第二数据集合进行处理得到第三数据集合,利用分类模型对第二数据集合和第三数据集合进行处理,确定出多个意图对应的数据标注意图标签的目标数据集合,从而可以自动标注意图标签,有效提高标注意图标签的效率和准确率。
请参阅图5,图5为本发明实施例提供的一种服务器的结构示意图,本发明实施例中所描述的服务器包括:处理器501、通信接口502、存储器503。其中,处理器501、通信接口502、存储器503可通过总线或其他方式连接,本发明实施例以通过总线连接为例。
处理器501可以是中央处理器(centralprocessingunit,cpu),网络处理器(networkprocessor,np),或者cpu和np的组合。处理器501也可以是多核cpu或多核np中用于实现通信标识绑定的核。
上述处理器501可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,asic),可编程逻辑器件(programmablelogicdevice,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice,cpld),现场可编程逻辑门阵列(field-programmablegatearray,fpga),通用阵列逻辑(genericarraylogic,gal)或其任意组合。
上述通信接口502可用于收发信息或信令的交互,以及信号的接收和传递,通信接口502可以是收发器。上述存储器503可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的存储程序(比如文字存储功能、位置存储功能等);存储数据区可存储根据服务器的使用所创建的数据(比如图像数据、文字数据)等,并可以包括应用存储程序等。此外,存储器503可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
上述存储器503还用于存储程序指令。上述处理器501可以调用上述存储器503存储的程序指令,实现如本发明实施例所示的意图标签的标注方法。
具体地,上述处理器501调用存储在上述存储器503中的程序指令执行以下步骤:
通过所述通信接口502获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
本发明实施例中处理器执行的方法均从处理器的角度来描述,可以理解的是,本发明实施例中处理器要执行上述方法需要其他硬件结构的配合。本发明实施例对具体的实现过程不作详细描述和限制。
在一实施方式中,所述处理器501利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合的具体方式为:
将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签,所述第一目标数据为所述第一数据集合中的任意一个数据;
检测所述多个意图标签中相同意图标签的数量是否大于或等于预设数量;
若是,则将所述第一目标数据加入第三数据集合中,并将所述相同意图标签作为所述第一目标数据对应的第一意图标签。
在一实施方式中,所述相似度计算模型包括第一相似度计算模型和第二相似度计算模型,所述处理器501将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签的具体方式为:
将所述第一数据集合和所述第二数据集合中的数据输入所述第一相似度计算模型中进行处理,确定第一目标数据与第二目标数据之间的第一相似度,所述第一目标数据为所述第一数据集合中的任意一个数据,所述第二目标数据为所述第二数据集合中的任意一个数据;
按照所述第一相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前n位的第二目标数据对应的n个意图标签,所述n为正整数;
将所述第一数据集合和所述第二数据集合中的数据输入所述第二相似度计算模型中进行处理,确定所述第一目标数据与所述第二目标数据之间的第二相似度;
按照所述第二相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前m位的第二目标数据对应的m个意图标签,所述m为正整数,所述m等于所述n;
将所述n个意图标签和所述m个意图标签确定为所述第一目标数据对应的多个意图标签。
在一实施方式中,所述分类模型包括第一分类模型和第二分类模型,所述处理器501利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合的具体方式为:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合,所述第一分类模型是基于所述第二数据集合训练得到的,所述第四数据集合包括多个标注所述第一意图标签的数据;
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合,所述第二分类模型是基于所述第四数据集合训练得到的,所述第五数据集合包括多个标注所述第一意图标签的数据;
将所述第四数据集合和所述第五数据集合作为所述多个意图对应的目标数据集合。
在一实施方式中,所述第二数据集合中的第二数量个已标注意图标签的数据对应多个意图标签,且所述多个意图标签对应着所述多个意图,所述处理器501将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合的具体方式为:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,获取第三目标数据分别与所述第二数据集合中各个数据之间的相似度,所述第三目标数据为所述第三数据集合中的任意一个数据;
基于所述第三目标数据分别与所述第二数据集合中各个数据之间的相似度、以及所述第二数据集合中各个数据对应的意图标签,确定所述第三目标数据对应目标意图标签的平均概率以及最大概率,所述目标意图标签为所述多个意图标签中的任意一个;
检测所述第三目标数据对应各个目标意图标签的最大概率是否均小于预设数值,若否,则将所述第三目标数据所对应平均概率最大的目标意图标签,确定为所述第三目标数据对应的第二意图标签;
当所述第三目标数据对应的第一意图标签与所述第二意图标签相同时,将所述第三目标数据加入第四数据集合中。
在一实施方式中,所述第二分类模型用于预测数据对应的意图标签所述处理器501将所述第三数据集合中的数据输入所述第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合的具体方式为:
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,预测得到第三目标数据对应的第三意图标签,所述第三目标数据为所述第三数据集合中的任意一个数据;
检测所述第三目标数据对应的第一意图标签与所述第三意图标签是否相同;
若所述第三目标数据对应的第一意图标签与所述第三意图标签相同,则将所述第三目标数据加入第五数据集合中。
在一实施方式中,所述第二数据集合中各个数据对应的意图标签是人工标注的,所述多个意图中的每一个意图分别对应所述第二数据集合中相同数量的已标注意图标签的数据。
具体实现中,本申请实施例中所描述的处理器501、通信接口502、存储器503可执行本发明实施例提供的意图标签的标注方法中所描述的服务器的实现方式,也可执行本申请实施例图4提供的意图标签的标注装置的实现方式,在此不再赘述。
本发明实施例通过获取第一数据集合和第二数据集合,并利用相似度计算模型对第一数据集合和第二数据集合进行处理得到第三数据集合,利用分类模型对第二数据集合和第三数据集合进行处理,确定出多个意图对应的数据标注意图标签的目标数据集合,从而可以自动标注意图标签,有效提高标注意图标签的效率和准确率。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机执行上述方法实施例所述的意图标签的标注方法。
本发明实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例所述的意图标签的标注方法。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
1.一种意图标签的标注方法,其特征在于,所述方法包括:
获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
2.根据权利要求1所述的方法,其特征在于,所述利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,包括:
将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签,所述第一目标数据为所述第一数据集合中的任意一个数据;
检测所述多个意图标签中相同意图标签的数量是否大于或等于预设数量;
若是,则将所述第一目标数据加入第三数据集合中,并将所述相同意图标签作为所述第一目标数据对应的第一意图标签。
3.根据权利要求2所述的方法,其特征在于,所述相似度计算模型包括第一相似度计算模型和第二相似度计算模型,所述将所述第一数据集合和所述第二数据集合中的数据输入相似度计算模型中进行处理,确定第一目标数据对应的多个意图标签,包括:
将所述第一数据集合和所述第二数据集合中的数据输入所述第一相似度计算模型中进行处理,确定第一目标数据与第二目标数据之间的第一相似度,所述第一目标数据为所述第一数据集合中的任意一个数据,所述第二目标数据为所述第二数据集合中的任意一个数据;
按照所述第一相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前n位的第二目标数据对应的n个意图标签,所述n为正整数;
将所述第一数据集合和所述第二数据集合中的数据输入所述第二相似度计算模型中进行处理,确定所述第一目标数据与所述第二目标数据之间的第二相似度;
按照所述第二相似度从大到小的顺序对各个第二目标数据进行排序,并获取排序排在前m位的第二目标数据对应的m个意图标签,所述m为正整数,所述m等于所述n;
将所述n个意图标签和所述m个意图标签确定为所述第一目标数据对应的多个意图标签。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述分类模型包括第一分类模型和第二分类模型,所述利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合,包括:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合,所述第一分类模型是基于所述第二数据集合训练得到的,所述第四数据集合包括多个标注所述第一意图标签的数据;
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合,所述第二分类模型是基于所述第四数据集合训练得到的,所述第五数据集合包括多个标注所述第一意图标签的数据;
将所述第四数据集合和所述第五数据集合作为所述多个意图对应的目标数据集合。
5.根据权利要求4所述的方法,其特征在于,所述第二数据集合中的第二数量个已标注意图标签的数据对应多个意图标签,且所述多个意图标签对应着所述多个意图,所述将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,以从所述第三数据集合中确定出第四数据集合,包括:
将所述第二数据集合和所述第三数据集合中的数据输入所述第一分类模型中进行处理,获取第三目标数据分别与所述第二数据集合中各个数据之间的相似度,所述第三目标数据为所述第三数据集合中的任意一个数据;
基于所述第三目标数据分别与所述第二数据集合中各个数据之间的相似度、以及所述第二数据集合中各个数据对应的意图标签,确定所述第三目标数据对应目标意图标签的平均概率以及最大概率,所述目标意图标签为所述多个意图标签中的任意一个;
检测所述第三目标数据对应各个目标意图标签的最大概率是否均小于预设数值,若否,则将所述第三目标数据所对应平均概率最大的目标意图标签,确定为所述第三目标数据对应的第二意图标签;
当所述第三目标数据对应的第一意图标签与所述第二意图标签相同时,将所述第三目标数据加入第四数据集合中。
6.根据权利要求4所述的方法,其特征在于,所述第二分类模型用于预测数据对应的意图标签,所述将所述第三数据集合中的数据输入所述第二分类模型中进行处理,以从所述第三数据集合中确定出第五数据集合,包括:
将所述第三数据集合中的数据输入所述第二分类模型中进行处理,预测得到第三目标数据对应的第三意图标签,所述第三目标数据为所述第三数据集合中的任意一个数据;
检测所述第三目标数据对应的第一意图标签与所述第三意图标签是否相同;
若所述第三目标数据对应的第一意图标签与所述第三意图标签相同,则将所述第三目标数据加入第五数据集合中。
7.根据权利要求1所述的方法,其特征在于,所述第二数据集合中各个数据对应的意图标签是人工标注的,所述多个意图中的每一个意图分别对应所述第二数据集合中相同数量的已标注意图标签的数据。
8.一种意图标签的标注装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据集合和第二数据集合,所述第一数据集合包括第一数量个未标注意图标签的数据,所述第二数据集合包括第二数量个已标注意图标签的数据,所述第二数量个已标注意图标签的数据所标注的意图标签对应着多个意图;
第一处理模块,用于利用相似度计算模型对所述第一数据集合和所述第二数据集合进行处理得到第三数据集合,所述第三数据集合包括多个标注第一意图标签的数据;
第二处理模块,用于利用分类模型对所述第二数据集合和所述第三数据集合进行处理,以从所述第三数据集合中确定出所述多个意图对应的目标数据集合。
9.一种服务器,其特征在于,包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7中任一项所述的意图标签的标注方法。
10.一种存储介质,所述存储介质中存储有指令,当所述指令在计算机上运行时,使计算机执行如权利要求1至7中任一项所述的意图标签的标注方法。
技术总结