本发明涉及人工智能技术领域,特别涉及一种数据清洗方法、装置、计算机设备及可读存储介质。
背景技术:
随着这些年互联网产业高速发展,越来越多的互联网平台开始使用智能问答系统服务于线上客户咨询业务。然而智能问答系统的使用效果取决于背后的知识库,根据线上实时数据整理的知识点会保存在知识库中。知识库中存在多个知识点,每个知识点包含多个子知识点以及对应的答案。智能问答系统会根据客户问题从知识库中输出最佳的答案。
所以针对智能问答系统,其知识库的准确性决定了其应用效果。同时我们根据线上数据整理的知识库或多或少存在脏数据,对知识库知识点的验证以及确保答案正确性十分重要。故我们需要针对知识库进行数据检测和清洗。
目前,数据检测和清洗方法对文本语义理解能力不足,使得影响了数据检测和清洗的准确性。
技术实现要素:
本发明实施例提供了一种数据清洗方法,以解决现有技术中数据清洗存在准确度低的技术问题。该方法包括:
获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
根据语义匹配度确定所述知识点对是否为脏数据。
本发明实施例还提供了一种数据清洗装置,以解决现有技术中数据清洗存在准确度低的技术问题。该装置包括:
数据获取模块,用于获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
向量提取模块,用于针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
语义匹配度计算模块,用于针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
数据清洗模块,用于根据语义匹配度确定所述知识点对是否为脏数据。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的数据清洗方法,以解决现有技术中数据清洗存在准确度低的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的数据清洗方法的计算机程序,以解决现有技术中数据清洗存在准确度低的技术问题。
在本发明实施例中,提出了将主知识点问题和每个子知识点问题分别组成知识点对,基于bert预训练模型提取知识点对中主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列,实现了基于深度学习的语义理解能力提取上下文语义特征向量序列,进而采用注意力机制模型基于主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列进行处理,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,且主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息,实现了基于增强的语义理解能力来计算知识点对的语义匹配度值,最后基于知识点对的语义匹配度值来判断知识点对是否为脏数据即可,实现数据的检测和清洗,相对于现有技术而言,上述数据清洗方法基于深度学习的语义理解能力来检测、清洗数据,有利于提高数据清洗的准确度,bert预训练模型和注意力机制模型的使用,有利于提高数据检测、清洗的处理效率,有利于降低人力物力财力的投入成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例提供的一种数据清洗方法的流程图;
图2是本发明实施例提供的一种计算机设备的结构框图;
图3是本发明实施例提供的一种数据清洗装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明实施例中,提供了一种数据清洗方法,如图1所示,该方法包括:
步骤102:获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
步骤104:针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
步骤106:针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
步骤108:根据语义匹配度确定所述知识点对是否为脏数据。
由图1所示的流程可知,在本发明实施例中,提出了将主知识点问题和每个子知识点问题分别组成知识点对,基于bert预训练模型提取知识点对中主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列,实现了基于深度学习的语义理解能力提取上下文语义特征向量序列,进而采用注意力机制模型基于主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列进行处理,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,且主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息,实现了基于增强的语义理解能力来计算知识点对的语义匹配度值,最后基于知识点对的语义匹配度值来判断知识点对是否为脏数据即可,实现数据的检测和清洗,相对于现有技术而言,上述数据清洗方法基于深度学习的语义理解能力来检测、清洗数据,有利于提高数据清洗的准确度,bert预训练模型和注意力机制模型的使用,有利于提高数据检测、清洗的处理效率,有利于降低人力物力财力的投入成本。
具体实施时,上述数据清洗方法可以用于知识点性数据的清洗,例如,可以用于知识库的数据清洗。
具体实施时,上述主知识点问题可以是针对某个知识点的标准形式的问题,子知识点问题可以是针对某个知识点的非标准形式的问题,针对某个知识点,可能有一个主知识点问题a和多个子知识点问题a、b、c、d……等,例如,以保险应用场景为例,主知识点问题可以是:请问,可以买保险吗?子知识点问题可以是:我想买保险,子知识点问题还可以是:有哪些类的保险?。因此,针对某个知识点,主知识点问题和每个子知识点问题分别组成知识点对,即可能有多个知识点对,例如,知识点对可以有(a,a)、(a,b)、(a,c)……等。
具体实施时,在实现上述数据清洗方法之前,可以使用应用场景的历史数据对神经网络或各种机器学习组件进行深度学习训练得到上述bert预训练模型和注意力机制模型,使得数据清洗方法具备应用领域做横向扩展的便利性,例如,上述数据清洗方法需要应用于哪些应用场景就用相应应用场景数据作为样本来训练bert预训练模型和注意力机制模型。样本包括正样本和负样本,例如,正样本可以是主知识点问题和子知识点问题相匹配的知识点对,语义匹配度值可以设为1;负样本可以是主知识点问题和子知识点问题不相匹配的知识点对,语义匹配度值可以设为0;经过采用正样本和负样本来反复训练得到上述bert预训练模型和注意力机制模型。基于小量样本数据进行训练即可获得强大的语义理解能力的上述bert预训练模型和注意力机制模型。
具体实施时,训练后的bert预训练模型作为embedding层,对每个句子中token进行tokenembedding编码,主知识点问题和子知识点问题通过bert预训练模型生成字向量序列。bert预训练模型的训练过程也训练了bert参数,bert预训练模型的微调fine_tuning会接入后续交互型语义理解模型,bert预训练模型生成的字向量序列会经过双向长短时记忆网络bi-lstm神经网络进行神经网络训练。
具体实施时,采用训练后的bert预训练模型基于深度学习的语义理解能力来提取上下文语义特征向量序列,例如,针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,包括:
将主知识点问题qi和子知识点问题qin(子知识点问题集合可以表示为qi={qi1,qi2,....,qin})分别输入bert预训练模型,bert预训练模型执行以下步骤:
输出主知识点问题qi的具有固定长度的字向量序列,输出每个子知识点问题qin的具有固定长度的字向量序列;
针对子知识点问题的字向量序列与主知识点问题的字向量序列具有相同长度的知识点对,将主知识点问题的字向量序列输入双向长短时记忆网络,输出主知识点问题的上下文语义特征向量序列
具体实施时,训练后的bert预训练模型中可以采用双向长短时记忆网络bi-lstm单元来提取主知识点问题和子知识点问题的上下文语义特征向量序列。具体的,在bi-lstm神经网络中,针对每个时刻t,拼接正序文本字向量序列和倒序文本字向量序列的两个长短记忆网络lstm单元输出的向量序列输出hfw和hbw,作为bi-lstm神经网络时刻t的最终特征向量输出,其特征向量的维度是lstm单元输出特征向量维度的2倍。
ht=[hfw,hbw]
其中,hfw表示处理正序文本字向量序列的lstm单元的输出,hbw表示处理倒序文本字向量序列的lstm单元的输出,ht表示bi-lstm网络输出的特征向量序列(即表示主知识点问题和子知识点问题的上下文语义特征向量序列中t时刻的特征向量)。
具体实施时,为了进一步增强数据清洗过程中的语义理解能力,在本实施例中,采用训练后的注意力机制模型来计算知识点对的语义匹配度值,例如,针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,包括:
将主知识点问题qi的上下文语义特征向量序列
计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重aqt,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重
将注意力权重作为所述特征信息,对主知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重aqt加权,得到主知识点问题的特征向量序列sq,对子知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重
根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值。
具体实施时,通过所述注意力机制模型执行以下步骤计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重:
将主知识点问题qi的上下文语义特征向量序列
将所述背景信息的维度降低至一半;即将背景信息的维度降低至与双向长短时记忆网络输出的上下文语义特征向量序列一致,可以通过注意力机制模型的全连接层实现该功能,降维度后的背景信息表示为bkg。
计算所述背景信息与主知识点问题的上下文语义特征向量序列
根据主知识点问题的相似度向量simq计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,根据子知识点问题的相似度向量
具体实施时,注意力机制模型通过执行以下步骤实现根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值:
计算主知识点问题的特征向量序列中每个特征向量和子知识点问题的特征向量序列中每个特征向量之间的相似度值,各相似度值组成相似度矩阵;具体的,可以通过以下公式计算相似度值:
按照相似度值降序顺序取前预设数个相似度值对应的特征向量组成该知识点对的语义匹配特征向量;具体的,训练后的注意力机制模型可以通过k-maxpooling完成该功能,选取相似度矩阵sim中较大的k个相似度值对应的特征向量组成语义匹配特征向量,该语义匹配特征向量代表知识点对进行文本语义匹配。
将语义匹配特征向量输入所述注意力机制模型的全连接层,输出该知识点对的语义匹配度值,具体的,训练后的注意力机制模型可以通过全连接层完成该功能,最后使用softmax分类器进行文本语义匹配的二分类,输出知识点对的语义匹配度值,不同的语义匹配度值代表不同的判断结果。在训练注意力机制模型时,可以对得到的预测结果(匹配、不匹配)使用梯度下降法训练权值,保存训练效果最佳的神经网络模型,供智能知识库系统使用。
具体实施时,输出知识点对的语义匹配度值m可以是0至1的数值,当语义匹配度m大于设定阈值
具体实施时,上述数据清洗方法可以用于在线智能问答机器人或系统的问答知识库。例如,以保险应用场景为例,针对服务于微保渠道的在线智能问答机器人或系统,面对大量微信用户的保险业务咨询服务,我们可以通过不断收集线上业务数据丰富问答知识库。随着业务量的扩展,我们发现问答知识库存在脏数据并且数量巨大,光靠人工整理效率低、成效不明显。通过采用上述数据清洗方法对问答知识库进行数据检测、清洗,基于小量数据在bert预训练模型上做迁移学习,同时结合注意力机制模型提取全局特征信息极大提高文本语义理解能力,上述数据清洗方法的使用提高了问答知识库检测清洗的便捷性和高效性,从而确保线上智能问答系统性能处于最佳,该方法在保险领域做横向扩展也具有便利性。
在本实施例中,提供了一种计算机设备,如图2所示,包括存储器202、处理器204及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的数据清洗方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的数据清洗方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种数据清洗装置,如下面的实施例所述。由于数据清洗装置解决问题的原理与数据清洗方法相似,因此数据清洗装置的实施可以参见数据清洗方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本发明实施例的数据清洗装置的一种结构框图,如图3所示,该装置包括:
数据获取模块302,用于获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
向量提取模块304,用于针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
语义匹配度计算模块306,用于针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
数据清洗模块308,用于根据语义匹配度确定所述知识点对是否为脏数据。
在一个实施例中,所述向量提取模块,具体用于针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,通过所述bert预训练模型执行以下步骤:
将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的具有固定长度的字向量序列,输出每个子知识点问题的具有固定长度的字向量序列;
针对子知识点问题的字向量序列与主知识点问题的字向量序列具有相同长度的知识点对,将主知识点问题的字向量序列输入双向长短时记忆网络,输出主知识点问题的上下文语义特征向量序列,将子知识点问题的字向量序列输入双向长短时记忆网络,输出子知识点问题的上下文语义特征向量序列。
在一个实施例中,所述语义匹配度计算模块,具体用于将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,通过所述注意力机制模型执行以下步骤:
计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重;
将注意力权重作为所述特征信息,对主知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重加权,得到主知识点问题的特征向量序列,对子知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重加权,得到子知识点问题的特征向量序列;
根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值。
在一个实施例中,所述语义匹配度计算模块通过所述注意力机制模型执行以下步骤计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重:
将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列中最后时刻状态的特征向量进行向量拼接,得到背景信息;
将所述背景信息的维度降低至一半;
计算所述背景信息与主知识点问题的上下文语义特征向量序列中每时刻的特征向量之间的相似度值,主知识点问题的上下文语义特征向量序列中各特征向量对应的相似度值组成主知识点问题的相似度向量,计算所述背景信息与子知识点问题的上下文语义特征向量序列中每时刻的特征向量之间的相似度值,子知识点问题的上下文语义特征向量序列中各特征向量对应的相似度值组成子知识点问题的相似度向量;
根据主知识点问题的相似度向量计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,根据子知识点问题的相似度向量计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重。
在一个实施例中,所述语义匹配度计算模块通过所述注意力机制模型采用以下公式计算所述背景信息与每时刻的特征向量之间的相似度值:
simt=bkg·ht
其中,bkg表示背景信息,ht表示时刻t的特征向量,simt表示背景信息与时刻t的特征向量ht之间的相似度值。
在一个实施例中,所述语义匹配度计算模块,通过以下公式计算该特征向量的注意力权重:
其中,at表示t时刻的特征向量的注意力权重;simt表示t时刻的特征向量对应的相似度值,n表示时刻总数。
在一个实施例中,所述语义匹配度计算模块,还用于计算主知识点问题的特征向量序列中每个特征向量和子知识点问题的特征向量序列中每个特征向量之间的相似度值,各相似度值组成相似度矩阵;
按照相似度值降序顺序取前预设数个相似度值对应的特征向量组成该知识点对的语义匹配特征向量;
将语义匹配特征向量输入所述注意力机制模型的全连接层,输出该知识点对的语义匹配度值。
本发明实施例实现了如下技术效果:提出了将主知识点问题和每个子知识点问题分别组成知识点对,基于bert预训练模型提取知识点对中主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列,实现了基于深度学习的语义理解能力提取上下文语义特征向量序列,进而采用注意力机制模型基于主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列进行处理,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,且主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息,实现了基于增强的语义理解能力来计算知识点对的语义匹配度值,最后基于知识点对的语义匹配度值来判断知识点对是否为脏数据即可,实现数据的检测和清洗,相对于现有技术而言,上述数据清洗方法基于深度学习的语义理解能力来检测、清洗数据,有利于提高数据清洗的准确度,bert预训练模型和注意力机制模型的使用,有利于提高数据检测、清洗的处理效率,有利于降低人力物力财力的投入成本。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
根据语义匹配度确定所述知识点对是否为脏数据。
2.如权利要求1所述的数据清洗方法,其特征在于,针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,包括:
将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的具有固定长度的字向量序列,输出每个子知识点问题的具有固定长度的字向量序列;
针对子知识点问题的字向量序列与主知识点问题的字向量序列具有相同长度的知识点对,将主知识点问题的字向量序列输入双向长短时记忆网络,输出主知识点问题的上下文语义特征向量序列,将子知识点问题的字向量序列输入双向长短时记忆网络,输出子知识点问题的上下文语义特征向量序列。
3.如权利要求1或2所述的数据清洗方法,其特征在于,针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,包括:
将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,通过所述注意力机制模型执行以下步骤:
计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重;
将注意力权重作为所述特征信息,对主知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重加权,得到主知识点问题的特征向量序列,对子知识点问题的上下文语义特征向量序列中各特征向量进行对应的注意力权重加权,得到子知识点问题的特征向量序列;
根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值。
4.如权利要求3所述的数据清洗方法,其特征在于,计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,包括:
将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列中最后时刻状态的特征向量进行向量拼接,得到背景信息;
将所述背景信息的维度降低至一半;
计算所述背景信息与主知识点问题的上下文语义特征向量序列中每时刻的特征向量之间的相似度值,主知识点问题的上下文语义特征向量序列中各特征向量对应的相似度值组成主知识点问题的相似度向量,计算所述背景信息与子知识点问题的上下文语义特征向量序列中每时刻的特征向量之间的相似度值,子知识点问题的上下文语义特征向量序列中各特征向量对应的相似度值组成子知识点问题的相似度向量;
根据主知识点问题的相似度向量计算主知识点问题的上下文语义特征向量序列中各特征向量的注意力权重,根据子知识点问题的相似度向量计算子知识点问题的上下文语义特征向量序列中各特征向量的注意力权重。
5.如权利要求4所述的数据清洗方法,其特征在于,通过以下公式计算所述背景信息与每时刻的特征向量之间的相似度值:
simt=bkg·ht
其中,bkg表示背景信息,ht表示时刻t的特征向量,simt表示背景信息与时刻t的特征向量ht之间的相似度值。
6.如权利要求4所述的数据清洗方法,其特征在于,针对主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列中的每个特征向量,通过以下公式计算该特征向量的注意力权重:
其中,at表示t时刻的特征向量的注意力权重;simt表示t时刻的特征向量对应的相似度值,n表示时刻总数。
7.如权利要求3所述的数据清洗方法,其特征在于,针对每个知识点对,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,包括:
计算主知识点问题的特征向量序列中每个特征向量和子知识点问题的特征向量序列中每个特征向量之间的相似度值,各相似度值组成相似度矩阵;
按照相似度值降序顺序取前预设数个相似度值对应的特征向量组成该知识点对的语义匹配特征向量;
将语义匹配特征向量输入所述注意力机制模型的全连接层,输出该知识点对的语义匹配度值。
8.一种数据清洗装置,其特征在于,包括:
数据获取模块,用于获取待清洗数据,针对每个知识点,将主知识点问题和每个子知识点问题分别组成知识点对;
向量提取模块,用于针对每个知识点对,将主知识点问题和子知识点问题分别输入bert预训练模型,输出主知识点问题的上下文语义特征向量序列,输出子知识点问题的上下文语义特征向量序列,其中,所述bert预训练模型是基于待清洗数据的样本数据训练得到的;
语义匹配度计算模块,用于针对每个知识点对,将主知识点问题的上下文语义特征向量序列和子知识点问题的上下文语义特征向量序列输入注意力机制模型,根据主知识点问题的特征向量序列和子知识点问题的特征向量序列输出该知识点对的语义匹配度值,其中,主知识点问题的特征向量序列和子知识点问题的特征向量序列中包括表示特征向量全局重要程度的特征信息;
数据清洗模块,用于根据语义匹配度确定所述知识点对是否为脏数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的数据清洗方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7中任一项所述的数据清洗方法的计算机程序。
技术总结