本申请涉及计算机技术领域,尤其涉及智能搜索技术领域,提出一种核心实体标注方法、装置及电子设备。
背景技术:
随着信息技术的发展,文本数据呈爆炸性增长,面对于海量的文本内容,仅靠人工处理是无法完成从中提取出核心内容的,因此迫切需要计算机技术实现对于文本内容的智能化理解,实现自动化、智能化的文本内容生产、处理和分发推荐。其中,实体理解是文本理解中重要的一环,并且通过核心实体的标注可以延展出对应的实体侧面、话题等其他细粒度的文本理解结果,从而能帮助用户更好的理解网页文本资源或者根据用户的意图推荐更符合用户需求的文本资源。
相关技术中,通常通过提取能够描述短文本核心内容的关键词,来表征短文本的核心内容。但是,由于关键词不一定为实体词,从而使确定的短文本核心内容,缺失语义信息,难以满足不同的应用需求。
技术实现要素:
本申请提出的核心实体标注方法、装置及电子设备,用于解决相关技术中,通过提取短文本的关键词来表征短文本核心内容的方式,由于关键词不一定为实体词,从而使确定的短文本核心内容,缺失语义信息,难以满足不同的应用需求的问题。
本申请一方面实施例提出的核心实体标注方法,包括:分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,所述字向量序列包括所述目标文本中每个字符对应的字向量,所述第一词向量序列包括所述目标文本中每个分词对应的词向量,所述实体向量序列包括所述目标文本中每个实体对应的实体向量;根据所述目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成所述目标文本对应的目标向量序列;利用预设的网络模型对所述目标向量序列进行编码、解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定所述目标文本的核心实体。
本申请另一方面实施例提出的核心实体标注装置,包括:第一获取模块,用于分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,所述字向量序列包括所述目标文本中每个字符对应的字向量,所述第一词向量序列包括所述目标文本中每个分词对应的词向量,所述实体向量序列包括所述目标文本中每个实体对应的实体向量;生成模块,用于根据所述目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成所述目标文本对应的目标向量序列;第一确定模块,用于利用预设的网络模型对所述目标向量序列进行编码、解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;第二确定模块,用于根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定所述目标文本的核心实体。
本申请再一方面实施例提出的电子设备,其包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的核心实体标注方法。
本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如前所述的核心实体标注方法。
上述申请中的任一个实施例具有如下优点或有益效果:通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型确定目标文本中每个字符作为核心实体的起始字符概率和终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体,从而实现了准确提取文本中的核心实体,丰富了文本核心内容的语义信息,通用性好。因为采用了通过分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,并根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,之后利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体的技术手段,所以克服了通过提取短文本的关键词来表征短文本核心内容的方式,提取的核心内容缺失语义信息,难以满足不同的应用需求的问题,进而达到了准确提取文本中的核心实体,丰富了文本核心内容的语义信息,通用性好的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种核心实体标注方法的流程示意图;
图2为本申请实施例所提供的另一种核心实体标注方法的流程示意图;
图3为本申请实施例所提供的再一种核心实体标注方法的流程示意图;
图4为本申请实施例提供的一种核心实体标注装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例针对相关技术中,通过提取短文本的关键词来表征短文本核心内容的方式,由于关键词不一定为实体词,从而使确定的短文本核心内容,缺失语义信息,难以满足不同的应用需求的问题,提出一种核心实体标注方法。
下面参考附图对本申请提供的核心实体标注方法、装置、电子设备及存储介质进行详细描述。
下面结合图1,对本申请实施例提供的核心实体标注方法进行详细说明。
图1为本申请实施例所提供的一种核心实体标注方法的流程示意图。
如图1所示,该核心实体标注方法,包括以下步骤:
步骤101,分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,字向量序列包括目标文本中每个字符对应的字向量,第一词向量序列包括目标文本中每个分词对应的词向量,所实体向量序列包括目标文本中每个实体对应的实体向量。
需要说明的是,在通过计算机技术实现对于文本内容的智能化理解,实现自动化、智能化的文本内容生产、处理和分发推荐时,可以通过提取文本的关键词,对文本的核心内容进行描述,但是,由于关键词不一定为实体词,从而使得确定的文本核心内容缺失语义信息,难以满足不同的应用需求。而利用构建的知识库(如知识图谱)中的实体表达文本的核心内容时,由于知识库中不仅包含大量实体,而且包含各实体的概念信息、各实体间的关系等信息,从而可以丰富文本核心内容的语义信息。
其中,目标文本,是指当前需要对其包含的核心实体进行标注的文本信息;目标文本可以是任意的文本数据,如新闻标题、视频标题、网页文章等等。
其中,字向量映射,是指确定目标文本中每个字符对应的字向量的过程;词向量映射,是指确定目标文本中每个词对应的词向量的过程;实体向量映射,是指利用知识库信息确定目标文本中的实体及各实体对应的实体向量的过程。
在本申请实施例中,可以以目标文本中的每个字符为单位,对目标文本进行切词处理,并将每个字符输入预训练的字向量映射模型,以确定目标文本中每个字符对应的字向量,进而根据每个字符对应的字向量生成目标文本对应的字向量序列,即目标文本对应的字向量序列中的每个元素(向量)为一个字符对应的字向量。
作为一种可能的实现方式,所采用的字向量映射模型可以是来自变压器的双向编码器表示(bidirectionalencoderrepresentationsfromtransformers,简称bert)模型,bert模型可以更好的表达文本的语义信息。需要说明的是,实际使用时,预训练的字向量映射模型,可以是任意可以生成字符的向量的自然语言处理模型,本申请实施例对此不做限定。
在本申请实施例中,可以首先以有语义的词语为单位,对目标文本进行切词处理,并将切词处理后获得的多个分词输入预训练的词向量映射模型,确定目标文本中的各分词分别对应的词向量,进而利用目标文本中的各分词分别对应的词向量生成目标文本对应的词向量序列,即目标文本对应的词向量序列中的每个元素(向量)为一个分词对应的词向量。
作为一种可能的实现方式,所采用的词向量映射模型可以是word2vec模型。需要说明的是,实际使用时,预训练的词向量映射模型,可以是任意可以生成分词的向量的自然语言处理模型,本申请实施例对此不做限定。
在本申请实施例中,可以利用预先构建的知识库,确定目标文本中的各分词在知识库中分别对应的实体,以确定目标文本中的各实体,进而根据知识库中包括的各实体对应的实体向量,确定目标文本中的各实体对应的实体向量,进而利用各实体分别对应的实体向量生成目标文本对应的实体向量序列。
具体的,在确定目标文本中的各分词在知识库中对应的实体时,可以根据每个分词对应的词向量与知识库中各实体对应的实体向量间的相似度(如余弦相似度等),确定每个分词对应的实体。比如,可以预设相似度阈值,将与每个分词对应的词向量的相似度大于相似度阈值的实体向量对应的实体,确定为该分词对应的实体。
作为一种可能的实现方式,预先构建的知识库可以利用通用的知识图谱构建。具体的,预先构建的知识库可以包括通用的知识图谱,以及知识图谱中各实体对应的实体向量。其中,由于知识图谱中的各实体通常为词语或短句,从而各实体对应的实体向量可以是利用预训练的词向量映射模型获得的,如word2vec模型等。
举例来说,目标文本为“血糖不正常的标准是多少”,则可以首先以字符为单位对目标文本进行切词处理,获得目标文本中的各字符:“血、”“糖”、“不”、“正”、“常”、“的”“标”、“准”、“是”、“多”、“少”,并将各字符输入bert模型,确定各字符分别对应的字向量,进而利用各字向量生成目标文本对应的字向量序列;之后以具有语义的词语为单位对目标文本进行切词处理,获取目标文本中的各分词:“血糖”、“不”、“正常”、“的”、“标准”、“是”、“多少”,并将各分词输入word2vec模型,确定各分词分别对应的词向量,进而利用各词向量生成目标文本对应的词向量序列;最后,确定目标文本中的每个分词对应的词向量分别与预先构建的知识库中各实体的实体向量间的相似度,进而确定出目标文本中的各实体“血糖”、“不”、“正常”、“的”、“标准”、“是”、“多少”分别对应的实体向量,进而利用各实体向量生成目标文本对应的实体向量序列。
步骤102,根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列。
在本申请实施例中,为了在对目标文本进行切词时,最大程度上避免边界切分出错,从而可以选择以字符为基本单位,获取目标文本对应的字向量序列。但是,单纯的字符难以储存有效的语义信息,因此,可以将获取的字向量序列、第一词向量序列及实体向量序列进行融合,以更为有效地融入目标文本的语义信息。
作为一种可能的实现方式,可以将目标文本对应的字向量序列、第一词向量序列及实体向量序列进行拼接,生成目标文本对应的目标向量序列。具体的,目标文本对应的字向量序列、第一词向量序列及实体向量序列,均可以看作一个矩阵,其中,字向量序列的行数为目标文本中字符的数量,列数为一个字向量的元素数量;第一词向量序列的行数为目标文本中分词的数量,列数为一个词向量的元素数量;实体向量序列的行数为目标文本中实体的数量,列数为一个实体向量的元素数量;由于字向量序列、第一词向量序列及实体向量序列的维数可能不同,因此可以首先对第一词向量序列及实体向量序列进行矩阵变换,以使变换后的第一词向量序列及实体向量序列的维数与字向量序列相同,进而将字向量序列中的每行元素与变换后的第一词向量序列中的相应行的元素、变换后的实体向量序列中相应行的元素进行拼接处理,以生成目标文本对应的目标向量序列,即目标向量序列中的每个目标向量由字向量序列、变换后的第一词向量序列及实体向量序列中相应行的元素拼接而成。
作为一种可能的实现方式,还可以将目标文本对应的字向量序列、第一词向量序列及实体向量序列的均值,确定为目标文本对应的目标向量序列。即在对第一词向量序列及实体向量序列进行矩阵变换之后,确定字向量序列中的每行字向量与变换后的第一词向量序列中的相应行的词向量、变换后的实体向量序列中相应行的实体向量的均值,进而将该均值确定为目标向量序列中每个目标向量。
进一步的,由于目标文本中的每个分词可能包括多个字符,从而获得的第一词向量序列的维数通常小于字向量序列的维数,从而可以将第一词向量序列中的词向量进行重复,以使第一词向量与字向量进行对齐。即在本申请实施例一种可能的实现形式中,上述步骤102,可以包括:
若第一词向量序列中的第一词向量对应的第一分词中包含的字符数量为n,则将第一词向量重复n次,生成第二词向量序列;
将第二词向量序列进行矩阵变换,生成第三词向量序列,第三词向量序列的维数与目标文本对应的字向量序列维数相同;
将第三词向量序列与目标文本对应的字向量序列进行合成,生成预处理向量序列;
将目标文本对应的实体向量序列进行对齐及矩阵变换,生成与预处理向量序列维数相同的变换向量序列;
将变换向量序列与预处理向量序列进行合成,生成目标向量序列。
作为一种可能的实现方式,在将目标文本对应的字向量序列、第一词向量序列及实体向量序列进行混合,生成目标文本对应的目标向量序列时,可以首先将第一词向量序列及实体向量序列与字向量序列进行对齐再进行矩阵变化,从而使得将字向量序列、第一词向量序列及实体向量序列进行混合时,每个字向量与相应的第一词向量、实体向量间的相关性更强,以提高核心实体标注的准确性。
具体的,对于第一向量中的每个第一词向量,可以根据第一词向量对应的的第一分词中包含的字符数量,对每个第一词向量进行重复,即将对应的第一分词中包含的字符数量为n的第一词向量重复n次,生成与字向量序列对齐的第二词向量序列,即第二词向量中包括的词向量的数量与字向量中包括的字向量的数量相同。
另外,由于在获取目标文本的字向量序列所使用的自然语言处理模型与获取第一词向量序列所使用的自然语言处理模型可能是不同的,从而使得字向量序列中的字向量与第二词向量序列中词向量的维数可能是不同的,即字向量序列与第二词向量序列的列数不同,从而可以进一步对第二词向量序列进行矩阵变换,以生成与字向量序列维数相同的第三词向量序列。之后即可将字向量序列与第三词向量序列进行合成,以生成目标向量序列。
需要说明的是,在将字向量序列与第三词向量序列进行合成时,可以将向量序列与第三词向量序列进行拼接处理,生成目标向量序列;也可以将字向量序列中的每个字向量与第三词向量中相应行的词向量的均值,确定为预处理向量序列中的每个预处理向量,从而生成预处理向量序列。
举例来说,目标文本为“去吃饭吗”,则目标文本中包括的各字符为:“去”、“吃”、“饭”、“吗”,包括的各分词为:“去”、“吃饭”、“吗”,从而可以获取的字向量序列为
相应的,可以采用与第一词向量序列相同的处理方式,将实体向量序列进行对齐及矩阵变换,以生成与预处理向量序列的维数相同(即与字向量序列的维数相同)的变换向量;进而将变换向量序列与预处理向量序列进行合成,生成目标向量序列。
需要说明的是,若预处理向量序列是由字向量序列与第二词向量序列拼接生成的,则可以将变换向量序列与预处理向量序列进行拼接处理,生成目标向量序列;若预处理向量序列每个预处理向量是由字向量序列中的每个字向量与第二词向量序列中相应行的词向量的均值,则可以将变化向量序列中的每个变换向量与预处理向量序列中相应行的预处理向量的均值,确定为目标向量序列中的每个目向量,以生成目标向量序列。
步骤103,利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
其中,预设的网络模型,可以是预训练的神经网络模型,比如,可以是膨胀门卷积神经网络模型。
在本申请实施例中,可以采用双指针标注方法对目标文本中的核心实体的起始位置和终止位置进行标注。即可以将目标文本对应的目标向量序列输入预设的网络模型,以使预设的网络模型输出目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,从而实现对目标文本中核心实体的双指针标注,提高了核心实体标注的准确性。
步骤104,根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。
在本申请实施例中,可以根据目标文本中每个字符作为核心实体的起始字符概率和终止字符概率,确定目标文本的核心实体。
可选的,可以预设概率阈值,并确定出目标文本中作为核心实体的起始字符概率大于或等于概率阈值的第一字符,以及作为核心实体的终止字符概率大于或等于概率阈值的第二字符,进而将第一字符作为目标文本中核心实体的起始字符,将位于第一字符之后的第二字符作为目标文本中核心实体的终止字符,从而确定出目标文本中的各核心实体。
举例来说,预设的概率阈值为0.8,目标文本为“夏至未至:陆之昂和七七开始吃了起来,七七太能吃!”,确定目标文本中字符“陆”作为核心实体的起始字符的概率大于0.8,字符“昂”作为核心实体的终止字符概率大于0.8,字符“七”作为核心实体的起始字符的概率和作为核心实体的终止字符概率均大于0.8,则可以确定目标文本中的核心实体包括“陆之昂”、“七七”、“陆之昂和七七”。
根据本申请实施例的技术方案,通过分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,并根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,之后利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。由此,通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型确定目标文本中每个字符作为核心实体的起始字符概率和终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体,从而实现了准确提取文本中的核心实体,丰富了文本核心内容的语义信息,通用性好。
在本申请一种可能的实现形式中,确定目标文本中每个字符作为核心实体的起始字符概率和终止字符概率时,还可以融合目标文本中各实体作为核心实体的先验概率,以进一步提高核心实体标注的准确性。
下面结合图2,对本申请实施例提供的核心实体标注方法进行进一步说明。
图2为本申请实施例所提供的另一种核心实体标注方法的流程示意图。
如图2所示,该核心实体标注方法,包括以下步骤:
步骤201,分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,字向量序列包括目标文本中每个字符对应的字向量,第一词向量序列包括目标文本中每个分词对应的词向量,实体向量序列包括目标文本中每个实体对应的实体向量。
步骤202,根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列。
上述步骤201-202的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤203,获取目标文本中每个实体对应的核心实体先验概率。
其中,实体对应的核心实体先验概率,可以是根据先前利用预设的网络模型将该实体标注为核心实体的历史使用数据,预测的将该实体标注为核心实体的概率。
作为一种可能的实现方式,可以根据目标文本中包括的每个实体,从预设的网络模型历史使用数据中,获取每次将目标文本中的每个实体确定为核心实体时,预设的网络模型确定的每个实体对应的起始字符作为核心实体的起始字符概率,以及每个实体对应的终止字符作为核心实体的终止字符概率,进而将每个实体每次被确定为核心实体时对应的起始字符概率和终止字符概率的均值,确定为每个实体对应的核心实体先验概率。
举例来说,对于目标文本中的实体a,从预设的网络模型历史数据中,确定实体a被三次确定为核心实体,第一次被确定为核心实体时,实体a对应的起始字符作为核心实体的起始字符概率为0.8,实体a对应的终止字符作为核心实体的终止字符的概率为0.9;第二次被确定为核心实体时,实体a对应的起始字符作为核心实体的起始字符概率为0.9,实体a对应的终止字符作为核心实体的终止字符的概率为0.9;第三次被确定为核心实体时,实体a对应的起始字符作为核心实体的起始字符概率为0.9,实体a对应的终止字符作为核心实体的终止字符的概率为1;从而可以确定实体a对应的核心实体先验概率为(0.8 0.9 0.9 0.9 0.9 1)/6=0.9。
需要说明的是,确定目标文本中每个实体对应的核心实体先验概率的方式,可以包括但不限于以上提及的情形。实际使用时,可以根据实际需要及具体的应用场景选取确定核心实体先验概率的方式,本申请实施例对此不做限定。
步骤204,对目标文本中各实体对应的核心实体先验概率进行全连接处理,确定目标文本对应的先验序列向量。
在本申请实施例中,确定出目标文本中各实体对应的核心实体先验概率之后,可以对各实体对应的核心实体先验概率进行全连接处理,以将各实体对应的核心实体先验概率进行组合,生成目标文本对应先验序列向量。即先验序列向量中的各元素分别为目标文本中各实体分别对应的核心实体先验概率。
步骤205,利用预设的网络模型对目标向量序列进行编码处理,确定目标向量序列对应的目标序列向量。
其中,目标向量序列对应的目标序列向量,可以是将目标向量序列中的各向量进行拼接生成的向量,也可以是将目标向量序列中的各向量进行加权平均合并生成的向量。
在本申请实施例中,可以利用预设的网络模型中的平均合并层对目标向量序列进行编码处理,以确定目标向量序列对应的目标序列向量。
步骤206,利用预设的网络模型,对目标序列向量及先验序列向量进行解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
在本申请实施例中,可以利用预设的网络模型对目标序列向量及先验序列向量进行解码处理,以使在根据目标序列向量确定每个字符作为核心实体的起始字符概率及终止字符概率时,参考先验序列向量,从而使得预设的网络模型输出的结果更加准确。
步骤207,根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。
上述步骤207的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤208,根据每个核心实体中的起始字符概率及终止字符概率,确定每个核心实体的得分。
在本申请实施例中,还可以对确定出的每个核心实体进行评分,以在需要时,可以根据每个核心实体的得分,对核心实体进行筛选处理,从而可以扩展本申请实施例的核心实体标注方法的应用场景,进一步改善了通用性。
作为一种可能的实现方式,可以将每个核心实体中的起始字符概率与终止字符概率的均值,确定为每个核心实体的得分。
举例来说,对应核心实体a,该核心实体的起始字符概率为0.9,终止字符概率为0.8,则核心实体a的得分为(0.9 0.8)/2=0.85。
进一步的,由于本申请实施例的核心实体标注方法,采用双指针标注的机制,从而容易造成确定的核心实体结果中存在覆盖和相交的部分。因此,为降低确定的核心实体结果中存在冗余的概率,可以根据各核心实体的得分,对各核心实体进行筛选,以去除冗余的核心实体。即在本申请实施例一种可能的实现形式中,若确定目标文本的核心实体包含多个,则上述步骤208之后,还可以包括:
判断目标文本的多个核心实体中是否包含相交实体;
若第一实体分别与第二实体及第三实体相交,则判断第一实体的得分,是否大于第二实体的得分与第三实体的得分的和;
若第一实体的得分,大于第二实体的得分与第三实体的得分的和,则将第二实体及第三实体从目标文本的核心实体中剔除;
若第二实体的得分与第三实体的得分的和,大于第一实体的得分,则将第一实体从目标文本的核心实体中剔除。
其中,第一实体与第二实体及第三实体相交,可以是指第一实体包括第二实体及的人实体。比如,第一实体为“陆之昂和七七”,第二实体为“陆之昂”,第三实体为“七七”。
作为一种可能的实现方式,若确定目标文本中包含多个核心实体,则可判断各核心实体中是否包含相交的核心实体,进而根据各核心实体的得分,将得分较低的核心实体剔除。
具体的,若第一实体的得分大于第二实体与第三实体的得分之和,则可以确定第一实体作为核心实体的可靠性大于第二实体与第三实体共同作为核心实体的可靠性,从而可以将第二实体和第三实体从目标文本的核心实体中剔除;若第二实体与第三实体的得分之和大于第一实体的得分,则可以确定第二实体和第三实体共同作为核心实体的可靠性大于第一实体作为核心实体的可靠性,从而可以将第一实体从目标文本的核心实体中剔除。
举例来说,目标文本为“夏至未至:陆之昂和七七开始吃了起来,七七太能吃!”,确定的目标文本的核心实体为“陆之昂”、“七七”、“陆之昂和七七”,实体“陆之昂”的得分为0.7,实体“七七”的得分为0.8,实体“陆之昂和七七”的得分为0.9,则可以确定实体“陆之昂”与实体“七七”的得分之和,大于实体“陆之昂和七七”的得分,从而可以将实体“陆之昂和七七”从目标文本的核心实体中剔除。
根据本申请实施例的技术方案,通过根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,并对目标文本中各实体对应的核心实体先验概率进行全连接处理,确定目标文本对应的先验序列向量,之后利用预设的网络模型对目标向量序列进行编码处理,确定目标向量序列对应的目标序列向量,以及对目标序列向量及先验序列向量进行解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体以及每个核心实体的得分。由此,通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型及核心实体的先验特征,确定目标文本的核心实体及每个核心实体的得分,从而不仅丰富了文本核心内容的语义信息,而且进一步提高了核心实体标注的准确性和通用性。
在本申请一种可能的实现形式中,若目标文本中包含多个并列的实体,还可以仅对并列的多个实体中的一个进行实体向量映射,并根据对该实体的识别结果,确定与之并列的其他实体是否为核心实体,以降低核心实体标注的计算复杂度。
下面结合图3,对本申请实施例提供的核心实体标注方法进行进一步说明。
图3为本申请实施例所提供的再一种核心实体标注方法的流程示意图。
如图3所示,该核心实体标注方法,包括以下步骤:
步骤301,对目标文本进行识别,判断目标文本中是否包含以预设符号间隔的多个实体。
其中,预设符号,可以是顿号等可以表示并列关系的符号。实际使用时,可以根据实际需要对预设符号进行设置。
在本申请实施例中,为降低算法的复杂度,在目标文本中包含并列的多个实体时,可以仅对其中一个实体进行识别,进而根据对该实体的识别结果,确定与之并列的其他实体是否为核心实体。
作为一种可能的实现方式,可以对目标文本进行识别处理,以确定目标文本中是否包含预设符号,并在确定目标文本中包含预设符号时,将位于预设符号之前与之后的实体确定为并列的多个实体。
需要说明的是,在判断目标文本中是否包含以预设符号间隔的多个实体时,可以根据将预设符号对应的字向量与目标文本中各字符对应的字向量进行比较,若标文本中各字符对应的字向量包含与预设符号对应的字向量匹配的字向量,则可以确定目标文本中包含预设符号,并将目标文本中位于预设符号之前与之后的实体,确定为目标文本中以预设符号间隔的多个实体。
步骤302,分别将目标文本进行字向量映射、词向量映射,以及对第一个预设符号前的第四实体、及目标文本中除以预设符号间隔的多个实体之外的第五实体进行实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列。
其中,第四实体,是指目标文本中以预设符号间隔的多个实体中第一个出现的实体;第五实体,是指目标文本中除以预设符号间隔的多个实体之外的其他实体。比如,预设符号为“顿号”,目标文本中包含实体a、实体b、实体c、实体d、实体e,实体a、实体b、实体c依次在目标文本中出现并以顿号间隔,则第四实体为实体a,第五实体为实体d和实体e。
在本申请实施例中,若目标文本中存在以预设符号间隔的多个并列实体,则在对目标文本进行实体向量映射时,可以仅对并列实体中第一个出现的第四实体进行实体向量映射,以及对第五实体进行实体向量映射,确定出目标文本对应的实体向量序列,从而简化了目标文本的实体向量映射的运算量,提高了核心实体标注的效率。
上述步骤302的其他具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤303,根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列。
步骤304,利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
步骤305,根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。
上述步骤303-305的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤306,判断第四实体是否为核心实体。
步骤307,若第四实体为核心实体,则确定与第四实体以预设符号间隔的其他各实体为目标文本的核心实体。
在本申请实施例中,确定出目标文本的核心实体之后,可以进一步判断目标文本的核心实体中是否包括第四实体,若包括,则可以将与第四实体以预设符号间隔的其他各实体也确定为目标文本的核心实体;若第四实体不是核心实体,则与第四实体与预设符号间隔的其他实体也不是目标文本的核心实体。
根据本申请实施例的技术方案,通过在目标文本中包含以预设符号间隔的多个实体时,分别将目标文本进行字向量映射、词向量映射,以及对第一个预设符号前的第四实体、及目标文本中除以预设符号间隔的多个实体之外的第五实体进行实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,并根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,之后利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,以根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体,进而在第四实体为核心实体时,确定与第四实体以预设符号间隔的其他各实体为目标文本的核心实体。由此,通过融合目标文本的字向量、词向量和实体向量,并仅对并列的多个实体中的一个进行实体向量映射,利用预设的网络模型及对其中一个并列实体的识别结果,确定目标文本的核心实体,从而不仅丰富了文本核心内容的语义信息,提高了核心实体标注的准确性和通用性,而且提高了核心实体标注的效率。
为了实现上述实施例,本申请还提出一种核心实体标注装置。
图4为本申请实施例提供的一种核心实体标注装置的结构示意图。
如图4所示,该核心实体标注装置40,包括:
第一获取模块41,用于分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,字向量序列包括目标文本中每个字符对应的字向量,第一词向量序列包括目标文本中每个分词对应的词向量,实体向量序列包括目标文本中每个实体对应的实体向量。
生成模块42,用于根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列。
第一确定模块43,用于利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;
第二确定模块44,用于根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。
在实际使用时,本申请实施例提供的核心实体标注装置,可以被配置在任意电子设备中,以执行前述核心实体标注方法。
根据本申请实施例的技术方案,通过分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,并根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,之后利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。由此,通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型确定目标文本中每个字符作为核心实体的起始字符概率和终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体,从而实现了准确提取文本中的核心实体,丰富了文本核心内容的语义信息,通用性好。
在本申请一种可能的实现形式中,上述核心实体标注装置40,还包括:
第二获取模块,用于获取目标文本中每个实体对应的核心实体先验概率;
第三确定模块,用于对目标文本中各实体对应的核心实体先验概率进行全连接处理,确定目标文本对应的先验序列向量;
上述第一确定模块43,具体用于:
利用预设的网络模型对目标向量序列进行编码处理,确定目标向量序列对应的目标序列向量;
利用预设的网络模型,对目标序列向量及先验序列向量进行解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
进一步的,在本申请另一种可能的实现形式中,上述生成模块42,具体用于:
若第一词向量序列中的第一词向量对应的第一分词中包含的字符数量为n,则将第一词向量重复n次,生成第二词向量序列;
将第二词向量序列进行矩阵变换,生成第三词向量序列,第三词向量序列的维数与目标文本对应的字向量序列维数相同;
将第三词向量序列与目标文本对应的字向量序列进行合成,生成预处理向量序列;
将目标文本对应的实体向量序列进行对齐及矩阵变换,生成与预处理向量序列维数相同的变换向量序列;
将变换向量序列与预处理向量序列进行合成,生成目标向量序列。
进一步的,在本申请再一种可能的实现形式中,上述生成模块42,还用于:
将目标文本对应的字向量序列、第一词向量序列及实体向量序列进行拼接处理,生成目标文本对应的目标向量序列。
进一步的,在本申请又一种可能的实现形式中,上述核心实体标注装置40,还包括:
第四确定模块,用于根据每个核心实体中的起始字符概率及终止字符概率,确定每个核心实体的得分。
进一步的,在本申请又一种可能的实现形式中,若确定上述目标文本的核心实体包含多个,则上述核心实体标注装置40,还包括:
第一判断模块,用于判断目标文本的多个核心实体中是否包含相交实体;
第二判断模块,用于若第一实体分别与第二实体及第三实体相交,则判断第一实体的得分,是否大于第二实体的得分与第三实体的得分的和;
第一剔除模块,用于若第一实体的得分,大于第二实体的得分与第三实体的得分的和,则将第二实体及第三实体从目标文本的核心实体中剔除;
第二剔除模块,用于若第二实体的得分与第三实体的得分的和,大于第一实体的得分,则将第一实体从目标文本的核心实体中剔除。
进一步的,在本申请另一种可能的实现形式中,上述核心实体标注装置40,还包括:
第三判断模块,用于对目标文本进行识别,判断目标文本中是否包含以预设符号间隔的多个实体;
相应的,上述第一获取模块41,还用于若包含,则对第一个预设符号前的第四实体、及目标文本中除以预设符号间隔的多个实体之外的第五实体进行实体向量映射;
相应的,上述核心实体标注装置40,还包括:
第四判断模块,用于判断第四实体是否为核心实体;
第五确定模块,用于若第四实体为核心实体,则确定与第四实体以预设符号间隔的其他各实体为目标文本的核心实体。
需要说明的是,前述对图1、图2、图3所示的核心实体标注方法实施例的解释说明也适用于该实施例的核心实体标注装置40,此处不再赘述。
根据本申请实施例的技术方案,通过根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,并对目标文本中各实体对应的核心实体先验概率进行全连接处理,确定目标文本对应的先验序列向量,之后利用预设的网络模型对目标向量序列进行编码处理,确定目标向量序列对应的目标序列向量,以及对目标序列向量及先验序列向量进行解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体以及每个核心实体的得分。由此,通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型及核心实体的先验特征,确定目标文本的核心实体及每个核心实体的得分,从而不仅丰富了文本核心内容的语义信息,而且进一步提高了核心实体标注的准确性和通用性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的核心实体标注方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的核心实体标注方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的核心实体标注方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的核心实体标注方法对应的程序指令/模块(例如,附图4所示的第一获取模块41、生成模块42、第一确定模块43及第二确定模块44)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的核心实体标注方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据核心实体标注方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至核心实体标注方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
核心实体标注方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与核心实体标注方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,并根据目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成目标文本对应的目标向量序列,之后利用预设的网络模型对目标向量序列进行编码、解码处理,确定目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体。由此,通过融合目标文本的字向量、词向量和实体向量,利用预设的网络模型确定目标文本中每个字符作为核心实体的起始字符概率和终止字符概率,进而根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定目标文本的核心实体,从而实现了准确提取文本中的核心实体,丰富了文本核心内容的语义信息,通用性好。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
1.一种核心实体标注方法,其特征在于,包括:
分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,所述字向量序列包括所述目标文本中每个字符对应的字向量,所述第一词向量序列包括所述目标文本中每个分词对应的词向量,所述实体向量序列包括所述目标文本中每个实体对应的实体向量;
根据所述目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成所述目标文本对应的目标向量序列;
利用预设的网络模型对所述目标向量序列进行编码、解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;
根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定所述目标文本的核心实体。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率之前,还包括:
获取所述目标文本中每个实体对应的核心实体先验概率;
对所述目标文本中各实体对应的核心实体先验概率进行全连接处理,确定所述目标文本对应的先验序列向量;
所述确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,包括:
利用预设的网络模型对所述目标向量序列进行编码处理,确定所述目标向量序列对应的目标序列向量;
利用所述预设的网络模型,对所述目标序列向量及所述先验序列向量进行解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
3.如权利要求1所述的方法,其特征在于,所述生成所述目标文本对应的目标向量序列,包括:
若所述第一词向量序列中的第一词向量对应的第一分词中包含的字符数量为n,则将所述第一词向量重复n次,生成第二词向量序列;
将所述第二词向量序列进行矩阵变换,生成第三词向量序列,所述第三词向量序列的维数与所述目标文本对应的字向量序列维数相同;
将所述第三词向量序列与所述目标文本对应的字向量序列进行合成,生成预处理向量序列;
将所述目标文本对应的实体向量序列进行对齐及矩阵变换,生成与所述预处理向量序列维数相同的变换向量序列;
将所述变换向量序列与所述预处理向量序列进行合成,生成所述目标向量序列。
4.如权利要求1所述的方法,其特征在于,所述生成所述目标文本对应的目标向量序列,包括:
将所述目标文本对应的字向量序列、第一词向量序列及实体向量序列进行拼接处理,生成所述目标文本对应的目标向量序列。
5.如权利要求1-4任一所述的方法,其特征在于,所述确定所述目标文本的核心实体之后,还包括:
根据每个核心实体中的起始字符概率及终止字符概率,确定每个核心实体的得分。
6.如权利要求5所述的方法,其特征在于,若确定所述目标文本的核心实体包含多个,则所述确定每个核心实体的得分之后,还包括:
判断所述目标文本的多个核心实体中是否包含相交实体;
若第一实体分别与第二实体及第三实体相交,则判断所述第一实体的得分,是否大于第二实体的得分与第三实体的得分的和;
若所述第一实体的得分,大于第二实体的得分与第三实体的得分的和,则将所述第二实体及第三实体从所述目标文本的核心实体中剔除;
若第二实体的得分与第三实体的得分的和,大于所述第一实体的得分,则将所述第一实体从所述目标文本的核心实体中剔除。
7.如权利要求1-4任一所述的方法,其特征在于,所述获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列之前,还包括:
对所述目标文本进行识别,判断所述目标文本中是否包含以预设符号间隔的多个实体;
所述对目标文本进行实体向量映射,包括:
若包含,则对第一个所述预设符号前的第四实体、及所述目标文本中除所述以预设符号间隔的多个实体之外的第五实体进行实体向量映射;
所述确定所述目标文本的核心实体之后,还包括:
判断所述第四实体是否为核心实体;
若所述第四实体为核心实体,则确定与所述第四实体以预设符号间隔的其他各实体为所述目标文本的核心实体。
8.一种核心实体标注装置,其特征在于,包括:
第一获取模块,用于分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,所述字向量序列包括所述目标文本中每个字符对应的字向量,所述第一词向量序列包括所述目标文本中每个分词对应的词向量,所述实体向量序列包括所述目标文本中每个实体对应的实体向量;
生成模块,用于根据所述目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成所述目标文本对应的目标向量序列;
第一确定模块,用于利用预设的网络模型对所述目标向量序列进行编码、解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;
第二确定模块,用于根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定所述目标文本的核心实体。
9.如权利要求8所述的装置,其特征在于,还包括:
第二获取模块,用于获取所述目标文本中每个实体对应的核心实体先验概率;
第三确定模块,用于对所述目标文本中各实体对应的核心实体先验概率进行全连接处理,确定所述目标文本对应的先验序列向量;
所述第一确定模块,具体用于:
利用预设的网络模型对所述目标向量序列进行编码处理,确定所述目标向量序列对应的目标序列向量;
利用所述预设的网络模型,对所述目标序列向量及所述先验序列向量进行解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
10.如权利要求8所述的装置,其特征在于,所述生成模块,具体用于:
若所述第一词向量序列中的第一词向量对应的第一分词中包含的字符数量为n,则将所述第一词向量重复n次,生成第二词向量序列;
将所述第二词向量序列进行矩阵变换,生成第三词向量序列,所述第三词向量序列的维数与所述目标文本对应的字向量序列维数相同;
将所述第三词向量序列与所述目标文本对应的字向量序列进行合成,生成预处理向量序列;
将所述目标文本对应的实体向量序列进行对齐及矩阵变换,生成与所述预处理向量序列维数相同的变换向量序列;
将所述变换向量序列与所述预处理向量序列进行合成,生成所述目标向量序列。
11.如权利要求8所述的装置,其特征在于,所述生成模块,还用于:
将所述目标文本对应的字向量序列、第一词向量序列及实体向量序列进行拼接处理,生成所述目标文本对应的目标向量序列。
12.如权利要求8-11任一所述的装置,其特征在于,还包括:
第四确定模块,用于根据每个核心实体中的起始字符概率及终止字符概率,确定每个核心实体的得分。
13.如权利要求12所述的装置,其特征在于,若确定所述目标文本的核心实体包含多个,则所述装置,还包括:
第一判断模块,用于判断所述目标文本的多个核心实体中是否包含相交实体;
第二判断模块,用于若第一实体分别与第二实体及第三实体相交,则判断所述第一实体的得分,是否大于第二实体的得分与第三实体的得分的和;
第一剔除模块,用于若所述第一实体的得分,大于第二实体的得分与第三实体的得分的和,则将所述第二实体及第三实体从所述目标文本的核心实体中剔除;
第二剔除模块,用于若第二实体的得分与第三实体的得分的和,大于所述第一实体的得分,则将所述第一实体从所述目标文本的核心实体中剔除。
14.如权利要求8-11任一所述的装置,其特征在于,还包括:
第三判断模块,用于对所述目标文本进行识别,判断所述目标文本中是否包含以预设符号间隔的多个实体;
所述第一获取模块,用于若包含,则对第一个所述预设符号前的第四实体、及所述目标文本中除所述以预设符号间隔的多个实体之外的第五实体进行实体向量映射;
所述装置,还包括:
第四判断模块,用于判断所述第四实体是否为核心实体;
第五确定模块,用于若所述第四实体为核心实体,则确定与所述第四实体以预设符号间隔的其他各实体为所述目标文本的核心实体。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
技术总结