文本主题生成方法、装置及电子设备与流程

专利2022-06-30  65


本申请涉及计算机技术领域,尤其涉及智能搜索技术领域,提出一种文本主题生成方法、装置及电子设备。



背景技术:

相关技术中,通常通过潜在狄利克雷分布(latentdirichletallocation,简称lda)模型对文本进行分析,确定文本的主题。lda主题生成模型也称为三层贝叶斯概率模型,包含词、主题和文档三层结构,用来识别大规模文档集或语料库中潜藏的主题信息。lda以词袋模型为基础,对文本中词的分布情况及词的主题分布情况进行分析,确定文本主题。

但是,这种确定文本主题的方式,较适合长文本数据,对短文本而言,准确性较低。



技术实现要素:

本申请提出的文本主题生成方法、装置及电子设备,用于解决相关技术中,采用lda模型确定文本主题的方式,较适合长文本数据,对短文本而言,准确性较低的问题。

本申请一方面实施例提出的文本主题生成方法,包括:对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;通过实体链接,确定知识图谱中分别与所述待处理文本中包含的各实体对应的各候选实体;根据每个候选实体在所述知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定所述待处理文本对应的核心实体集;基于所述待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定所述待处理文本中包含的各候选主题;根据所述核心实体集中每个核心实体与所述待处理文本间的关联性,及每个候选主题与所述待处理文本间的关联性,从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题。

本申请另一方面实施例提出的文本主题生成装置,包括:第一获取模块,用于对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;第一确定模块,用于通过实体链接,确定知识图谱中分别与所述待处理文本中包含的各实体对应的各候选实体;第二确定模块,用于根据每个候选实体在所述知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定所述待处理文本对应的核心实体集;第三确定模块,用于基于所述待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定所述待处理文本中包含的各候选主题;第二获取模块,用于根据所述核心实体集中每个核心实体与所述待处理文本间的关联性,及每个候选主题与所述待处理文本间的关联性,从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题。

本申请再一方面实施例提出的电子设备,其包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的文本主题生成方法。

本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如前所述的文本主题生成方法。

上述申请中的任一个实施例具有如下优点或有益效果:通过融合知识图谱和主题图谱信息,对短文本的信息及候选主题进行扩展,以挖掘到更多的隐式主题信息,提高了文本主题生成的准确性。因为采用了通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题的技术手段,所以克服了采用lda模型确定文本主题的方式,对短文本而言,准确性较低的问题,进而达到了对短文本信息及候选主题进行扩展,从而挖掘到更多的隐式主题信息,提高了文本主题生成的准确性的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例所提供的一种文本主题生成方法的流程示意图;

图2为本申请实施例所提供的一种包含各候选实体的相关性网络的示意图;

图3为为本申请实施例所提供的一种二分类网络模型的网络结构示意图;

图4为本申请实施例所提供的另一种文本主题生成方法的流程示意图;

图5为本申请实施例所提供的再一种文本主题生成方法的流程示意图;

图6为本申请实施例所提供的又一种文本主题生成方法的流程示意图;

图7为本申请实施例提供的一种文本主题生成装置的结构示意图;

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中,采用lda模型确定文本主题的方式,较适合长文本数据,对短文本而言,准确性较低的问题,提出一种文本主题生成方法。

下面参考附图对本申请提供的文本主题生成方法、装置、电子设备及存储介质进行详细描述。

下面结合图1,对本申请实施例提供的文本主题生成方法进行详细说明。

图1为本申请实施例所提供的一种文本主题生成方法的流程示意图。

如图1所示,该文本主题生成方法,包括以下步骤:

步骤101,对待处理文本进行实体挖掘,获取待处理文本中包含的各实体。

其中,待处理文本,是指当前需要处理的文本数据,可以是短句、标题等短文本,也可以是文章等长文本,本申请实施例对此不做限定。

需要说明的是,待处理文本可以是任意的文本数据。实际使用时,本申请实施例的文本主题生成方法的应用场景不同,待处理文本的获取方式和类型也可以不同。比如,本申请实施例的文本主题生成方法应用在搜索系统中时,待处理文本可以是用户输入的搜索词、系统中需要进行分类或确定主题的网络资源等。

在本申请实施例中,对待处理文本进行实体挖掘,可以首先对待处理文本进行分词处理,以确定待处理文本包括的各分词,进而逐一对待处理文本中包括的各分词进行识别处理,以判断待处理文本中包括的各分词是否为知识图谱中包括的实体,若是,则将该分词确定为待处理文本中包括的实体;否则,则将该分词丢弃。

可选的,对待处理文本中包括的分词进行识别处理,可以是对待处理文本中的各分词的词性进行识别,进而根据各分词的词性,确定各分词是否为实体。具体的,可以将词性为名词的分词,确定为待处理文本中包含的实体。比如,人物、时间、地点、物品名称、作品名称、动植物名称等,都可以确定为待处理文本中包含的实体。

举例来说,待处理文本为“电视剧《楚乔传》大结局收官赵丽颖林更新领衔主演谍者之战颜值演技实力圈粉”,则对待处理文本进行分词处理,可以确定待处理文本包括的各分词可以为“电视剧、楚乔传、大结局、收官、赵丽颖、林更新、领衔主演、谍者之战、颜值、演技、实力圈粉”,进而根据各分词的词性,可以确定待处理文本中包含的实体可以为“电视剧、楚乔传、大结局、赵丽颖、林更新、颜值、演技”。

需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要及具体的应用场景,选择确定待处理文本中包含的实体的方式,本申请实施例对此不做限定。

步骤102,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体。

其中,知识图谱,是人工智能技术的重要组成部分,其以结构化的方式描述客观世界中的概念、实体及其之间的关系。知识图谱技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。本申请实施例的知识图谱可以是通用的知识图谱,也可以是根据具体的应用需求预先构建的,本申请实施例的知识图谱中的每个实体都具有唯一的实体身份标识号码(identity,简称id),从而可以根据实体id对知识图谱中的实体进行识别。

其中,实体链接,是指确定待处理文本中包含的各实体在知识图谱中对应的实体id的过程。

其中,候选实体,是指待处理文本中包含的、在知识图谱中存在对应的实体id的实体。

在本申请实施例中,确定出待处理文本中包含的各实体之后,可以充分利用丰富的知识图谱数据,利用知识增强技术训练识别模型,对待处理文本中包含的各实体进行识别处理,以判断知识图谱中是否包含待处理文本中包含的各实体,并在知识图谱中包含某个实体时,基于待处理文本的上下文语境获取该实体的实体id,即将该实体链接到知识图谱中的唯一实体id,从而确定出待处理文本中包含的各实体对应的各候选实体。

举例来说,待处理文本为“苹果手机”,则对于待处理文本中包含的实体“苹果”,通过实体链接,可以确定该实体对应的实体id为手机品牌“苹果”对应的实体id,而不是水果“苹果”对应的实体id。

又如,待处理文本为“电视剧《楚乔传》大结局收官赵丽颖林更新领衔主演谍者之战颜值演技实力圈粉”,待处理文本包含的各实体为“电视剧、楚乔传、大结局、赵丽颖、林更新、颜值、演技”,通过实体链接,可以去除部分知识图谱中未包含的实体,并确定出知识图谱中包含的各实体对应的实体id,最终确定出的各候选实体为“楚乔传、赵丽颖、林更新”。

步骤103,根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集。

其中,核心实体集,是指从待处理文本对应的各候选实体中选取的、可以在一定程度上对待处理文本的关键信息进行概括的实体集。

需要说明的是,知识图谱中的各实体并不是孤立存在的,知识图谱中的每个实体都有与其相关的一个或多个实体,知识图谱可以看作是包含大量“实体-关系-实体”三元组的知识库。

在本申请实施例中,由于待处理文本对应的候选实体可能有多个,而在候选实体较多时,并不是所有实体都能够表达待处理文本的关键信息,从而可以根据每个候选实体在知识图谱中与其他实体的相关性,去除冗余的候选实体,并利用能够对待处理文本的关键信息进行概括的实体,构成待处理文本对应的核心实体集。

具体的,可以根据每个候选实体与知识图谱中其他实体的相关性,构建包含各候选实体的相关性网络,进而根据构建的相关性网络,确定待处理文本对应的核心实体集。即在本申请实施例一种可能的实现形式中,上述步骤103,可以包括:

根据每个候选实体在知识图谱中与其他实体的相关性,构建包含各候选实体的相关性网络,其中,相关性网络中每个节点对应一个候选实体,两个节点间边的方向表征两个节点间的层级关系;

根据各候选实体间边的方向,将各候选实体进行聚类,确定待处理文本对应的核心实体集。

在本申请实施例中,构建包含各候选实体的相关性网络时,可以采用相关性网络中的一个节点表征一个候选实体,采用相关性网络中两个节点之间的边表征两个节点间具有相关性,采用两个节点间边的方向表征两个节点间的层级关系。可选的,对于两个具有相关性的节点,可以这两个节点间边的方向所指向的节点作为上层节点,即边的方向所指向的节点的层级高于另一个节点的层级。

举例来说,根据知识图谱中各实体间的相关性,实体“姚明”和实体“火箭队”之间具有相关性,且在构建的相关性网络中,实体“姚明”对应的节点与实体“火箭队”对应的节点间的边的方向指向实体“火箭队”对应的节点,则可以确定实体“火箭队”的层级高于“姚明”的层级。

作为一种可能的实现方式,在根据包含各候选实体的相关性网络对各候选实体进行聚类时,可以将相关性网络中层级最高的各候选实体,确定为核心实体,以构成待处理文本对应的核心实体集。

举例来说,待处理文本对应的各候选实体为“楚乔传、赵丽颖、林更新”,由于赵丽颖与林更新均为参演电视剧《楚乔传》的演员,从而根据各候选实体在知识图谱中与其他实体的相关性,构建的相关性网络如图2所示,候选实体“楚乔传”对应的节点为相关性网络中的层级最高的节点,从而可以确定待处理文本对应的核心实体集为“楚乔传”。

步骤104,基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题。

其中,待处理文本中的各关键词,是指对待处理文本进行分词处理后,从待处理文本中包含的各分词中选取的、能够表达待处理文本的关键信息的分词。比如,待处理文本“电视剧《楚乔传》大结局收官赵丽颖林更新领衔主演谍者之战颜值演技实力圈粉”的关键词可以包括“楚乔传、大结局收官、赵丽颖、林更新”。在本申请实施例中,可以关键词匹配技术确定待处理文本中的各关键词。

其中,预设主题图谱,是指预先构建的包含主题以及各主题间的层级关系的知识库。可选的,预设主题图谱可以是根据互联网中的海量数据构建的通用主题图谱;也可以是根据具体的应用场景,利用该应用场景相关的领域的数据构建的专用主题图谱。

其中,参考主题,是指预设主题图谱中包括的各主题。

其中,关键词与参考主题的匹配度,可以是指关键词语参考主题间的相似程度。比如,可以将关键词与参考主题间的余弦相似度确定为关键词与参考主题的匹配度,本申请实施例对此不做限定。

其中,待处理文本中包含的候选主题,是指与待处理文本中的关键词间的匹配度符合预设条件的参考主题。可选的,预设条件可以是“候选主题与待处理文本中的至少一个关键词的匹配度大于匹配度阈值”。实际使用时,可以根据实际需要选取候选主题需要满足的预设条件,本申请实施例对此不做限定。

在本申请实施例中,由于基于知识图谱可以挖掘待处理文本包含的隐式主题信息,为进一步提高文本主题生成的准确性,还可以根据待处理文本中包含的各关键词挖掘待处理文本中显示出现的主题信息。因此,在本申请实施例中,还可以获取待处理文本中包含的各关键词,并根据各关键词与预设主题图谱中各参考主题间的匹配度,进而将与各关键词间的匹配度符合预设条件的参考主题,确定为待处理文本中包含的各候选主题。

举例来说,预设条件为“候选主题与待处理文本中的至少一个关键词的匹配度大于0.9”,待处理文本为“闽南语歌曲陈百潭《甘味人生》回头看人生有甘味”,通过关键词匹配技术确定的待处理文本中的关键词为“闽南语歌曲、陈百潭”,并分别计算关键词“闽南语歌曲”与预设主题图谱中的各参考主题的匹配度,及关键词“陈百潭”与预设主题图谱中的各参考主题的匹配度,进而确定出关键词“闽南语歌曲”与参考主题“闽南语歌曲”的匹配度为1,主题图谱中不存在与关键词“陈百潭”的匹配度大于0.9的参考主题,则可以确定待处理文本中包含的候选主题为“闽南语歌曲”。

步骤105,根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。

其中,核心实体与待处理文本间的关联性,可以采用核心实体与待处理文本在语法、语义、上下文等方面的相关度进行衡量。

在本申请实施例中,确定出待处理文本对应的核心实体集及待处理文本包含的各候选主题之后,可以确定每个核心实体与待处理文本间的关联性,以及每个候选主题与待处理文本间的关联性,进而将与待处理文本间的关联性较高的核心实体或候选主题,确定为待处理文本的主题。

作为一种可能的实现方式,可以提前训练分类模型,确定核心实体与待处理文本间的关联性,以及候选主题与待处理文本间的关联性。即在本申请实施例一种可能的实现形式中,上述步骤105,可以包括:

利用预设的分类模型,分别对第一核心实体对应的每个概念信息及待处理文本进行编码、解码处理,确定每个概念信息与待处理文本的关联性,其中,第一核心实体在知识图谱中包含至少两个概念信息;

根据第一核心实体的每个概念信息与待处理文本的关联性,确定第一核心实体与待处理文本的关联性;

根据第一核心实体与待处理文本的关联性,确定第一核心实体是否为待处理文本的主题。

其中,预设的分类模型,是指提前训练的、可以对输入的两种文本信息的关联性进行识别的模型。比如,预设的分类模型可以是二分类网络模型,可以对输入模型的两中文本信息的关联性进行识别,并输出识别结果以及识别结果的置信度;其中,可以输出“0”、“1”两种识别结果,“0”表示输入模型的两种文本信息不具有关联性,“1”表示输入模型的两种文本信息具有关联性。

其中,第一核心实体,是指核心实体集中包含至少两个概念信息的核心实体。在本申请实施例中,知识图谱中还可以包括每个实体包含的概念信息。比如,实体“楚乔传”包含的概念信息可以有女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧。

在本申请实施例中,对于包含多个概念信息的第一核心实体,可以将待处理文本和第一核心实体的每个概念信息分别输入预设的分类模型,以确定待处理文本与每个概念信息的关联性,进而根据待处理文本与每个概念信息的关联性,确定待处理文本与第一核心实体的关联性。

具体的,若预设的分类模型为二分类网络模型,则可以在第一核心实体包含关联性为“1”的概念信息时,将待处理文本与第一核心实体的关联性确定为“1”,即确定待处理文本与第一核心实体的关联性为“关联”;若第一核心实体包含的各概念信息的关联性均为“0”,则可以将待处理文本与第一核心实体的关联性确定为“0”,即确定待处理文本与第一核心实体的关联性为“不关联”。

可选的,二分类网络模型的输出包括识别结果的置信度,还可以预设置信度阈值,进而根据待处理文本与每个概念信息的关联性及置信度阈值,确定待处理文本第一核心实体的关联性。比如,可以在第一核心实体包含与待处理文本的关联性为“1”的概念信息,且该概念信息与待处理文本的关联性为“1”的置信度大于置信度阈值,则可以将待处理文本与第一核心实体的关联性确定为“1”,即确定待处理文本与第一核心实体的关联性为“关联”。

在本申请实施例中,若确定第一核心实体与待处理文本的关联性为“关联”,则可以将第一核心实体确定为待处理文本的主题;若第一核心实体与待处理文本的关联性为“不关联”,则可以丢弃第一核心实体。相同的,可以利用预设的分类模型确定核心实体集中每个核心实体与待处理文本的关联性,直至遍历核心实体集中的所有核心实体,以确定所有可以作为待处理文本的主题的核心实体。

举例来说,预设的分类模型为二分类网络模型,如图3所示,为本申请实施例所提供的一种二分类网络模型的网络结构示意图,可见二分类网络模型包括输入层、嵌入层、网络层、激活层及输出层;其中,输入层包含两个输入信息,即待处理文本与第一核心实体的一个概念信息;嵌入层将待处理文本中的词与概念信息中的词分别映射到可具有语义和语法信息的低维向量表达,降低特征维数;长短期记忆(long-shorttermmemory,简称lstm)网络层关联待处理文本中的上下文信息及概念信息中的上下文信息,以提取待处理文本及概念信息中的高维信息表达;激活层将待处理文的lstm输出与概念信息的lstm输出合并,通过参数获取两者间的内在关联,经过激活函数后进行输出;输出层的输出空间包含“0”、“1”两个标签,“1”表示概念信息与待处理文本关联,“0”表示概念信息与待处理文本不关联,同时输出识别结果的置信度。

假设置信度阈值为0.8,第一核心实体为“楚乔传”,第一核心实体“楚乔传”在知识图谱中包含的概念信息为“女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧”,将每个概念信息与待处理文本输入二分类网络模型,确定概念信息“女性励志传奇古装剧”与待处理文本的关联性为“1”,置信度为0.9;概念信息“国语电视剧”与待处理文本的关联性为“1”,置信度为0.7;概念信息“爱情电视剧”与待处理文本的关联性为“0”,置信度为0.8;概念信息“剧情电视剧”与待处理文本的关联性为“0”,置信度为0.9;由于存在关联性为“1”且置信度大于置信度阈值的概念信息“女性励志传奇古装剧”,从而可以确定第一核心实体“楚乔传”与待处理文本的关联性为“关联”,从而可以将“楚乔传”确定为待处理文本的主题。

同样的,在从待处理文本包含的各候选主题中,获取待处理文本的主题时,也可以采用同样的方法确定各候选主题是否可以作为待处理文本的主题。即利用预设的分类模型确定待处理文本与每个候选主题的关联性,进而将与待处理文本的关联性为“关联”的候选主题,确定为待处理文本的主题。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过融合知识图谱和主题图谱信息,对短文本信息及候选主题进行扩展,从而挖掘到更多的隐式主题信息,提高了文本主题生成的准确性。

在本申请一种可能的实现形式中,为进一步挖掘待处理文本中的隐式主题信息,在通过知识图谱挖掘待处理文本的主题信息时,还可以利用核心实体的概念信息生成待处理文本的主题,以进一步提高文本主题生成的准确性。

下面结合图4,对本申请实施例提供的文本主题生成方法进行进一步说明。

图4为本申请实施例所提供的另一种文本主题生成方法的流程示意图。

如图4所示,该文本主题生成方法,包括以下步骤:

步骤201,对待处理文本进行实体挖掘,获取待处理文本中包含的各实体。

步骤202,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体。

步骤203,根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集。

步骤204,基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题。

上述步骤201-204的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

步骤205,利用预设的分类模型,对每个核心实体在知识图谱中的每个概念信息及待处理文本进行编码、解码处理,确定每个核心实体的每个概念信息与待处理文本的关联性。

在本申请实施例中,为充分挖掘待处理文本中包含的隐式主题,进一步提高文本主题生成的准确性,还可以利用核心实体在知识图谱中的概念信息生成待处理文本的主题。具体的,可以根据每个核心实体在知识图谱中的每个概念信息与待处理文本的关联性,确定可以作为待处理文本的主题的概念信息。

作为一种可能的实现方式,可以将每个核心实体在知识图谱中的每个概念信息与待处理文本输入预设的分类模型,以使预设的分类模型对输入的概念信息和待处理文本进行编码、解码处理,从而确定出每个核心实体在知识图谱中的每个概念信息与待处理文本的关联性并输出。

举例来说,若预设的分类模型为二分类网络模型,则可以在二分类网络模型输出的识别结果为“1”时,确定概念信息与待处理文本的关联性为“关联”;若二分类网络模型输出的识别结果为“0”,则可以确定概念信息与待处理文本的关联性为“不关联”。

步骤206,根据每个核心实体的每个概念信息与待处理文本的关联性,从每个核心实体对应的各概念信息中,获取待处理文本的主题。

在本申请实施例中,确定出每个核心实体的每个概念信息与待处理文本的关联性之后,可以将与待处理文本的关联性较高的概念信息,确定为待处理文本的主题。

可选的,若预设的分类模型为可以同时输出关联性识别结果及识别结果置信度的二分类网络模型,还可以预设置信度阈值,以根据每个概念信息与待处理文本的关联性及置信度阈值,从各概念信息中获取关联性为“1”且置信度大于置信度阈值的概念信息,作为待处理文本的主题。

举例来说,预设的分类模型为二分类网络模型,可以输出对输入的两种文本信息的关联性的识别结果及识别结果的置信度,置信度阈值为0.8,待处理文本对应的核心实体集包括一个核心实体“楚乔传”,核心实体“楚乔传”在知识图谱中的概念信息为“女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧”,将每个概念信息与待处理文本输入二分类网络模型,确定概念信息“女性励志传奇古装剧”与待处理文本的关联性为“1”,置信度为0.9;概念信息“国语电视剧”与待处理文本的关联性为“1”,置信度为0.7;概念信息“爱情电视剧”与待处理文本的关联性为“0”,置信度为0.8;概念信息“剧情电视剧”与待处理文本的关联性为“0”,置信度为0.9;由于概念信息“女性励志传奇古装剧”的关联性为1,且置信度大于置信度阈值,从而可以将“女性励志传奇古装剧”作为待处理文本的主题。

需要说明的是,从待处理文本包含的各候选主题中,获取待处理文本的主题的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而利用预设的分类模型,确定每个核心实体的每个概念信息与待处理文本的关联性,以根据每个核心实体的每个概念信息与待处理文本的关联性,从每个核心实体对应的各概念信息中,获取待处理文本的主题。由此,通过融合知识图谱,利用核心实体在知识图谱中的概念信息对短文本信息进行扩展,从而挖掘到更多的隐式主题信息,进一步提高了文本主题生成的准确性。

在本申请一种可能的实现形式中,为进一步挖掘待处理文本中的隐式主题信息,在通过主题图谱挖掘待处理文本的主题信息时,还可以利用候选主题对应的上位主题审查待处理文本的主题,以进一步提高文本主题生成的准确性。

下面结合图5,对本申请实施例提供的文本主题生成方法进行进一步说明。

图5为本申请实施例所提供的再一种文本主题生成方法的流程示意图。

如图5所示,该文本主题生成方法,包括以下步骤:

步骤301,对待处理文本进行实体挖掘,获取待处理文本中包含的各实体。

步骤302,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体。

步骤303,根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集。

步骤304,基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题。

上述步骤301-304的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

步骤305,从预设主题图谱中,抽取每个候选主题对应的上位主题,作为待处理文本对应的扩充主题。

在本申请实施例中,预设主题图谱中可以包括主题以及各主题间的层级关系。因此,作为一种可能的实现方式,可以在确定出待处理文本对应的各候选主题之后,根据各候选主题在预设主题图谱中的层级关系,从预设主题图谱中抽取各候选主题的上位主题,作为待处理文本的扩充主题,以通过预设主题图谱进一步挖掘待处理文本的隐式主题信息,提高主题生成的准确性。

步骤306,根据每个扩充主题与待处理文本间的关联性,从扩充主题中获取待处理文本的主题。

在本申请实施例中,确定出待处理文本对应的各扩充主题之后,可以利用预设的分类模型确定每个扩充主题与待处理文本间的关联性,进而将与待处理文本间的关联性较高的扩充主题,确定为待处理文本的主题。

需要说明的是,确定扩充主题与待处理文本的关联性的方式,与确定核心实体的概念信息与待处理文本的关联的方式相同;根据每个扩充主题与待处理文本间的关联性,从扩充主题中获取待处理文本的主题的方式,与根据每个概念信息与待处理文本间的关联性,从每个概念信息中获取待处理文本的方式相同,具体的实现过程及原理可以参照上述实施例的详细描述,此处不再赘述。

步骤307,根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。

上述步骤307的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而从预设主题图谱中,抽取每个候选主题对应的上位主题,作为待处理文本对应的扩充主题,以根据每个扩充主题与待处理文本间的关联性,从扩充主题中获取待处理文本的主题,以及根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过融合主题图谱,利用候选主题在主题图谱中的上位主题对待处理文本的主题进行扩展,从而挖掘到更多的隐式主题信息,进一步提高了文本主题生成的准确性。

在本申请一种可能的实现形式中,确定出待处理文本对应的核心实体集之后,还可以根据核心实体集在知识图谱中的特性,对核心实体集进行裁剪,以使裁剪后的核心实体集更符合待处理文本的主题,进一步提高文本主题生成的准确性。

下面结合图6,对本申请实施例提供的文本主题生成方法,进行进一步说明。

图6为本申请实施例所提供的又一种文本主题生成方法的流程示意图。

如图6所示,该文本主题生成方法,包括以下步骤:

步骤401,对待处理文本进行实体挖掘,获取待处理文本中包含的各实体。

步骤402,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体。

步骤403,根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集。

上述步骤401-403的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

步骤404,确定每个核心实体的每个概念信息与上位路径信息的匹配度,其中,核心实体集中包括每个核心实体对应的概念信息集及上位路径信息。

其中,概念信息与上位路径信息的匹配度,可以是概念信息与上位路径信息的相似程度,如语义相似度等。比如,可以采用概念信息与上位路径信息间的余弦相似度表示两者的匹配度。

在本申请实施例中,知识图谱中可以包括实体以及各实体对应的概念信息与上位路径信息。比如,实体“楚乔传”对应的概念信息集为“女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧”,上位路径信息为“楚乔传→改编电视剧→改编剧→改编作品→作品→文化→根(root)”。实体在知识图谱中的概念信息与上位路径信息的匹配度,可以反映该实体的信息可靠性,从而可以根据核心实体的每个概念信息与上位路径信息的匹配度,对核心实体集进行裁剪。

具体的,在确定出待处理文本对应的核心实体之后,可以从知识图谱中获取该核心实体对应的概念信息集及上位路径信息,以构成核心实体集。对于核心实体集中的每个核心实体,可以分别确定概念信息集中的每个概念信息分别与上位路径信息中的每个路径信息间的匹配度。

举例来说,概念信息与上位路径信息的匹配度为两者之间的余弦相似度,核心实体集中包括一个核心实体“楚乔传”,核心实体“楚乔传”对应的概念信息集为“女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧”,上位路径信息为“楚乔传→改编电视剧→改编剧→改编作品→作品→文化→根(root)”,则可以计算概念信息“女性励志传奇古装剧”分别与改编电视剧、改编剧、改编作品、作品、文化、根(root)的余弦相似度,即概念信息“女性励志传奇古装剧”与各路径信息的匹配度;相应的,以相同的方式依次确定出概念信息集中其余各概念信息分别与各上位路径信息的匹配度。

步骤405,根据每个核心实体的每个概念信息与上位路径信息的匹配度,对待处理文本对应的核心实体集进行裁剪。

在本申请实施例中,可以根据每个核心实体的每个概念信息与上位路径信息的匹配度,去除核心实体集中匹配度较低的核心实体,或者去除核心实体对应的匹配度较低的概念信息,以实现对核心实体集的裁剪。即在本申请实施例一种可能的实现形式中,上述步骤405,可以包括:

根据每个核心实体的每个概念信息与上位路径信息的匹配度,对每个核心实体的概念信息集进行裁剪;

和/或,

根据每个核心实体的每个概念信息与上位路径信息的匹配度,确定每个核心实体的可信度;根据每个核心实体的可信度,对核心实体数量进行裁剪。

作为一种可能的实现方式,可以预设匹配度阈值,从而可以根据每个核心实体的每个概念信息与上位路径信息的匹配度及匹配度阈值,将与每个上位路径信息的匹配度均小于匹配度阈值的概念信息从核心实体集中去除。

作为一种可能的实现方式,若核心实体的每个概念信息与每个上位路径信息的匹配度均小于匹配度阈值,则可以确定该核心实体的可信度较低,从而可以将该核心实体从核心实体集中去除。

举例来说,核心实体集中包括核心实体“楚乔传”和“赵丽颖”,核心实体“楚乔传”对应的概念信息集为“女性励志传奇古装剧、国语电视剧、爱情电视剧、剧情电视剧、爱情故事”,上位路径信息为“楚乔传→改编电视剧→改编剧→改编作品→作品→文化→根(root)”;核心实体“赵丽颖”对应的概念信息集为“演员、女性”,上位路径信息为“赵丽颖→改编电视剧→改编剧→改编作品→作品→文化→根(root)”,确定概念信息“女性励志传奇古装剧”与“改编电视剧”的匹配度大于匹配度阈值,概念信息“国语电视剧”、“爱情电视剧”、“剧情电视剧”均与“作品”的匹配度大于匹配度阈值,概念信息“爱情故事”与任一个上位路径信息的匹配度均小于匹配度阈值,从而可以将概念信息“爱情故事”从核心实体集中去除;确定核心实体“赵丽颖”概念信息“演员”、“女性”与任一个上位路径信息的匹配度均小于匹配度阈值,则可以确定核心实体“赵丽颖”的可信度较低,从而可以将核心实体“赵丽颖”从核心实体集中去除。

步骤406,基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题。

步骤407,根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。

上述步骤406-407的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后确定每个核心实体的每个概念信息与上位路径信息的匹配度,并根据每个核心实体的每个概念信息与上位路径信息的匹配度,对待处理文本对应的核心实体集进行裁剪,以及基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过融合知识图谱和主题图谱信息,对短文本信息及候选主题进行扩展,并利用知识图谱信息去除可信度低的核心实体,从而不仅挖掘到更多的隐式主题信息,而且提高了隐式主题的可信度,进一步提高了文本主题生成的准确性。

为了实现上述实施例,本申请还提出一种文本主题生成装置。

图7为本申请实施例提供的一种文本主题生成装置的结构示意图。

如图7所示,该文本主题生成装置50,包括:

第一获取模块51,用于对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;

第一确定模块52,用于通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体;

第二确定模块53,用于根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集;

第三确定模块54,用于基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题;

第二获取模块55,用于根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。

在实际使用时,本申请实施例提供的文本主题生成装置,可以被配置在任意电子设备中,以执行前述文本主题生成方法。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过融合知识图谱和主题图谱信息,对短文本信息及候选主题进行扩展,从而挖掘到更多的隐式主题信息,提高了文本主题生成的准确性。

在本申请一种可能的实现形式中,上述第二确定模块53,具体用于:

根据每个候选实体在知识图谱中与其他实体的相关性,构建包含各候选实体的相关性网络,其中,相关性网络中每个节点对应一个候选实体,两个节点间边的方向表征两个节点间的层级关系;

根据各候选实体间边的方向,将各候选实体进行聚类,确定待处理文本对应的核心实体集。

进一步的,在本申请另一种可能的实现形式中,上述核心实体集中包括每个核心实体对应的概念信息集及上位路径信息;相应的,上述文本主题生成装置50,还包括:

第四确定模块,用于确定每个核心实体的每个概念信息与上位路径信息的匹配度;

裁剪模块,用于根据每个核心实体的每个概念信息与上位路径信息的匹配度,对待处理文本对应的核心实体集进行裁剪。

进一步的,在本申请再一种可能的实现形式中,上述裁剪模块,具体用于:

根据每个核心实体的每个概念信息与上位路径信息的匹配度,对每个核心实体的概念信息集进行裁剪;

和/或,

根据每个核心实体的每个概念信息与上位路径信息的匹配度,确定每个核心实体的可信度;根据每个核心实体的可信度,对核心实体数量进行裁剪。

进一步的,在本申请又一种可能的实现形式中,上述文本主题生成装置50,还包括:

抽取模块,用于从预设主题图谱中,抽取每个候选主题对应的上位主题,作为待处理文本对应的扩充主题;

第三获取模块,用于根据每个扩充主题与待处理文本间的关联性,从扩充主题中选取待处理文本的主题。

进一步的,在本申请又一种可能的实现形式中,第一核心实体在知识图谱中包含至少两个概念信息;

相应的,上述第二获取模块55,具体用于:

利用预设的分类模型,分别对第一核心实体对应的每个概念信息及待处理文本进行编码、解码处理,确定每个概念信息与待处理文本的关联性;

根据第一核心实体的每个概念信息与待处理文本的关联性,确定第一核心实体与待处理文本的关联性;

根据第一核心实体与待处理文本的关联性,确定第一核心实体是否为待处理文本的主题。

进一步的,在本申请另一种可能的实现形式中,上述文本主题生成装置50,还包括:

第五确定模块,用于利用预设的分类模型,对每个核心实体在知识图谱中的每个概念信息及待处理文本进行编码、解码处理,确定每个核心实体的每个概念信息与待处理文本的关联性;

所述第二获取模块55,还用于:

根据每个核心实体的每个概念信息与待处理文本的关联性,从每个核心实体对应的各概念信息中,获取待处理文本的主题。

需要说明的是,前述对图1、图4、图5、图6所示的文本主题生成方法实施例的解释说明也适用于该实施例的文本主题生成装置50,此处不再赘述。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而利用预设的分类模型,确定每个核心实体的每个概念信息与待处理文本的关联性,以根据每个核心实体的每个概念信息与待处理文本的关联性,从每个核心实体对应的各概念信息中,获取待处理文本的主题。由此,通过融合知识图谱,利用核心实体在知识图谱中的概念信息对短文本信息进行扩展,从而挖掘到更多的隐式主题信息,进一步提高了文本主题生成的准确性。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图8所示,是根据本申请实施例的文本主题生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本主题生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本主题生成方法。

存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本主题生成方法对应的程序指令/模块(例如,附图7所示的第一获取模块51、第一确定模块52、第二确定模块53、第三确定模块54及第二获取模块55)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本主题生成方法。

存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本主题生成方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至文本主题生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文本主题生成方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息,以及产生与文本主题生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并根据每个候选实体在知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定待处理文本对应的核心实体集,之后基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题,进而根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过融合知识图谱和主题图谱信息,对短文本信息及候选主题进行扩展,从而挖掘到更多的隐式主题信息,提高了文本主题生成的准确性。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。


技术特征:

1.一种文本主题生成方法,其特征在于,包括:

对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;

通过实体链接,确定知识图谱中分别与所述待处理文本中包含的各实体对应的各候选实体;

根据每个候选实体在所述知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定所述待处理文本对应的核心实体集;

基于所述待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定所述待处理文本中包含的各候选主题;

根据所述核心实体集中每个核心实体与所述待处理文本间的关联性,及每个候选主题与所述待处理文本间的关联性,从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题。

2.如权利要求1所述的方法,其特征在于,所述根据每个候选实体在所述知识图谱中与其他实体的相关性,对各候选实体进行聚类,包括:

根据每个候选实体在所述知识图谱中与其他实体的相关性,构建包含所述各候选实体的相关性网络,其中,所述相关性网络中每个节点对应一个候选实体,两个节点间边的方向表征两个节点间的层级关系;

根据各候选实体间边的方向,将各候选实体进行聚类,确定所述待处理文本对应的核心实体集。

3.如权利要求1所述的方法,其特征在于,所述核心实体集中包括每个核心实体对应的概念信息集及上位路径信息;

所述确定所述待处理文本对应的核心实体集之后,还包括:

确定每个核心实体的每个概念信息与上位路径信息的匹配度;

根据每个核心实体的每个概念信息与上位路径信息的匹配度,对所述待处理文本对应的核心实体集进行裁剪。

4.如权利要求3所述的方法,其特征在于,所述对所述待处理文本对应的核心实体集进行裁剪,包括:

根据每个核心实体的每个概念信息与上位路径信息的匹配度,对每个核心实体的概念信息集进行裁剪;

和/或,

根据每个核心实体的每个概念信息与上位路径信息的匹配度,确定每个核心实体的可信度;根据每个核心实体的可信度,对核心实体数量进行裁剪。

5.如权利要求1所述的方法,其特征在于,所述确定所述待处理文本中包含的各候选主题之后,还包括:

从所述预设主题图谱中,抽取每个候选主题对应的上位主题,作为所述待处理文本对应的扩充主题;

根据每个扩充主题与所述待处理文本间的关联性,从所述扩充主题中获取所述待处理文本的主题。

6.如权利要求1-5任一所述的方法,其特征在于,第一核心实体在所述知识图谱中包含至少两个概念信息;

所述从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题,包括:

利用预设的分类模型,分别对第一核心实体对应的每个概念信息及所述待处理文本进行编码、解码处理,确定每个概念信息与所述待处理文本的关联性;

根据所述第一核心实体的每个概念信息与所述待处理文本的关联性,确定所述第一核心实体与所述待处理文本的关联性;

根据所述第一核心实体与所述待处理文本的关联性,确定所述第一核心实体是否为所述待处理文本的主题。

7.如权利要求1-5任一所述的方法,其特征在于,所述从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题之前,还包括:

利用预设的分类模型,对每个核心实体在所述知识图谱中的每个概念信息及所述待处理文本进行编码、解码处理,确定每个核心实体的每个概念信息与所述待处理文本的关联性;

所述从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题,包括:

根据每个核心实体的每个概念信息与所述待处理文本的关联性,从每个核心实体对应的各概念信息中,获取所述待处理文本的主题。

8.一种文本主题生成装置,其特征在于,包括:

第一获取模块,用于对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;

第一确定模块,用于通过实体链接,确定知识图谱中分别与所述待处理文本中包含的各实体对应的各候选实体;

第二确定模块,用于根据每个候选实体在所述知识图谱中与其他实体的相关性,对各候选实体进行聚类,确定所述待处理文本对应的核心实体集;

第三确定模块,用于基于所述待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定所述待处理文本中包含的各候选主题;

第二获取模块,用于根据所述核心实体集中每个核心实体与所述待处理文本间的关联性,及每个候选主题与所述待处理文本间的关联性,从所述核心实体集及所述各候选主题中,获取所述待处理文本的主题。

9.如权利要求8所述的装置,其特征在于,所述第二确定模块,具体用于:

根据每个候选实体在所述知识图谱中与其他实体的相关性,构建包含所述各候选实体的相关性网络,其中,所述相关性网络中每个节点对应一个候选实体,两个节点间边的方向表征两个节点间的层级关系;

根据各候选实体间边的方向,将各候选实体进行聚类,确定所述待处理文本对应的核心实体集。

10.如权利要求8所述的装置,其特征在于,所述核心实体集中包括每个核心实体对应的概念信息集及上位路径信息;

所述装置,还包括:

第四确定模块,用于确定每个核心实体的每个概念信息与上位路径信息的匹配度;

裁剪模块,用于根据每个核心实体的每个概念信息与上位路径信息的匹配度,对所述待处理文本对应的核心实体集进行裁剪。

11.如权利要求10所述的装置,其特征在于,所述裁剪模块,具体用于:

根据每个核心实体的每个概念信息与上位路径信息的匹配度,对每个核心实体的概念信息集进行裁剪;

和/或,

根据每个核心实体的每个概念信息与上位路径信息的匹配度,确定每个核心实体的可信度;根据每个核心实体的可信度,对核心实体数量进行裁剪。

12.如权利要求8所述的装置,其特征在于,还包括:

抽取模块,用于从所述预设主题图谱中,抽取每个候选主题对应的上位主题,作为所述待处理文本对应的扩充主题;

第三获取模块,用于根据每个扩充主题与所述待处理文本间的关联性,从所述扩充主题中选取所述待处理文本的主题。

13.如权利要求8-12任一所述的装置,其特征在于,第一核心实体在所述知识图谱中包含至少两个概念信息;

所述第二获取模块,具体用于:

利用预设的分类模型,分别对第一核心实体对应的每个概念信息及所述待处理文本进行编码、解码处理,确定每个概念信息与所述待处理文本的关联性;

根据所述第一核心实体的每个概念信息与所述待处理文本的关联性,确定所述第一核心实体与所述待处理文本的关联性;

根据所述第一核心实体与所述待处理文本的关联性,确定所述第一核心实体是否为所述待处理文本的主题。

14.如权利要求8-12任一所述的装置,其特征在于,还包括:

第五确定模块,用于利用预设的分类模型,对每个核心实体在所述知识图谱中的每个概念信息及所述待处理文本进行编码、解码处理,确定每个核心实体的每个概念信息与所述待处理文本的关联性;

所述第二获取模块,还用于:

根据每个核心实体的每个概念信息与所述待处理文本的关联性,从每个核心实体对应的各概念信息中,获取所述待处理文本的主题。

15.一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

技术总结
本申请提出一种文本主题生成方法、装置及电子设备,涉及智能搜索技术领域。其中,该方法包括:对待处理文本进行实体挖掘,获取待处理文本中包含的各实体;通过实体链接,确定知识图谱中分别与待处理文本中包含的各实体对应的各候选实体,并对各候选实体进行聚类,确定待处理文本对应的核心实体集;基于待处理文本中各关键词分别与预设主题图谱中各参考主题的匹配度,确定待处理文本中包含的各候选主题;根据核心实体集中每个核心实体与待处理文本间的关联性,及每个候选主题与待处理文本间的关联性,从核心实体集及各候选主题中,获取待处理文本的主题。由此,通过这种文本主题生成方法,挖掘到更多的隐式主题信息,提高了文本主题生成的准确性。

技术研发人员:刘志洁;汪琦;冯知凡;张扬;朱勇
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2020.01.14
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57417.html

最新回复(0)