一种知识图谱的生成方法和装置及计算机可读存储介质与流程

专利2022-06-29  172


本发明实施例涉及但不限于数据处理领域,尤指一种知识图谱的生成方法和装置及计算机可读存储介质。



背景技术:

随着2012年谷歌在其搜索引擎中引入知识图谱,该项技术得到越来越广泛的关注和应用。知识图谱以图的形式可视化的展示知识片段之间的关系,相较于语音和文字,更加简洁、清晰,更符合人类的思维方式。然而,人们在表达内容的时候,更常用的、更自然的方式还是使用语音,因此如何在人们交谈时有效甚至实时将语音转换成知识图谱成为一个亟待解决的问题。

目前没有直接将语音转换为知识图谱的技术和产品,而且这两项技术的简单结合生成的知识图谱往往准确率较低,这是由于语音识别的误差在生成知识图谱的过程中会被放大,导致最终的知识图谱的准确率比较低。



技术实现要素:

本发明实施例提供了一种知识图谱的生成方法和装置及计算机可读存储介质,能够直接将语音转换为知识图谱,且提高知识图谱的准确率。

本发明实施例提供了一种知识图谱的生成方法,包括:

将语音信号转换为文本信息;

对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号;

对添加标点符号的文本信息进行口语修正;

根据口语修正后的文本信息生成知识图谱。

在本发明实施例中,所述对添加标点符号的文本信息进行口语修正后,在根据口语修正后的文本信息生成知识图谱之前,该方法还包括:

对口语修正后的文本信息进行断句和标点符号的调整;

所述根据口语修正后的文本信息生成知识图谱包括:

根据进行断句和标点符号的调整后的文本信息生成所述知识图谱。

在本发明实施例中,所述在断句后的文本信息中相邻两个句子之间添加标点符号包括:

将断句后的文本信息依次输入到训练好的标点符号预测模型中预测相邻两个句子之间的标点符号;

将预测的标点符号添加到相邻两个句子之间。

在本发明实施例中,所述对添加标点符号的文本信息进行口语修正包括:

去除所述添加标点符号的文本信息中的语气词和口头禅中的任意一个或多个。

本发明实施例提出了一种知识图谱的生成装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种知识图谱的生成方法。

本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种知识图谱的生成方法的步骤。

本发明实施例包括:将语音信号转换为文本信息;对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号;对添加标点符号的文本信息进行口语修正;根据口语修正后的文本信息生成知识图谱。本发明实施例在将语音信息转换为文本信息后,对文本信息进行断句,添加标点符号和口语修正后,再生成知识图谱,由于对文本信息进行断句,添加标点符号和口语修正有助于分词,词性分析和句法分析,而生成知识图谱过程中往往需要进行分词,词性分析和句法分析,从而提高了知识图谱的准确率。

本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。

图1为本发明一个实施例提出的知识图谱的生成方法的流程图;

图2为本发明另一个实施例提出的知识图谱的生成装置的结构组成示意图。

具体实施方式

下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1,本发明一个实施例提出了一种知识图谱的生成方法,包括:

步骤100、将语音信号转换为文本信息。

步骤101、对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号。

在一个示例性实例中,在断句后的文本信息中相邻两个句子之间添加标点符号包括:将断句后的文本信息依次输入到训练好的标点符号预测模型中预测相邻两个句子之间的标点符号(如逗号、句号、省略号等),将预测的标点符号添加到相邻两个句子之间。

在一个示例性实例中,标点符号预测模型可以采用以下任意一种方式训练。

(一)将标点符号预测问题当做语言模型问题,把标点符号作为普通的单词对待,根据语料集训练n-gram语言模型,计算给定前n个单词的条件下,下一个为标点符号的概率。也就是说,给定前边n个单词,计算第n 1个单词的概率,在候选的所有词中,选择出现概率最高的单词做为第n 1个单词。

(二)将标点符号预测问题当做分类问题,对于无标点符号的句子中的每个位置,根据其前边n个字符判断当前位置是否应该添加标点符号。分类模型可以使用长短期记忆网络(lstm,longshort-termmemory),不断将字符依次输入该lstm,每次判断输出下一个字符是否为标点符号,如果是的话应该是哪个标点符号。另外,分类模型还可以选择双向长短期记忆网络(bi-lstm)做为训练模型,该模型与lstm相比,其优点是不但能够使用上文中的字符,还能够使用下文中的字符做为特征,去预测当前字符的后边是否应接标点符号。

步骤102、对添加标点符号的文本信息进行口语修正。

在一个示例性实例中,对添加标点符号的文本信息进行口语修正包括:去除添加标点符号的文本信息中的语气词和口头禅中的任意一个或多个。

在一个示例性实例中,语气词如:“嗯”、”啊”等,口头禅如“这个”、“那个”、“对吧”、“是吧”等。

在一个示例性实例中,使用语气词和口头禅的词典来存储预先获得的语气词和口头禅,如:前后都是语气词的“这个、那个”;连续的“嗯嗯嗯、啊啊啊”缩短为一个。

步骤103、根据口语修正后的文本信息生成知识图谱。

在一个示例性实例中,根据口语修正后的文本信息生成知识图谱包括:

从口语修正后的文本信息中抽取出知识要素,以三元组列表的形式表达知识要素,将三元组列表以可视化的形式绘制在一张图上,所绘制的图为知识图谱。

在一个示例性实例中,知识要素包括:概念、实体、关系、属性。

在一个示例性实例中,三元组包括:参数1,关系,参数2。

在一个示例性实例中,参数1为表示实体、概念或属性的名词,参数2为表示实体或概念的名词,或者具体的数值、地理位置、日期等,关系为表示关系的动词或名词。

例如,(明略科学院,成立于,2018年),(明略科学院,定位,人工智能研究与落地),(明略科学院,发力点,大数据),(明略科学院,发力点,大知识),(明略科学院,发力点,大智慧)均为三元组。

在本发明另一个实施例中,对添加标点符号的文本信息进行口语修正后,在根据口语修正后的文本信息生成知识图谱之前,该方法还包括:

对口语修正后的文本信息进行断句和标点符号的调整;

相应的,所述根据口语修正后的文本信息生成知识图谱包括:

根据进行断句和标点符号的调整后的文本信息生成所述知识图谱。

在本发明实施例中,可以在接收到完整的语音信号后,再将完整的语音信号转换为文本信息,并执行后续流程;也可以在接收语音信号的过程中实时将语音信号转换为文本信息,并实时执行后续流程。

当在接收语音信号的过程中实时将语音信号转换为文本信息,并实时执行后续流程时,随着文本信息的增长,需要对之前的结果做断句和标点符号的调整,进一步提高准确度。

在一个示例性实例中,根据进行断句和标点符号的调整后的文本信息生成知识图谱包括:

从进行断句和标点符号的调整后的文本信息中抽取出知识要素,以三元组列表的形式表达知识要素,将三元组列表以可视化的形式绘制在一张图上,所绘制的图为知识图谱。

本发明实施例在将语音信息转换为文本信息后,对文本信息进行断句,添加标点符号和口语修正后,再生成知识图谱,由于对文本信息进行断句,添加标点符号和口语修正有助于分词,词性分析和句法分析,而生成知识图谱过程中往往需要进行分词,词性分析和句法分析,从而提高了知识图谱的准确率。

本发明另一个实施例提出了一种知识图谱的生成装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种知识图谱的生成方法。

本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种知识图谱的生成方法的步骤。

参见图2,本发明另一个实施例提出了一种知识图谱的生成装置,包括:

语音识别模块201,用于将语音信号转换为文本信息;

文本处理模块202,用于对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号;对添加标点符号的文本信息进行口语修正;

知识图谱生成模块203,用于根据口语修正后的文本信息生成知识图谱。

在一个示例性实例中,文本处理模块202具体用于采用以下方式实现在断句后的文本信息中相邻两个句子之间添加标点符号:将断句后的文本信息依次输入到训练好的标点符号预测模型中预测相邻两个句子之间的标点符号(如逗号、句号、省略号等),将预测的标点符号添加到相邻两个句子之间。

在一个示例性实例中,文本处理模块202可以采用以下任意一种方式训练标点符号预测模型。

(一)将标点符号预测问题当做语言模型问题,把标点符号作为普通的单词对待,根据语料集训练n-gram语言模型,计算给定前n个单词的条件下,下一个为标点符号的概率。也就是说,给定前边n个单词,计算第n 1个单词的概率,在候选的所有词中,选择出现概率最高的单词做为第n 1个单词。

(二)将标点符号预测问题当做分类问题,对于无标点符号的句子中的每个位置,根据其前边n个字符判断当前位置是否应该添加标点符号。分类模型可以使用长短期记忆网络(lstm,longshort-termmemory),不断将字符依次输入该lstm,每次判断输出下一个字符是否为标点符号,如果是的话应该是哪个标点符号。另外,分类模型还可以选择双向长短期记忆网络(bi-lstm)做为训练模型,该模型与lstm相比,其优点是不但能够使用上文中的字符,还能够使用下文中的字符做为特征,去预测当前字符的后边是否应接标点符号。

在一个示例性实例中,文本处理模块202具体用于采用以下方式实现对添加标点符号的文本信息进行口语修正:去除添加标点符号的文本信息中的语气词和口头禅中的任意一个或多个。

在一个示例性实例中,语气词如:“嗯”、”啊”等,口头禅如“这个”、“那个”、“对吧”、“是吧”等。

在一个示例性实例中,使用语气词和口头禅的词典来存储预先获得的语气词和口头禅,如:前后都是语气词的“这个、那个”;连续的“嗯嗯嗯、啊啊啊”缩短为一个。

在一个示例性实例中,知识图谱生成模块203具体用于:

从口语修正后的文本信息中抽取出知识要素,以三元组列表的形式表达知识要素,将三元组列表以可视化的形式绘制在一张图上,所绘制的图为知识图谱。

在一个示例性实例中,知识要素包括:概念、实体、关系、属性。

在一个示例性实例中,三元组包括:参数1,关系,参数2。

在一个示例性实例中,参数1为表示实体、概念或属性的名词,参数2为表示实体或概念的名词,或者具体的数值、地理位置、日期等,关系为表示关系的动词或名词。

例如,(明略科学院,成立于,2018年),(明略科学院,定位,人工智能研究与落地),(明略科学院,发力点,大数据),(明略科学院,发力点,大知识),(明略科学院,发力点,大智慧)均为三元组。

在本发明另一个实施例中,文本处理模块202还用于:

对口语修正后的文本信息进行断句和标点符号的调整;

知识图谱生成模块203具体用于:

根据进行断句和标点符号的调整后的文本信息生成所述知识图谱。

在本发明实施例中,可以在接收到完整的语音信号后,再将完整的语音信号转换为文本信息,并执行后续流程;也可以在接收语音信号的过程中实时将语音信号转换为文本信息,并实时执行后续流程。

当在接收语音信号的过程中实时将语音信号转换为文本信息,并实时执行后续流程时,随着文本信息的增长,需要对之前的结果做断句和标点符号的调整,进一步提高准确度。

在一个示例性实例中,知识图谱生成模块203具体用于:

从进行断句和标点符号的调整后的文本信息中抽取出知识要素,以三元组列表的形式表达知识要素,将三元组列表以可视化的形式绘制在一张图上,所绘制的图为知识图谱。

本发明实施例在将语音信息转换为文本信息后,对文本信息进行断句,添加标点符号和口语修正后,再生成知识图谱,由于对文本信息进行断句,添加标点符号和口语修正有助于分词,词性分析和句法分析,而生成知识图谱过程中往往需要进行分词,词性分析和句法分析,从而提高了知识图谱的准确率。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。


技术特征:

1.一种知识图谱的生成方法,包括:

将语音信号转换为文本信息;

对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号;

对添加标点符号的文本信息进行口语修正;

根据口语修正后的文本信息生成知识图谱。

2.根据权利要求1所述的生成方法,其特征在于,所述对添加标点符号的文本信息进行口语修正后,在根据口语修正后的文本信息生成知识图谱之前,该方法还包括:

对口语修正后的文本信息进行断句和标点符号的调整;

所述根据口语修正后的文本信息生成知识图谱包括:

根据进行断句和标点符号的调整后的文本信息生成所述知识图谱。

3.根据权利要求1或2所述的生成方法,其特征在于,其中,所述在断句后的文本信息中相邻两个句子之间添加标点符号包括:

将断句后的文本信息依次输入到训练好的标点符号预测模型中预测相邻两个句子之间的标点符号;

将预测的标点符号添加到相邻两个句子之间。

4.根据权利要求1或2所述的生成方法,其特征在于,其中,所述对添加标点符号的文本信息进行口语修正包括:

去除所述添加标点符号的文本信息中的语气词和口头禅中的任意一个或多个。

5.一种知识图谱的生成装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~4任一项所述的知识图谱的生成方法。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的知识图谱的生成方法的步骤。

技术总结
本发明实施例公开了一种知识图谱的生成方法和装置及计算机可读存储介质,包括:将语音信号转换为文本信息;对文本信息进行断句,在断句后的文本信息中相邻两个句子之间添加标点符号;对添加标点符号的文本信息进行口语修正;根据口语修正后的文本信息生成知识图谱。本发明实施例在将语音信息转换为文本信息后,对文本信息进行断句,添加标点符号和口语修正后,再生成知识图谱,由于对文本信息进行断句,添加标点符号和口语修正有助于分词,词性分析和句法分析,而生成知识图谱过程中往往需要进行分词,词性分析和句法分析,从而提高了知识图谱的准确率。

技术研发人员:张杰;付骁弈;于皓;陈栋;吴信东
受保护的技术使用者:北京明略软件系统有限公司
技术研发日:2020.01.14
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-24341.html

最新回复(0)