本发明涉及自然语言数据处理技术领域,尤其涉及一种基于句子检索模式的属性抽取方法。
背景技术:
关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。主要介绍有监督学习方法。
有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,进而达到关系的抽取。但是其也存在着非常明显的缺点:大量的数据必然存在着准确率问题,有些数据并不是我们期望的,如何解决从大量数据中准确的抽取出我们期望的数据,进而准确的抽取出属性是我们工作的一个重点。
技术实现要素:
为解决上述技术问题,本发明的目的是提供一种基于句子检索模式的属性抽取方法。该方法基于句子检索模式的属性抽取检索方法实现了从大量无结构化中文文本中抽取出一批句子样本集合,然后从这批样本句子中挑选我们觉得贴近我们所需要抽取的属性集合的句子,之后通过依存句法分析得到相应的词性,采用过滤规则生成属性三元组,存入数据库。
本发明的目的通过以下的技术方案来实现:
一种基于句子检索模式的属性抽取方法,包括:
a将语料进行预处理,把需要的语料数据导入到语料库;
b从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
c采用hanlp句法依存分析器对抽取的语句样本集进行分词和词性标注;
d采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,并得到每一句话的三元组属性集合;
e对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
提高了关系抽取的效率,减少了人力物力等资源的浪费,解决了现有关系抽取技术的不足之处。
附图说明
图1是基于句子检索模式的属性抽取方法流程图;
图2是语料按关系抽取后的句子图例;
图3是依据句法分析语料图例;
图4是依据句法分析语料树形图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于句子检索模式的属性抽取方法流程,包括以下步骤:
步骤10将语料进行预处理,把需要的语料数据导入到语料库;
步骤20从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
语料来源分为三方面:分别为语料库,词典和概念模型;语料库支持多数据源
此处分为两种情况抽取:第一种情况:手动输入两个关系词,根据这两个关系词到语料库中抽取相关的句子;第二种情况:选择一种关系和一部词典,或者是选择一种关系和一个概念模型,根据关系,词典和概念模型抽取出对应的关系词,然后在根据抽取到的关系词选择合适的关系词到语料库中抽取句子。如图2所示为抽取后的句子的内容。此处的内容是xml格式的文档,在句法分子之前我们通过正则的方式取出xml文档中的每一条句子。
对以上按照关系抽取的句子,选择我们需要的样本句子,组成样本集;
所述语句中抽取句子,采用的是知网研发的数据库kabase中的位置描述符的方法,例如’str1#str2’:表示包含词str1和词str2,且str1、str2在同一句中,那么就可以检索出这个句子;位置描述符主要用于text、textchar、ltext、ltextchar、title、qtext等等文本索引类型,用来完成复杂的ksql查询语句,需要注意的是位置描述符前后都必须至少包含一个空格用以分隔表达式中不同的部分,并且其中字母严格要求大写。
步骤30采用hanlp句法依存分析器对抽取的语句样本集进行分词和词性标注;
上述hanlp句法依存分析器语句样本集进行分词和词性标注基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器以及基于词语的bigram概率图最短路分词器(如图3和图4所示)。
步骤40采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,三元组为实体、关系与属性;并得到每一句话的三元组属性集合;
步骤50对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库如表1所示:
表1
上述表格中:如水稻、产地和中国为三元组。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
1.一种基于句子检索模式的属性抽取方法,其特征在于,所述方法包括:
a将语料进行预处理,把需要的语料数据导入到语料库;
b从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
c采用hanlp句法依存分析器对抽取的语句样本集进行分词和词性标注;
d采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,并得到每一句话的三元组属性集合;
e对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库。
2.如权利要求1所述的基于句子检索模式的属性抽取方法,其特征在于,所述步骤b中所述语句的抽取包括:
手动输入两个关系词,根据这两个关系词到语料库中抽取相关的句子;及
选择一种关系和一部词典,或者是选择一种关系和一个概念模型,根据关系,词典和概念模型抽取出对应的关系词,然后在根据抽取到的关系词选择合适的关系词到语料库中抽取句子。
3.如权利要求1所述的基于句子检索模式的属性抽取方法,其特征在于,所述步骤c中hanlp句法依存分析器语句样本集进行分词和词性标注基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器以及基于词语的bigram概率图最短路分词器。
技术总结