一种中医实体识别算法的制作方法

专利2022-06-29  83


本发明涉及自然语言处理的应用技术领域,具体是一种中医实体识别算法。



背景技术:

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

本文的主要工作是针对中医医案中症状、证型、药名这三类命名实体及其相互间的关联关系展开研究。研究所采用的方法涉及到了自然语言处理的语料库语言学知识、基于统计学方法的命名实体识别技术。



技术实现要素:

本发明的目的在于提供一种中医实体识别算法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种中医实体识别算法,包含以下步骤:

a、数据标注;将中医组收集的中医医案文本采用的是bio的标注方式,b,即begin,表示开始i,即intermediate,表示中间o,即other,表示其他,用于标记无关字符;

b、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;

c、训练模型。

作为本发明的进一步方案:所述步骤a中每一行一个字符,字符后面跟上空格,然后跟上该字符的标注。

作为本发明的进一步方案:每个样本之间用空行分隔。

作为本发明的进一步方案:所述步骤a中使用brat标注工具辅助进行标注工作。

作为本发明的进一步方案:所述步骤b中使用自然语言表征模型之一的bert的中文预训练模型。

作为本发明的进一步方案:所述步骤c基于bert lstm crf算法来训练命名实体模型的。

作为本发明的进一步方案:所述步骤c结束后还会输出训练日志。

与现有技术相比,本发明的有益效果是:本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗系统奠定基础,提升基础语义组件的效果。

附图说明

图1为本发明的模型示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:请参阅图1,一种中医实体识别算法,包含以下步骤:

a、数据标注,将中医组收集的中医医案文本采用的是bio的标注方式,b,即begin,表示开始i,即intermediate,表示中间o,即other,表示其他,用于标记无关字符,每一行一个字符,字符后面跟上空格,然后跟上该字符的标注,每个样本之间用空行分隔。使用brat标注工具辅助进行标注工作。

b、预训练模型,使用预训练模型做微调的训练方式称为迁移学习,这样做可以让我们的训练收敛的更快,并且可以使得在较少的训练样本上训练也能得到不错的效果。这里我们将使用目前最好的自然语言表征模型之一的bert的中文预训练模型。使用bert可以得到比word2vec(词向量)更好的表征即可。bert在中文维基百科上预训练的模型下载地址:https://storage.googleapis.com/bert_models/2018_11_03/chinese_l-12_h-768_a-12.zip。

c、训练模型,本文的模型是基于bert lstm crf算法来训练命名实体模型的,比基于lstm crf的项目的效果要好,下面是该项目的地址:

https://github.com/macanv/bert-bilstm-crf-ner。

测试输出的结果和上面训练完成后输出的结果的格式是一样的。如果你按照本文的步骤,完整的走到这里了,那么你已经有了一个可以识别症状、证型、中药名,共三个实体的命名实体识别模型。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。


技术特征:

1.一种中医实体识别算法,其特征在于,包含以下步骤:

a、数据标注;将中医组收集的中医医案文本采用的是bio的标注方式,b,即begin,表示开始i,即intermediate,表示中间o,即other,表示其他,用于标记无关字符;

b、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;

c、训练模型。

2.根据权利要求1所述的一种中医实体识别算法,其特征在于,所述步骤a中每一行一个字符,字符后面跟上空格,然后跟上该字符的标注。

3.根据权利要求2所述的一种中医实体识别算法,其特征在于,每个样本之间用空行分隔。

4.根据权利要求3所述的一种中医实体识别算法,其特征在于,所述步骤a中使用brat标注工具辅助进行标注工作。

5.根据权利要求4所述的一种中医实体识别算法,其特征在于,所述步骤b中使用自然语言表征模型之一的bert的中文预训练模型。

6.根据权利要求4所述的一种中医实体识别算法,其特征在于,所述步骤c基于bert lstm crf算法来训练命名实体模型的。

7.根据权利要求3所述的一种中医实体识别算法,其特征在于,所述步骤c结束后还会输出训练日志。

技术总结
本发明公开了一种中医实体识别算法,包含以下步骤:A、数据标注;将中医组收集的中医医案文本采用的是BIO的标注方式,B,即Begin,表示开始I,即Intermediate,表示中间O,即Other,表示其他,用于标记无关字符;B、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;C、训练模型,本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗系统奠定基础,提升基础语义组件的效果。

技术研发人员:安静梅;张凯文;钱小菲;魏宇涛
受保护的技术使用者:上海国民集团健康科技有限公司
技术研发日:2020.01.16
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-19900.html

最新回复(0)