一种裁判文书结构化方法及装置与流程

专利2022-06-29  71


本申请涉及文本处理技术领域,尤其涉及一种裁判文书结构化方法及装置。



背景技术:

通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。

具体地,例如用户需要从裁判文书中查找与证据相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断证据可能出现的部分内容,进一步从该部分内容中抽取与证据相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。



技术实现要素:

本申请提供了一种裁判文书结构化方法及装置,以提高裁判文书的格式规范性,方便用户浏览。

第一方面,本申请提供了一种裁判文书结构化方法,所述方法包括:

利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;

将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;

利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

第二方面,本申请提供了一种裁判文书结构化装置,所述装置包括:

第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

第二抽取单元,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;

转换单元,用于将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;

更新单元,用于利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。最后,利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取,同时将所提取的文本转化为更加符合展示结构的文本格式,以便于用户通过浏览快速定位所需的内容。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种裁判文书结构化方法的流程图;

图2为本申请实施例提供的一种抽取第一结构化文本的方法的流程图;

图3为本申请实施例提供的一种生成第一子结构化文本的方法的流程图;

图4为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;

图5为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;

图6为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;

图7为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;

图8为本申请实施例提供的一种裁判文书结构化装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。

具体地,例如用户需要从裁判文书中查找与证据相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断证据可能出现的部分内容,进一步从该部分内容中抽取与证据相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。

为了解决上述问题,本申请提供了一种裁判文书结构化方法及装置,以将裁判文本形成结构化文本,以使用户可以快速确定自己在裁判文书中所需的内容。

图1为本申请实施例提供的一种裁判文书结构化方法的流程图,如图1所示,所述方法包括:

s1、利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成。

将待处理裁判文书录入进裁判文书结构化装置中,其中,裁判文书结构化装置可以为服务器、pc(个人电脑)、平板电脑、手机等多种文本处理设备。其中,待处理裁判文书可以为民事案件中的各审判决书等。裁判文书结构化装置在接收到待处理裁判文书之后,需要对该待处理裁判文书进行预处理,确定需要进行结构化的文本,例如,录入至裁判文书结构化装置中的待处理裁判文书包括刑事一审判决书,刑事二审判决书和刑事终审判决书,但是,目前只需要对民事一审判决书进行结构化,此时就需要通过预处理将民事一审判决书的文本提取出来,通常可以通过匹配待处理裁判文书中的文件标题或者文档标题,确定需要结构化的待处理裁判文书。其中,块文本为待处理裁判文书中与第一抽取模板中各抽取节点相对应的文本内容。例如,待处理裁判文书的内容包括“当事人××…,经审理查明××…。”,第一抽取模板包括抽取节点“当事人信息、审理查明”,则“当事人××…”为与“当事人信息”相对应的块文本;“经审理查明××…”为与“审理查明”相对应的块文本。

其中,第一抽取模板可以为一个抽取模型,在结构化待处理裁判文书之前需要预先建立该抽取模型,具体地,

s001、获取裁判文书样本,所述裁判文书样本的所属类别相同;

s002、按照预设文本划分规则,将每一所述裁判文书样本划分为样本块文本;

s003、针对每一所述样本块文本设定一个节点标题;

s004、结合同一所述裁判文书样本的全部节点标题,生成对应的抽取模板样本;

s005、结合各所述抽取模板样本,生成抽取模板。

裁判文书是一种内容规范化的文本,也就是说,对于同类别的裁判文书,无论格式如何变化,其所涉及到的内容类型是大致相同的,例如,裁判文书基本都会涉及当事人信息、审理经过、诉讼方请求、被诉讼方辩解、审理查明、法院观点、判决结果等内容类型,因此,可以通过训练大量裁判文书样本的方式,生成抽取模板。

通常,不同类别的裁判文书所对应的抽取模板也是不同的,这里的类别是指裁判文书涉及到的案件领域、判决级别等,例如刑事一审判决书、刑事二审判决书和民事一审判决书分属三个类别。

在训练某一类别的裁判文书的抽取模板之前,需要首先获得大量的该类别的裁判文书样本,优选地,这些裁判文书样本为标题与具体文本内容相对应的格式,例如“当事人信息-当事人××…;审理查明-经审理查明…”,这样的裁判文书样本与最终所要生成的抽取模板的格式最为相近,可以有效提高训练的效率。

如果所选择的裁判文书样本不具有如上格式,可以首先按照预设文本划分规则将裁判文书样本划分为样本块文本,其中,样本块文本是指每一个所选择的裁判文书样本对应包含的块文本,例如,文本划分规则为按照段落划分、按照文本内子标题划分、按照指定的段落起始字符划分等。然后,对每一样本块文本设定一个节点标题,通常这个节点标题为可以概括该样本块文本语义的字符串,例如,样本块文本为“当事人××…”,则可以设定节点标题为“当事人信息”。进一步地,对于同一个裁判文书样本,如果所设定的节点标题之间出现语义重复的节点标题,可以将具有语义重复的节点标题所对应的样本块文本合并,并选择一个节点标题作为合并后样本块文本对应的节点标题。

在获得一个裁判文书样本的各个样本块文本对应的节点标题之后,可以将这些节点标题汇总生成对应于该裁判文书样本的抽取模板样本。通过训练大量如上所述的抽取模板样本,可以得到抽取模板。进一步地,通过不断充实裁判文书样本,可以不断优化所生成的抽取模板。

对于不同类别的裁判文书,均可以采用如上所述的方法生成对应的抽取模板。

由上述方法生成的各种抽取模板可以随时供裁判文书结构化装置使用,无需重新生成,因此,在裁判文书结构化装置使用抽取模板时需要从全部抽取模板中选择适用于待处理裁判文书的第一抽取模板。

具体地,

s011、从所述待处理裁判文书中提取与关键词库中的词语相匹配的目标关键词;

s012、计算各目标关键词与全部所述抽取模板中每一所述抽取模板的模板标题的语义相似度;

s013、结合各所述目标关键词对应的权重和语义相似度,计算所述待处理裁判文书与每一所述抽取模板的匹配度;

s014、确定第一抽取模板,所述第一抽取模板为匹配度最高的所述抽取模板。

通常待处理裁判文书的标题或者正文中必然会出现与该待处理裁判文书的所属类别相一致的词语,虽然,这些词语不同,但是会表示相同的含义,例如“一审、第一次审判”,此时,可以将待处理裁判文书中的分词与关键词库中的词语进行匹配,从而确定语义相似度高于阈值的目标关键词,用于代表该待处理裁判文书的所属类别。

通常抽取模板具有对应的模板标题,此时,可以通过待处理裁判文书对应的目标关键词与这些模板标题进行匹配,从而找到匹配度最高的模板标题,则该模板标题所对应的抽取模板即为适用于待处理裁判文书的第一抽取模板。

在确定第一抽取模板之后,需要利用该第一抽取模板从待处理裁判文书中确定节点字符,具体地,如图2所示,为本申请实施例提供的一种抽取第一结构化文本的方法的流程图,所述方法包括:

s101、按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;

s102、确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;

s103、将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

具体地,第一抽取模板由多个抽取节点组成,这些抽取节点代表需要进行抽取的文本,例如,第一抽取模板中的抽取节点为“头部、当事人信息、审理查明”,那么就可以根据这些抽取节点从待处理裁判文书中抽取对应的文本,例如,待处理裁判文书包括“××法院…,当事人××…,经审理查明××…,等”,此时,通过对应关系可知,抽取节点“头部”对应抽取的部分为“××法院…”,抽取节点“当事人信息”对应抽取的部分为“当事人××…”,抽取节点“审理查明”对应抽取的部分为“经审理查明××…”。

具体地,可以按照如下步骤确定节点字符。

s1011、获取每一所述抽取节点对应的抽取表达式;

s1012、依次利用每一所述抽取表达式与所述待处理裁判文书中的每一未匹配段落的首行字符进行匹配,得到相匹配段落,所述未匹配段落为没有相匹配的所述抽取表达式的段落;

s1013、利用所述抽取表达式对相应的所述相匹配段落的首行字符进行抽取,得到节点字符。

由撰写习惯决定,通常由位于同一段落中的字符表示的语义是完整语义的最小单元,因此,可以以段落为查找单元,从每一查找单元中查找节点字符。由于节点字符是用于划分待处理裁判文书的关键,因此,节点字符需要具有与抽取节点相对应的分词或者短语等,因此,可以通过对这些分词或者短语的识别,来确定节点字符,通常可以利用抽取表达式来进行识别和抽取。例如,抽取节点为“审理查明”,其对应的抽取表达式可以为@\n[`\n。]*?(经审理?查明丨经审理认定丨庭审查明以下事实丨经审查[,,])@或者@\n经?(本院)?审理查明:@或者@\n经(依法)?审理查明@等,通常一个抽取节点对应多个抽取表达式,以适应该抽取节点的多种表达方式。这样可以利用抽取表达式对每一个段落的首行字符进行匹配,从而找到相匹配的首行字符,并对其进行提取,得到节点字符。例如,待处理裁判文书的段落为“经审理查明,××与××存在债务关系…”,通过抽取表达式可以提取到节点字符“经审理查明”。

需要注意的是,在利用抽取表达式进行匹配的过程中,需要对段落逐个进行匹配,且进行匹配的段落为未匹配段落,这样不仅能够保证抽取的有序性,防止遗漏,同时可以防止对已经确定节点字符的段落再次抽取,以避免浪费时间和抽取错误的问题。

在确定了节点字符之后,可以根据节点字符确定对应的块文本,块文本是指待处理裁判文书中的部分文本,该部分文本位于相邻两个节点字符之间,且以前一节点字符为开端。例如,待处理裁判文书的内容包括“当事人××…,经审理查明××…”,通过上述过程可以确定“当事人”和“经审理查明”为节点字符,且两个节点字符相邻,那么“当事人××…”为与抽取节点“当事人信息”对应的块文本。

在确定每一抽取节点的对应的块文本之后,可以以抽取节点的名称作为标题,建立每一标题与相应块文本之间的对应关系,从而可以将待处理裁判文书结构化为由多个“抽取节点-块文本”组成的第一结构化文本。例如,对于民事一审判决书,可以选择由“头部、当事人信息、审理经过、原告诉称、被告辩称、审理查明、法院观点、判决结果、尾部”这些抽取节点组成的第一抽取模板进行抽取,得到与这些抽取节点相对应的块文本,生成第一结构化文本。

s2、利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成。

第一结构化文本中的部分块文本可能还会包含隐含信息,这些隐含信息通常指分散于块文本中、用户对其具有关注需求,但是需要通过进一步浏览和提取才能够获得的文本内容,在本实施例中将第一结构化文本中符合上述要求的块文本定义为指定块文本。例如,用户需要直接从结构化文本中获得待处理裁判文书中的证据目录,而组成证据目录的证据会分散在如原告诉称和被告辩称等对应的块文本中,那么这些块文本就是指定块文本,需要对这些块文本进一步结构化,以细化和完整第一结构化文本。

在得到第一结构化文本之后,继续对第一结构化文本中的指定块文本进行抽取,可以采用如下所示的方法确定指定块文本,

s211、获取第一参考样本,所述第一参考样本具有与所述第一结构化文本相同的文本结构;

s212、获取所述特征模型对应的待抽取特征;

s213、确定所述待抽取特征在每一所述第一参考样本中对应的特征块文本;

s214、汇总对应同一所述待抽取特征的特征块文本的数量;

s215、确定指定块文本,所述指定块文本为所述数量与所述第一参考样本的总数量的比值大于或者等于预设阈值的所述数量对应的所述特征块文本。

在本实施例中,特征块文本是指待抽取特征在第一参考样本中对应的块文本,通常可以通过学习大量第一参考样本,来确定特征模型所对应的指定块文本。特征模型为用于从块文本中抽取特定特征的模型,对于特征模型所要抽取的同一特征通常会出现在比较固定的块文本内,例如,特征模型所对应的待抽取特征为“证据”,通常这一待抽取特征都会出现在原告诉称、被告辩称等对应的块文本中,而不会出现在头部、尾部等对用的块文本中。为了提高对指定块文本确定的准确度,可以通过大量第一参考样本,其中,这些第一参考样本具有与第一结构化文本相同的文本结构,即第一结构化文本为由被抽取节点、以及与被抽取节点对应的块文本组成的文本,那么第一参考样本需要为具有这种文本结构的文本。此时,通过在每一个第一参考样本中确定待抽取特征出现的位置,就可以知道待抽取特征在每一块文本中出现的比例,即同一待抽取特征对应的特征块文本的数量与第一参考样本的总数量的比值。为了避免文档异常等原因导致待抽取特征偶然出现在部分块文本中,可以利用预设阈值来筛选指定块文本,即将比值大于或者等于预设阈值的特征块文本作为指定块文本。例如,第一参考样本的总数量为100,待抽取特征为“证据”,特征块文本为“被告辩称”对应的块文本,且数量为80,可见,两者的比值为0.8,假设预设阈值为0.75,那么“被告辩称”对应的块文本即为指定块文本。

在确定了指定块文本之后,需要对指定块文本进行抽取,具体地,如图3所示,为本申请实施例提供的一种生成第一子结构化文本的方法的流程图,所述方法包括:

s221、确定所述第二抽取模板中每一抽取节点对应的特征抽取模型;

s222、利用所述特征抽取模型从所述指定块文本中确定目标字符串和目标终止符,所述目标字符串为与所述特征抽取模型中的抽取表达式相匹配的字符串,所述目标终止符是指预设的代表子块文本结束的符号;

s223、确定子块文本,所述子块文本为同一所述抽取节点对应的从所述目标字符串起至所述目标终止符之间的字符;

s224、将所述第二抽取模板中的每一抽取节点与所述子块文本相对应,生成第一子结构化文本。

通常第二抽取模板由多个抽取节点组成,这些抽取节点分别对应所要从指定块文本中抽取的内容。例如,第二抽取模板由抽取节点“原告举证”、“被告质证”、“被告举证”、“原告质证”、“法院认证”等组成。则需要从指定块文本中抽取与这些抽取节点对应的文本。通常,抽取节点会存在对应的特征抽取模型,这些特征抽取模型可以通过匹配特征词的方式从指定块文本中抽取与其相匹配的字符串。例如,指定块文本为“原告××称…。为支持其诉讼请求,原告向本院提供了如下证据:1、…;2、…;3、…。”抽取节点“原告举证”的特征抽取模型为@\n[`\n。;]{0,10}原告[`\n,。;]{0,10}向(本院丨法院丨法庭丨)(提供丨提交丨出示)@,则可以确定目标字符串为“原告向本院提供了如下证据”。预设终止符可以为指定的标点符号、指定的字、指定的分词、指定的短语、指定的句子、指定的文本格式等,通常,根据文本的撰写习惯,以句号将相同内容划分到一起的情况居多,因此,可以将句号设定为终止符号。那么上例中的子块文本即为“原告向本院提供了如下证据:1、…;2、…;3、…。”

如果第二抽取模板中存在多个抽取节点,则需要将每一抽取节点与子块文本相对应,得到具有对应关系的第一子结构化文本,例如“原告举证-原告向本院提供了如下证据:1、…;2、…;3、…。”。

s3、将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。

由上文可知,当前所得到的第一子结构化文本中的特征表达格式仍然是由多条细小的信息,即多条证据杂糅在一起,不利于浏览,因此,需要将第一子结构化文本进行特征表达格式的转化。

在一种实现方式中,如图4所示,为本申请实施例提供的一种文本特征表达格式的转化方法的流程图,所述方法包括:

s311、从所述第一子结构化文本的子块文本中确定第一类子块文本,所述第一类子块文本为所在指定块文本对应的抽取节点与第一类别关键词相匹配的子块文本;

s312、从所述第一类子块文本中确定目标类别关键词,所述目标类别关键词为与预设类别关键词的匹配度大于或者等于预设匹配阈值的分词;

s313、确定分类文本,所述分类文本为所述子块文本中具有同一所述目标类别关键词的文本;

s314、从每一所述分类文本中确定第一序号标识符;

s315、以所述第一序号标识符为分隔节点划分所述分类文本,得到第一子文本;

s316、在相邻两个所述第一子文本之间添加换行符,以使一个所述第一子文本对应一个段落;

s317、结合所述目标类别关键词、所述序号标识符和对应的第一子文本生成第二子结构化文本。

第一子结构化文本通常包含多种类型的子块文本,对于不同类型的子块文本所转换的结果也将不同。通常,可以对不同类型的子块文本建立对应的关键词库,例如对于第一类子块文本,其为单纯的证据展示,因此,通常可以以举证信息、证据信息、证据展示等作为第一类别关键词。这样,如上例所示,第一子结构化文本为“原告举证-原告向本院提供了如下证据:1、…;2、…;3、…。”,其对应的抽取节点为“原告举证”,通过与第一类别关键词匹配,可以确定该子块文本为第一类子块文本。此时,就需要将该子块文本转化为对应的特征表达格式。

接上例,第一类子块文本为“原告向本院提供了如下证据:1、…;2、…;3、…。”,通常,裁判文书中的动作发出者非常重要的,此时,可以将动作发出者定义为目标,不同的目标即为不同的类别,例如原告、被告、法院等。不同类别的子块文本,也将对应不同的目标,因此,可以为其设置对应的类别关键词,由于本示例针对原告举证,因此,设定类别关键词为原告等一类的词语。此时,通过词语匹配可以从“原告向本院提供了如下证据:1、…;2、…;3、…。”确定目标类别关键词为“原告”,则这些证据的发出者为原告。

进一步地,如果第一类子块文本中存在包含多个目标类别关键词的文本,则需要以这些目标类别关键词为分割点,将第一类子块文本划分为多个分类文本,例如“原告向本院提供了…”“被告向法院提供了…”等。

继续将每个分类文本细化和拆分,可以从分类文本中确定第一序号标识符,例如“原告向本院提供了如下证据:1、…;2、…;3、…。”中的1、2、3。以这些第一序号标识符为分隔点将“原告向本院提供了如下证据:1、…;2、…;3、…。”划分为第一子文本“1、…”、“2、…”和“3、…”,此时,在相邻两个第一子文本之间添加换行符,其中,添加换行符之后,可以令每一个第一子文本独立占用一个段落,其中,每一个第一子文本可以为一行或者多行字符串,具体地,得到如下所示的表达格式,

1、…;

2、…;

3、…。

同时,为了特征表示更加清晰,需要结合目标类别关键词一同展示,即为

原告向本院提供了如下证据:

1、…;

2、…;

3、…。

可见,证据在块文本中也可以列表的形式展示,令用户在浏览的过程中一目了然。

在一种实现方式中,如图5所示,为本申请实施例提供的一种文本特征表达格式的转化方法的流程图,所述方法包括:

s321、从所述第一结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;

s322、以预设分隔符为节点划分所述第二类子块文本,得到第二子文本;

s323、利用第一特征抽取模型从所述第二子文本中抽取第三子文本;

s324、从每一所述第三子文本中获取第二序号标识符;

s325、确定所述第三子文本对应的目标第一子文本,所述目标第一子文本为与所述第二序号标识符相同的所述第一序号标识符对应的第一子文本;

s326、从每一所述第二子文本中提取第一标签关键词,所述第一标签关键词为与预设标签关键词相匹配的分词;

s327、结合所述第三子文本、所述目标第一子文本和所述第一标签关键词生成第二子结构化文本。

与上一实现方式中设定第一类别关键词的原理相同,本实现方式中,将一些具有意见表述含义的子块文本设定为第二类子块文本。第二类别关键词可以为意见、态度等。通过匹配可以确定第一子结构化文本中的第二类子块文本。

示例,第二类子块文本“原告对被告提供的证据1-3无异议;原告对被告提供的证据4有异议,认为四万元债务是被告的单人债务关系。”可以将第二类子块文本利用预设分隔符进行划分,例如预设分隔符为“;”,则可以得到第二子文本“原告对被告提供的证据1-3无异议”和“原告对被告提供的证据4有异议,认为四万元债务是被告的单人债务关系。”

此时,可以利用第一特征抽取模型从每个第二子文本中抽取对应的第三子文本。具体地,第一特征抽取模型为通过特征抽取表达式匹配的方式从第二子文本中抽取第三子文本,例如,第一特征抽取模型为“目标 对证据 序号”,则可以从上述第二子文本中提取出第三子文本“原告对证据1-3”和“原告对证据4”。

从第三子文本中可以确定第二序号标识符,例如“1-3”“4”。此时,可以与上一实现方式中确定的第一序号标识符相关联,这些序号标识符均用于代表证据,即第一子文本,可以认为相同的数字或者字符对应相同的第一子文本。此时,可以通过对照第一序号标识符和第二序号标识符来确定第二序号标识符对应的目标第一子文本。此时,在第三子文本中的证据将可以用具体的文本进行展示。

对于第二类子块文本来说,最重要的是要展示对这些证据的意见和态度。可以将这些意见和态度作为一种标签关键词,在本实现方式中即为第一标签关键词。可通过预设的标签关键词进行匹配,从第二子文本中确定。例如,预设标签关键词为“有异议”和“无异议”,则与第二子文本“原告对被告提供的证据1-3无异议”和“原告对被告提供的证据4有异议,认为四万元债务是被告的单人债务关系。”相匹配,可以从中确定每个第二子文本对应的第一标签关键词。同时,这些第一标签关键词与第三子文本具有对应关系。

此时,通过将第三子文本、目标第一子文本和第一标签关键词相结合,可以得到清晰展示的第二子结构化文本。

例如,原告对证据1…,证据2…,证据3…无异议;

原告对证据4…有异议。

在一种实现方式中,如图6所示,为本申请实施例提供的一种文本特征表达格式的转化方法的流程图,所述方法包括:

s331、从所述第一结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;

s332、以预设分隔符为节点划分所述第二类子块文本,得到第四子文本;

s333、利用第二特征抽取模型从每一所述第四子文本中抽取第五子文本;

s334、结合全部所述第五子文本生成第二子结构化文本。

本实现方式仍然提供一种对第二类子块文本的结构化方法,与上一实现方式相比,第二特征抽取模型为“目标 对 证据 标签关键词”的形式,同时,第二类子块文本具有符合第二特征抽取模型的文本格式,可以直接提取如“原告对证据4…有异议”的第五子文本,因此,可以将第五子文本直接作为第二结构化文本。

在一种实现方式中,如图7所示,为本申请实施例提供的一种文本特征表达格式的转化方法的流程图,所述方法包括:

s341、从所述第一结构化文本的子块文本中确定第三类子块文本,所述第三类子块文本为所在指定块文本对应的抽取节点与第三类别关键词相匹配的子块文本;

s342、利用预设分隔符划分所述第三类子块文本,得到第六子文本;

s343、利用第三特征抽取模型从所述第六子文本中抽取第七子文本;

s344、从每一所述第七子文本中获取第三序号标识符;

s345、确定所述第七子文本对应的目标第一子文本,所述目标第一子文本为与所述第二序号标识符相同的所述第一序号标识符对应的第一子文本;

s346、利用特征匹配公式从每一所述第六子文本中提取结果文本;

s347、结合所述第七子文本、所述目标第一子文本和所述结果文本生成第二子结构化文本。

与上述实现方式中设定第一类别关键词和第二类别关键词的原理相同,本实现方式中,将对一些展示性文本中具有认证和决断表述的子块文本设定为第三类子块文本。第三类别关键词可以为认证、判定等。通过匹配可以确定第一子结构化文本中的第三类子块文本。

与上述实现方式中关于第二类子块文本的结构化相比,本实现方式在确定第七子文本和对应的目标第一子文本之后,需要继续从第六子文本中提取结果文本。例如,第六子文本为“本院对证据1认定可以作为事实依据”,特征匹配公式可以通过匹配的方式从第六子文本中匹配相应的字符,例如@(认定丨判定)\n[`\n。;](符合丨契合丨作为)事实依据@等。可以从第六子文本中抽取到结果文本“认定作为事实依据”。这样,可以将第七子文本、目标第一子文本和结果文本相结合,得到第二子结构化文本。

例如,本院对证据1…认定作为事实依据。

需要注意的是,上述实现方式中所提供的特征抽取模型都可以根据实际需求进行调整,以抽取不同的对象。

s4、利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

由上文可知,本申请所提供的裁判文书结构化方法中,第一子结构化文本仅对指定块文本中的部分子块文本进行处理,这种处理并未覆盖指定块文本的全部文本,因此,在得到第二子结构化文本之后,只需要利用所述第二子结构化文本替换所述第一结构化文本中对应的内容,得到第二结构化文本。

例如,第二子结构化文本为:

原告向本院提供了如下证据:

1、…;

2、…;

3、…。

第一结构化文本对应的内容为“原告诉称-原告××称…。为支持其诉讼请求,原告向本院提供了如下证据:1、…;2、…;3、…。”其中,“原告向本院提供了如下证据:1、…;2、…;3、…。”为与第二子结构化文本对应的内容,需要利用第二子结构化文本替换,即为

原告诉称-原告××称…。为支持其诉讼请求,

原告向本院提供了如下证据:

1、…;

2、…;

3、…。

可见,结构化后的裁判文书可以更加细致的向用户展示文本信息,以使用户可以快速定位需要的内容。

图8为本申请实施例提供的一种裁判文书结构化装置的结构示意图,所述装置包括:第一抽取单元1,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;第二抽取单元2,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;转换单元3,用于将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;更新单元4,用于利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

可选地,所述第一抽取单元包括:节点字符确定单元,用于按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;块文本确定单元,用于确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;第一结构化文本生成单元,用于将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。最后,利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取,同时将所提取的文本转化为更加符合展示结构的文本格式,以便于用户通过浏览快速定位所需的内容。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。


技术特征:

1.一种裁判文书结构化方法,其特征在于,所述方法包括:

利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;

将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;

利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:

按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;

确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;

将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

3.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本包括:

确定所述第二抽取模板中每一抽取节点对应的特征抽取模型;

利用所述特征抽取模型从所述指定块文本中确定目标字符串和目标终止符,所述目标字符串为与所述特征抽取模型中的抽取表达式相匹配的字符串,所述目标终止符是指预设的代表子块文本结束的符号;

确定子块文本,所述子块文本为同一所述抽取节点对应的从所述目标字符串起至所述目标终止符之间的字符;

将所述第二抽取模板中的每一抽取节点与所述子块文本相对应,生成第一子结构化文本。

4.根据权利要求3所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:

从所述第一子结构化文本的子块文本中确定第一类子块文本,所述第一类子块文本为所在指定块文本对应的抽取节点与第一类别关键词相匹配的子块文本;

从所述第一类子块文本中确定目标类别关键词,所述目标类别关键词为与预设类别关键词的匹配度大于或者等于预设匹配阈值的分词;

确定分类文本,所述分类文本为所述子块文本中具有同一所述目标类别关键词的文本;

从每一所述分类文本中确定第一序号标识符;

以所述第一序号标识符为分隔节点划分所述分类文本,得到第一子文本;

在相邻两个所述第一子文本之间添加换行符,以使一个所述第一子文本对应一个段落;

结合所述目标类别关键词、所述序号标识符和对应的第一子文本生成第二子结构化文本。

5.根据权利要求4所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:

从所述第一子结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;

以预设分隔符为节点划分所述第二类子块文本,得到第二子文本;

利用第一特征抽取模型从所述第二子文本中抽取第三子文本;

从每一所述第三子文本中获取第二序号标识符;

确定所述第三子文本对应的目标第一子文本,所述目标第一子文本为与所述第二序号标识符相同的所述第一序号标识符对应的第一子文本;

从每一所述第二子文本中提取第一标签关键词,所述第一标签关键词为与预设标签关键词相匹配的分词;

结合所述第三子文本、所述目标第一子文本和所述第一标签关键词生成第二子结构化文本。

6.根据权利要求3所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:

从所述第一子结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;

以预设分隔符为节点划分所述第二类子块文本,得到第四子文本;

利用第二特征抽取模型从每一所述第四子文本中抽取第五子文本;

结合全部所述第五子文本生成第二子结构化文本。

7.根据权利要求5所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:

从所述第一子结构化文本的子块文本中确定第三类子块文本,所述第三类子块文本为所在指定块文本对应的抽取节点与第三类别关键词相匹配的子块文本;

利用预设分隔符划分所述第三类子块文本,得到第六子文本;

利用第三特征抽取模型从所述第六子文本中抽取第七子文本;

从每一所述第七子文本中获取第三序号标识符;

确定所述第七子文本对应的目标第一子文本,所述目标第一子文本为与所述第二序号标识符相同的所述第一序号标识符对应的第一子文本;

利用特征匹配公式从每一所述第六子文本中提取结果文本;

结合所述第七子文本、所述目标第一子文本和所述结果文本生成第二子结构化文本。

8.根据权利要求1所述的方法,其特征在于,所述利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本包括:

利用所述第二子结构化文本替换所述第一结构化文本中对应的内容,得到第二结构化文本。

9.一种裁判文书结构化装置,其特征在于,所述装置包括:

第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;

第二抽取单元,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;

转换单元,用于将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;

更新单元,用于利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。

10.根据权利要求9所述的装置,其特征在于,所述第一抽取单元包括:

节点字符确定单元,用于按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;

块文本确定单元,用于确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;

第一结构化文本生成单元,用于将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。

技术总结
本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。最后,利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取,同时将所提取的文本转化为更加符合展示结构的文本格式,以便于用户通过浏览快速定位所需的内容。

技术研发人员:席丽娜;王文军;晋耀红
受保护的技术使用者:中科鼎富(北京)科技发展有限公司
技术研发日:2020.01.15
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-19854.html

最新回复(0)