基于人工智能的文本处理方法、装置、设备、介质与流程

专利2022-06-29 55

本申请涉及文本处理领域，更具体地涉及一种基于人工智能的文本处理方法、装置、设备、介质。

背景技术：

在一些应用场景中，可能无法直接得到数字化的文本内容，而需要从影像化的信息中提取文本信息的场景。例如，可以从医学检查报告这样的影像化信息中提取其中的有效信息，如检查结果。又例如，可以从宣传海报中提取其中的宣传对象和宣传内容等。由于从影像化的信息中识别的字符形成的文本可能包括无用的信息，因此，需要一种高效并准确地从根据影像化信息识别的字符中抽取有效信息的方法。

技术实现要素：

根据本申请的一方面，提出了一种基于人工智能的文本处理方法，包括：对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：针对所述至少两行文本中每行文本，基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及基于该行文本的标注序列确定该行文本所属的文本类别。

在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。

在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别还包括：对所述至少两行文本中相邻两行文本进行文本分类，以得到指示所述相邻两行文本是否属于同一文本段的检测结果；基于检测结果确定所述至少两行文本中的待调整文本行；以及基于所述待调整文本行的相邻文本行所属的文本类别，调整所述待调整文本行所属的文本类别。

在一些实施例中，基于检测结果确定所述至少两行文本中的待调整文本行包括：当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段，并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时，将所述被检测的文本行确定为待调整文本行。

在一些实施例中，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括：根据所述文本类别对所述待处理文本中的至少两行文本进行组合，以确定对应于所述文本类别的文本段；输出对应于所述文本类别的文本段。

在一些实施例中，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括：对对应于所述文本类别的文本进行分句；在分句后的文本中查找包含预设关键词的文本句；基于所述预设关键词输出对应于所述文本类别的所述文本句。

在一些实施例中，所述待处理图像是医学检查报告，所述待处理文本包括针对医学图像的医学描述文本和医学结论文本，所述文本类别包括描述类别和结论类别，基于所述预设关键词输出对应于所述文本类别的所述文本句包括：针对预设的多个关键词中的每个关键词，分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。

在一些实施例中，对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括：对待处理图像进行光学字符识别，以确定所述待处理图像中的至少两个文本框；基于所述文本框的坐标和高度确定位于同一行的至少一个文本框；组合位于同一行的至少一个文本框中的字符，作为待处理文本中的一行文本。

在一些实施例中，所述文本类别包括描述类别和结论类别。

根据本申请的另一方面，还提供了一种基于人工智能的文本处理装置，包括：待处理文本确定单元，配置成对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；文本类别确定单元，配置成针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；文本获取单元，配置成根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

在一些实施例中，所述文本类别确定单元配置成：针对所述至少两行文本中每行文本，基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及基于该行文本的标注序列确定该行文本所属的文本类别。

在一些实施例中，所述文本类别确定单元配置成：针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。

在一些实施例中，所述文本类别确定单元还配置成：对所述至少两行文本中相邻两行文本进行文本分类，以得到指示所述相邻两行文本是否属于同一文本段的检测结果；基于检测结果确定所述至少两行文本中的待调整文本行；以及基于所述待调整文本行的相邻文本行所属的文本类别，调整所述待调整文本行所属的文本类别。

在一些实施例中，，基于检测结果确定所述至少两行文本中的待调整文本行包括：当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段，并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时，将所述被检测的文本行确定为待调整文本行。

在一些实施例中，所述文本获取单元配置成：根据所述文本类别对所述待处理文本中的至少两行文本进行组合，以确定对应于所述文本类别的文本段；输出对应于所述文本类别的文本段。

在一些实施例中，所述文本获取单元还配置成：对对应于所述文本类别的文本进行分句；在分句后的文本中查找包含预设关键词的文本句；基于所述预设关键词输出对应于所述文本类别的所述文本句。

在一些实施例中，所述文本获取单元配置成：所述待处理图像是医学检查报告，所述待处理文本包括针对医学图像的医学描述文本和医学结论文本，所述文本类别包括描述类别和结论类别，基于所述预设关键词输出对应于所述文本类别的所述文本句包括：针对预设的多个关键词中的每个关键词，分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。

在一些实施例中，所述待处理文本确定单元配置成：对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括：对待处理图像进行光学字符识别，以确定所述待处理图像中的至少两个文本框；基于所述文本框的坐标和高度确定位于同一行的至少一个文本框；组合位于同一行的至少一个文本框中的字符，作为待处理文本中的一行文本。

在一些实施例中，所述文本类别包括描述类别和结论类别。

根据本申请的又一方面，还提供了一种文本处理设备，包括：一个或多个处理器；和一个或多个存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述一个或多个处理器运行时，执行如前所述的文本处理方法。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如前所述的文本处理方法。

利用本申请提供的基于人工智能的文本处理方法、装置、设备、介质，，可以应用基于人工智能的自然语言处理技术，基于待处理文本的上下文之间的语义信息筛选出属于不同类别的文本行，因此降低了文本提取过程对待处理的影像化信息的格式的依赖，并提高了针对不同格式的影像化信息提取文本的准确率。此外，通过检测相邻两行文本是否属于同一段落的方法，能够进一步提高本申请的文本处理方法的准确率。进一步地，本申请提供的文本处理方法能够将待处理图像中的文本信息分类为不同的文本类别，并可以进一步基于关键词提取不同类别的文本中针对不同对象的文本句。利用上述方法能够节省将从影像化信息中提取结构化的信息的过程中的人力成本，并能以更高的效率和准确性获取结构化的文本信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的文本处理系统的示例性的场景图；

图2示出了根据本申请的实施例的基于人工智能的文本处理方法的示意性的流程图；

图3示出了根据本申请的实施例的对待处理图像进行文字识别的示意图；

图4示出了根据本申请的实施例的对待处理图像进行字符识别并进行拼行处理后得到的待处理文本的示意图；

图5示出了根据本申请的实施例的用于标注的深度网络模型的示例；

图6示出了根据本申请的实施例的确定待处理文本中的文本行所属的文本类别的示意图；

图7示出了根据本申请的的实施例的文本处理结果的示例；

图8示出了根据本申请的实施例的文本处理方法的示例性的过程；

图9示出了根据本申请的实施例的基于人工智能的文本处理装置的示意性的框图；

图10示出了根据本申请的实施例的文本处理装置的一个示例性的实现方式；

图11示出了根据本申请的实施例的一种应用场景的示意性的过程；

图12示出了根据本申请的实施例的另一种应用场景的示意性的过程；以及

图13示出了根据本申请的实施例的计算设备的架构。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

可以通过字符识别(例如光学字符识别ocr)从影像化的信息中提取属于预定的文本类别的文本信息。下文中将以医疗领域的影像化信息，如医学检查报告(例如超声检查报告、x光检查报告)为例描述本申请的原理。医疗领域，预定的文本类别可以包括描述类别和结论类别。

可以理解的是，影像化的信息不限于此。事实上，影像化的信息可以是利用图像获取装置(例如照相机、摄像机、扫描仪)获取的任何影像化信息。在不脱离本申请原理的情况下，本申请提供的方法和装置也可以用于提取任何影像化信息中的文本信息。

在医学检查报告中可以包括用户的基本信息、检查过程中产生的字符、图片、针对检查的描述性文本和结论性文本。在一些应用场景(例如健康评估、保险核保、保险理赔)中，需要有针对性地提取报告中针对检查的描述性文本和结论性文本用于后续的进一步处理。在进一步的应用场景中，在医学检查报告中包括针对不同对象(例如不同的检查项目、不同器官)的描述信息和结论信息的情况下，还需要进一步从报告中提取针对不同对象的描述性文本和结论性文本。

例如，可以采用人工的方式识别影像化的信息中的文本。例如，可以人工识别医学检查报告中的描述性文本和结论性文本，从而获取识别的描述性文本和结论性文本。尽管利用人工的方式能够准确地识别影像化的信息中的不同类型的文本，然而，人工处理的方式需要耗费大量的人力资源和时间成本。

又例如，可以根据页面上的固定提示词构建规则，以获取医学检查报告中的描述性文本和结论性文本。例如，在超声检查报告中常见的固定提示词包括“超声所见”、“超声描述”等。基于在医学检查报告中所识别的字符的上下位置顺序，可以基于预设的医学检查报告的排版顺序从识别的字符中提取描述性文本和结论性文本。例如，在超声检查报告中，可以假设大多数超声报告是根据“超声图像”、“超声描述”、“超声结论”的顺序进行排版。基于这样的假设，可以识别超声报告中的提示词“超声所见”和“超声结论”，并将提示词“超声所见”和“超声结论”之间的字符确定为超声检查报告中的描述性文本，将提示词“超声结论”之后的字符确定为超声检查报告中的结论性文本。

然而，由于事实上不同机构出具的超声检查报告很有可能具有不同的排版格式，因此，上述方法无法应对多样化的影像化信息的格式。例如，当存在多个提示词或超声检查报告中的超声图像位于描述性文本和结论性文本之间时，如果仍然基于前述假设提取超声检查报告中的信息，那么所提取的描述性文字中将包含超声图像中识别到的与超声描述无关的字符。因此，上述方法不具备良好的通用性。为了提高上述方法的准确率，可能需要耗费大量的人力来制定复杂的用于提取文本信息的规则。

为了提高从影像化的信息中提取预定类别的文本，本申请提出了一种基于人工智能的文本处理方法。以下将结合附图描述本申请的内容。

图1示出了根据本申请的文本处理系统的示例性的场景图。如图1所示，该文本处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。

根据本申请提供的用户终端可以用于接收包含待处理文本的待处理图像，并利用本申请提供的方法识别待处理图像中的字符以实现文本处理。例如，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集待处理的图像。又例如，用户终端也可以从独立设置的图像采集设备(例如照相机、摄像机、扫描仪等)获取待处理的图像。再例如，用户终端也可以经由网络从服务器接收待处理的图像。这里所说的待处理的图像可以是单独的图像，也可以是视频中的一帧。

在一些实施例中，可以利用用户终端的处理单元执行本申请提供的文本处理方法。在一些实现方式中，用户终端可以利用用户终端内置的应用程序执行文本处理方法。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的应用程序执行本申请提供的文本处理方法。

在另一些实施例中，用户终端将接收的待处理的文本经由网络120发送至服务器130，并由服务器130执行文本处理方法。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行文本处理方法。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行文本处理方法。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(randomaccessmemory(ram))、只读存储器(readonlymemory(rom))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库150可以是独立的设备。在另一些实施例中，数据库150也可以集成在用户终端110和服务器140中的至少一个中。例如，数据库150可以设置在用户终端110上，也可以设置在服务器140上。又例如，数据库150也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器140上。

下文中将详细阐述本申请提供的文本处理方法的流程。

图2示出了根据本申请的实施例的基于人工智能的文本处理方法的示意性的流程图。

在步骤s202中，可以对待处理图像进行字符识别以确定包括至少两行文本的待处理文本。

待处理图像可以是利用图像获取装置获取的图像或视频中的一个图像帧。其中，待处理图像中包括由至少两行文本组成的待处理文本。每行文本中包括至少一个字符。

在待处理图像是医学检查报告的情况下，待处理文本可以包括医学描述文本和医学结论文本。例如，待处理文本可以包括针对医学图像(如超声图像、x光图像等)的医学描述文本和医学结论文本。又例如，待处理文本也可以包括针对化验结果的检查信息，该检查信息也可以包括医学描述文本和医学结论文本。

待处理图像也可以是其他类型的影像化信息。例如，在待处理图像是宣传海报的情况下，待处理文本可以包括指示宣传对象的文本和指示宣传内容的文本。又例如，在待处理图像是答题卡的情况下，待处理文本可以包括题目文本和答案文本。

在一些实施例中，待处理图像也可以是影像化的信息的一部分。例如，可以利用图像分块技术(如deeplab系列模型)将医学检查报告中的文本段识别为图像块，并对识别到的图像块中的文本信息进行识别。可以利用下文中描述的方法对图像块中的文本信息进行分类并获取图像块中对应于文本类别的文本，在此不再加以赘述。

本申请在此不限制待处理图像的具体内容，在不脱离本申请原理的情况下，可以提取任何影像化的待处理图像中的文本作为待处理文本。

在一些实施例中，可以通过对待处理图像进行光学字符识别(ocr)来确定待处理文本。可以利用独立的ocr引擎对待处理图像进行处理以实现光学字符识别。

在一些实现方式中，光学字符识别的结果可以包括待处理图像中的待处理文本，其中待处理文本包括至少两行文本。

在另一些实现方式中，光学字符识别的结果可以包括待处理图像中的至少两个文本框中的文字以及指示文本框的位置和尺寸的文本框标识。每个文本框的文本框标识可以表示为(x，y，width，height)。其中(x，y)可以是文本框的参考点的坐标，例如，可以是文本框的任一参考点(包括但不限于左上角点、右上角点、左下角点、右下角点或中心点)的坐标。width可以是文本框的长度，height可以是文本框的高度。

可以基于上述文本框的文本框标识对从待处理图像中识别出的至少两个文本框进行拼行。通过组合位于同一行的至少一个文本框中的字符，可以得到待处理文本中的一行文本。

图3示出了根据本申请的实施例的对待处理图像进行文字识别的示意图。

图3示出了超声诊断报告单300的一部分。如图3所示，在超声诊断报告单300中，利用光学字符识别可以识别出文本框310～370。也就是说，由于文本框320中的文字“姓名：”、文本框330中的文字“性别：”以及文本框340中的文字“年龄：”间隔距离较远，因此被识别为不同的文本框320、330和340。由于光学字符识别的结果可以包括各文本框的位置和高度，因此，可以基于各文本框的位置将位于同一行而被识别为不同的文本框的字符重新弄拼接为一行。例如，可以基于各文本框的位置和高度将位于同一行而被识别为不同的文本框的字符拼接为一行。

图3中示出的根据本申请的实施例的文本框坐标x、y的示意性的方向。可以基于文本框310～370的参考点坐标的y值进行排序，然后，可以基于排序后相邻的两个文本框的y坐标判断两个文本框是否位于同一行。

下文中以文本框320的文本框标识为(x1，y1，width1，height1)、文本框330的文本框标识为(x2，y2，width2，height2)为例描述判断两个文本框是否位于同一行的过程。其中x1、y1是文本框320的参考点的坐标，width1和height1分别是文本框320的宽度和高度，x2、y2是文本框330的参考点的坐标，width2和height2分别是文本框330的宽度和高度。

在一些实现方式中，如果文本框320的y坐标y1和文本框330的y坐标y2相同，或文本框320的y坐标y1和文本框330的y坐标y2之间的差距小于预定的阈值，则可以认为文本框320和文本框330位于同一行。

在另一些实现方式中，可以基于两个文本框的y坐标以及高度来判断两个文本框是否位于同一行。在一些示例中，可以基于y1、y2、height1、height2判断下式是否成立：

y1＜y2 height2/2<y1 height1且y2＜y1 height1/2<y2 height2(1)

其中x1、y1是文本框320的参考点的坐标，width1和height1分别是文本框320的宽度和高度，x2、y2是文本框330的参考点的坐标，width2和height2分别是文本框330的宽度和高度。当公式1成立时，可以认为文本框320和文本框330中的文字位于同一行。

利用结合图3描述的方法，可以将待处理图像中识别的至少两个文本框进行拼行，从而得到包括至少两行文本的待处理图像。例如，在图3中示出的示例中，文本框310被确定为一行，文本框320～340被确定为一行，文本框350～370被确定为一行。

图4示出了根据本申请的实施例的对待处理图像进行字符识别并进行拼行处理后得到的待处理文本的示意图。

如图4所示，图4左侧图示出的是影像化的超声检查报告的图像。在该图像中包括报告单抬头、与报告单相关联的基本信息、超声图像、超声检查描述以及超声检查结论等文本。通过利用结合图2和图3描述的方法对图4中左侧图的超声检查报告的图像进行字符识别和文本拼接，能够获得图4右侧示出的至少两行文本。在图4右侧图示出的至少两行文本中包括图4左侧图中检测到的所有字符。

返回参考图2，在步骤s204中，可以针对待处理文本中至少两行文本中的每行文本，可以确定该行文本所属的文本类别。在一些实施例中，文本类别可以包括“描述”类别和“结论”类别。例如，针对上文中提到的医学检查报告，其中的医学描述文本可以是属于描述类别的文本，医学结论文本可以是属于结论类别的文本。此外，文本类别还可以包括“其他”类别，在医学检查报告中不属于描述类别和结论类别的其它文本可以被确定为属于其他类别。

在一些实施例中，可以利用深度模型对待处理文本进行处理，以得到至少两行文本中每行文本所属的文本类别。

在一些实现方式中，可以利用用于标注的深度网络模型通过对至少两行文本进行标注，以得到至少两行文本中每行文本所属的文本类别。区别于传统的词级别的标注任务，本申请提供的方法将标注任务应用到行级别，从而得到针对一行文本的标注序列。

针对至少两行文本中的每行文本，可以基于至少两行文本的上下文对该行文本中得每个字符进行标注，以得到该行文本的标注序列。上述至少两行文本的上下文指的是上述两行文本在待处理文本中的上下文。

在一些示例中，可以基于albert模型、bilstm模型和crf模型实现上述深度网络模型对待处理文本进行处理，以得到该行文本的标注序列。

图5示出了根据本申请的实施例的用于标注的深度网络模型的示例。如图5所示，深度神经网络500可以包括词嵌入层510、标注层520以及输出层530。其中词嵌入层510可以实现为albert模型，标注层520可以实现为bilstm模型，以及输出层可以实现为crf模型。

可以理解的是，在不脱离本申请原理的情况下，本领域技术人员可以使用albert模型、bilstm模型和crf模型的变型形式实现的图5中示出的词嵌入层510、标注层520以及输出层530。例如，也可以使用bert模型实现图5中的词嵌入层510。或者，也可以使用lstm模型实现标注层520。事实上，可以使用与albert模型、bilstm模型和crf模型具有相同或相似功能的任何其他模型实现图5中示出的深度网络模型。

词嵌入层510可以用于接收待处理文本，并输出包含文本语义信息的语义表示。

如图5所示，可以将待处理文本中的每行文本中的字符划分为单个字符token，并将划分后的待处理文本输入词嵌入层510。其中在每行文本的结尾可以加入行分割标识符sep，作为两行之间的分隔符。在一些示例中，还可以在第一行文本前加入开始标识符cls。

经过词嵌入层510的处理，可以得到每个输入的字符的嵌入(embedding)。针对每个字符的嵌入可以实现为向量的形式。例如，每个字符的嵌入可以表示为一个200维的向量。针对一行包括5个字符t1～t5的文本，词嵌入层510可以输出5个200维的向量。这10个200维的向量分别对应于该行文本中的5个字符中的每一个。由于字符t5之后插入了分割标识符sep，因此字符t6事实上是下一行文本的第一个字符。

可以理解的是，针对前述分割标识符sep和开始标识符cls，词嵌入层510也可以输出对应于分割标识符sep和开始标识符cls的嵌入。

可以将词嵌入层输出的结果作为标注层520的输入。标注层520可以由bilstm模型实现。利用bilstm模型，针对输入的字符序列中的每个字符，可以根据该字符在前的字符的处理结果和在后的字符的处理结果输出该字符属于每个预设的文本类别的分数。因此，针对一行包括5个字符t1～t5的文本，可以输出用于表示每个字符属于每个预设的文本类别的分数的向量。

在一些实现方式中，可以采用bio标注的方式对字符进行标注。在bio标注中，将每个元素标注为“b-x”、“i-x”或者“o”。其中，“b-x”表示此元素所在的片段属于x类型并且此元素在此片段的开头，“i-x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置，“o”表示不属于任何类型。

基于上述bio标注方法，标注层520可以输出每个字符属于b-描述类别、i-描述类别、b-结论类别、i-结论类别以及o的分数。其中字符属于o类别可以用于表示该字符属于“其他”类别。也就是说，不属于描述性文本和结论性文本的文本中包含的字符都可以被标注为o。

标注层520可以为每个字符输出一个5维向量，这个向量中的5个元素分别表示该字符属于b-描述类别(b-des)、i-描述类别(i-des)、b-结论类别(b-con)、i-结论类别(i-con)以及o的分数。

在一些示例中，可以对标注层520输出的向量中包含的各元素的值进行归一化，以得到该向量对应的字符属于b-描述类别、i-描述类别、b-结论类别、i-结论类别以及o的概率。

可以将标注层520输出的结果作为输出层530的输入。由于标注层520输出的结果可能会出现不符合实际情况的序列(例如，一行文本的开头字符所属的类别应当符合b-x的形式，而一行文本中间的字符所属的类别应当符合i-x的形式)，因此，可以利用例如crf模型实现的输出层530加入约束条件，从而保证深度网络模型最后输出的结果是有效的。可以在深度网络模型的训练过程中调整输出层的参数使得输出层自动学习得到前述的约束条件，从而大大降低不符合实际情况的序列出现的概率。

如图5所示，输出层530可以针对被处理的文本中的每个字符输出该字符所属的文本类别。如前所述，本申请提供的技术方案中采取的是行级别的标注方式。因此，针对每行文本，可以基于该行文本中每个字符所属的文本类别确定该行文本的标注序列。例如，对于由字符t1～t5组成的一行文本，可以确定该行文本的标注序列是“b-des、i-des、i-des、i-des、i-des”。

返回参考图2，在步骤s204中，在利用用于标注的深度网络模型通过对至少两行文本进行标注的情况下，可以基于每行文本的标注序列确定该行文本所属的文本类别。例如，在图5示出的示例中，由字符t1～t5组成的一行文本的标注序列是“b-des、i-des、i-des、i-des、i-des”，由于该行文本的标注序列中所有元素都指示同一文本类别“描述类别”，因此，可以将该行文本所属的文本类别确定为描述类别。

如果一行文本的标注序列中不是所有元素都指示同一文本类别，那么，可以统计该标注序列中的元素属于每个文本类别的数量。即，可以分别统计该标注序列中的元素属于“描述类别”的数量、属于“结论类别”的数量以及属于“其他类别”的数量。然后，可以将具有最多元素的文本类别确定为该行文本所属的文本类别。

在一些实现方式中，可以利用用于分类的深度网络模型通过对至少两行文本中的每行文本进行标注，以得到至少两行文本中每行文本所属的文本类别。例如，可以利用albert模型、fasttext模型、text-cnn模型等文本分类模型对至少两行文本中的每行文本进行标注，并得到每行文本所属的文本类别。

利用步骤s204，可以确定待处理文本中的至少两行文本中每行文本所属的文本类别，以用于进一步的文本信息的提取。

在一些实施例中，步骤s204还可以包括对待处理文本中的至少两行文本中相邻文本行是否属于同一文本段。

在一些实现方式中，可以对至少两行文本中相邻两行文本进行文本分类，以得到指示相邻两行文本是否属于同一文本段的检测结果。

可以使用用于分类的深度网络模型对相邻两行文本进行文本分类。例如，可以基于albert模型对相邻两行文本进行处理。可以将用于分类的深度网络模型输出的分类结果作为上述检测结果。用于分类的深度网络模型输出的分类结果可以将相邻两行文本分为两类，其中一类表示相邻两行文本属于同一文本段，另一类表示相邻两行文本段不属于同一文本段。

在一些示例中，可以利用图5中示出的词嵌入层实现文本分类。如图5所示，可以将相邻两行文本中的字符以及开始标识符cls和两行文本之间的分割标识符sep输入albert网络，并得到对应于文本中每个字符以及开始标识符cls和分割标识符sep的嵌入。开始标识符cls的嵌入可以用于表示句级别分类的语义信息。因此，可以将albert网络输出的用于标识符cls的嵌入输入分类器，并得到一个2维的输出向量。这个2维的输出向量中的一个元素表示相邻两行文本属于同一文本段的分数，另一个元素表示相邻两行文本不属于同一文本段的分数。当指示相邻两行文本属于同一文本段的分数更高时，可以确定相邻两行文本属于同一文本段。当指示相邻两行文本不属于同一文本段的分数更高时，可以确定相邻两行文本不属于同一文本段。

进一步地，步骤s204还可以包括基于检测结果确定至少两行文本中的待调整文本行。在一些实现方式中，当所述检测结果指示当前被检测的文本行与其前一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其前一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。在另一些实现方式中，当所述检测结果指示当前被检测的文本行与其后一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其后一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。在又一些实现方式中，当所述检测结果指示当前被检测的文本行与其前一行文本和后一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其前一行文本和后一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。

可以理解的是，如果确定相邻两行文本属于同一文本段，而相邻两行文本不属于同一文本类别，这表示利用前述方法得到的相邻两行文本中的一行文本所属的类别可能是错误的。因此，可以至少待调整文本行的相邻文本行所属的文本类别调整待调整文本行所属的文本类别。

例如，可以基于预设的规则调整待调整文本行所述的文本类别。例如，当确定待调整文本行与其前一行文本属于同一文本段时，可以将待调整文本行所属的文本类别确定为与其前一行文本相同的文本类别。又例如，当确定待调整文本与其后一行文本属于同一文本段时，可以将待调整文本行所属的文本类别确定为与其后一行文本相同的文本类别。再例如，当确定待调整文本行与其前一行文本和后一行文本属于同一文本段，并且待调整文本行的前一行文本和后一行文本属于相同的文本类别时，可以将待调整文本行所属的文本类别确定为与其前一行文本和后一行文本均相同的文本类别。

图6示出了根据本申请的实施例的确定待处理文本中的文本行所属的文本类别的示意图。如图6所示，针对从图6左侧图的影像化的超声诊断报告单中识别的字符构成的待处理文本，可以确定待处理文本中每行文本所属的文本类别是描述、结论或其他。图6右侧图中示出了已经确定了待处理文本中每行文本所属的文本类别是描述、结论或其他的结果。

返回参考图2，在步骤s206中，可以根据至少两行文本中每行文本所属的文本类别，从待处理文本中获取对应于文本类别的文本。

在图6中示出的示例中可以看出，利用步骤s204输出的结果，可以以行为单位确定待处理文本中的文本所属的文本类别。因此，基于每行文本所属的文本类别可以获取对应于文本类别的文本。

针对每个文本类别，可以获取该文本类别对应的文本，并基于对属于该文本类别的至少两行文本进行组合，以确定对应于该文本类别的文本段。可以输出对应于该文本类别的文本段作为对应于该文本类别的文本。

在一些示例中，可以获取被标注为“描述”的文本行，以得到医学检查报告中的描述性文字。在另一些示例中，可以获取被标注为“结论”的文本行，以得到医学检查中的结论性文字。

在一些实施例中，步骤s206还可以包括，针对每个文本类别，对对应于该文本类别的文本段进行分句。可以在分句后的文本中查找包含预设关键词的文本句，并基于预设的关键词输出对应于该文本类别的文本句。

例如针对医学检查报告，预设的关键词可以包括指示人体不同器官的关检测，例如肝、肾、胰腺等。通过在对应于不同文本类别的文本段中查找包括关键词的句子，可以分别获取对应于不同关键词的描述性文字和结论性文字。针对预设的多个关键词中的每个关键词，可以分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。

图7示出了根据本申请的实施例的文本处理结果的示例。如图7所示，可以利用如前所述的步骤s202～步骤s206对图7左侧图示出的超声诊断报告单进行处理，以获取超声诊断报告单中的描述性文本和结论性文本。并且，通过查找描述性文本和结论性文本中包含预设的关键词的文本句，可以针对不同器官输出超声诊断的描述和结论。如图7右侧图所示，可以从图7左侧图中分别提取关于针对肝脏、胆囊、胰腺、脾脏和双肾彩超的描述和结论。

利用本申请提供的文本处理方法，可以应用基于人工智能的自然语言处理技术，基于待处理文本的上下文之间的语义信息筛选出属于不同类别的文本行，因此降低了文本提取过程对待处理的影像化信息的格式的依赖，并提高了针对不同格式的影像化信息提取文本的准确率。此外，通过检测相邻两行文本是否属于同一段落的方法，能够进一步提高本申请的文本处理方法的准确率。进一步地，本申请提供的文本处理方法能够将待处理图像中的文本信息分类为不同的文本类别，并可以进一步基于关键词提取不同类别的文本中针对不同对象的文本句。

图8示出了根据本申请的实施例的文本处理方法的示例性的过程。

如图8所示，在步骤s801中，可以获取原始的超声检查报告的影像图片。

在步骤s802中，可以利用ocr引擎对步骤s801获取的影像图片进行字符识别，以获取超声检查报告中包含的文本内容。

在步骤s803中，可以获取ocr的字符识别结果，包括至少一个文本框中的文本内容和指示文本框的位置和尺寸的文本框标识。

在步骤s804中，可以基于步骤s803中获得的字符识别结果对至少一个文本框进行拼行，从而确定包括至少两行文本的待处理文本。

在步骤s805中，可以利用基于albert模型、bilstm模型和crf模型的序列标注模型对步骤s804输出的待处理文本进行处理，以确定至少两行文本中每行文本所属的文本类别。

在步骤s806中，可以利用基于albert的文本分类模型对相邻两行文本进行连续性检测，以确定指示相邻两行是否属于同一文本段的分类结果。

在步骤s807中，可以基于步骤s806中得到的分类结果对步骤s805中得到的每行文本所属的文本类别进行调整，以得到每行文本所属的文本类别的最终结果。

在步骤s808中，根据步骤s807中确定的针对每行文本的最终结果，可以提取对应于描述类别的文本行和对应于结论类别的文本行来得到超声描述的文本和超声结论的文本。

在步骤s809中，基于步骤s808中获得的超声描述的文本和超声结论的文本，可以进一步获取针对多个脏器的单脏器的超声描述文本和超声结论文本。

图9示出了根据本申请的实施例的基于人工智能的文本处理装置的示意性的框图。

如图9所示，文本处理装置900可以包括待处理文本确定单元910、文本类别确定单元920以及文本获取单元930。

待处理文本确定单元910可以配置成对待处理图像进行字符识别以确定包括至少两行文本的待处理文本。

在一些实施例中，待处理文本确定单元910可以配置成通过对待处理图像进行光学字符识别(ocr)来确定待处理文本。例如，待处理文本确定单元910可以包括ocr子单元，用于对待处理图像进行处理以实现光学字符识别。

在一些实现方式中，光学字符识别的结果可以包括待处理图像中的至少两个文本框中的文字以及指示文本框的位置和尺寸的文本框标识。每个文本框的文本框标识可以表示为(x，y，width，height)。其中(x，y)可以是文本框的参考点的坐标，例如，可以是文本框的任一参考点(包括但不限于左上角点、右上角点、左下角点、右下角点或中心点)的坐标。width可以是文本框的长度，height可以是文本框的高度。

在一些实施例中，ocr子单元还可以基于上述文本框的文本框标识对从待处理图像中识别出的至少两个文本框进行拼行。通过组合位于同一行的至少一个文本框中的字符，可以得到待处理文本中的一行文本。

在另一些实施例中，待处理文本确定单元还可以包括独立于ocr子单元的拼行子单元。拼行子单元可以用于接收ocr子单元确定的至少两个文本框中的文字以及文本框标识，并基于上述文本框的文本框标识对从待处理图像中识别出的至少两个文本框进行拼行。拼行子单元可以用于组合位于同一行的至少一个文本框中的字符以得到待处理文本中的一行文本。

文本类别确定单元920可以配置成针对待处理文本中至少两行文本中的每行文本，可以确定该行文本所属的文本类别。在一些实施例中，文本类别可以包括“描述”类别和“结论”类别。

在一些实施例中，文本类别确定单元920可以配置成利用深度模型对待处理文本进行处理，以得到至少两行文本中每行文本所属的文本类别。

在一些实现方式中，文本类别确定单元920可以配置成利用用于标注的深度网络模型通过对至少两行文本进行标注，以得到至少两行文本中每行文本所属的文本类别。区别于传统的词级别的标注任务，本申请提供的方法将标注任务应用到行级别，从而得到针对一行文本的标注序列。

在一些示例中，可以基于albert模型、bilstm模型和crf模型实现上述深度网络模型对待处理文本进行处理，以得到该行文本的标注序列。

可以参考图5中示出的过程获取该行文本的标注序列，在此不再加以赘述。

在利用用于标注的深度网络模型通过对至少两行文本进行标注的情况下，文本类别确定单元920可以配置成基于每行文本的标注序列确定该行文本所属的文本类别。例如，在图5示出的示例中，由字符t1～t5组成的一行文本的标注序列是“b-des、i-des、i-des、i-des、i-des”，由于该行文本的标注序列中所有元素都指示同一文本类别“描述类别”，因此，可以将该行文本所属的文本类别确定为描述类别。

在一些实现方式中，文本类别确定单元920可以配置成利用用于分类的深度网络模型通过对至少两行文本中的每行文本进行标注，以得到至少两行文本中每行文本所属的文本类别。例如，可以利用albert模型、fasttext模型、text-cnn模型等文本分类模型对至少两行文本中的每行文本进行标注，并得到每行文本所属的文本类别。

利用文本类别确定单元920可以确定待处理文本中的至少两行文本中每行文本所属的文本类别，以用于进一步的文本信息的提取。

在一些实施例中，文本类别确定单元920还可以配置成包括对待处理文本中的至少两行文本中相邻文本行是否属于同一文本段。

在一些实现方式中，文本类别确定单元920可以配置成对至少两行文本中相邻两行文本进行文本分类，以得到指示相邻两行文本是否属于同一文本段的检测结果。

文本类别确定单元920可以配置成使用用于分类的深度网络模型对相邻两行文本进行文本分类。例如，可以基于albert模型对相邻两行文本进行处理。可以将用于分类的深度网络模型输出的分类结果作为上述检测结果。用于分类的深度网络模型输出的分类结果可以将相邻两行文本分为两类，其中一类表示相邻两行文本属于同一文本段，另一类表示相邻两行文本段不属于同一文本段。

进一步地，文本类别确定单元920还可以配置成包括基于检测结果确定至少两行文本中的待调整文本行。在一些实现方式中，当所述检测结果指示当前被检测的文本行与其前一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其前一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。在另一些实现方式中，当所述检测结果指示当前被检测的文本行与其后一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其后一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。在又一些实现方式中，当所述检测结果指示当前被检测的文本行与其前一行文本和后一行文本属于同一文本段，并且被检测的文本行所属的文本类别与其前一行文本和后一行文本所属的文本类别不同时，可以将被检测的文本行确定为待调整文本行。

文本获取单元930可以配置成根据至少两行文本中每行文本所属的文本类别，从待处理文本中获取对应于文本类别的文本。

利用文本类别确定单元920输出的结果，可以以行为单位确定待处理文本中的文本所属的文本类别。因此，基于每行文本所属的文本类别可以获取对应于文本类别的文本。

在一些示例中，文本获取单元930可以配置成获取被标注为“描述”的文本行，以得到医学检查报告中的描述性文字。在另一些示例中，可以获取被标注为“结论”的文本行，以得到医学检查中的结论性文字。

在一些实施例中，文本获取单元930还可以配置成针对每个文本类别，对对应于该文本类别的文本段进行分句。可以在分句后的文本中查找包含预设关键词的文本句，并基于预设的关键词输出对应于该文本类别的文本句。

利用本申请提供的文本处理装置，可以应用基于人工智能的自然语言处理技术，基于待处理文本的上下文之间的语义信息筛选出属于不同类别的文本行，因此降低了文本提取过程对待处理的影像化信息的格式的依赖，并提高了针对不同格式的影像化信息提取文本的准确率。此外，通过检测相邻两行文本是否属于同一段落的方法，能够进一步提高本申请的文本处理方法的准确率。进一步地，本申请提供的文本处理方法能够将待处理图像中的文本信息分类为不同的文本类别，并可以进一步基于关键词提取不同类别的文本中针对不同对象的文本句。

图10示出了根据本申请的实施例的文本处理装置的一个示例性的实现方式。如图10所示，本申请提供的文本处理装置可以被实现为包括ocr引擎1020和nlp处理引擎1030。其中ocr引擎1020可以用于实现结合图9描述的文本处理装置中的待处理文本确定单元中的ocr子单元，nlp处理引擎1030可以用实现结合图9描述的其他单元和子单元。可以利用gpu服务器实现图10中示出的ocr引擎和nlp处理引擎。

如图10所示，ocr引擎1020可以从图片存储服务器1010调取待处理图像的影像文件。在一些实施例中，可以在图片存储服务器上请求ocr接口，将待处理图像的文件以编码(例如base64编码)或预定的图片格式(例如jpg格式)传输给ocr引擎。ocr引擎1020可以对接收的待处理图像进行字符识别，并输出在待处理图像中检测到的至少两个文本框的文字和文本框标识。

nlp处理引擎1030可以用于接收ocr引擎1020输出的结果，并对ocr引擎识别的字符进行文本处理。nlp处理引擎1030可以用于对ocr引擎的至少两个文本框进行拼行。通过组合位于同一行的至少一个文本框中的字符，可以得到待处理文本中的一行文本。因此，可以利用nlp处理引擎1030确定包括至少两行文本的待处理文本。进一步地，nlp处理引擎1030可以用于针对待处理文本中至少两行文本中的每行文本确定该行文本所属的文本类别，并根据至少两行文本中每行文本所属的文本类别，从待处理文本中获取对应于文本类别的文本。

nlp处理引擎1030输出的结果可以是上文中所述的超声描述文本和超声结论文本，或者进一步地是各单脏器的超声描述文本和超声结论文本。可以将nlp处理引擎输出的结果作为超声诊断信息保存到数据库服务器的数据库中。

图11示出了根据本申请的实施例的一种应用场景的示意性的过程。根据本申请的实施例提供的文本处理方法和文本处理装置可以用于健康评估场景。

为了对用户的身体健康状况进行全面的评估，并对重大疾病进行风险预测。在健康辅助类应用程序或体检机构的评估系统中，存在对已有的纸质体检报告进行识别的需求。例如，可以通过ocr技术，自动识别出报告中的文字和文字在图片中的区域位置。

纸质体检报告1110可通常分为化验单表格1120和超声检查报告1130两类，为自动化健康评估流程，需要提取结构化的化验单表格信息和超声检查报告中检查医生的诊断信息。并通过健康评估模型或疾病风险评估模型自动化评估健康状况和预测疾病风险。

如图11所示，针对化验单报告形式的纸质体检报告，可以提取化验单中各检查项信息。例如，可以利用本申请上文中提供的文本处理方法对化验单报告中的文本进行处理，以得到不同检查项的信息1140。类似地，针对超声检查报告形式的纸质体检报告，可以利用上文中提供的文本处理方法对超声检查报告中的文本进行处理，以得到超声诊断信息1150。

基于从纸质体检报告中提取的信息，可以获得结构化的体检信息1160。通过结构化的体检信息可以方便地获取体检报告中不同项目的体检结果。基于不同项目的体检结果(例如医生给出的描述信息和结论信息)，可以利用已经建立的健康评估模型1170或疾病风险评估模型1180自动评估用户的健康状况并预测疾病风险。

图12示出了根据本申请的实施例的另一种应用场景的示意性的过程。根据本申请的实施例提供的文本处理方法和文本处理装置可以用于保险核保场景。

保险承保前，被保险人有健康告知的责任，通过健康告知书向保险公司告知个人的身体状况。在保险公司对被保险人的健康状况进行评估以决定是否承保时，存在对已有的纸质报告进行识别的需求。

如图12所示，在保险核保的场景下，纸质体检报告1210可以包括化验单报告1220、健康告知书1230以及超声检查报告1240，可以利用上文中提供的文本处理方法对纸质体检报告进行处理，以得到包括检查项信息1250、个人告知信息1260以及超声诊断信息1270的结构化的体检信息1280。可以通过人工复核进一步保证所提取的结构化的体检信息的准确性。然后，可以利用已经建立的核保预测模型对提取的结构化的体检信息进行处理得到核保预测结果1290。

此外，根据本申请实施例的方法或装置也可以借助于图13所示的计算设备的架构来实现。图13示出了该计算设备的架构。如图13所示，计算设备1300可以包括总线1310、一个或至少两个cpu1320、只读存储器(rom)1330、随机存取存储器(ram)1340、连接到网络的通信端口1350、输入/输出组件1360、硬盘1370等。计算设备1300中的存储设备，例如rom1330或硬盘1370可以存储本申请提供的目标检测方法的处理和/或通信使用的各种数据或文件以及cpu所执行的程序指令。计算设备1300还可以包括用户界面1380。当然，图13所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图13示出的计算设备中的一个或至少两个组件。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

技术特征：

1.一种基于人工智能的文本处理方法，其特征在于，包括：

对待处理图像进行字符识别以确定待处理文本；

针对所述待处理文本中的每行文本，确定该行文本所属的文本类别；

根据至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

2.如权利要求1所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：

针对所述至少两行文本中每行文本，

基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及

基于该行文本的标注序列确定该行文本所属的文本类别。

3.如权利要求1所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：

针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。

4.如权利要求2或3所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别还包括：

对所述至少两行文本中相邻两行文本进行文本分类，以得到指示所述相邻两行文本是否属于同一文本段的检测结果；

基于检测结果确定所述至少两行文本中的待调整文本行；以及

基于所述待调整文本行的相邻文本行所属的文本类别，调整所述待调整文本行所属的文本类别。

5.如权利要求4所述的文本处理方法，其特征在于，基于检测结果确定所述至少两行文本中的待调整文本行包括：

当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段，并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时，将所述被检测的文本行确定为待调整文本行。

6.如权利要求1所述的文本处理方法，其特征在于，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括：

根据所述文本类别对所述待处理文本中的至少两行文本进行组合，以确定对应于所述文本类别的文本段；

输出对应于所述文本类别的文本段。

7.如权利要求1所述的文本处理方法，其特征在于，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括：

对对应于所述文本类别的文本进行分句；

在分句后的文本中查找包含预设关键词的文本句；

基于所述预设关键词输出对应于所述文本类别的所述文本句。

8.如权利要求7所述的文本处理方法，其特征在于，所述待处理图像是医学检查报告，所述待处理文本包括针对医学图像的医学描述文本和医学结论文本，所述文本类别包括描述类别和结论类别，基于所述预设关键词输出对应于所述文本类别的所述文本句包括：

针对预设的多个关键词中的每个关键词，分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。

9.如权利要求1所述的文本处理方法，其特征在于，对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括：

对待处理图像进行光学字符识别，以确定所述待处理图像中的至少两个文本框；

基于所述文本框的坐标和高度确定位于同一行的至少一个文本框；

组合位于同一行的至少一个文本框中的字符，作为待处理文本中的一行文本。

10.如权利要求1所述的文本处理方法，其特征在于，所述文本类别包括描述类别和结论类别。

11.一种基于人工智能的文本处理装置，包括：

待处理文本确定单元，配置成对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；

文本类别确定单元，配置成针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；

文本获取单元，配置成根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

12.如权利要求11所述的文本处理装置，其特征在于，所述文本类别确定单元配置成：

针对所述至少两行文本中每行文本，

基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及

基于该行文本的标注序列确定该行文本所属的文本类别。

13.如权利要求1所述的文本处理装置，其特征在于，所述文本类别确定单元配置成：

针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。

14.一种基于人工智能的文本处理设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-10任一项所述的文本处理方法。

15.一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如权利要求1-10任一项所述的文本处理方法。

技术总结
公开了一种基于人工智能的文本处理方法、装置、设备、介质。所述文本处理方法包括：对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

技术研发人员：苏晨;李斌;洪科元
受保护的技术使用者：腾讯云计算(北京)有限责任公司
技术研发日：2020.01.21
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53600.html

专利

最新回复(0)