文本的分析方法、装置和系统与流程

专利2022-06-29  71


本发明涉及语言分析领域,具体而言,涉及一种文本的分析方法、装置和系统。



背景技术:

情感分析(sentimentanalysis),也即倾向性分析,是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程,其根据文本所表达的含义和情感信息,将文本分为褒义或贬义这两种或多种类型。

情感分析的目的通常是为了找出说话者或作者对某个话题上的观点的态度,这个态度即为该说话者或作者的情感状态。互联网上产生了大量的用户参与的、对于诸如任务、时间、产品等有价值的评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向,如喜、怒、哀、乐和批评、赞扬,基于此,潜在的用户就可以通过浏览这些具有主观色彩的评论来了解大众舆论对某一事件或产品的看法。

在目前的情感分析方法中,通常包括基于词典的分析方法、基于网络的分析方法以及基于语料库的分析方法,其中,基于语料库的分析方法应用较为广泛,其运用机器学习的相关技术对词语的情感进行分类,机器学习的方法通常需要先让分类模型学习训练数据中的顾虑,然后用训练好的模型对测试数据进行预测。但目前,该方法仅能基于一种维度对语言进行情感分析,因此难以得到准确的分析结果。

针对现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种文本的分析方法、装置和系统,以至少解决现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

根据本发明实施例的一个方面,提供了一种文本的分析方法,包括:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出文本数据所包括的情感信息。

根据本发明实施例的另一方面,还提供了一种文本的分析方法,包括:显示获取的文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;输出文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

根据本发明实施例的另一方面,还提供了一种文本的分析装置,包括:获取模块,用于获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;预测模块,用于基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出模块,用于输出文本数据所包括的情感信息。

根据本发明实施例的另一方面,还提供了一种文本的分析装置,包括:显示模块,用于显示获取的文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;输出模块,用于输出文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

根据本发明实施例的另一方面,还提供了一种文本的分析系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出文本数据所包括的情感信息。

在本发明实施例中,可以预设需要知晓的属性信息,并采用多视角情感分析模型,基于文本数据的实体信息和属性信息,对产品在预设属性上的情感信息进行预测,从而在不需要增加处理模型的情况下,实现了对文本数据的多维度分析,并提高了文本分析的准确程度。由此,本申请上述实施例解决了现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了一种用于实现文本的分析方法的计算机终端(或移动设备)的硬件结构框图;

图2是根据本申请实施例1的一种文本的分析方法的流程图;

图3是根据本申请实施例1的一种使用多视角情感分析模型的流程图;

图4是根据本申请实施例1的一种可选的多视角情感分析模型的示意图;

图5是根据本申请实施例2的一种文本的分析方法的流程图;

图6是根据本申请实施例2的一种多视角情感分析系统的展示界面的示意图;

图7是根据本申请实施例3的一种文本的分析装置的示意图;

图8是根据本申请实施例4的一种文本的分析装置的示意图;以及

图9是根据本申请实施例5的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例,还提供了一种文本的分析方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本的分析方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本的分析方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的分析方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下,本申请提供了如图2所示的文本的分析方法。图2是根据本申请实施例1的一种文本的分析方法的流程图。

步骤s21,获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息。

具体的,上述文本数据可以是论坛、购物网站、电商平台中的评论。例如,文本数据可以是购物网站中用户对产品的评价,汽车论坛中用户对汽车的评价等,点评网站中用户对餐厅的评价等。

文本数据中的实体信息用于表示文本数据中的产品的名称或品牌,即文本数据所评价的对象,文本数据中的属性信息用于对文本数据中产品本身或产品的品牌在某种属性上的特点进行评价。

在一种可选的实施例中,以电商平台的场景为例,文本数据可以是平台中用户对实体的评论,一条评论中,评论的主体即可以为该文本的实体,例如,对于评论“这款耐克运动鞋很舒适”,该文本中的实体即为“耐克”或“耐克运动鞋”,属性信息即为“很舒适”。

步骤s23,基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

具体的,上述预设属性可以是预先指定的属性,在对文本数据的分析过程中,需要获取用户对实体在何种属性上的情感倾向,就可以设置何种属性。情感信息可以是情感倾向的一种表示,可选的,可以通过“正向”、“负向”和“中立”这三种表示方式作为输出的情感信息。

在文本数据为对实体的评论时,生成文本数据的对象即可以为在购物网站上填写评论的用户,本申请上述方案通过对用户填写的评论进行情感倾向的分析,从而得到用户对实体在一个或多个属性上的情感倾向性信息。

在一种可选的实施例中,仍以文本数据“这款耐克运动鞋很舒适”为例,该文本中的实体即为“耐克”或“耐克运动鞋”,属性信息即为“很舒适”。多视角情感分析模型基于上述文本数据的实体信息和情感信息,对“耐克”以及“耐克运动鞋”在预设属性上的情感倾向进行分析,例如,为了通过评论获取用户对耐克运动鞋在舒适性上的情感信息,则可以设置属性为“舒适性”,如果还需要获取用户对耐克运动鞋在透气性上的情感信息,则可以设置属性为“透气性”,以此类推,可以设置多种需要获取用户在该属性上的情感信息。

上述多视角情感分析模型可以通过神经网络模型实现,具体的,多视角情感分析模型用于从多个维度分析文本数据的情感倾向。在一种可选的实施例中,多视角情感分析模型从实体和属性这两个维度对文本数据进行情感倾向的分析,从而得到的情感倾向不仅仅至针对于一种实体,或仅针对于一个属性,而是实体在某个属性上的情感倾向,进而得到的情感倾向更加准确,更加全面,也更具有针对性,同时对实体的厂商更具指导性。

图3是根据本申请实施例1的一种使用多视角情感分析模型的流程图,结合图3所示,多视角情感分析模型嵌入在多视角情感分析系统中,在使用多视角分析系统后,首先需要确定对多视角情感分析模型进行训练,还是使用多视角情感分析模型对文本数据的情感倾向进行预测。例如,可以判断是否对评论进行预测。

如果判断结果为否,则需要对多视角情感分析模型进行训练,可以从产品评论池里采集评论数据,在对采集到的评论数据进行预处理后,通过使用采集的评论数据构建训练样本,并使用训练样本对多视角情感分析模型进行训练,以实现多视角情感分析模型的构建。

具体的,可以选择一个或多个领域(如女装、鞋子、美妆等)的评论文本数据,评论文本数据具体包括:产品评论文本、评论的实体以及实体的属性,其中,实体可以通过实体抽取工具(例如,斯坦福的自然语言处理工具集)从评论中抽取,实体的属性可以为人为预设的。将这三个信息作为三元组存储在数据库中作为训练样本对情感信息分析模块进行训练。

在选择用于训练的评论数值时,为了缓解评论中的实体或属性可能存在的稀疏性,同时确保模型的性能稳定和可靠,需要使每个实体和实体的每个属性有不少于预设数量的评论,该预设数量可以为10。

训练样本除了包括评论对应的三元组数据之外,还包括每个三元组数据对应的标签,即该评论的情感信息,将评论的三元组数据输入至多视角情感分析模型,得到多视角情感分析模型输出的预测结果,再根据多视角情感分析模型输出的预测结果和评论对应的标签确定损失函数,并以损失函数作为最小目标函数,从而对多视角情感分析模型中的网络参数进行调整,得到准确的多视角情感分析模型。

如果判断结果为是,则需要使用多视角情感分析对评论的情感倾向进行预测,可以获取需要预测的新评论(即不属于训练样本的评论),将新评论输入至数据预处理模块进行数据预处理后,由于训练样本和新评论可能由同一个预处理模块进行预处理,因此在预处理模块输出后,还需要此次操作判断是否用于对新评论进行预测,如果是,则由多视角情感分析模型对新评论进行情感分析,如果否,则进入多视角情感分析模型构建的步骤。

步骤s25,输出文本数据所包括的情感信息。

具体的,在多视角情感分析模型对文本数据进行处理后,将处理结果进行输出,文本数据所包括的情感信息用于表示该文本数据中的产品在预设属性上的情感倾向。

在一种可选的实施例中,以文本数据“耐克运动鞋很舒适”为例,得到的情感信息是实体“耐克运动鞋”在“舒适性”这一属性上具有“正向”的倾向;再以文本“xx牌的衣服容易褪色”为例,得到的情感信息可以是,实体“xx牌的衣服”在“颜色”这一属性上具有“负向”的倾向;仍以“xx牌的衣服容易褪色”为例,得到的情感信息还可以是,实体“xx牌的衣服”在“舒适度”这一属性上具有“中立”的倾向。

需要说明的是,现有技术中对评论文本进行情感分析时,仅能输出一个维度的分析结果,例如,对于“耐克运动鞋很舒适”这个文本数据,只能针对实体进行分析,得到的结果是,该文本数据对实体“耐克”或“耐克运动鞋”的情感倾向,或对属性“很舒适”进行分析,得到的结果是该文本数据对属性“很舒适”的情感倾向。但需要进行分析的文本数据具有多样化的特征,尤其是产品的评论,如果仅获取到用户对该产品的情感倾向,则该结果过于泛华,并不能清楚的了解该产品实际是在哪个方面(即属性)上得到了“正向”的评价,或“负向”的评价;而如果仅获取了文本数据对某个属性上的评价,则并不清楚是何种产品的评价,因此单一维度的分析结果的准确性较差,也难以对产品的改进具有准确的指导。

在本申请上述实施例中,可以预设需要知晓的属性信息,并采用多视角情感分析模型,基于文本数据的实体信息和属性信息,对产品在预设属性上的情感信息进行预测,从而在不需要增加处理模型的情况下,实现了对文本数据的多维度分析,并提高了文本分析的准确程度。

由此,本申请上述实施例解决了现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

作为一种可选的实施例,于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,包括:基于文本数据获取文本数据的语义向量、实体信息对应的实体向量和属性信息对应的属性向量;通过语义向量对实体向量进行更新,生成第一文本向量;通过语义向量对属性向量进行更新,生成第二文本向量;将第一文本向量和第二文本向量进行组合后,通过分类器根据组合的结果确定文本数据的情感信息。

在确定文本数据、文本数据中的实体和预设属性后,可以通过对文本数据、实体和预设属性进行向量化处理,得到文本数据对应的向量、实体对应的向量和属性对应的向量。

上述方案中的语义向量可以固定长度的,包含语义信息的向量,可以从文本数据的语句向量中提取得到,在文本数据中仅包括一个实体的情况下,对实体进行向量化处理得到向量即为词语向量,在文本数据中包括多个实体的情况下,可以对实体的向量化结果进行线性组合,即可得到该文本数据的词语向量。对预设属性的处理方法相同,在仅有一种属性的情况下,对属性进行向量化处理得到的向量即为属性向量,在具有多种预设属性的情况下,可以对每个属性的向量化结果进行线性组合,即可得到该文本数据的属性向量。

在上述方案中,使用语义向量对实体向量进行更新,从而使词语向量的表示抽象程度更高,更加准确,因此使用第一文本向量对文本数据的倾向性进行分析,会得到更加准确的结果。

在一种可选的实施例中,可以直接将语义向量和实体向量进行叠加,生成携带有语境信息的实体向量。

在另一种可选的实施例中,可以通过预设的融合组件,根据输入的语义向量和实体向量的重要性,对语义向量和实体向量赋予不同权重,再通过加权组合的方式生成第一文本向量。

使用语义向量对属性向量进行更新,从而使词语向量的表示抽象程度更高,更加准确,因此使用第二文本向量对文本数据的倾向性进行分析,会得到更加准确的结果。同样的,使用语义向量对属性向量进行更新时可以有多种方式,例如:直接将语义向量和属性向量叠加的方式,或通过预设的融合组件对语义向量和属性向量进行融合的方式。

在上述步骤中,第一文本向量和第二文本向量组合,可以是直接将两个文本向量拼接,例如,一个100维的第一文本向量和一个100维的第二文本向量进行组合后,得到一个200维的向量。上述分类器可以是sofmax函数构成的分类器。

上述情感信息可以用于表示用户对实体所表示的品牌或产品在某个属性上的态度,从而得到品牌或产品的缺陷,以便商家进行改进。情感信息可以包括正向、负向和中立。以分类器softmax为例,softmax输出了文本属于不同情感信息的相对概率,最终确定相对概率最大情感信息即为文本数据所属的情感信息。

在一种可选的实施例中,上述实施例中的步骤可以由多视角情感分析模型执行,该多视角情感分析模型分别获取到实体向量和属性,并根据文本数据的实体向量和属性向量上叠加语义向量,以对实体向量和属性向量进行更新,再根据更新后的实体词语向量和更新后的属性词语向量对文本的情感信息进行预测。

在一种更具体的实施例中,以电商网站为例进行说明。该示例中的情感信息分析任务为,分析用户对xx品牌服装的情感信息,分析的内容包括:服装的颜色、服装的弹性、服装的剪裁、服装的设计、服装的舒适性、服装变形程度以及服装的尺寸。采集xx品牌服装在电商网站上的所有评论,并将每条评论作为文本数据进行情感分析,分析过程中,评论中的对象为文本的实体,分析的内容为预设的属性,将评论文本、评论中的实体和预设的属性构成三元组数据,输入至上述多视角情感分析模型,由多视角情感分析模型使用步骤s21至s25中提供的情感分析方式对评论进行情感分析,得到的结果是每条评论对每个属性的情感信息。

需要说明的是,情感信息分析结果可以包括正向、负向以及中立,电商网站中的一条评论难以涉及所有的分析内容,即难以覆盖所有预设属性,因此,对于文本所未涉及的属性,输出的情感信息可以为“中性”。

作为一种可选的实施例,基于文本数据获取文本数据的语义向量、实体信息对应的实体向量和属性信息对应的属性向量,包括:获取文本数据的三元组信息,其中,三元组信息包括:文本数据的文本内容,表示实体信息的实体词语,和表示预设属性的属性词语;对三元组信息进行向量化处理,得到文本数据的语句向量,实体词语的实体词语向量和预设属性的属性词语向量;对实体词语向量进行线性组合编码,得到实体向量;对属性词语向量进行线性组合编码,得到属性向量;根据语句向量、实体向量和属性向量生成语义向量。

具体的,文本数据的文本内容可以直接从网站的评论获取,文本数据中的实体词语可以通过斯坦福的自然语言处理工具集进行提取。再对文本内容,实体词语和属性词语进行向量化处理后,输入至情感信息反向模型,以得到文本数据的语义向量、用于表示文本数据中的实体的实体向量和用于表示预设属性的属性向量。

具体的,上述实体词语向量可以是通过word2vec等方式直接对实体词语进行向量化处理得到的向量,属性词语向量也是通过word2vec等方式直接对预设属性进行向量化处理得到的向量。而实体向量是对实体词语向量进行线性组合编码得到的向量,相同的,属性向量也是对属性词语向量进行线性组合编码得到的向量。通过线性组合编码,将词语数量不同的实体词语或属性词语组合成具有固定维度的向量,从而便于后续的计算。

图4是根据本申请实施例1的一种可选的多视角情感分析模型的示意图,结合图4所示,实体记忆编码模块用于对实体词语向量进行线性组合编码得到实体向量。为对实体词语进行向量化处理得到的实体词语向量,实体记忆编码模块对进行线性组合,得到实体向量。

仍结合图4所示,方面记忆编码模块用于对属性词语向量进行线性组合编码得到属性向量。为对属性词语进行向量化处理得到的属性词语向量,方面记忆编码模块对进行线性组合,得到属性向量。

再结合图4所示,为上述语句向量,语句向量、实体记忆编码模块输出的实体向量和方面记忆编码模块输出的属性向量经由语境记忆编码模块的处理,得到文本数据的语义向量。

作为一种可选的实施例,上述方法还包括:对文本数据进行预处理,其中,预处理包括如下任意一项或多项:分词处理、词根还原以及噪声剔除。

具体的,上述步骤可以由数据采集和预处理模块执行,数据采集模块直接采集评论作为文本信息,并由预处理模块对文本信息进行预处理。

上述分词处理用于将文本数据划分为多个词语,可以通过bigram的分词方式对文本数据进行分词,词根还原用于将具有词形变化的词语还原为词根,噪音剔除用于从分词结果中剔除特殊字符、特殊符号等噪声词语。

在一种可选的实施例中,可以先对文本信息进行分词处理,再进行词根和噪声剔除的处理,从而得到上述文本内容。

作为一种可选的实施例,在实体信息包括多个实体词语的情况下,对实体词语向量进行线性组合编码,得到实体向量,包括:获取多个实体词语向量在相同位置的元素的平均值;确定每个位置的平均值为实体向量在每个位置的元素,并根据每个位置的元素得到实体向量。

在一种可能存在的情况下,实体词语可能包括多个词语,为了将实体词语使用一个固定维度的向量表示,需要对实体的多个词语进行线性组合编码。

在上述方案中,向量的位置指的是在向量中的第几行第几列,在一种可选的实施例中,以两个100维的实体词语向量,求取两个向量中,第一行第一列元素的均值,作为实体向量第一行第一列的元素,求取两个向量中,第一行第二列元素的均值,作为实体向量的第一行第二列的元素,以此类推,从而得到实体向量。

此处需要说明的是,属性词语也可以是多个词语,在属性词语为多个词语的情况下,需要对属性词语进行线性组合编码,对属性词语进行线性组合编码的方式可以与对实体词语进行线性组合编码的方式相同。

作为一种可选的实施例,根据语句向量、实体向量和属性向量生成语义向量,包括:将语句向量、实体向量和属性向量连接,得到连接结果;获取实体信息的上下文词语相对于实体信息的第一位置权重和属性信息的上下文词语相对于属性信息的第二位置权重,并使用第一位置权重和第二位置权重对连接结果进行加权表示,得到加权结果,其中,第一位置权重根据实体信息的上下文词语与实体信息的距离确定,第二位置权重根据属性信息的上下文词语与属性信息的距离确定;通过长短期记忆网络层对加权结果进行编码,得到每个向量的隐状态向量;确定隐状态向量为语义向量。

在上述方案中,对语句向量、实体向量和属性向量进行连接,可以是直接将语句向量、实体向量和属性向量进行预定顺序拼接。

具体的,实体信息可以是文本数据中的实体词语,属性信息可以是预设属性对应的属性词语,使用第一位置权重和第二位置权重对交互层输出的向量进行加权,用于在语义向量中引入位置信息。

在一种可选的实施例中,可以人为设置不同距离对应的权重。交互层输出每个向量表示文本数据中的一个词语,以其中一个向量为例,获取该词语与实体信息与之间的距离,并确定该距离对应的权重即为该词语的第一位置权重;再获取该词语与属性信息之间的距离,并确定该距离对应的权重即为该词语的第二位置权重。将该词语对应的向量与第一位置权重和第二位置权重相乘,以对该词语对应的向量进行加权。最后通过lstm层对加权后的向量进行处理,从而得到隐向量的表示。

在一种可选的实施例中,结合图4所示,上述步骤可以由多视角情感分析模型中的语境记忆编码模块执行,语境记忆编码模块中包括:交互层、位置attention层,以及lstm层,其中,交互层用于将语句向量实体向量和属性向量进行连接表示,位置attention层用于根据文本数据中的上下文词语相对于实体和属性之间的距离确定权重,并使用确定的权重对交互层的输出进行加权表示。lstm层利用一个单向单层的lstm对位置attention层的输出进行编码表示,从而获得一系列的隐状态表示h1、h2、h2……hl,其中,h1用于表示第一个词语的语义,h2用于表示第一个词语和第二个词语的语义,以此类推。

作为一种可选的实施例,获取实体词语的上下文词语相对于实体词语的第一位置权重,包括:获取实体信息的上下文词语与实体信息之间距离;根据实体信息的上下文词语与实体信息之间的距离确定第一位置权重,其中,距离与第一位置权重呈反比例关系。

在产品的评论中,通常距离实体较近的词语,比距离属性较近的词语更能表达文本数据的语义,因此可以设置距离与第一位置权重程反比例关系。

上述方案通过引入词语的位置信息,从而根据词语在文本数据中的位置,确定词语在文本数据中的重要程度,进而得到的语义向量更加准确。

而获取第二位置权重的方式与获取第一位置权重的方式相同,获取属性信息的上下文词语与属性信息之间距离;根据属性信息的上下文词语与属性信息之间的距离确定第二位置权重,其中,距离与第二位置权重呈反比例关系。

作为一种可选的实施例,生成第一文本向量包括:生成第一文本向量,包括:获取融合组件和预设的迭代层数,其中,融合组件用于将实体向量和语义向量进行融合;根据当前层的实体词语和语义向量,通过注意力机制得到当前层的实体语义向量;由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量;检测当前层是否达到预设的迭代层数,如果当前层达到预设的迭代层数,则确定当前层第一文本向量为第一文本向量,否则继续将当前层的第一文本向量作为下一层的实体向量输出至下一层融合组件。

上述方案采用多层迭代的方式对实体向量进行更新。

在一种可选的实施例中,结合图4所示,实体记忆更新模块中的hop1、hop2、hop3即为上述的迭代层,每个迭代层中都包括一个融合组件g,融合组件用于将每一层的实体语义向量和实体向量进行融合运算。首先,在hop1中,attention机制对实体向量vece和隐状态向量(h1,h2,……hn)进行运算,得到的hop1的实体语义向量,hop1中的g组件根据实体向量和实体语义向量进行融合,生成经过hop1更新后的vece,并将经过hop1更新后的vece输入至hop2。

在hop2中,同样的,根据输入的vece和隐状态向量(h1,h2,……hn)进行运算,得到hop2的实体语义向量,hop2中的g组件根据实体向量和实体语义向量进行融合,生成经过hop2更新后的vece。生成经过hop2更新后的vece输入至hop3,经过hop3相同的运算后,输出由实体记忆更新模块更新后的实体向量。

生成第二文本向量与生成第一文本向量的方式可以相同,根据当前层的属性词语和语义向量,通过注意力机制得到当前层的属性语义向量;由融合组件对当前层的语义向量和当前层的属性词语向量进行融合,得到当前层的第二文本向量;检测当前层是否达到预设的迭代层数,如果当前层达到预设的迭代层数,则确定当前层第二文本向量为第二文本向量,否则继续将当前层的第二文本向量作为下一层的属性向量输出至下一层融合组件。

仍结合图4所示,方面记忆更新模块中的hop1、hop2、hop3即为上述的迭代层,每个迭代层中都包括一个融合组件g,该融合组件g与实体记忆更新模块中的g可以相同,融合组件用于将每一层的属性语义向量和属性向量进行融合运算。首先,在hop1中,attention机制对实体向量veca和隐状态向量(h1,h2,……hn)进行运算,得到的hop1的属性语义向量,hop1中的g组件根据属性向量和属性语义向量进行融合,生成经过hop1更新后的veca,并将经过hop1更新后的veca输入至hop2。

在hop2中,同样的,根据输入的veca和隐状态向量(h1,h2,……hn)进行运算,得到hop2的属性语义向量,hop2中的g组件根据属性向量和属性语义向量进行融合,生成经过hop2更新后的veca。生成经过hop2更新后的veca输入至hop3,经过hop3相同的运算后,输出由方面记忆更新模块更新后的属性向量。

作为一种可选的实施例,由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量,包括:将当前层的实体语义向量输入至第一双曲正切函数,得到第一运算结果,将当前层的实体向量输入至第二双曲正切函数,得到第二运算结果;将当前层的实体语义向量和当前层的实体向量共同输入至逻辑斯蒂克函数,得到第三运算结果;将第一运算结果和第三运算结果进行加权,得到第四运算结果;1减第三运算结果后,与第二运算结果进行加权,得到第五运算结果;将第四运算结果和第五运算结果进行求和,得到当前层的第一文本向量。

在一种可选的实施例中,结合图4所示,图4中的tanh即为上述双曲正切函数,图4中的δ即为上述逻辑斯蒂克函数。g组件中,将当前层的语义向量输入至左侧的tanh(第一双曲正切函数)和中间的δ函数,并将当前层的实体向量输入至右侧的tanh(第二双曲正切函数)和中间的δ函数,左侧的tanh根据当前层的语义向量得到第一运算结果,右侧的tanh根据当前层的实体向量得到第二运算结果,δ函数根据当前层的语义向量和实体向量得到第三运算结果。

在由δ函数计算得到的第三运算结果作为第一运算结果的加权,并将(1-第三运算结果)作为第二运算结果的加权,将二者进行加权,从而得到了当前层的第一文本向量。

作为一种可选的实施例,将第一文本向量和第二文本向量进行组合后,通过分类器根据组合的结果确定文本数据的情感信息,包括:将第一文本向量和第二文本向量进行拼接,得到拼接结果;通过全连接层对拼接结果进行处理;通过分类器根据全连接层的处理结果确定文本数据的情感信息。

具体的,上述分类器可以是softmax分类器,在上述步骤中,对第一文本向量是对词语向量的更新结果,第二文本向量是对属性向量的更新结果,将第一文本向量和第二文本向量进行品拼接,得到的拼接结果既包括原始文本数据中的实体信息,也包括原始文本数据中的属性信息,因此在拼接结果的基础上进行全连接层的处理和分类器的处理,得到的情感信息必然在实体和属性这两个维度上的情感倾向。

作为一种可选的实施例,文本数据包括预设网站中对象对产品的评论文本。

在一种可选的实施例中,上述预设网站可以为购物网站,对象可以为购物网站的用户,购物网站的用户在购买产品后,在购物网站上对产品进行评论,文本数据即可以为用户评论时生成的评论文本。

在另一种可选的实施例中,上述预设网站也可以是点评网站,对象也可以为点评网站的用户,上述文本数据可以是用户在点评网站对产品进行评论所生成的评论文本。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例,还提供了一种文本的分析方法的实施例,图5是根据本申请实施例2的一种文本的分析方法的流程图,结合图5所示,该方法包括如下步骤:

步骤s51,显示获取的获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息。

具体的,上述文本数据可以是论坛、购物网站、电商平台中的评论。例如,文本数据可以是购物网站中用户对实体的评价,汽车论坛中用户对汽车的评价等,点评网站中用户对餐厅的评价等。

文本数据中的实体信息用于表示文本数据中的产品的名称或品牌,即文本数据所评价的对象,文本数据中的属性信息用于对文本数据中产品本身或产品的品牌在某种属性上的特点进行评价。

在一种可选的实施例中,以电商平台的场景为例,文本数据可以是平台中用户对实体的评论,一条评论中,评论的主体即可以为该文本的实体,例如,对于评论“这款耐克运动鞋很舒适”,该文本中的实体即为“耐克”,以及“耐克运动鞋”,属性信息即为“很舒适”。

步骤s53,输出文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对实体在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

具体的,上述预设属性可以是预先指定的属性,在对文本数据的分析过程中,需要获取用户对实体在何种属性上的情感倾向,就可以设置何种属性。情感信息可以是情感倾向的一种表示,可选的,可以通过“正向”、“负向”和“中立”这三种表示方式作为输出的情感信息。

在文本数据为对产品的评论时,生成文本数据的对象即可以为在购物网站上填写评论的用户,本申请上述方案通过对用户填写的评论的进行情感倾向的分析,从而得到用户对产品在一个或多个属性上的情感倾向性信息。

在一种可选的实施例中,仍以文本数据“这款耐克运动鞋很舒适”为例,该文本中的实体即为“耐克”,以及“耐克运动鞋”,属性信息即为“很舒适”。多视角情感分析模型基于上述文本数据的实体信息和情感信息,对“耐克”以及“耐克运动鞋”在预设属性上的情感倾向进行分析,例如,如为了通过评论获取用户对耐克运动鞋在舒适性上的情感信息,则可以设置属性为“舒适性”,如果还需要获取用户对耐克运动鞋在透气性上的情感信息,则可以设置属性为“透气性”,以此类推,可以设置多种需要获取用户在该属性上的情感信息。

上述多视角情感分析模型可以通过神经网络模型实现,具体的,多视角情感分析模型用于从多个维度分析文本数据的情感倾向。在一种可选的实施例中,多视角情感分析模型从实体和属性这两个维度对文本数据进行情感倾向的分析,从而得到的情感倾向不仅仅至针对于一种实体,或仅针对于一个属性,而是实体在某个属性上的情感倾向,从而得到的情感倾向更加准确,更加全面,也更具有针对性,同时对实体的厂商更具指导性。

在多视角情感分析模型对文本数据进行处理后,将处理结果进行输出,文本数据所包括的情感信息用于表示该文本数据中的产品在预设属性上的情感倾向。

在一种可选的实施例中,以文本数据“耐克运动鞋很舒适”为例,得到的情感信息是实体“耐克运动鞋”在“舒适性”这一属性上具有“正向”的倾向;再以文本“xx牌的衣服容易褪色”为例,得到的情感信息可以是,实体“xx牌的衣服”在“颜色”这一属性上具有“负向”的倾向;仍以“xx牌的衣服容易褪色”为例,得到的情感信息可以是,实体“xx牌的衣服”在“舒适度”这一属性上具有“中立”的倾向。

需要说明的是,现有技术中对评论文本进行情感分析时,仅能输出一个维度的分析结果,例如,对于“耐克运动鞋很舒适”这个文本数据,只能针对实体进行分析,得到的结果是,该文本数据对实体“耐克”或“耐克运动鞋”的情感倾向;或对属性“很舒适”进行分析,得到的结果是该文本数据对属性“很舒适”的情感倾向。但需要进行分析的文本数据具有多样化的特征,尤其是产品的评论,如果仅获取到用户对该产品的情感倾向,则该结果过于泛华,并不能清楚的了解该产品实际是在哪个方面(即属性)上得到了“正向”的评价,或“负向”的评价;而如果仅获取了文本数据对某个属性上的评价,则并不清楚是何种产品的评价,因此单一维度的分析结果的准确性较差,也难以对产品的改进具有准确的指导。

在本申请上述实施例中,可以预设需要知晓的属性信息,并采用多视角情感分析模型,基于文本数据的实体信息和属性信息,对产品在预设属性上的情感信息进行预测,从而在不需要增加处理模型的情况下,实现了对文本数据的多维度分析,并提高了文本分析的准确程度。

由此,本申请上述实施例解决了现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

作为一种可选的实施例,上述方法还包括:接收多视角情感分析模型的模型参数;显示多视角情感分析模型的模型参数。

具体的,上述模型参数可以包括多视角情感分析模型的初始化方式、训练时的学习速度、计算层的深度等参数。

上述文本分析方法可以通过运行多视角情感分析模型的多视角情感分析系统来实现,多视角情感分析系统提供至少两种类型的交互界面,图6是根据本申请实施例2的一种多视角情感分析系统的展示界面的示意图,结合图6所示,其中一种是展示给用户的产品评论展示界面,在向用户进行产品评论展示时,可以按照产品名展示,也可以按照属性名展示,从而提供了多维度的评论展示方式;另一种是展示给后台管理人员的后台管理界面,后台管理界面可以包括模型训练设置界面,用于后台管理人员设置模型参数,还包括系统管理界面,用于后台管理人员对使用者的权限加以限制,避免敏感信息外漏。

实施例3

根据本发明实施例,还提供了一种用于实施实施例1中的文本的分析方法的文本的分析装置,图7是根据本申请实施例3的一种文本的分析装置的示意图,如图7所示,该装置700包括:

获取模块702,用于获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息。

预测模块704,用于基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

输出模块706,用于输出文本数据所包括的情感信息。

此处需要说明的是,上述获取模块702、预测模块704和输出模块706对应于实施例1中的步骤s21至步骤s25,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

作为一种可选的实施例,预测模块包括:第一获取子模块,用于基于文本数据获取文本数据的语义向量、实体信息对应的实体向量和属性信息对应的属性向量;第一生成子模块,用于通过语义向量对实体向量进行更新,生成第一文本向量;第二生成子模块,用于通过语义向量对属性向量进行更新,生成第二文本向量;组合子模块,用于将第一文本向量和第二文本向量进行组合后,通过分类器根据组合的结果确定文本数据的情感信息。

作为一种可选的实施例,第一获取子模块包括:第一获取单元,用于获取文本数据的三元组信息,其中,三元组信息包括:文本数据的文本内容,表示实体信息的实体词语,和表示预设属性的属性词语;处理单元,用于对三元组信息进行向量化处理,得到文本数据的语句向量,实体词语的实体词语向量和预设属性的属性词语向量;第一编码单元,用于对实体词语向量进行线性组合编码,得到实体向量;第二编码单元,用于对属性词语向量进行线性组合编码,得到属性向量;生成单元,用于根据语句向量、实体向量和属性向量生成语义向量。

作为一种可选的实施例,第一获取子模块还包括:预处理单元,用于对文本数据进行预处理,其中,预处理包括如下任意一项或多项:分词处理、词根还原以及噪声剔除。

作为一种可选的实施例,在实体信息包括多个实体词语的情况下,第一编码单元包括:第一获取子单元,用于获取多个实体词语向量在相同位置的元素的平均值;确定子单元,用于确定每个位置的平均值为实体向量在每个位置的元素,并根据每个位置的元素得到实体向量。

作为一种可选的实施例,生成单元包括:连接子单元,用于将语句向量、实体向量和属性向量连接,得到连接结果;第二获取子模块,用于获取实体信息的上下文词语相对于实体信息的第一位置权重和属性信息的上下文词语相对于属性信息的第二位置权重,并使用第一位置权重和第二位置权重对连接结果进行加权表示,得到加权结果,其中,第一位置权重根据实体信息的上下文词语与实体信息的距离确定,第二位置权重根据属性信息的上下文词语与属性信息的距离确定;编码子单元,用于通过长短期记忆网络层对加权结果进行编码,得到每个向量的隐状态向量;确定子单元,用于确定隐状态向量为语义向量。

作为一种可选的实施例,第二获取子模块包括:获取实体信息的上下文词语与实体信息之间距离;第二获取单元,用于根据实体信息的上下文词语与实体信息之间的距离确定第一位置权重,其中,距离与第一位置权重呈反比例关系。

作为一种可选的实施例,第一生成子模块包括:第三获取单元,用于获取融合组件和预设的迭代层数,其中,融合组件用于将实体向量和语义向量进行融合;第四获取单元,用于根据当前层的实体词语和语义向量,通过注意力机制得到当前层的实体语义向量;第五获取单元,用于由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量;检测单元,用于检测当前层是否达到预设的迭代层数,如果当前层达到预设的迭代层数,则确定当前层第一文本向量为第一文本向量,否则继续将当前层的第一文本向量作为下一层的实体向量输出至下一层融合组件。

作为一种可选的实施例,第五获取单元包括:第二获取子单元,用于将当前层的实体语义向量输入至第一双曲正切函数,得到第一运算结果;第三获取子单元,用于将当前层的实体向量输入至第二双曲正切函数,得到第二运算结果;第四获取子单元,用于将当前层的实体语义向量和当前层的实体向量共同输入至逻辑斯蒂克函数,得到第三运算结果;第五获取子单元,用于将第一运算结果和第三运算结果进行加权,得到第四运算结果;第六获取子单元,用于1减第三运算结果后,与第二运算结果进行加权,得到第五运算结果;第七获取子单元,用于将第四运算结果和第五运算结果进行求和,得到当前层的第一文本向量。

作为一种可选的实施例,组合子模块包括:拼接单元,用于将第一文本向量和第二文本向量进行拼接,得到拼接结果;全连接处理单元,用于通过全连接层对拼接结果进行处理;确定单元,用于通过分类器根据全连接层的处理结果确定文本数据的情感信息。

实施例4

根据本发明实施例,还提供了一种用于实施实施例2上述文本的分析方法的文本的分析装置,图8是根据本申请实施例4的一种文本的分析装置的示意图,如图8所示,该装置800包括:

显示模块802,用于显示获取的文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息。

输出模块804,用于输出文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息。

此处需要说明的是,上述显示模块802和输出模块804对应于实施例2中的步骤s51至步骤s53,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例5

本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。

可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中,上述计算机终端可以执行文本的分析方法中以下步骤的程序代码:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出文本数据所包括的情感信息。

可选地,图9是根据本申请实施例5的一种计算机终端的结构框图。如图9所示,该计算机终端a可以包括:一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。

其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本的分析方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的分析方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出文本数据所包括的情感信息。

可选的,上述处理器还可以执行如下步骤的程序代码:基于文本数据获取文本数据的语义向量、实体信息对应的实体向量和属性信息对应的属性向量;通过语义向量对实体向量进行更新,生成第一文本向量;通过语义向量对属性向量进行更新,生成第二文本向量;将第一文本向量和第二文本向量进行组合后,通过分类器根据组合的结果确定文本数据的情感信息。

可选的,上述处理器还可以执行如下步骤的程序代码:获取文本数据的三元组信息,其中,三元组信息包括:文本数据的文本内容,表示实体信息的实体词语,和表示预设属性的属性词语;对三元组信息进行向量化处理,得到文本数据的语句向量,实体词语的实体词语向量和预设属性的属性词语向量;对实体词语向量进行线性组合编码,得到实体向量;对属性词语向量进行线性组合编码,得到属性向量;根据语句向量、实体向量和属性向量生成语义向量。

可选的,上述处理器还可以执行如下步骤的程序代码:对文本数据进行预处理,其中,预处理包括如下任意一项或多项:分词处理、词根还原以及噪声剔除。

可选的,上述处理器还可以执行如下步骤的程序代码:在实体信息包括多个实体词语的情况下,获取多个实体词语向量在相同位置的元素的平均值;确定每个位置的平均值为实体向量在每个位置的元素,并根据每个位置的元素得到实体向量。

可选的,上述处理器还可以执行如下步骤的程序代码:将语句向量、实体向量和属性向量连接,得到连接结果;获取实体信息的上下文词语相对于实体信息的第一位置权重和属性信息的上下文词语相对于属性信息的第二位置权重,并使用第一位置权重和第二位置权重对连接结果进行加权表示,得到加权结果,其中,第一位置权重根据实体信息的上下文词语与实体信息的距离确定,第二位置权重根据属性信息的上下文词语与属性信息的距离确定;通过长短期记忆网络层对加权结果进行编码,得到每个向量的隐状态向量;确定隐状态向量为语义向量。

可选的,上述处理器还可以执行如下步骤的程序代码:获取实体信息的上下文词语与实体信息之间距离;根据实体信息的上下文词语与实体信息之间的距离确定第一位置权重,其中,距离与第一位置权重呈反比例关系。

可选的,上述处理器还可以执行如下步骤的程序代码:获取融合组件和预设的迭代层数,其中,融合组件用于将实体向量和语义向量进行融合;根据当前层的实体词语和语义向量,通过注意力机制得到当前层的实体语义向量;由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量;检测当前层是否达到预设的迭代层数,如果当前层达到预设的迭代层数,则确定当前层第一文本向量为第一文本向量,否则继续将当前层的第一文本向量作为下一层的实体向量输出至下一层融合组件。

可选的,上述处理器还可以执行如下步骤的程序代码:将当前层的实体语义向量输入至第一双曲正切函数,得到第一运算结果,将当前层的实体向量输入至第二双曲正切函数,得到第二运算结果;将当前层的实体语义向量和当前层的实体向量共同输入至逻辑斯蒂克函数,得到第三运算结果;将第一运算结果和第三运算结果进行加权,得到第四运算结果;1减第三运算结果后,与第二运算结果进行加权,得到第五运算结果;将第四运算结果和第五运算结果进行求和,得到当前层的第一文本向量。

可选的,上述处理器还可以执行如下步骤的程序代码:将第一文本向量和第二文本向量进行拼接,得到拼接结果;通过全连接层对拼接结果进行处理;通过分类器根据全连接层的处理结果确定文本数据的情感信息。

可选的,上述处理器还可以执行如下步骤的程序代码:文本数据包括预设网站中对象对产品的评论文本。

采用本发明实施例,提供了一种文本的分析方法。可以预设需要知晓的属性信息,并采用多视角情感分析模型,基于文本数据的实体信息和属性信息,对产品在预设属性上的情感信息进行预测,从而在不需要增加处理模型的情况下,实现了对文本数据的多维度分析,并提高了文本分析的准确程度。由此,本申请上述实施例解决了现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端90还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本的分析方法所执行的程序代码。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所要表示的情感倾向性信息;输出文本数据所包括的情感信息。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。


技术特征:

1.一种文本的分析方法,包括:

获取文本数据,其中,所述文本数据包括了至少一种产品的实体信息和属性信息;

基于多视角情感分析模型处理所述文本数据,预测得到所述文本数据所包括的情感信息,其中,所述多视角情感分析模型用于根据所述实体信息和所述属性信息对所述产品在预设属性上的情感信息进行预测,所述情感信息用于表征所述文本数据所表示的情感倾向性信息;

输出所述文本数据所包括的情感信息。

2.根据权利要求1所述的方法,其中,基于多视角情感分析模型处理所述文本数据,预测得到所述文本数据所包括的情感信息,包括:

基于所述文本数据获取所述文本数据的语义向量、所述实体信息对应的实体向量和所述属性信息对应的属性向量;

通过所述语义向量对所述实体向量进行更新,生成第一文本向量;

通过所述语义向量对所述属性向量进行更新,生成第二文本向量;

将所述第一文本向量和所述第二文本向量进行组合后,通过分类器根据组合的结果确定所述文本数据的情感信息。

3.根据权利要求2所述的方法,其中,基于所述文本数据获取所述文本数据的语义向量、所述实体信息对应的实体向量和所述属性信息对应的属性向量,包括:

获取所述文本数据的三元组信息,其中,所述三元组信息包括:所述文本数据的文本内容,表示所述实体信息的实体词语,和表示所述预设属性的属性词语;

对所述三元组信息进行向量化处理,得到所述文本数据的语句向量,所述实体词语的实体词语向量和所述预设属性的属性词语向量;

对所述实体词语向量进行线性组合编码,得到所述实体向量;

对所述属性词语向量进行线性组合编码,得到所述属性向量;

根据所述语句向量、所述实体向量和所述属性向量生成所述语义向量。

4.根据权利要求3所述的方法,其中,所述方法还包括:

对所述文本数据进行预处理,其中,所述预处理包括如下任意一项或多项:分词处理、词根还原以及噪声剔除。

5.根据权利要求3所述的方法,其中,在所述实体信息包括多个实体词语的情况下,对所述实体词语向量进行线性组合编码,得到所述实体向量,包括:

获取多个所述实体词语向量在相同位置的元素的平均值;

确定每个位置的平均值为所述实体向量在所述每个位置的元素,并根据所述每个位置的元素得到所述实体向量。

6.根据权利要求3所述的方法,其中,根据所述语句向量、所述实体向量和所述属性向量生成所述语义向量,包括:

将所述语句向量、所述实体向量和所述属性向量连接,得到连接结果;

获取所述实体信息的上下文词语相对于所述实体信息的第一位置权重和所述属性信息的上下文词语相对于所述属性信息的第二位置权重,并使用所述第一位置权重和所述第二位置权重对所述连接结果进行加权表示,得到加权结果,其中,所述第一位置权重根据所述实体信息的上下文词语与所述实体信息的距离确定,所述第二位置权重根据所述属性信息的上下文词语与所述属性信息的距离确定;

通过长短期记忆网络层对所述加权结果进行编码,得到每个向量的隐状态向量;

确定所述隐状态向量为所述语义向量。

7.根据权利要求6所述的方法,其中,获取所述实体词语的上下文词语相对于所述实体词语的第一位置权重,包括:

获取所述实体信息的上下文词语与所述实体信息之间距离;

根据所述实体信息的上下文词语与所述实体信息之间的距离确定所述第一位置权重,其中,所述距离与所述第一位置权重呈反比例关系。

8.根据权利要求2所述的方法,其中,通过所述语义向量对所述实体向量进行更新,生成第一文本向量,包括:

获取融合组件和预设的迭代层数,其中,所述融合组件用于将所述实体向量和所述语义向量进行融合;

根据当前层的实体词语和所述语义向量,通过注意力机制得到当前层的实体语义向量;

由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量;

检测所述当前层是否达到所述预设的迭代层数,如果所述当前层达到所述预设的迭代层数,则确定所述当前层第一文本向量为所述第一文本向量,否则继续将所述当前层的第一文本向量作为下一层的实体向量输出至下一层融合组件。

9.根据权利要求8所述的方法,其中,由融合组件对当前层的语义向量和当前层的实体词语向量进行融合,得到当前层的第一文本向量,包括:

将所述当前层的实体语义向量输入至第一双曲正切函数,得到第一运算结果,

将所述当前层的实体向量输入至第二双曲正切函数,得到第二运算结果;

将所述当前层的实体语义向量和所述当前层的实体向量共同输入至逻辑斯蒂克函数,得到第三运算结果;

将所述第一运算结果和所述第三运算结果进行加权,得到第四运算结果;

1减所述第三运算结果后,与所述第二运算结果进行加权,得到第五运算结果;

将所述第四运算结果和所述第五运算结果进行求和,得到所述当前层的第一文本向量。

10.根据权利要求2所述的方法,其中,将所述第一文本向量和所述第二文本向量进行组合后,通过分类器根据组合的结果确定所述文本数据的情感信息,包括:

将所述第一文本向量和所述第二文本向量进行拼接,得到拼接结果;

通过全连接层对所述拼接结果进行处理;

通过所述分类器根据所述全连接层的处理结果确定所述文本数据的情感信息。

11.根据权利要求1所述的方法,其中,所述文本数据包括预设网站中对象对所述产品的评论文本。

12.一种文本的分析方法,包括:

显示获取的文本数据,其中,所述文本数据包括了至少一种产品的实体信息和属性信息;

输出所述文本数据所包括的情感信息,其中,多视角情感分析模型用于根据所述实体信息和所述属性信息对所述产品在预设属性上的情感信息进行预测,所述情感信息用于表征所述文本数据所表示的情感倾向性信息。

13.根据权利要求12所述的方法,其中,所述方法还包括:

接收所述多视角情感分析模型的模型参数;

显示所述多视角情感分析模型的模型参数。

14.一种文本的分析装置,包括:

获取模块,用于获取文本数据,其中,所述文本数据包括了至少一种产品的实体信息和属性信息;

预测模块,用于基于多视角情感分析模型处理所述文本数据,预测得到所述文本数据所包括的情感信息,其中,所述多视角情感分析模型用于根据所述实体信息和所述属性信息对所述产品在预设属性上的情感信息进行预测,所述情感信息用于表征所述文本数据所表示的情感倾向性信息;

输出模块,用于输出所述文本数据所包括的情感信息。

15.一种文本的分析装置,包括:

显示模块,用于显示获取的文本数据,其中,所述文本数据包括了至少一种产品的实体信息和属性信息;

输出模块,用于输出所述文本数据所包括的情感信息,其中,多视角情感分析模型用于根据所述实体信息和所述属性信息对所述产品在预设属性上的情感信息进行预测,所述情感信息用于表征所述文本数据所表示的情感倾向性信息。

16.一种文本的分析系统,包括:

处理器;以及

存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:

获取文本数据,其中,所述文本数据包括了至少一种产品的实体信息和属性信息;

基于多视角情感分析模型处理所述文本数据,预测得到所述文本数据所包括的情感信息,其中,所述多视角情感分析模型用于根据所述实体信息和所述属性信息对所述产品在预设属性上的情感信息进行预测,所述情感信息用于表征所述文本数据所表示的情感倾向性信息;

输出所述文本数据所包括的情感信息。

技术总结
本发明公开了一种文本的分析方法、装置和系统。其中,该方法包括:获取文本数据,其中,文本数据包括了至少一种产品的实体信息和属性信息;基于多视角情感分析模型处理文本数据,预测得到文本数据所包括的情感信息,其中,多视角情感分析模型用于根据实体信息和属性信息对产品在预设属性上的情感信息进行预测,情感信息用于表征文本数据所表示的情感倾向性信息;输出文本数据所包括的情感信息。本发明解决了现有技术中仅能从单一维度对文本进行语义分析,导致文本的语义分析结果不准确的技术问题。

技术研发人员:宋凯嵩;孙常龙;林君;刘晓钟
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2018.11.27
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54735.html

最新回复(0)