本发明涉及计算机人工智能的技术领域,尤其涉及一种文本语义分析方法及系统。
背景技术:
人工智能(artificialintelligence),英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,也是计算机科学的一个分支,它企图了解智能思维模式的实质,并生产出一种新的能与人类思维模式相近,且同样能做出相应反应的智能机器。该领域的研究方向包括机器人、语言识别、图像识别和自然语言处理等,其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。市场上的众多app软件都会向用户终端主动推送一些文本语义相关的新闻。但是推送的内容,一些用户可能对此不感兴趣,长时间地被迫接受不感兴趣的新闻内容,可能会影响到用户的使用体验,因此需要通过人工智能的方法,对推送内容进行筛选,但是一般的推送有效内容信息的效率并不高。
目前,在人工智能领域的自然语言筛选方面以卷积神经网络为代表的深度学习更为突出,通过卷积神经网络能以更高的效率提取出更加优化的隐藏特征,用于反映自然语言文本中所包含的语义信息。
因此,有必要开发一种文本语义分析方法及系统。
技术实现要素:
有鉴于此,本发明的目的在于提供一种文本语义分析方法及系统,更加高效地解决在精准提取有效文本向量的技术问题。
第一方面,本发明提供了一种文本语义分析方法,包括:提取表示所述文本语义的文本向量;将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;获取所述网络结构输出的文本特征向量。
进一步地,将所述文本向量输入到所述网络结构中,具体步骤包括:将提取到的表示所述文本语义的文本向量输入至四种不同类型的卷积核中,在卷积层进行卷积处理;当提取到的所述文本语义的文本向量在卷积层完成卷积处理后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵;在得到所述四类隐形特征矩阵后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
进一步地,所述四种不同类型的卷积核包括:5行一维卷积窗口、4行一维卷积窗口、3行一维卷积窗口和2行一维卷积窗口,其中,每种一维卷积窗口上的卷积核数量为三位数的数量级。
进一步地,所述第一向量与被所述fastcnn网络结构压缩的文本向量联结形成第二向量,所述第二向量经过全连接层传输至输出层,得到所述网络结构输出的文本特征向量。
进一步地,所述文本特征向量包括文本向量分类各类别的概率。
第二方面,本发明还提供了一种文本语义分析系统,所述文本语义分析系统包括:提取单元,用于提取表示所述文本语义的文本向量;输入单元,用于将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;获取单元,用于获取所述网络结构输出的文本特征向量。
进一步地,当所述文本向量输入到所述网络结构中时,所述网络结构包括:卷积处理模块,将提取到的表示所述文本语义的文本向量输入至若干个四种不同类型的卷积核中,在卷积层进行卷积处理;池化处理模块,是当提取到的表示所述文本语义的文本向量在卷积层完成卷积处理后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵;展平模块,在得到所述四类隐形特征矩阵后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
第三方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行任一项所述的文本语义分析系统。
本发明带来了以下有益效果:
一种文本语义分析方法,首先提取文本语义的文本向量,然后将文本向量输入到基于卷积神经网络的包含有textcnn与fastcnn中的网络结构进行特征提取,最后得到所述网络结构输出的的文本特征向量。通过在textcnn增加卷积核的种类或数量,增加了该网络结构的宽度,使得卷积层的特征提取能力大大增强,还通过采用类似于“残差神经网络结构”,卷积输出的第一向量与被fastcnn网络结构压缩的所述文本向量联结形成第二向量,该第二向量经过全连接层传输至输出层,得到文本向量分类各类别的概率。使得从文本语义提取到的初始文本向量通过textcnn的卷积池化非线性与fastcnn的线性处理等筛选方式映射为一系列隐性文本向量,实现了更加高效且精准地获取到输出的文本特征向量的文本向量的分类结果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明提供的一种文本语义分析方法的流程图;
图2为本发明提供的一种文本语义分析方法的示意图;
图3位本发明提供的一种“残差神经网络结构”的示意图;
图4为本发明提供的一种textcnn网络结构的文本语义分析系统的示意图;
图中:301-提取单元;
302-输入单元、3021-卷积处理模块、3022-池化处理模块、3023-展平模块、
303-获取单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,一种文本语义分析方法,具体步骤包括:
步骤s1,提取表示所述文本语义的文本向量;
步骤s2,将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;
步骤s3,获取所述网络结构输出的文本特征向量。
在本实施例中,所述文本语义的文本向量是指文本数据或其他新闻媒体中包含的一些词汇,按照一定理论计算出各个文本向量的重要性,并据此保留重要的特征,同时舍去不太重要的文本向量。即,先对文本语义做一个基本的筛选,从而提高训练效率,但是为了使获取的输出向量具有更强的表达能力,将提取到的该文本语义的文本向量输入至包含有textcnn与fastcnn组合成的网络结构中进行特征提取,最终获取到该网络结构输出的文本特征向量。
需要说明的是,以卷积神经网络为代表的深度学习能够在各种问题上取得优于传统机器学习方法的关键,在于卷积神经网络网络能以更高的效率提取出更优的隐藏特征,用于反应文本所包含的语义信息。即,将初始特征通过网络结构中的卷积和池化处理后,非线性映射为一系列隐性特征,从而实现了更为高效精准特征提取。尽管基于卷积神经网络在可解释性上较弱,但宏观角度上可以认为,卷积神经网络上可以更注重于提取数据蕴含的局部相关性。
当所述文本向量输入到所述网络结构中时,具体步骤包括:
步骤s21,将提取到的表示该文本语义的文本向量输入至四种不同类型的卷积核中,在卷积层进行卷积处理,其中,四种不同类型的卷积核包括:5行一维卷积窗口、4行一维卷积窗口、3行一维卷积窗口和2行一维卷积窗口,每种一维卷积窗口上的卷积核数量达到上百个。
步骤s22,当提取到的文本语义的文本向量在卷积层完成卷积处理之后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵。
步骤s23,在得到所述四类隐形特征矩阵之后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
以上步骤可通过如图2所示的具体实施例得以展示,其中,n*d的词向量矩阵是由文本语义相关词汇转化而成的矩阵向量,例如,图中所示的文本语义“古代三国之间如何保持和平,并承认东汉王朝的存在”,其中,每个词汇都对应一个行向量,每个行向量由d维实数构成。首先是将示例中的一句文本语义数据转化为类似图像的稠密矩阵(即,提取到该文本语义的文本向量),然后将该稠密矩阵传输至卷积层得到多个5*d卷积核、4*d卷积核、3*d卷积核、2*d卷积核的卷积结果,再经过relu激活函数输出,分别得到多个n-4维向量、n-3维向量、n-2维向量、n-1维向量,以此类推。再通过chunk-maxpooling,以chunk_size=2为例,在每两个行向量上的各个维度选取最大值作为新向量在该维度的值,得到四类隐性特征矩阵。然后再将四类隐形特征矩阵通过flatten层将这些矩阵展平为一维向量并通过concatenate层后拼接为第一向量。所述第一向量与被所述fastcnn网络结构压缩的文本向量通过类似于“残差神经网络结构”的联结方式形成第二向量,所述第二向量经过全连接层传输至输出层,得到所述网络结构输出的文本特征向量。当第二向量经过全连接层传输至输出层,得到该网络结构输出的文本特征向量,其中,该网络结构的输出文本向量包括文本向量分类各类别的概率。
需要说明的是,由于chunk_size的数值越大,后续全连接层的参数就越少,虽然计算效率就越高,但损失的信息也会因此增多;反之当chunk_size的数值越小,后续全连接层的参数就越多,计算效率就越低,但损失的信息就相对减少。且在该网络层采用了word2vec预训练词向量,解放了大量运算资源,因此选用了chunk_size为2,用于提取尽可能多的文本向量。在针对卷积神经网络结构上的改进,除了上述所提及的大量增加卷积核的数量之外,还可以通过将网络拓展至更深层,增加网络层数,但是由于能够提取到的文本语义的文本向量数量量较小,网络深度的增加会加深模型学习的过拟合。由于对于网络层数地增加存在一个数量级的问题,过多反而不好,所以在本实施例中,选择采用增加卷积核数量至上百个的方式,用来拓宽网络层的宽度,使得卷积层的特征提取能力大大增强,卷积层的输出向量也大大增加,避免出现因卷积神经网络结构模型的层数、深度和参数地快速上涨,从而导致模型的学习能力过强,出现过拟合的现象。
具体地,上述提及的“残差神经网络”联结方式的思路是以三层卷积为单位增加层数,如图3所示,将单位的输入数据与卷积输出直接相加作为下一单元的输入,英文名称为“short-cutconnection”。但“残差神经网络”及fastcnn模型则采用直接将文本向量经过flatten层展平后与卷积输出的第一向量联结,则导致参数太多,失去了卷积文本向量提取的意义。当fastcnn在对该文本向量做了一定程度的压缩后,再与卷积输出的第一向量联结在网络的输出侧形成第二向量。即,fastcnn将提取到的文本向量进行压缩后与经基于卷积神经网络textcnn网络结构卷积处理后输出的第一向量拼接为第二向量,该第二向量经过全连接层,再连接至输出层,在输出层得到了文本向量分类各类别的概率。
实施例二:
如图4所示,一种文本语义分析系统,该系统包括:提取单元301、输入单元302和获取单元303,其中,提取单元301用于提取表示所述文本语义的文本向量;输入单元302,用于将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;获取单元303,用于获取所述textcnn网络结构输出的文本特征向量。
当所述文本向量输入到textcnn网络结构中时,所述网络结构包括:卷积处理模块3021、池化处理模块3022与展平模块3023,其中,卷积处理模块3021用于将提取到的表示所述文本语义的文本向量输入至若干个四种不同类型的卷积核中,在卷积层进行卷积处理;池化处理模块3022是指当提取到的所述文本语义的文本向量在卷积层完成卷积处理之后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵;展平模块3023是指在得到所述四类隐形特征矩阵之后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
需要说明的是,在该网络层选用若干个四种不同类型的卷积核是因为在卷积层的卷积核之间的窗口宽度是不同的,不同维度的卷积层在于卷积神经网络存在“感受野”的问题。如名字所说,“感受野”是指网络能感知到的视野大小,其定义是每一层输出结果上的一点在原图上所映射的区域的大小,类似于网络的眼睛。将cnn应用于图像处理领域时,“感受野”此概念第一次被提出。在文本处理领域,不同的卷积核大小代表网络可能会探知到更多不同种类的信息,找到更多种类的隐性特征。所以,textcnn网络结构中设计了多种维度的卷积窗口,分别有2行、3行、4行、5行的一维卷积窗口,但在每种一维卷积窗口数量上设有若干个卷积核,为增加卷积层的输出效率,卷积核的数量增加至上百个,用以拓展网络的宽度。
本发明所提供的一种文本语义分析系统还包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
1.一种文本语义分析方法,其特征在于,包括:
提取表示所述文本语义的文本向量;
将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;
获取所述网络结构输出的文本特征向量。
2.根据权利要求1所述的文本语义分析方法,其特征在于,将所述文本向量输入到所述网络结构中,具体步骤包括:
将提取到的表示所述文本语义的文本向量输入至四种不同类型的卷积核中,在卷积层进行卷积处理;
当提取到的所述文本语义的文本向量在卷积层完成卷积处理后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵;
在得到所述四类隐形特征矩阵后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
3.根据权利要求2所述的文本语义分析方法,其特征在于,所述四种不同类型的卷积核包括:5行一维卷积窗口、4行一维卷积窗口、3行一维卷积窗口和2行一维卷积窗口,其中,每种一维卷积窗口上的卷积核数量为三位数的数量级。
4.根据权利要求1或2所述的文本语义分析方法,其特征在于,所述第一向量与被所述fastcnn网络结构压缩的文本向量联结形成第二向量,所述第二向量经过全连接层传输至输出层,得到所述网络结构输出的文本特征向量。
5.根据权利要求4所述的文本语义分析方法,其特征在于,所述文本特征向量包括文本向量分类各类别的概率。
6.一种文本语义分析系统,其特征在于,所述文本语义分析系统包括:
提取单元,用于提取表示所述文本语义的文本向量;
输入单元,用于将所述文本向量输入到网络结构中,其中,所述网络结构包括textcnn网络结构与fastcnn网络结构,基于卷积神经网络对文本向量进行特征提取;
获取单元,用于获取所述网络结构输出的文本特征向量。
7.根据权利要求6所述的文本语义分析系统,其特征在于,当所述文本向量输入到所述网络结构中时,所述网络结构包括:
卷积处理模块,将提取到的表示所述文本语义的文本向量输入至若干个四种不同类型的卷积核中,在卷积层进行卷积处理;
池化处理模块,是当提取到的表示所述文本语义的文本向量在卷积层完成卷积处理后,通过chunk-maxpooling在池化层进行池化处理,得到四类隐形特征矩阵;
展平模块,在得到所述四类隐形特征矩阵后,通过flatten层将四类隐形特征矩阵展平为一维向量,通过concatenate层后拼接为第一向量。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求6至7任一项所述的文本语义分析系统。
技术总结