本发明涉及信息处理技术领域,特别涉及一种税务领域短文本的情感分类方法及装置。
背景技术:
人工智能技术飞速发展,在金融、教育等领域取得了丰硕的成果,税收领域也不例外。在税收现代化的号角下,人工智能在纳税服务、税收风险管理、税务稽查等工作中方兴未艾,取得了突飞猛进的进展,有效提高了税务部门的工作效率。比如,在办税服务厅和12366纳税服务热线,每天有大量的纳税人咨询税收问题,为了更好满足纳税人的需求,税务部门组织研发了面向办税服务厅的智能应答机器人和面向12366纳税服务热线税务端的自动语音识别系统,这两项技术均是基于人工智能领域的语音识别和语音输出技术,包括能够识别纳税人的语音和将纳税人需要的问题答案以语音的形式读出来。
一般来说,税务咨询过程中的交互对话内容的数据信息长度通常较短,通常是一个小的段落、几句话、一句话甚至一个短语,具有的稀疏性、不规范性、主题不明确性等特点,而目前税务领域的智能应答机器人和自动语音识别系统无法学习税务短文本的深层语义信息,所以不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的结果。
技术实现要素:
本发明实施例提供一种税务领域短文本的情感分类方法及装置,用于解决现有技术税务领域的智能应答机器人和自动语音识别系统不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的技术问题。
第一方面,本发明实施例提供一种税务领域短文本的情感分类方法,包括:
对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
本实施方式通过对税务短文本进行预处理,利用word2vec模型训练税务短文本的词向量,获得至少一个词向量,然后基于至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的词向量的二维矩阵向量,最后通过卷积神经网络对二维矩阵向量进行处理,获得税务短文本的情感分类结果,解决了现有技术税务领域的智能应答机器人和自动语音识别系统不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的技术问题。
可选的,所述基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,包括:
基于所述至少一个词向量中每个词向量所带有的感情色彩,使用主观赋权法、客观赋权法或主客观综合集成赋权法确定每个词向量的权重系数。
本实施方式,采用主观赋权法、客观赋权法或主客观综合集成赋权法确定词向量的权重系数,可以提高词向量的权重系数的可靠性,进而提高情感分类的效率和准确度。
可选的,所述基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,包括:
根据每个词向量在所述税务短文本中的出现位置、出现频率以及词语关系计算每个词向量的权重系数。
本实施方式根据词向量在税务短文本中的出现位置、出现频率以及词语关系计算该词向量的权重系数,可以提高词向量的权重系数的可靠性,进而提高情感分类的效率和准确度。
可选的,所述卷积神经网络包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层;通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果,包括:
通过所述多个特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,通过最后一次局部特征提取操作获得多个最优局部特征;其中,每次局部特征提取操作包括一次卷积操作和一次池化操作;
通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征;
通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
本实施方式中的卷积神经网络设置多层卷积层和池化层,可提高最优局部特征提取操作的精准性,进而进一步提高情感分类精准性。
第二方面,本发明实施例提供一种税务领域短文本的情感分类装置,包括:
训练模块,用于对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
调整模块,用于基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
分类模块,用于通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
可选的,所述调整模块具体用于:
基于所述至少一个词向量中每个词向量所带有的感情色彩,使用主观赋权法、客观赋权法或主客观综合集成赋权法确定每个词向量的权重系数。
可选的,所述调整模块具体用于:
根据每个词向量在所述税务短文本中的出现位置、出现频率以及词语关系计算每个词向量的权重系数。
可选的,所述卷积神经网络包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层;所述分类模块具体用于:
通过所述多个特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,通过最后一次局部特征提取操作获得多个最优局部特征;其中,每次局部特征提取操作包括一次卷积操作和一次池化操作;
通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征;
通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
第三方面,本发明实施例提供一种税务领域短文本的情感分类设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令执行本发明实施例第一方面或第一方面的任一种可选的实施方式所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本发明实施例第一方面或第一方面的任一种可选的实施方式所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明实施例技术方案结合纳税服务咨询的税务短文本具有的稀疏性、不规范性、主题不明确性等特点,采用基于深度学习的卷积神经网络方法来解决税务领域短文本中的情感分类问题。首先对税务短文本进行预处理,利用word2vec模型训练税务短文本的词向量,获得至少一个词向量;然后基于至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的词向量的二维矩阵向量;最后通过卷积神经网络对二维矩阵向量进行处理,获得税务短文本的情感分类结果。通过对税务短文本信息进行情感分析,可以更好的理解纳税人的行为,发现纳税人对税务产品的倾向性、对热点政策、税收业务的关注程度等,增强智能应答机器人和自动语音识别系统的认知情感分析能力,有效提高人机对话人类情感拟合度,对提高纳税人满意度和遵从度、提升税务部门的管理效率和纳税人的获得感起到巨大的推动作用,很好地解决了现有技术税务领域的智能应答机器人和自动语音识别系统不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中税务领域短文本的情感分类方法的流程示意图;
图2为本发明实施例中构建词向量的示意图;
图3为本发明实施例中卷积神经网络的一种可能的结构示意图;
图4为本发明实施例中卷积神经网络的另一种可能的结构示意图;
图5为本发明实施例中税务领域短文本的情感分类装置的结构示意图;
图6为本发明实施例中税务领域短文本的情感分类设备的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本发明实施例的描述中“多个”,是指两个或两个以上。
本发明实施例中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为解决现有技术税务领域的智能应答机器人和自动语音识别系统不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的技术问题,本发明实施例利用深度学习(deeplearning)的分析方法,提出一种税务领域短文本的情感分类方法及装置。其中,执行该方法的设备可以是手机、平板电脑、笔记本电脑、服务器、可穿戴式设备、音/视频播放设备等任何具有计算能力的电子设备,或者多个这样的电子设备组成的电子设备系统,本发明实施例不做具体限制。
在本发明实施例中,深度学习主要是通过神经网络(neuralnetwork,nn)来模拟人的大脑的学习过程,借鉴人脑的多层抽象机制来实现对数据(图像、语义及文本等)的抽象表达,整合特征抽取和分类器到一个学习框架下,特征的抽取过程中尽量少地减少人为的干预。
深度学习是通过大量的简单神经元组成,每层的神经元接收更低层的神经元的输出,通过输入与输出之间的非线性关系,将低层特征组合成更高层的抽象表示,并发现观测数据的分布式特征。通过自下而上的学习形成多层的抽象表示,多层次的特征学习是一个自动地无人工干预的过程。根据学习到的网络结构,系统将输入的样本数据映射到各种层次的特征,并利用分类器或者匹配算法对顶层的输出单元进行分类识别等。视觉系统的输入数据量在人类感知系统的层次结构进行了维数减约,并提出了与物体个性无关的信息;例如对于潜在复杂结构的数据(如图像、视频、语音等),深度学习可以与人类视觉系统一样可以精准地获取对象的本质特征。深度学习的构想是借鉴大脑的分层组织方式,通过由下向上、由简单到高级的逐层抽象的特征学习,研究者们期望深度网络结构能通过模拟大脑来解决复杂的模式识别难题。因此,深层的人工神经网络是一种人工定义用于模拟人脑组织进行事物理解功能的多层神经网络。
参照图1,该税务领域短文本的情感分类方法包括:
s101:对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
其中,所述税务短文本可以是用户输入的文本信息、用户输入的语音信息经语音识别转换获得的文本信息或者用户输入的图像信息经图像识别转换获得的文本信息等,本发明实施例不做具体限制。
因卷积神经网络通常用来处理由二维矩阵组成的数据,因此在获得税务短文本后首先需要需税务短文本进行预处理,包括对税务短文本进行分词处理,得到若干初步分词结果;然后将若干初步分词结果中的词语转化为词向量;最后将词向量构建成二维矩阵的形式,即将税务短文本处理成二维矩阵向量的形式。
具体的,将税务短文本中任一个句子x表示为n*k的矩阵,其中n代表构成税务短文本句子的词的长度,k表示词向量xi的维度。以“增值税专用发票开具”为例,该文本由词“增值税”、“专用”、“发票”以及“开具”组成。首先将每个词用其对应的词向量表示,然后将单个词向量构建成二维矩阵的形式,如图2所示。在图2中,每一行为一个词所对应的词向量,若用k维的词向量表示n个词的句子,则输入为n*k的二维数据矩阵。假设文本字数最长不超过n,对于满足规则的二维矩阵,若文本的字数不到n,则对不足位进行补零处理。
s102:基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
区别于其他领域的文本,税务短文本中带有的感情色彩的词汇(在本文中又称“情感词”)出现次数较少,因此税务短文本的情感分析难度要比其他领域语料的大。在具体实施过程中,可重点针对情感词进行权重系数的计算,而对于不带有感情色彩的词(在本文中又称“非情感词”),可以设置默认的权重系数。例如,纳税人问:“增值税发票xxx,但是xxx”,其中“但是”这个词,有情感转折,情感波动较大,可以给这个词加上一个权重值,从而形成一个带权重的二维数据矩阵。又如,纳税人问:“抄报税流程是怎样的”,其中“怎样”这个词,是带有疑问情感,可以给这个词加上一个权重值,从而形成一个带权重的二维数据矩阵。
在本发明实施例中,权重系数具体可通过划分多个层次指标进行判断和计算。指标的种类具体可以包括情感词在税务短文本中的出现位置、出现频率及词语关系等,本发明实施例不做具体限制。例如,在本发明实施例中,可将情感词的权重系数记为m,将情感词的出现的位置权重记为mi,情感词的出现频率对应的权重记为mj,情感词的词语关系对应的权重记为mk,其中m=mi mj mk。
计算权重系数的具体方法可采用主观赋权法、客观赋权法、主客观综合集成赋权法等,本法买那个实施例不做具体限制。其中,主观赋权法是由专家根据经验进行主观判断而得到权数,具体有层次分析法、专家调查法、模糊分析法、二项系数法等;客观赋权法是根据历史数据研究指标之间的相关关系等赋权,主要有最大熵技术法、主成分分析法等;主客观综合集成赋权法将主观赋权法和客观赋权法结合在一起使用,充分利用各自的优点。此处我们主要考虑情感词的出现的位置,情感词的出现频率,情感词的词语关系等几个层次来分析情感次权重的判断和计算。
下面以主观赋权法为例,集中专家的知识和经验,确定各指标的权重,并在不断的反馈和修改中得到比较满意的结果。基本步骤包括:
(1)选择专家。一般情况下,选择本专业领域中有实际工作经验和有较深理论修养的专家10-30人左右(专家的具体人数可根据实际需要进行调整,本发明实施例不做具体限制)。
(2)将待定权重的p个指标(比如情感词在税务短文本中的出现位置、出现频率及词语关系)和有关资料以及统一的确定权重的规则发给选定的各位专家,请他们独立的给出各指标的权重值。
(3)收回搜集的结果并分别进行计算各指标权重的均值和标准差。
(4)将计算的结果及补充资料返还给各位专家,要求专家在此基础上确定权重。
(5)重复第(3)和第(4)步,直至每个指标权重与其均值的差值不超过预先设置的标准为止,即各位专家的意见基本一致,此时每个指标权重的均值作为该指标的权重。
在具体实施过程中,为了使判断更精准,令评价者了解已确定的权重把握性大小,还可运用“带有信任度的专家法”,该方法需要在上述第(5)步每位专家最后给出权重值的同时,标出各自所给权重值的信任度。若某一指标权重值的信任度较高时,可以较大的把握使用该指标,反之,暂停使用或设法改进。
s103:通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
具体的,卷积神经网络,包括若干个卷积层、池化层(下采样层)以及一个全连接层和输出层。其中,卷积层为特征提取层,通过滤波器以及可加偏置进行卷积,而后由卷积核提取句子的特征;池化层为特征映射层,对经过卷积层后得到的特征进行采样,通过全连接层将前面经过多次卷积后高度抽象化的特征进行整合,然后可以进行归一化,对各种分类情况都输出一个概率,之后的分类器根据全连接层得到的概率进行分类,得到分类结果;输出层输出分类结果,完成分类。例如,图3为本发明实施例中卷积神经网络一种可能的结构示意图,其中,为了便于清楚简洁地表示卷积神经网络的结构,在图3中将除输入层、卷积层、池化层以及输出层以外的其他各层均包含在隐层中表示,并未详细画出。
在本发明实施例中,卷积层主要是为了来学习文本句子的局部特征,本层主要对输入层的词向量矩阵进行卷积操作,同时为了能更好的提取问句的语义特征,可对于同一句子的词向量采用多个卷积窗口进行卷积,卷积窗口的大小可以是一个单词、两个单词、三个单词,这样我们就可以获得类似于n-gram语言模型的效果。对每个大小为k的连续窗口进行操作,结果表示为:
ci=f(w·xi:i h-1 b);
其中ci为经过卷积操作后对应的第i个特征值,f(·)为本层卷积核函数的选择,w为滤波器里的权重矩阵,其中w,h*k为选取的滤波器的大小,b∈r为偏置项,xi:i h-1为由文本句子中的第i个词到i h-1个词的长度,采用多个滤波器来进行学习。经过卷积层后,得到特征矩阵c表示为:
c=[c1,c2,...,cn-h 1]t;
其中,c∈rn-h 1。
在卷积操作后可以获得多个卷积结果,在此可使用最大池化(max-pooling)的方法,并按照
最后,通过全连接层将所有得到的局部最优特征连接到最后一层的输出结点,使得更加充分的考虑提取出来的所有特征,完成税务短文本情感分类任务,即获得税务短文本的情感分类结果。
现有的卷积神经网络算法一般只有一层卷积层和池化层,为了使得隐层的w值计算更精细,提高最优局部特征提取操作的精准性,本发明实施例中的卷积神经网络可以多增加一层或者多层的卷积层及池化层。例如,图4为卷积神经网络包括两层局部特征提取层时的结构示意图。
具体的,本发明实施例中的卷积神经网络可包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层,通过所述多个局部特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,其中每次局部特征提取操作包括一次卷积操作和一次池化操作,通过最后一次局部特征提取操作获得多个最优局部特征;然后再通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征,并通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
本发明实施例结合纳税服务咨询的税务短文本具有的稀疏性、不规范性、主题不明确性等特点,采用基于深度学习的卷积神经网络方法来解决税务领域短文本中的情感分类问题,首先对税务短文本进行预处理,利用word2vec模型训练税务短文本的词向量,获得至少一个词向量;然后基于至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的词向量的二维矩阵向量;最后通过卷积神经网络对二维矩阵向量进行处理,获得税务短文本的情感分类结果。通过对税务短文本信息进行情感分析,可以更好的理解纳税人的行为,发现纳税人对税务产品的倾向性、对热点政策、税收业务的关注程度等,增强智能应答机器人和自动语音识别系统的认知情感分析能力,有效提高人机对话人类情感拟合度,对提高纳税人满意度和遵从度、提升税务部门的管理效率和纳税人的获得感起到巨大的推动作用,很好地解决了现有技术税务领域的智能应答机器人和自动语音识别系统不能理解人类语言情感,缺乏智能交互能力,导致对纳税人提出的问题回答生硬、不友好,造成用户满意度不高的技术问题。
参照图5,基于同一发明构思,本发明实施例提供一种税务领域短文本的情感分类装置,包括:
训练模块501,用于对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
调整模块502,用于基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
分类模块503,用于通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
可选的,所述调整模块502具体用于:
基于所述至少一个词向量中每个词向量所带有的感情色彩,使用主观赋权法、客观赋权法或主客观综合集成赋权法确定每个词向量的权重系数。
可选的,所述调整模块502具体用于:
根据每个词向量在所述税务短文本中的出现位置、出现频率以及词语关系计算每个词向量的权重系数。
可选的,所述卷积神经网络包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层;所述分类模块503具体用于:
通过所述多个特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,通过最后一次局部特征提取操作获得多个最优局部特征;其中,每次局部特征提取操作包括一次卷积操作和一次池化操作;
通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征;
通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
本发明所述方法和装置基于同一发明构思,由于方法及装置解决问题的原理相似,以上各单元所执行操作的具体实现方式可以参照本发明实施例上述税务领域短文本的情感分类方法中对应的步骤,因此装置与方法的实施可以相互参见,重复之处不再赘述。
参照图6,基于同一发明构思,本发明实施例还提供一种税务领域短文本的情感分类设备,包括:
至少一个处理器601,以及
与所述至少一个处理器601通信连接的存储器602;
其中,所述存储器602存储有可被所述至少一个处理器601执行的指令,所述至少一个处理器601通过执行所述存储器602存储的指令执行本发明实施例所述的税务领域短文本的情感分类方法。
可选的,处理器601具体可以包括中央处理器601(centralprocessingunit,cpu)、特定应用集成电路(applicationspecificintegratedcircuit,asic),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(fieldprogrammablegatearray,fpga)开发的硬件电路,可以是基带处理器601。
可选的,处理器601可以包括至少一个处理核心。
可选的,存储器602可以包括只读存储器602(readonlymemory,rom)、随机存取存储器602(randomaccessmemory,ram)和磁盘存储器602。存储器602用于存储处理器601运行时所需的数据。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本发明实施例所述的税务领域短文本的情感分类方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
1.一种税务领域短文本的情感分类方法,其特征在于,包括:
对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
2.如权利要求1所述的方法,其特征在于,所述基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,包括:
基于所述至少一个词向量中每个词向量所带有的感情色彩,使用主观赋权法、客观赋权法或主客观综合集成赋权法确定每个词向量的权重系数。
3.如权利要求2所述的方法,其特征在于,所述基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,包括:
根据每个词向量在所述税务短文本中的出现位置、出现频率以及词语关系计算每个词向量的权重系数。
4.如权利要求1-3任一项所述的方法,其特征在于,所述卷积神经网络包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层;通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果,包括:
通过所述多个特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,通过最后一次局部特征提取操作获得多个最优局部特征;其中,每次局部特征提取操作包括一次卷积操作和一次池化操作;
通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征;
通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
5.一种税务领域短文本的情感分类装置,其特征在于,包括:
训练模块,用于对税务短文本进行预处理,利用word2vec模型训练所述税务短文本的词向量,获得至少一个词向量;
调整模块,用于基于所述至少一个词向量中每个词向量所带有的感情色彩,确定每个词向量的权重系数,并构建带有权重系数的所述词向量的二维矩阵向量;
分类模块,用于通过卷积神经网络对所述二维矩阵向量进行处理,获得所述税务短文本的情感分类结果。
6.如权利要求5所述的装置,其特征在于,所述调整模块具体用于:
基于所述至少一个词向量中每个词向量所带有的感情色彩,使用主观赋权法、客观赋权法或主客观综合集成赋权法确定每个词向量的权重系数。
7.如权利要求5所述的装置,其特征在于,所述调整模块具体用于:
根据每个词向量在所述税务短文本中的出现位置、出现频率以及词语关系计算每个词向量的权重系数。
8.如权利要求5-7任一项所述的装置,其特征在于,所述卷积神经网络包括多个局部特征提取层,每个局部特征提取层包括一个卷积层和一个池化层;所述分类模块具体用于:
通过所述多个特征提取层对所述二维矩阵向量中的词向量进行多次局部特征提取操作,通过最后一次局部特征提取操作获得多个最优局部特征;其中,每次局部特征提取操作包括一次卷积操作和一次池化操作;
通过卷积神经网络中的全连接层对所述多个最优局部特征进行处理,得到全局特征;
通过softmax分类器对所述全局特征进行处理,获得所述税务短文本的情感分类结果。
9.一种税务领域短文本的情感分类设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令执行权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行权利要求1-4中任一项所述的方法。
技术总结