本发明涉及自然语言处理领域,尤其涉及一种基于混合分类器的短文本情感细分类方法。
背景技术:
随着互联网技术的发展,越来越多的信息平台随之产生,包含了日常生活中的方方面面,如社会资讯、热点新闻、购物、娱乐等,人们根据爱好的不同在各种平台发布自己的感受,但是每个人对生活中的各种现象所表达的态度和意见也存在极大差异,这种差异蕴含着极大的商业价值和社会价值。因此,对这类文本进行情感分析具有十分重要的意义和应用价值。
近年来随着学术界对文本情感分析的不断重视,国内外的研究机构不断投入人力、物力对其进行研究,目前对文本的分类根据粒度的不同分为词语级、句子级、篇章级三种不同的级别。对文本情感类别的分类包含二分类(正向和负向),三分类(正向、中性以及负向),多分类(喜、怒、哀、乐等情感),使用的分类技术主要分为基于词典和规则的分类方法和基于机器学习的情感分类方法。使用基于情感词典的情感分类技术对情感词典的依赖性较强,情感词典的质量对最终情感类别的预测准确率起决定性作用,同时由于中文语义表达的多样且语境复杂,使得基于情感词典的情感分类方法对文本的分类效果不尽如意。相比之下,机器学习方法更适用于文本的情感分类。
基于机器学习的方法在对文本进行情感分类时需要将文本转化为机器学习可以识别的向量模型,再使用分类算法对带有标签的文本进行学习,当分类算法中的参数取得最优时,再使用分类算法对没有标签的文本进行分类。基于机器学习的学习模式主要有监督学习、半监督学习、无监督学习。监督学习需要大量的标注样本,这在实际的应用中造成大量人力成本的消耗。无监督学习虽然不需要对样本进行标注,但是它对初始参数的选取要求较高。半监督学习对标注样本的需求量没有那么大,同时相对于无监督学习,半监督学习往往会取得更高的分类准确率。
在实际应用中半监督学习虽然可以减少对标注训练集数量的需求,但是由于已标注的文本训练集数量较少,无法对单个的分类器训练出较高的准确率,这就导致分类器对未标注的样本的分类准确率低,对样本标以错误的情感标签,这些错误的标签会添加到训练集中,会对训练集造成噪声污染,对分类器的训练结果造成影响。因此在既能发挥半监督学习在少量标注训练集下的优势,又可以保证情感分类的正确率不低很重要。
技术实现要素:
针对上述现有技术的不足,本专利申请所要解决的技术问题是:如何提供一种分类效果好、标注训练集需求小的基于混合分类器的短文本情感细分类方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于混合分类器的短文本情感细分类方法,:采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括以下步骤:
s1:对文本进行预处理;
s2:将s1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
s3:将未标注的文本在s2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为cl、cs和cd;
s4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤s5,若不相同放弃当前文本情感类别预测值,并返回s3;
s5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值pl、ps和pd;
s6:根据分类器的性能确定最终置信度计算中的权重wl、ws和wd;
s7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入s8,若未超过,返回s2;
s8:将新的训练集返回s2进行新的训练;同时进行s9;
s9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
优选的,步骤s1中对文本进行预处理时,包括文本清洗和文本分词的操作。
优选的,步骤s3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
优选的,步骤s5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
优选的,分类器的性能为分类器的准确率。
优选的,对置信度进行计算式,采用如下公式:
cs=ps·ws pl·wl pd·wd
其中ws、wl、wd每个分类器在最终置信度中所占的权重。
有益效果
(1)本发明的一种基于混合分类器的短文本情感细分类方法,采用半监督学习,相对于监督学习来说,对标注训练集的需求量没有那么大,与无监督学习相比,对初始参数的选取没有那么高的要求。
(2)本发明的一种基于混合分类器的短文本情感细分类方法,采用支持向量机、长短记忆网络和基于词典的分类方法组合而成的混合分类器,对未标注的样本进行选优,提高训练集的质量,降低噪声的引入。
附图说明:
图1为本发明公开的基于混合分类器的短文本情感细分类方法的流程以及权值调节图。
图2为根据训练语料在总语料中占比不同的准确率变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于混合分类器的短文本情感细分类方法,采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括一下步骤:
s1:对文本进行预处理;
s2:将s1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
s3:将未标注的文本在s2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为cl、cs和cd;
s4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤s5,若不相同放弃当前文本情感类别预测值,并返回s3;
s5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值pl、ps和pd;
s6:根据分类器的性能确定最终置信度计算中的权重wl、ws和wd;
s7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入s8,若未超过,返回s2;
s8:将新的训练集返回s2进行新的训练;同时进行s9;
s9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
本实施例中,步骤s1中对文本进行预处理时,包括文本清洗和文本分词的操作。
本实施例中,步骤s3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
本实施例中,步骤s5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
本实施例中,分类器的性能为分类器的准确率。
本实施例中,对置信度进行计算式,采用如下公式:
cs=ps·ws pl·wl pd·wd
其中ws、wl、wd每个分类器在最终置信度中所占的权重。
具体的,由于训练阶段的不同,新的训练集规模不同,对分类器的训练结果不同,根据训练样本集占总语料的不同百分比,将权重分为不同等级,分别为30%、40%、50%、60%、70%、80%、90%,利用该等级训练集训练出的各分类器对测试集进行情感分类预测,将得到的各分类器的准确率作为其情感贡献权重值进行进一步的训练。
如图2所示,可知混合分类器的分类效率比单分类器的分类效果高,主要原因是混合分类器的预测结果是对三个分类器的预测结果选优,这会使得分类的准确率较高,减少训练时训练集中的噪声的混入,提高训练集的质量,进而提升分类器的预测准确率。通过实验,也可知混合分类器对短文本进行训练时,对标注文本的需求量明显比监督学习少,主要原因是半监督学习在训练的过程中不断的对训练集进行扩充,并且继续使用扩充的训练集进行训练。这样就保证了分类器的训练样本的最终的规模是可以的。该方法充分利用了标注样本,也有效地降低噪音,从而提高分类的效果。
有益效果
(1)本发明的一种基于混合分类器的短文本情感细分类方法,采用半监督学习,相对于监督学习来说,对标注训练集的需求量没有那么大,与无监督学习相比,对初始参数的选取没有那么高的要求。
(2)本发明的一种基于混合分类器的短文本情感细分类方法,采用支持向量机、长短记忆网络和基于词典的分类方法组合而成的混合分类器,对未标注的样本进行选优,提高训练集的质量,降低噪声的引入。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
1.一种基于混合分类器的短文本情感细分类方法,其特征在于:主要包括以下步骤:采用长短记忆网络分类器、支持向量机分类器和基于词典的分类方法形成混合分类器,达到使用少量训练样本对混合分类器进行训练,并通过不断迭代循环,寻找分类效果最好的分类器进行分类,具体包括一下步骤:
s1:对文本进行预处理;
s2:将s1中预处理后的带有标签的样本分别对长短记忆网络分类器、支持向量机分类器进行训练;
s3:将未标注的文本在s2中训练好的两种分类器和基于情感词典的方法进行感情类别预测,输出结果为cl、cs和cd;
s4:判断三个分类器的预测结果,若相同,则确定当前情感类别的预测值,并进入步骤s5,若不相同放弃当前文本情感类别预测值,并返回s3;
s5:确定文本的情感类别后,根据分类器的不同效果,确定每个分类器的最终置信度贡献值pl、ps和pd;
s6:根据分类器的性能确定最终置信度计算中的权重wl、ws和wd;
s7:根据文本置信度的计算公式计算出文本的置信度,判断置信度是否超过设置阈值,若超过,将文本打上相应情感类别的标签,将打好标签的文本添加到训练集中,形成新的训练集并进入s8,若未超过,返回s2;
s8:将新的训练集返回s2进行新的训练;同时进行s9;
s9:判断新的训练集在总语料中的不同占比,寻找分类效果最好的混合分类器,并利用该分类器对短文本进行最终分类。
2.根据权利要求1所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤s1中对文本进行预处理时,包括文本清洗和文本分词的操作。
3.根据权利要求2所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤s3中,进行长短记忆网络分类器、支持向量机分类器和基于词典的分类方法预测前,需要对每个分类器的正常情感预测结果分类进行统计,并进行对比。
4.根据权利要求3所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤s5中,在进行贡献值确定时,分类器的不同效果体现在预测结果中属于该分类器的次数多则提升对应的贡献值,反之亦然。
5.根据权利要求4所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤s6中,分类器的性能为分类器的准确率。
6.根据权利要求5所述的一种基于混合分类器的短文本情感细分类方法,其特征在于,步骤s7中,对置信度进行计算式,采用如下公式:
cs=ps·ws pl·wl pd·wd
其中ws、wl、wd每个分类器在最终置信度中所占的权重。
技术总结