本发明属于情感分析领域,涉及一种基于多模型融合的社交媒体语料情感分析方法。
背景技术:
近年来,大量的社交平台和软件涌现出来,如微博、微信、qq等,这些社交平台极大地丰富了人们的生活。越来越多的人积极地与他人分享信息,在社交平台上表达他们的观点和感受,所以每个社交平台慢慢地就会出现大量的语料信息如:图像、文本、视频等。人们分析隐藏在这些信息中的情感可以有益于在线营销、危机公关、监控公众意见、违法行为和发现潜在抑郁症等轻生迹象等。情感分析是平台社交信息的一个趋势,即根据对用户的语料信息进行分类,可分为积极、消极和中性,三种情感倾向。在此之前,有各种方法对于图像或者文本的单一识别分析已经取得了很多成果。但是,单一特征的情感分析有很多局限性,例如用户量比较大的微博,facebook,twitter等社交平台,都支持图文同时发布的方法,而现今大部分方法不能全面分析用户在社交平台上发布多种语料而造成判断失误。对于社交平台的多种语料信息,提高情感分析的准确性和全面性,有待于提高。
本发明基于多模型融合的社交媒体语料情感分析方法,避免单一的特征对于情感分析的不足,针对图像和文本进行结合分析情感,从而更加准确、适用范围更广。通过双重语料对于社区媒体的信息进行语义分析,提高了情感分析的准确性和全面性。
技术实现要素:
本发明的目的在于提出一种基于多模型融合的社交媒体语料情感分析方法。实验相关数据使用pyspide爬虫框架从社交媒体获取,并对爬虫获取的数据集进行处理,将数据集拆分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,本发明着重处理文本图像信息均包含情况,其他两种情况的语料可作为本发明鲁棒性的验证。首先,对于语料中的信息进行识别,识别出的语料信息可分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,不管语料信息是上述三类中的那一种,都以包含图文信息的语料进行处理,这样做的好处是不管用户语料是哪种情况都能够合理的进行情感分析,保证模型的鲁棒性。首先,对语料中的文本信息,使用so-pmi算法(情感倾向点互信息算法)构建情感词典,分析语料的积极性、中性和消极性,但是so-pmi算法不能够灵活使用中文单词和短语,所以使用相似距离在单词之间替换并构建新的情感词典。其次,对于图像(包含图片和视频的集合),使用视觉文本联合建模算法对图像进行含义的解析,从而得出图像的情感倾向。最后,使用文本语料分析结果和图像语料分析得出的结果,进行加权融合的到最后的情感分析结果。
为了实现上述目的,本发明采用的技术方案为一种基于多模型融合的社交媒体语料情感分析方法,该方法共包含以下步骤:
步骤1数据预处理:
使用的数据是从新浪微博等社交平台通过爬虫获取,并过滤广告等无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,为提高后期模型训练的难度,所以使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片。
步骤2对文本语料进行so-pmi模型训练:
对步骤(1)中得到的文本进行词语的情感标记,同样分为积极、消极、中性三类。用于模型训练的文本数据占总数据的70%,测试验证数据占30%。首先,对已经分词且过滤停用词的数据,使用70%的处理过的情感词汇用于word2vec工具,得到一个扩展的情感词典。基于语义定位的点互信息算法(so-pmi),利用词与词之间的距离以及情感词典来判断它们属于哪一类。之后考虑否定词,程度副词,感叹词,修辞句和情感图表的影响,权衡所有因素,计算出文本内容的情感倾向得到分类结果。
步骤3对图片数据进行cnn lstm模型训练:
在图片数据集的基础上,增加对图片的情感描述文本,利用这两个模态的数据提供更高精度的细粒度分类卷积做图像分类,cnn lstm做文本分类,两个分类结果合起来得到组后图像的情感含义解释。图像文本方面分类使用的是cnn模型,cnn模型由卷积层和全连接层构成;对于文本方面,采用深度结构化的联合嵌入方法,联合嵌入图像和细粒度的视觉描述。该方法学习了图像与文本的兼容函数,看作是多模态结构拼接嵌入的扩展。不使用双线性相容函数,而是使用深层神经编码器生成的有限元内积,最大限度地提高描述与匹配图像之间的相容性,同时最小化与其他类图像的相容性。给定数据d=(vn,tn,yn),n=1,…,n,其中v∈v表示视觉信息,t∈t表示文本类型,y∈y表示类标签,然后通过最小化经验风险来学习图像和文本分类器函数fv:v→y和ft:t→y其中
fv(v)=argmaxyet~t(y)[f(v,t)],yεy(1.1)
ft(t)=argmaxyev~t(y)[f(v,t)],yεy(1.2)
f(v,t)=θ(v)tφ(t)(1.3)
步骤4多模型融合:
通过步骤2、3步骤可以得到两种文本最后的文本情感的分类结果,然后通过加权的方式处理两部分判断最后的分类结果。最后的分类结果y=am bn,其中m为纯文本判定的类别距离相似度,n为图像所得文本判定的类别距离相似度,然后根据matlb工具的geneticalgorithm遗传学算法求解得到阈值a和b。
步骤5最终情感分析结果:
经过步骤4可以得到y=am bn中a和b的值,输入文本类别相似度和图像文本相似度,输出图文分类值y,其值为1,-1以及0,且1为积极,-1为消极,0为中性分类结果。
与现有技术相比较,本发明的技术优势主要体现在:
(1)本发明利用跨媒体的方法进行语料处理,首先,对于语料中的文本信息,使用so-pmi算法构建情感词典,分析逐点互信息积极性、中性和消极性的。但是这种方法不能灵活使用了汉语单词和短语。所以使用相似距离在单词之间替换pmi并构建新的公式。
(2)其次,对于图像或者视频的语料(视频可以看作是图像的集合),利用视觉文本联合建模方法去得到、解析图像的含义,从得出对于图像或者视频的含义。
(3)最后,利用纯文本的分析结果和视觉得出的分析结果,进行加权融合得到最后的情感分析的结果。
附图说明
图1是本发明使用语料样例图。
图2是基于多模型融合的社交媒体语料情感分析的总结构图。
图3是本发明中分词完成后的结果图。
图4是停用词表图。
图5是步骤1经处理得到的样例图。
图6是so-pmi模型训练过程图。
图7是本发明训练cnn lstm模型的子图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
本发明采用的技术方案为一种基于多模型融合的社交媒体语料情感分析方法,该发明的具体分析过程如下
(1)中文分词
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,按照中文理解方法,将其划分为单个的词语,在实施过程中可以使用jieba分词工具对文本进行分词,分词完的句子如图2所示,可以看到这个句子被分割成了单个的词语。
(2)去停用词
在一段或一句正常的中文文本中通常会包含逗号、句号、分号等特殊符号。在分词完成后,这些标点符号就不需要继续存在。其次句子中包含了一些对句子重要度影响很小的词语,如的、不仅、而且、了等词语,在后续步骤中不需要使用,因此在预处理对其进行删除处理。
(3)构建词向量
经过(1)(2)两步处理过的大量数据,通过word2vec工具提取词向量,降低数据维度且获得扩展的数据词典。
(4)训练so-pmi模型
经过(1)、(2)、(3)步的处理文本数据信息获得扩展的情感词典,然后通过so-pmi算法通过词与词之间的距离来确定属于哪一类,构建so-pmi模型。
(5)图像归一化处理
经过爬虫获取的图像数据具有大小不一致的特性,这样的数据处理起来较为复杂,所以根据所选算法进行大小的归一化,把大小处理为256像素*256像素大小的图片。
(6)训练cnn lstm模型
经(5)处理的过的图像数据(标注过的数据),来训练cnn lstm模型。
(7)多模型融合
经(4)、(6)训练获得so-pmi模型和cnn lstm模型,图文数据输入会得到两个处理结果,经加权的方式处理两部分判断最后的分类结果,通过使用多模型融合的社交媒体语料情感分析方法实验,验证了该方法的有效性和准确性。相对于单模型和只进行文本情感分析时的准确率有明显提升,结果表明对微博情感分析时,本发明的提出的方法准确率更高。
1.一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:该方法共包含以下步骤,
步骤1数据预处理:
使用的数据是从社交平台通过爬虫获取,并过滤广告无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片;
步骤2对文本语料进行so-pmi模型训练:
对步骤(1)中得到的文本进行词语的情感标记,同样分为积极、消极、中性三类;用于模型训练的文本数据占总数据的70%,测试验证数据占30%;首先,对已经分词且过滤停用词的数据,使用70%的处理过的情感词汇用于word2vec工具,得到一个扩展的情感词典;基于语义定位的点互信息算法so-pmi,利用词与词之间的距离以及情感词典来判断它们属于哪一类;之后考虑否定词,程度副词,感叹词,修辞句和情感图表的影响,权衡所有因素,计算出文本内容的情感倾向得到分类结果;
步骤3对图片数据进行cnn lstm模型训练:
在图片数据集的基础上,增加对图片的情感描述文本,利用这两个模态的数据提供更高精度的细粒度分类卷积做图像分类,cnn lstm做文本分类,两个分类结果合起来得到组后图像的情感含义解释;图像文本方面分类使用的是cnn模型,cnn模型由卷积层和全连接层构成;对于文本方面,采用深度结构化的联合嵌入方法,联合嵌入图像和细粒度的视觉描述;该方法学习了图像与文本的兼容函数,看作是多模态结构拼接嵌入的扩展;不使用双线性相容函数,而是使用深层神经编码器生成的有限元内积,最大限度地提高描述与匹配图像之间的相容性,同时最小化与其他类图像的相容性;
步骤4多模型融合:
通过步骤2、3步骤可以得到两种文本最后的文本情感的分类结果,然后通过加权的方式处理两部分判断最后的分类结果;最后的分类结果y=am bn,其中m为纯文本判定的类别距离相似度,n为图像所得文本判定的类别距离相似度,然后根据matlb工具的geneticalgorithm遗传学算法求解得到阈值a和b;
步骤5最终情感分析结果:
经过步骤4得到y=am bn中a和b的值,输入文本类别相似度和图像文本相似度,输出图文分类值y,其值为1,-1以及0,且1为积极,-1为消极,0为中性分类结果。
2.根据权利要求1所述的一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:
给定数据d=(vn,tn,yn),n=1,…,n,其中v∈v表示视觉信息,t∈t表示文本类型,y∈y表示类标签,然后通过最小化经验风险来学习图像和文本分类器函数fυ:v→y和ft:v→y其中
fv(v)=argmaxyet~t(y)[f(v,t)],yεy(1.1)
ft(t)=argmaxyev~t(y)[f(v,t)],yεy(1.2)
f(v,t)=θ(v)tφ(t)(1.3)。
技术总结