一种基于产品评论观点挖掘的销量预测方法与流程

专利2022-06-29  56


本发明属于自然语言处理技术领域,具体涉及一种基于产品评论观点挖掘的销量预测方法。



背景技术:

随着电子商务的迅猛发展,消费者的行为模式发生了巨大变化,网络购物成为热潮。与传统购物相比,网络购物具有多样性、购物成本低、不受时间和空间限制等特点,给人们带来极大的便利,网络购物已逐渐成为人们的一种消费习惯,越来越多的消费者喜欢在电商网站(如京东、淘宝、亚马逊等)购买产品,再以在线评论的方式作出购物评价,这些在线评论代表了他们对产品的情感极性,主要包含对产品不同属性的观点、满意度和意见等有价值的信息。商家通过在线评论了解消费者的真正需求、完善产品、改进服务、调整销售策略,提高产品的销量;而消费者通过评论获取产品的口碑,做出购买决策。

据统计大多数消费者在购买产品时,除了关注产品自身属性外,还会浏览产品在线评论。产品评论同商家发布的产品信息相比而言,具有更明显的可信性和说服力,是消费者网络购物的主要参考信息源,直接影响其购物意愿和决策,进而影响产品的销量。因此针对不同的产品属性挖掘产品评论的情感因素,才能更加接近消费者真实的情感表达,分析产品的哪些属性会对产品销量产生影响,从而提高销量预测能力和准确性,为商家决策提供应用借鉴。

1、观点挖掘现状

观点挖掘又称情感分析,是对文本信息的主题、主观性、情绪态度等情感信息的挖掘和分析,进而识别出主观性文本的情感趋向。研究对象主要是web上的文本,尤其是用户发布的评论文本。按照分析文本的粒度大小,可以将观点挖掘分为篇章级、句子级和方面级三类。按照分析文本的类别,主要分为基于产品评论和基于新闻评论的观点挖掘。观点挖掘的方法主要涉及三种:

(1)基于情感词典:基于情感知识构建情感词典并将其作为工具是判断主观性文本情感极性的传统方法。根据经验将广泛使用的情感词进行归纳整理,将需要处理的文本和情感词典中的词进行匹配,统计正面和负面情感词出现的次数,以此进行文本情感极性判断。该方法主要依赖于情感词典的构建,具有一定的局限性,无法涵盖出现的新词,使得文本情感判断准确率较低。

(2)基于机器学习:人工提取文本特征后由计算机根据某种机器学习算法对文本进行处理输出情感分类。常用的机器学习方法有朴素贝叶斯nb、支持向量机svm和最大熵模型。机器学习方法主要是解决好文本的表示、特征的选择和分类器,需要人工标记文本特征,工作量较大,此外该方法无法学习到深层的语义,通常是浅层学习。

(3)基于深度学习:深度学习可以通过构建神经网络模型对文本进行分析、自动提取特征且自动学习优化模型输出,减少了人工提取特征的工作,并且神经网络可以学习到上下文的语义信息,提高了情感分类的准确性。常用的网络模型有卷积神经网络cnn、长短期记忆网络lstm、门控制单元gru,及其变体。

2、销量预测现状

从研究变量的选择看,销量预测的输入可分为结构化数据和非结构化数据两方面。结构化数据有历史销量、评论星级、初次评论数量、好评率、评论长度等作为回归模型的输入来预测销量。非结构化数据为初次评论文本,通过观点挖掘将文本数值化,融合结构化数据来预测销量,常用销量预测模型有aram模型、svm、lstm等。以往学者的研究主要集中在初次评论上,鲜有学者考虑追加评论。初次评论发表时可能消费者并未深入使用过产品,仅仅因为产品外观、包装等外在因素给予好评,忽略了产品的内在质量,而对追加评论而言,用户亲身体验过产品,更加客观的反映用户的真实感受,并且追加评论中往往会出现初次评论中没有出现过的产品属性,是对初次评论的有效补充和修正,能带来更全面、更有用、更可靠的信息,更能反映当下的热点问题,对消费者购买决策的影响也更深远,进而更能影响产品的销量。

本发明在初次评论的基础上引入了追加评论,通过对初次评论和追加评论进行方面级观点挖掘,多维度分析产品并对不同属性进行情感分析,进而将评论文本量化得到产品不同属性的评分,将评分值结合历史销量预测产品未来销量。



技术实现要素:

本发明的目的在于提出一种基于产品评论观点挖掘的销量预测方法,对产品的初次评论和追加评论进行方面级观点挖掘,提取出产品的属性及对应的评价信息,通过情感分类模型分析出消费者对产品各个属性的情感极性,进而对评论文本进行情感分类和量化,将量化值结合前期的历史销量融入到销量预测模型中预测产品销量,提高预测能力和准确性。

本发明采用的技术方案为一种基于产品评论观点挖掘的销量预测方法,主要包括以下几个步骤:

步骤(1)数据采集:在电商网站如淘宝、京东上爬取产品评论,包括初次评论和追加评论。

步骤(2)数据预处理:首先,对采集的评论剔除重复和过短评论;其次,加载初次评论和追加评论到分词工具包,使用分词工具对文本分词;然后,加载停用词表去除停用词;最后,用处理后的分词语料库训练词向量,将文本转成向量表示。

步骤(3)提取产品属性观点对:在评论文本转成向量表示后,利用序列标注模型抽取每条初次评论和追加评论的产品属性及对应的情感强度和情感词,表达成三元组形式(产品属性,情感词,程度副词),并构建产品属性观点共现矩阵。

步骤(4)对提取的产品属性聚类:不同消费者对同一个产品属性会有不同的表达方式,因此需要对步骤(3)中提取的产品属性进行同义词聚类,选取同义词中的一个属性作为被评价的产品属性即可。

步骤(5)产品属性的情感极性判别:将转成向量的文本输入到情感分类模型中识别出初次评论和追加评论中每个产品属性的情感极性,情感极性分为正向、中立、负向三类,分别用1,0,-1表示,模型预测结果存储为二元组形式(产品属性,情感极性),其中产品属性就是步骤(4)中提取的产品属性。

步骤(6)计算产品属性评分值:根据步骤(5)中识别出的产品属性情感极性计算产品属性的情感值,再通过产品属性的情感值计算产品属性的评分值。产品属性情感值的取值范围为[-1,1],产品属性评分值的取值范围为[1,5],为了对应产品属性评分值的取值范围,可通过映射函数y=2x 3将产品属性情感值x转化为产品属性评分值y。

步骤(7)计算产品总评分值:获取步骤(3)中的共现矩阵中产品各个属性出现的次数,根据次数计算产品属性的权重,将产品属性的权重和步骤(6)中计算的产品属性评分值线性相加得到产品总体评分值。

步骤(8)销量预测:根据步骤(1)到步骤(7)的操作,将初次评论计算出的产品总评分值、追加评论计算出的产品总评分值结合前期的历史销量作为销量预测模型的输入,训练销量预测模型,预测未来销量。

以往的研究主要针对初次评论,初次评论发表时可能消费者并未深入使用过产品,忽略了产品的内在质量,而追加评论是用户亲身体验过产品后发表的意见,更客观的反映用户的真实感受,并且追加评论中往往会出现初次评论中没有出现过的产品属性,是对初次评论的有效补充和修正,能带来更全面、更有用、更可靠的信息,更能反映当下的热点问题,也更能影响潜在消费者的购买决策,进而更能影响产品的销量。本发明在初次评论的基础上引入了追加评论,通过对初次评论和追加评论进行细粒度的方面级观点挖掘,将评论文本量化得到产品不同属性的评分,将评分值结合历史销量预测产品未来销量,提高销量预测的准确性。

附图说明

图1是本发明所提供的整体流程图;

图2是本发明中产品属性观点对抽取模型;

图3是本发明中的bilstm-crf模型结构图;

图4是本发明词序列标注样例;

图5是本发明设计的产品属性观点对的共现矩阵的样例图;

图6是本发明设计的程度副词表样例图。

具体实施方式

结合说明书附图对发明的实施步骤进行详细描述。一种基于产品评论观点挖掘的销量预测方法,包括以下步骤:

s1、数据采集和清洗:在淘宝、京东等电商网站上爬取产品评论,包括初次评论和追加评论,并删除重复和过短评论,评论越长对商品的介绍就会越完善,包含产品属性也就越多,其他用户购买时能用的信息量就会越大,购买决策就会越清晰准确。

s2、分句:对清洗后的初次评论和追加评论按照逗号,分号,句号等标点符号分割成多个短句,通常每个短句只包含产品的一个属性,有利于步骤s6中统计产品属性和观点词的共现次数,及步骤s8产品属性情感极性的判别。假设某条评论的格式为:"sen1,sen2,sen3",则按标点符号分成多个短句的结果为:[sen1,sen2,sen3]

s3、分词:使用jieba分词工具对评论中的每个短句分词,针对步骤s2中的例子,分词后的结果为:[[w1,w2,w3],[w1,w2],[w1,w2,w3,w4]]]。

s4、去除停用词:中文文本的词语一般分为实词和虚词。实词是有实际意义的词,而虚词是指那些“了,的,和,是”等没有实际含义的词,虚词在观点挖掘中不起作用,可能还会产生噪音,因此要过滤掉这些虚词,可根据现有的停用词表如哈工大停用词表、百度停用词表删除分词后的短句中的停用词(虚词)。

s5、生成词向量:将s4中处理后的文本转成数值型,通过谷歌的word2vec工具转成词向量表示。词向量保留了词语的语义信息,便于s7、s8的处理。

s6、提取产品属性观点对:产品属性分为显式属性和隐式属性。显式属性即在评论中直接指明观点所对应的产品属性,如“手机像素很好”中“像素”便是显式属性,“很”是程度副词,“好”是观点词。隐式属性指评论中没有指出描述的是产品的哪个属性,但通过某些观点词或者语义可推断出产品属性,如“手机很贵”中描述的是隐式属性“价格”,但“价格”一词并未在该评论中出现。

本发明中产品属性观点对提取包括两方面:

(1)显式属性观点对的提取:可将其看成是序列标注问题,标注集采用bio模式。评论中的每个词对应一个标签,共有7个标签,b-feature表示产品属性的首词,i-feature表示产品属性的首词之后的词,b-degree表示程度词的首词,i-degree表示程度词的首词之后的词,b-opinion表示观点词的首词,i-opinion表示观点词的首词之后的词,o表示其他词。评论标注样例如图4所示。序列标注模型可采用bilstm_crf模型,用crf代替bilstm模型的softmax层,这种方法使得模型的训练成为一个端到端的过程,不依赖于特征工程,bilstm可以学习到上下文的语义信息,crf考虑了标签之间的依赖关系,使得当前标签的输出不仅依赖于当前的输入,还考虑了上一时刻的输出标签,解决了标签偏置问题,因此用步骤s5得到的文本向量作为输入可以达到不错的效果。

bilstm-crf模型结构如图3所示。

(2)隐式属性观点对的提取:对提取出的显式属性和观点词构建属性观点共现矩阵,矩阵的行表示产品属性,列表示观点词,矩阵中的值表示产品属性和观点词的共现次数,共现矩阵的样例图如图5所示。提取出该评论中的观点词s,利用改进的tf-idf算法计算产品属性观点共现矩阵中显式属性f和该观点词s的搭配权重,选取最大的搭配权重对应的属性f作为该评论中观点词s对应的隐式属性,并将该隐式属性和观点词加入到共现矩阵中,便于后续隐式属性的提取。提取出的产品属性观点对存储为三元组形式(产品属性,情感词,程度副词)。改进的tf-idf的计算公式如下:

其中:f是共现矩阵中产品属性,s是观点词,a是共现矩阵中产品所有属性,w(f,s)为产品属性f和观点词s的搭配权重,freq(f,s)是产品某属性f和观点词s的共现次数,freq(a,s)是观点词s和产品各个属性的共现次数,n(a)为共现矩阵中的产品属性的个数,n(a,s)是和观点词s共现的产品属性的个数。

s7、产品属性聚类:不同的消费者对同一产品属性的表达方式可能不一样,如“外观、外表”都表达同一属性,都可以用“外观”一词表示。通过计算语义相似度来实现s6中的同义词聚类,选取其中一个产品属性来替换其他同义词,s6中的产品属性观点共现矩阵中的产品属性也要相应的改变。相似度的计算公式如下:

其中:a和b为两个词的词向量,n表示词向量的维度

s8、产品属性的情感极性判别:把每条初次评论和追加评论经过分词后的短句转成向量后输入到情感分类模型中,判断该短句情感极性。本方法中情感类别分为正向,中立,负向三类,分别用1,0,-1表示,每个短句的预测结果存储为二元组形式(产品属性,情感极性),其中产品属性就是s6中抽取的产品属性。

s9、计算产品的评分值:分别根据初次评论和追加评论计算产品的评分值,分别用first_score(product)和second_score(product)表示。s9包括两部分:

(1)计算产品属性的评分值:根据s8得到的产品属性的情感极性计算产品属性的评分值,产品属性的情感值的取值范围为[-1,1],为了对应产品属性评分值的取值范围[1,5],可通过映射函数y=2x 3将产品属性的情感值x转化为产品属性的评分值y。产品属性的评分公式如下:

其中:socre(f)是产品属性f的评分值,s(fi)为每条评论中产品属性f的情感极性,w(adv)为程度副词的权重,程度副词的权重样例图如图6所示,n(f)为产品属性f的个数,通过s6中的共现矩阵得到。

(2)计算产品总体评分值:根据s6的共现矩阵统计产品每个属性出现的次数,通过公式4计算每个属性的权重;通过公式5根据产品属性权重和公式3得到的产品属性的评分值,计算产品总体评分值。

其中:n(f)是产品属性f在初次评论或追加评论中出现的总次数,是初次评论或追加评论中所有产品属性的总次数,m是产品属性的种类数。

其中:w(fi)是产品属性f在初次评论或追加评论中的权重,score(fi)是产品属性f在初次评论或追加评论中的评分值,m是初次评论或追加评论的总条数。

s10、销量预测:以月为周期按照上述s1到s9的流程,计算每个月的初次评论的产品评分和追加评论的产品评分,并结合前期的月销量,作为销量预测模型的输入特征,预测商家下个月的销量,其中销量预测回归模型的表达式如下:

其中:sale(product)表示下个月的销量,fi表示初次评论的产品评分,si表示追加评论的产品评分,qi表示历史月销量,t表示取前t个月的数据,βi、qi分别为为fi、si、qi的系数,u表示常数。


技术特征:

1.一种基于产品评论观点挖掘的销量预测方法,其特征在于:该方法包括以下几个步骤:

步骤(1)数据采集:在电商网站上爬取产品评论,包括初次评论和追加评论;

步骤(2)数据预处理:首先,对采集的评论剔除重复和过短评论;其次,加载初次评论和追加评论到分词工具包,使用分词工具对文本分词;然后,加载停用词表去除停用词;最后,用处理后的分词语料库训练词向量,将文本转成向量表示;

步骤(3)提取产品属性观点对:在评论文本转成向量表示后,利用序列标注模型抽取每条初次评论和追加评论的产品属性及对应的情感强度和情感词,表达成三元组形式,并构建产品属性观点共现矩阵;

步骤(4)对提取的产品属性聚类:不同消费者对同一个产品属性会有不同的表达方式,因此需要对步骤(3)中提取的产品属性进行同义词聚类,选取同义词中的一个属性作为被评价的产品属性即可;

步骤(5)产品属性的情感极性判别:将转成向量的文本输入到情感分类模型中识别出初次评论和追加评论中每个产品属性的情感极性,情感极性分为正向、中立、负向三类,分别用1,0,-1表示,模型预测结果存储为二元组形式,其中产品属性就是步骤(4)中提取的产品属性;

步骤(6)计算产品属性评分值:根据步骤(5)中识别出的产品属性情感极性计算产品属性的情感值,再通过产品属性的情感值计算产品属性的评分值;产品属性情感值的取值范围为[-1,1],产品属性评分值的取值范围为[1,5],为了对应产品属性评分值的取值范围,可通过映射函数y=2x 3将产品属性情感值x转化为产品属性评分值y;

步骤(7)计算产品总评分值:获取步骤(3)中的共现矩阵中产品各个属性出现的次数,根据次数计算产品属性的权重,将产品属性的权重和步骤(6)中计算的产品属性评分值线性相加得到产品总体评分值;

步骤(8)销量预测:根据步骤(1)到步骤(7)的操作,将初次评论计算出的产品总评分值、追加评论计算出的产品总评分值结合前期的历史销量作为销量预测模型的输入,训练销量预测模型,预测未来销量。

2.根据权利要求1所述的一种基于产品评论观点挖掘的销量预测方法,其特征在于:三元组形式包括产品属性、情感词、程度副词。

3.根据权利要求1所述的一种基于产品评论观点挖掘的销量预测方法,其特征在于:二元组形式包括产品属性、情感极性。

技术总结
本发明公开了一种基于产品评论观点挖掘的销量预测方法,本发明对产品的初次评论和追加评论进行方面级观点挖掘,提取出产品的属性及对应的评价信息,通过情感分类模型分析出消费者对产品各个属性的情感极性,进而对评论文本进行情感分类和量化,将量化值结合前期的历史销量融入到销量预测模型中预测产品销量,提高预测能力和准确性。本发明在初次评论的基础上引入了追加评论,通过对初次评论和追加评论进行方面级观点挖掘,多维度分析产品并对不同属性进行情感分析,进而将评论文本量化得到产品不同属性的评分,将评分值结合历史销量预测产品未来销量,提高销量预测的准确性。

技术研发人员:张涛;刘华培
受保护的技术使用者:北京工业大学
技术研发日:2020.01.08
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-50549.html

最新回复(0)