一种基于文本相似度的舆情话题跟踪方法与流程

专利2022-06-30  61


本发明属于自然语言处理中话题追踪领域,尤其涉及一种基于文本相似度的话题跟踪方法的研究创新。



背景技术:

话题跟踪是指给出某话题的一条或多条报道,把输入进来的相关报道和该话题联系起来。根据跟踪需求可以把步骤分成以下两步:首先给出一组样本报道,通过模型训练得到话题模型,然后在后续的报道中找出相似或者同样的话题报道,话题跟踪(topictracking)可以把分散且多变的话题汇集并组织起来,帮助用户发现话题间的关系,从整体上了解舆情话题的各个方面的信息以及话题与话题之间的联系。随着相关技术的发展和进步,话题跟踪研究目标和处理对象已不仅限于媒体信息流,而是越来越广泛地应用于与信息相关的各个领域。本发明以文本相似度计算方式对舆情话题进行跟踪,而目前在文本相似度方面,有两种主流的文本相似度计算的方式,基于字符串方式和基于语料库方式。

1基于字符串

基于字符串的方式是从字符串匹配度出发,以字符串共现和重复程度为相似度的标准来衡量,根据计算粒度的不同又可将该方式分为基于字符方式和基于词方式;当前单纯从字符或者词组成的角度考虑的相似性算法有编辑距离、汉明距离、dice系数、余弦相似度等方式计算文本相似度,在此基础上加入字符顺序的方法有jaro-winkler以及最长公共字串方式;基于上述两种方式又采用了一种集合思想也就是将字符串看成有词语构成的集合,词语共现采用集合的交集来计算,当前主要方法n-gram和jaccard等方法。

2基于语料库

基于语料库的方法使用从语料库中获取的信息计算文本相似度,而基于语料库的方法又可以分为:基于词袋模型、基于神经网络模型,且两种方法是以待比较相似度的文档集合作为语料库。

1)基于词袋模型

词袋模型是建立在分布假说的基础上,也就是词语所处的上下文语境相似,则语义相似,词袋模型的基本思想是不考虑词语在文档中出现的顺序,把文档表示成一系列词语的组合。根据语义的不同,基于词袋模型的方法当前主要包括向量空间模型(vectorspacemodel,vsm)、概率潜在语义分析(probabilisticlatentsemanticanalysis,plsa)、潜在语义分析(latentsemanticanalysis,lsa)以及潜在狄利克雷分布(latentdirichletallocation,lda)等主流模型方式。

2)基于神经网络模型

基于神经网络模型生成词向量来计算文本相似度是近年来该领域研究的热门领域,在这个过程中提出很多如word2vec和glove等词向量模型。词向量的本质是从没有标记的非结构文本中训练出一种低维实数向量,这样的表达方式使得类似的词语在距离上更为接近,同时也能更好的解决词袋模型由于词语独立带来的维数灾难和语义不足的问题。

3doc2vec算法

doc2vec模型算法由谷歌2014年基于word2vec模型演化而来,是一种非监督算法模型,其本质是要学出文档的一个表示,可以获得句子/段落/者文档的向量表达,是word2vec的拓展,根据学习出来的向量可以通过计算距离来找句子/段落/文档之间的相似度,可以用于无标签的文本聚类,对于有标签的数据也可以使用监督学习的方式进行文本分类,在训练的过程中相比于word2vec模型增加了paragraphid,即训练语料中每一个句子都有唯一的id,且paragraphid和普通的word一样,先是映射成一个向量也就是paragraphvector与wordvector的维数虽然是一样的,但是来自两个不同的向量空间。在之后的计算里,paragraphvector与wordvector累加或者连接起来,作为输出层softmax的输入。在一个句子或者文档的训练过程中,paragraphid保持不变,共享同一个paragraphvector,相当于每次在预测单词的概率时,都利用了整个句子的语义。doc2vec模型框架如附图1所示,其任务就是给定上下文,预测上下文的其他词。其中,每个单词都被映射到向量空间中,将上下文的词向量级联或者求和作为特征,预测句子中的下一个单词,其目标函数如公式(1.1),而预测的任务是一个多分类任务,分类器最后一层使用的是softmax,其计算公式如(1.2);而在预测任务中每一个词均作为一个被预测的任务,每个词都看作是一个类别,计算公式如(1.3)所示,其中u和b都是参数,h将wt-k,...,wt k级联或者求平均。

y=b uh(ωt-k,...,wt k;w)(1.3)



技术实现要素:

本发明提出一种基于文本相似度的舆情话题跟踪方法,其基础是谷歌2014年提出基于word2vec模型演化而来的doc2vec模型,该模型是一种非监督算法,可以很好的获得句子、段落或者文档的向量的表达,很适合对舆情话题的处理,但是该模型忽略了舆情话题的时间特性,本发明将时间特性作为重要特征加入到算法,确保话题的时效性,同时,为了降低文本数据长短对最终结果产生影响,采用选文本相似性计算方式,实验结果表明采用上述方式对舆情话题跟踪表现出良好的效果。

步骤1数据预处理

1)文本数据是使用爬虫技术,数据获取地址是新浪新闻和人民网,获取内容为爬取热点舆情话题以及该话题新闻相关新闻,采用这种爬取方式主要目的是为获取高质量的舆情话题语料。

2)中文分词就是将连续的字序列,按照对中文的理解将其划分为单个词语的过程,采用jieba分词工具对文本进行分词,分词结束后的结果如图3所示,句子已经被划分为单个词。

3)在中文中正常的文本或是一句话会包含逗号、顿号或者句号等特殊字符,完成分词之后如图2中会保留这些特殊字符,而在进行文本相似度计算时这些特殊字符会影响计算的速度和精度,所以这些字符需要过滤掉,除了这些特殊字符之外,如而且,不仅,的,了等对文本相似度的计算也有类似的影响,且这些词对最终计算结果几乎不影响,所以在数据预处理阶段将这些词过滤掉。

步骤2文本相似性计算

由于文本数据是从网上抓取的内容,经过步骤1之后数据的长度可能会很短,为降低或消除这阵短文本对相似性最终计算结果产生影响,采用两种方式进行文本相似度计算,即文本长度小于150的文本采用句子级别的计算方式,否则采用文档级别的计算方式,并在计算过程中将时间特性加入计算中,首先进行时间对比,若时差大于30天且相似性小于0.70的新闻个数小于100条,则认为相似度较低,若时差大于30天且相似性大于等于0.70的新闻个数大于100条则认为相似性较高,经最后加权处理得到对应的文本相似度。

步骤3话题跟踪结果

根据步骤2到对应文本的向量表达方式,为了更好的展示计算结果本发明使用k-means算法对文本数据进行图像展示,其结果如附图7所示。

与现有技术相比较,本发明在句子、段落或者文档的向量的表达上数据维度相对较低降低了时间复杂度,语义的表达相对更加准确,提升了文本相似度计算精确性,且本发明在现有模型的基础添加时间特性确保话题的时效性,经过实验测试本发明在话题跟踪方面效果良好。

附图说明

图1是本发明doc2vec模型架构图。

图2是本发明文本相似度的舆情话题跟踪的整体流程图。

图3是本发明舆情话题语料图。

图4是本发明分词完成后的结果图。

图5是本发明去停用词完成后的结果图。

图6是本发明文本相似度计算完成后的结果图。

图7是本发明最终话题跟踪结果图。

具体实施方式

结合说明书附图对发明的实施方式进行描述,文本相似度的舆情话题跟踪主要分为以下步骤,

步骤1、文本获取

文本数据是使用爬虫技术,数据获取地址是新浪新闻和人名网,获取内容主要是爬取舆情话题新闻以及该舆情话题新闻相关新闻,采用这种爬取方式主要目的是为获取高质量的舆情话题语料。

步骤2、中文分词

中文分词就是将连续的字序列,按照对中文的理解将其划分为单个词语的过程,再实施过程中采用jieba分词工具对文本进行分词,分词结束后的结果如图4所示,句子已经被划分为单个词了。

步骤3、去停用词

在中文中正常的文本或是一句话通常会包含逗号,顿号或者句号等特殊字符,完成分词之后如图3中会保留这些特殊字符,而在进行文本相似度计算时这些特殊字符会影响计算的速度和精度,所以这些字符需要过滤掉,除了这些特殊字符之外,如而且,不仅,的,了等对文本相似度的计算也有类似的影响,且这些词对最终计算结果几乎不影响,所以在数据预处理阶段将这些词过滤掉。

步骤4、文本相似度计算

由于文本数据是从网上抓取的内容,经过步骤1、2之后数据的长度可能会很短,为降低或消除这阵短文本对相似性最终计算结果产生影响,采用两种方式进行文本相似度计算,即文本长度小于150的文本采用句子级别的计算方式,否则采用文档级别的计算方式,并在计算过程中将时间特性加入计算中,首先进行时间对比,若时差大于30天且相似性小于0.70的新闻个数小于100条,则认为相似度较低,若时差大于30天且相似性大于等于0.70的新闻个数大于100条则认为相似性较高,经最后加权处理得到对应的文本相似度。

步骤5、话题跟踪结果

根据步骤4可到对应文本的向量表达方式,为了更好的展示计算结果本发明使用k-means算法对文本数据进行图像展示,其结果如附图7所示。


技术特征:

1.一种基于文本相似度的舆情话题跟踪方法,其特征在于:该方法包括如下步骤,

步骤1数据预处理

1)文本数据是使用爬虫技术,获爬取热点舆情话题以及该话题新闻相关新闻,获取高质量的舆情话题语料;

2)中文分词就是将连续的字序列,按照对中文的理解将其划分为单个词语的过程,采用jieba分词工具对文本进行分词,句子已经被划分为单个词;

3)在中文中正常的文本或是一句话会包含逗号、顿号或者句号特殊字符,完成分词之后会保留这些特殊字符,而在进行文本相似度计算时这些特殊字符会影响计算的速度和精度,所以这些字符需要过滤掉,除这些特殊字符之外,“而且、不仅、的、了”对文本相似度的计算也有影响,且这些词对最终计算结果不影响,所以在数据预处理阶段将这些词过滤掉;

步骤2文本相似性计算

由于文本数据是从网上抓取的内容,经过步骤1之后数据的长度可能会很短,采用两种方式进行文本相似度计算,即文本长度小于150的文本采用句子级别的计算方式,否则采用文档级别的计算方式,并在计算过程中将时间特性加入计算中,首先进行时间对比,若时差大于30天且相似性小于0.70的新闻个数小于100条,则认为相似度较低,若时差大于30天且相似性大于等于0.70的新闻个数大于100条则认为相似性较高,经最后加权处理得到对应的文本相似度;

步骤3话题跟踪结果

根据步骤2到对应文本的向量表达方式,使用k-means算法对文本数据进行图像展示。

技术总结
本发明公开了一种基于文本相似度的舆情话题跟踪方法,基于word2vec模型演化而来的doc2vec模型,可以很好的获得句子、段落或者文档的向量的表达,很适合对舆情话题的处理,但是该模型忽略了舆情话题的时间特性,本发明将时间特性作为重要特征加入到算法,确保话题的时效性,同时采用选文本相似性计算方式,实验结果表明采用上述方式对舆情话题跟踪表现出良好的效果。与现有技术相比较,本发明在句子、段落或者文档的向量的表达上数据维度相对较低降低了时间复杂度,语义的表达相对更加准确,提升了文本相似度计算精确性,且本发明在现有模型的基础添加时间特性确保话题的时效性,经过实验测试本发明在话题跟踪方面效果良好。

技术研发人员:张涛;张琨;朱显坤
受保护的技术使用者:北京工业大学
技术研发日:2020.01.13
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57420.html

最新回复(0)