基于大数据深度学习的个性化新闻推荐方法与流程

专利2022-06-29  69


本发明属于互联网新闻推送、大数据处理技术领域,具体涉及基于大数据深度学习的个性化新闻推荐方法。



背景技术:

随着互联网的飞速发展,人们处于信息爆炸时代,各种新闻每天都在以亿万级的数量递增,导致用户很难及时浏览到自己感兴趣的新闻,给用户带来了不好的体验,为了解决该问题,通常通过个性化新闻推荐系统将用户感兴趣的新闻及时推荐给他们。

但是,相关技术中当用户历史行为缺失、片面或对历史行为数据的不合理应用时会导致错误推荐,给用户带来不好的体验。例如,当遇到新用户和没有采集到历史行为数据的用户时,通常随机的推荐新闻;又如,当只采集到用户部分感兴趣的新闻时,通常会导致只给该用户推荐单一类型的新闻。



技术实现要素:

针对现有技术存在的上述问题,本申请提供基于大数据深度学习的个性化新闻推荐方法,能够根据用户实时的兴趣爱好进行新闻推荐。

基于大数据深度学习的个性化新闻推荐方法,包括以下步骤:

s1、获取用户的互联网行为数据,并采用elman神经网络预测用户实时兴趣爱好类别;

s2、参照所述用户实时兴趣爱好类别向用户推荐主题与其兴趣爱好类别相对应的新闻信息;

s3、获取用户新闻阅读情况,并对这些数据进行预处理;

s4、根据处理结果,对用户实时兴趣爱好类别进行修正,并推荐新的新闻信息。

本技术方案进一步的优化,所述用户新闻阅读情况包括用户阅读的正反馈与负反馈。

本技术方案更进一步的优化,还包括:

获取新闻内容,并对所述新闻内容进行文本分词以生成新闻词序列;

根据主题模型和新闻词序列提取所述新闻内容的主题词,以形成待计算的新闻;

获取新闻类型分类器;

对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的卷积神经网络的计算,以获取所述新闻内容所属的主题类型。

本技术方案更进一步的优化,获取新闻类型分类器的方法包括:

获取新闻类型正样本;

将所述新闻类型正样本进行文本分词,并提取所述新闻类型正样本的主题词,以将新闻类型正样本训练成各主题类型的新闻分类器。

本技术方案更进一步的优化,所述主题模型为lda模型或plsa模型。

本技术方案进一步的优化,所述新闻阅读情况预处理包括将新闻内容进行主题分析及相同主题阅读次数的分析。

本发明提出的基于大数据深度学习的个性化新闻推荐方法,能够根据用户实时兴趣爱好类别进行新闻推荐,从而使新用户也能较好的获取到感兴趣的新闻,同时能够根据用户的阅读情况及时对用户实时兴趣类别进行修正,进而能够避免被推荐的新闻类型越来越少,提升用户的体验。

附图说明

图1为基于大数据深度学习的个性化新闻推荐方法的流程图;

图2为基于大数据深度学习的个性化新闻推荐方法的主题模型结构示意图;

图3为基于大数据深度学习的个性化新闻推荐方法的计算两个文档相似度的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。

数据挖掘是当前计算机研究的热门领域,随着互联网的飞速发展,各种网络信息不断剧增,智能推荐技术应运而生。衡量一个推荐系统的优劣,关键在于推荐的准确性,核心问题是如何准确获取用户的个性喜好和解析被推荐内容的主题特征。在没有用户的大量历史行为数据,不知道用户个人喜好的情况下,设计出一个让用户对推荐结果满意从而愿意使用的个性化推荐系统,显得尤为重要。

图1为根据本发明实施例的基于大数据深度学习的个性化新闻推荐方法的流程图。如图1所示,本发明实施例的基于大数据深度学习的个性化新闻推荐方法,包括以下步骤:

s1、获取用户的互联网行为数据,并采用elman神经网络预测用户实时兴趣爱好类别。

需要说明的是,该实施例获取移动端互联网行为数据,可通过用户采集用户的各维度信息,进而分析得到用户的手机型号、品牌类型、运营商、操作系统、设备价值、分辨率、屏幕尺寸、手机上市时间、设备分类、是否有子女、行为性别、婚姻状态、国籍、行为年龄、有无车标识、消费能力水平、收入能力水平、职业类型、工作时段的活动区域、休息时段的活动区域、常住省份、常住城市、人生阶段、公司类型、文化水平、子女阶段、客户信息、金融偏好、旅游目标偏好、旅游品质偏好、应用使用市场、应用使用频度、社交网络活跃度、应用偏好、消费偏好、消费品级、购买方式、上网目的和阅读偏好等基本画像,然后根据这些基本画像数据,利用elman神经网络预测用户当前状态下的兴趣爱好。

其网络的数学表达式为:

y(k)=g(w3x(k));

x(k)=f(w1xc(k) w2(u(k-1)));

xc(k)=x(k-1);

其中,y为m维输出节点向量;x为n维中间层节点单元向量;u为r维输入向量;xc为n维反馈状态向量;w3为中间层到输出层连接权值;w2为输入层到中间层连接权值;w1为承接层到中间层连接权值;g()为输出神经元的传递函数,是中间层输出的线性组合;f()为中间层神经元的传递函数,常采用s函数。

具体地,可将基本画像数据作为elman神经网络的输入,能够根据elman神经网络结构获取用户实时兴趣爱好类别。

s2、参照所述用户实时兴趣爱好类别向用户推荐主题与其兴趣爱好类别相对应的新闻信息。

s3、获取用户新闻阅读情况,并对这些数据进行预处理。其中,用户阅读情况包括用户阅读的正反馈与负反馈。

需要说明的是,用户阅读情况为用户阅读行为数据,直接反映了用户的阅读偏好。具体地,用户阅读情况包括:用户id、新闻id、点击次数、阅读时长、是否收藏、是否转发和是否评论等。其中,正反馈为反馈用户喜欢某篇新闻的信息,例如多次点击阅读、阅读时间长、收藏、转发该新闻等;负反馈为用户不喜欢某篇新闻的信息,例如推荐给用户的某篇新闻从未被点击阅读过,用户点击了新闻标题上的不感兴趣按钮、对新闻做了表达不感兴趣的负面评论等。

该实施例新闻阅读情况预处理包括将新闻内容进行主题分析及相同主题阅读次数的分析。

s4、根据处理结果,对用户实时兴趣爱好类别进行修正,并推荐新的新闻信息。

具体地,通过用户阅读情况可以分析得到用户的阅读偏好数据,进而通过阅读偏好数据对用户实时兴趣爱好类别进行修正,以在进行再一次新闻推荐时,根据修正后的兴趣爱好类别重新推荐新闻。

举例来说,通过用户阅读行为中的新闻id可以确定用户实时兴趣爱好类别中的主题类型,通过用户id可以确定具体的用户,从而可以分析得到具体用户偏爱的具体新闻主题类型,在结合新闻的点击次数、阅读时长、是否收藏、是否转发和是否评论等,可以计算出用户对某具体新闻主题类型的偏好程度,然后利用分析得到的结果修正用户实时兴趣爱好类别,使得用户实时兴趣爱好类别越来越符合用户的当前状态。

根据本发明的一个实施例,基于大数据深度学习的个性化新闻推荐方法还包括:

s101:获取新闻内容,并对新闻内容进行文本分词以生成新闻词序列。

需要说明的是,整条的新闻文本计算机是无法直接读取并理解其中含义的,所以需要用到分词工具,以将文章解析成一个一个的词组序列,为下一步提取新闻主题做准备。

中文分词是将一个由汉字组成的句子按照一定的规范切割成一个个单独的词。现有的分词算法共三类分别为:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。其中,基于字符串匹配的分词方法中jieba(结巴)分词是目前国内最好用的中文分词组件。其基本原理为:基于trie(字典树)树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,然后采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的hmm(hiddenmarkovmodel,隐马尔可夫模型)模型,使用viterbi(维特比)算法。

具体地,系统加载字典,生成trie树,给定带分词的句子,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用dag(查字典)和动态规划,得到最大概率路径,对dag中那些没有在字典中查到的字,组合成一个新的片段短语,使用hmm模型进行分词,识别字典外的新词,使用python的yield语法生成一个词语生成器,逐个返回词语。

s102:根据主题模型和新闻词序列提取新闻内容的主题词,以形成待计算的新闻。

lda(latentdirichletallocation)是三层贝叶斯主题模型,它的目的就是通过无监督的学习方法提取文本中隐含的主题信息。隐性语义分析的实质就是利用文本中词组的共现特征来发现文本的主题结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的查询能够在语义层次上匹配,而不仅仅只是在词汇层次上出现交集。主题模型结构如图2所示,其中,k为主题个数,m为新闻总数,nm是第m个新闻的单词总数。β是每个主题下词的多项分布的dirichlet(狄利克雷)先验参数,ɑ是每个新闻下主题的多项分布的dirichlet先验参数。zm,n是第m个新闻中第n个词的主题,wm,n是m个新闻中的第n个词。剩下来的两个隐含变量θm和k分别表示第m个新闻下的主题分布和第k个主题下词的分布,前者是k维(k为主题总数)向量,后者是v维向量,v为词典中term总数。

换言之,根据主题模型和新闻词序列提取新闻内容的主题词的过程就是循环执行:获取一条新闻——获取一个该新闻的主题——获取一个该主题的词。新闻到主题服从多项式分布,主题到词服从多项式分布,即每篇新闻均代表由一些主题构成的一个概率分布,每一个主题又代表由很多单词多构成的一个概率分布。

s103:获取新闻类型分类器。

根据本发明的一个实施例,获取新闻分类器包括:

s201:获取新闻类型正样本。例如可获取各类型新闻各1000条,其中,新闻类型可划分为财经、搞笑、国际、军事、科技、历史、旅游、美食、美文、汽车、社会、时尚、探索、体育、养生、游戏、娱乐和育儿共18类。

s202:将新闻类型正样本进行文本分词,并提取新闻类型正样本的主题词,以将新闻类型正样本训练成各主题类型的新闻分类器。

具体地,利用爬虫工具从网络中获取各类型新闻各1000条,即18000条新闻,文本分此后提取主题词,训练成各主题类型的新闻分类器。

s104:对待计算的新闻与新闻类型分类器进行基于数据流图的卷积神经网络的计算,以获取新闻内容所属的主题类型。

mpcnn(multi-perspectiveconvolutionalneuralnetwork)卷积神经网络,使用多个粒度窗口大小的卷积滤波器,后面连接着多种类型的池化方式,能够从多个角度去解析新闻文档,尽可能的多提取新闻文档的语义和句子结构,从而更精确地计算两个文档的相似性。卷积神经网络(convolutionalneuralnetworks,cnn)是多层感知机(mlp)的变种。它是一种深度的监督学习下的机器学习模型,具有极强的适应性,善于挖掘数据局部特征,提取全局训练特征和分类,它的权值共享结构网络使之更类似于生物神经网络,在模式识别的各个领域都取得了很好的成果。cnn是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层和一个全连接层,一共至少5个隐含层。

具体计算两个文档相似度的结构如图3所示,doc1为待计算的新闻,doc2为新闻类型分类器,即18个新闻类型分类器,根据卷积神经网络能够计算新闻属于各主题类型的概率,由于是从多个角度去解析新闻,所以采用了多个窗口和多个卷积方式来处理新闻,其中,结构化相似度计算层可以使用多种计算相似度的方式,具体可采用余弦(cos)函数计算待计算的新闻与新闻类型分类其的相似度;全连接层的作用是调整输出,以使输出的是新闻属于各类主题类型的可能性大小。

综上所述,根据本发明实施例的基于大数据深度学习的个性化新闻推荐方法,能够根据用户实时兴趣爱好类别进行新闻推荐,从而使新用户也能较好的获取到感兴趣的新闻,同时能够根据用户的阅读情况及时对用户实时兴趣类别进行修正,进而能够避免被推荐的新闻类型越来越少,提升用户的体验。

以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。


技术特征:

1.基于大数据深度学习的个性化新闻推荐方法,其特征在于,包括以下步骤:

s1、获取用户的互联网行为数据,并采用elman神经网络预测用户实时兴趣爱好类别;

s2、参照所述用户实时兴趣爱好类别向用户推荐主题与其兴趣爱好类别相对应的新闻信息;

s3、获取用户新闻阅读情况,并对这些数据进行预处理;

s4、根据处理结果,对用户实时兴趣爱好类别进行修正,并推荐新的新闻信息。

2.如权利要求1所述的基于大数据深度学习的个性化新闻推荐方法,其特征在于,所述用户新闻阅读情况包括用户阅读的正反馈与负反馈。

3.如权利要求1所述的基于大数据深度学习的个性化新闻推荐方法,其特征在于,还包括:

获取新闻内容,并对所述新闻内容进行文本分词以生成新闻词序列;

根据主题模型和新闻词序列提取所述新闻内容的主题词,以形成待计算的新闻;

获取新闻类型分类器;

对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的卷积神经网络的计算,以获取所述新闻内容所属的主题类型。

4.如权利要求3所述的基于大数据深度学习的个性化新闻推荐方法,其特征在于,获取新闻类型分类器的方法包括:

获取新闻类型正样本;

将所述新闻类型正样本进行文本分词,并提取所述新闻类型正样本的主题词,以将新闻类型正样本训练成各主题类型的新闻分类器。

5.如权利要求3所述的基于大数据深度学习的个性化新闻推荐方法,其特征在于,所述主题模型为lda模型或plsa模型。

6.如权利要求1所述的基于大数据深度学习的个性化新闻推荐方法,其特征在于,所述新闻阅读情况预处理包括将新闻内容进行主题分析及相同主题阅读次数的分析。

技术总结
基于大数据深度学习的个性化新闻推荐方法,包括以下步骤:S1、获取用户的互联网行为数据,并采用Elman神经网络预测用户实时兴趣爱好类别;S2、参照所述用户实时兴趣爱好类别向用户推荐主题与其兴趣爱好类别相对应的新闻信息;S3、获取用户新闻阅读情况,并对这些数据进行预处理;S4、根据处理结果,对用户实时兴趣爱好类别进行修正,并推荐新的新闻信息。本发明根据用户实时兴趣爱好类别进行新闻推荐,使新用户也能较好的获取到感兴趣的新闻,同时能够根据用户的阅读情况及时对用户实时兴趣类别进行修正,在保证类别精确地同时,丰富了类别的种类,从而能够避免被推荐的新闻主题越来越少,兼顾推荐系统的收敛和发散,提升用户体验度。

技术研发人员:杨政路;陈佳蔚;杨军
受保护的技术使用者:南开大学
技术研发日:2018.11.15
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-23716.html

最新回复(0)