一种互联网内容推荐方法及系统与流程

专利2022-06-29  73


本发明涉及互联网信息领域,特别是涉及一种互联网内容推荐方法及系统。



背景技术:

随着大数据时代的到来,互联网上积累了海量的各种多媒体内容,如文本、图片、音视频等。随着社交网络(如国外的facebook、twitter、国内的新浪微博、微信朋友圈等)和支持无线数据接入的设备(智能手机和平板电脑)的快速普及,人们可以随时随地地自由创建、上传和共享各种类型的多媒体内容。

这使得已经承载了海量数据的互联网又迎来了数据量的爆发增长;一方面,极度丰富的互联网内容可以满足每位用户的个性化需求;另一方面,海量的互联网数据也使得用户很难快速准确地找到自己感兴趣的信息;作为互联网内容的投放者,也很难让自己的内容从海量数据中脱颖而出,准确投放到目标用户群;这种被称作“信息过载”的问题在当今的互联网时代变得尤为严重。

解决信息过载问题的一个非常有潜力的办法是推荐系统;推荐系统是一种帮助用户快速发现有用信息的工具,和搜索引擎不同的是,推荐系统不需要用户提供明确的需求,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统;和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求;一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖;推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域;同时学术界对推荐系统的研究热度一直很高,逐步形成了一门独立的学科。

然而,推荐系统面临诸多挑战,如新用户冷启动问题;新用户冷启动问题是指对于一个推荐系统而言,由于缺乏甚至没有该用户的历史交互数据导致系统不了解新用户的兴趣偏好无法推荐符合他兴趣偏好的项目;如果新用户在初次进入系统时得不到好的体验,那么会产生排斥心理以后可能会拒绝再次使用,因此,新用户冷启动问题急待解决。

目前国内外许多学者在针对冷启动问题上的研究思路是利用额外的信息源通过计算相似度的方式使新用户或者新项目嵌入到已有的模型中来,取得了一定程度的效果;然而,额外的信息源并不容易获得尤其是用户的信息涉及用户隐私,不仅难于获取且元数据受法律保护。



技术实现要素:

本发明的目的是提供一种互联网内容推荐方法及系统,以解决上述问题。

为实现上述目的,本发明提供了如下方案:

一种互联网内容推荐方法,包括:

从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n;

对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;

新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

优选地,所述从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重,包括:

根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积;

采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级;

根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者;

初始化各所述候选引导者涉及的项目类型的权重。

优选地,所述对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者,包括:

按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集;

令所述训练用户集中的训练用户随机选取设定数量的所述项目类型;

建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量;

根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重;

通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

优选地,所述新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐,包括:

对新用户进行面试,以选取项目类型;

所述引导者根据新用户选择的项目类型生成内容推荐列表;

根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

优选地,所述设定条件包括:

一是所述引导者在所述内容推荐列表中的内容对应的项目类型上的真实评级高于设定分数阈值;

二是所述内容推荐列表中的内容对应的项目类型的评级次数大于所述已知用户的数量的设定百分比。

一种互联网内容推荐系统,包括:

候选引导者确定及处理模块,用于从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n;

引导者确定模块,用于对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;

内容推荐模块,用于新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

优选地,所述候选引导者确定及处理模块,包括:

评级训练模型确定单元,用于根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积;

参数更新单元,采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级;

候选引导者确定单元,用于根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者;

候选引导者处理单元,用于初始化各所述候选引导者涉及的项目类型的权重。

优选地,所述引导者确定模块,包括:

训练用户集确定单元,用于按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集;

项目类型选取单元,令所述训练用户集中的训练用户随机选取设定数量的所述项目类型;

权重训练模型确定单元,用于建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量;

权重更新单元,用于根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重;

引导者确定单元,通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

优选地,所述内容推荐模块,包括:

面试单元,用于对新用户进行面试,以选取项目类型;

内容推荐列表确定单元,所述引导者根据新用户选择的项目类型生成内容推荐列表;

判断单元,用于根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

优选地,所述设定条件包括:

一是所述引导者在所述内容推荐列表中的内容对应的项目类型上的真实评级高于设定分数阈值;

二是所述内容推荐列表中的内容对应的项目类型的评级次数大于所述已知用户的数量的设定百分比。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明所述方法包括:从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。本发明通过上述方案在不需要新用户的元数据的基础上解决了推荐系统冷启动的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明互联网内容推荐方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种互联网内容推荐方法及系统,以解决互联网推荐系统的冷启动问题。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,本发明互联网内容推荐方法,包括:

从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n。

对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者。

新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

作为一种可选的实施方式,本发明所述从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重,包括:

根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积。

采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级。

根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者。

根据所述已知用户涉及项目类型的数量进行降序排列,得到第一排序表;根据所述均方根误差进行升序排列得到得到第二排序表;选取所述第一序列表中前10%与所述第二序列表中前10%的交集作为所述候选引导者。

所述均方根误差的计算公式如下:

式中:gij表示第i个已知用户第j个项目类型的均方根误差,si表示第i个已知用户涉及项目类型的评级的集合,|si|表示si的元素数量。

初始化各所述候选引导者涉及的项目类型的权重。

本实施例中,所述权重均初始化为1。

作为一种可选的实施方式,本发明所述对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者,包括:

按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集。本实施例中,所述设定比例为3:1。

令所述训练用户集中的训练用户随机选取设定数量的所述项目类型。本实施例中,所述设定数量为大于等于2且小于等于6的整数。

建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量。

根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重。

通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

作为一种可选的实施方式,本发明所述新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐,包括:

对新用户进行面试,以选取项目类型。

所述引导者根据新用户选择的项目类型生成内容推荐列表。

根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

作为一种可选的实施方式,本发明所述设定条件包括:

一是所述引导者在所述内容推荐列表中的内容对应的项目类型上的真实评级高于设定分数阈值。

二是所述内容推荐列表中的内容对应的项目类型的评级次数大于所述已知用户的数量的设定百分比。本实施例中,所述设定百分比为5%。

本发明还提供了一种互联网内容推荐系统,包括:

候选引导者确定及处理模块,用于从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n。

引导者确定模块,用于对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者。

内容推荐模块,用于新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

作为一种可选的实施方式,本发明所述候选引导者确定及处理模块,包括:

评级训练模型确定单元,用于根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积。

参数更新单元,采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级。

候选引导者确定单元,用于根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者。

候选引导者处理单元,用于初始化各所述候选引导者涉及的项目类型的权重。

作为一种可选的实施方式,本发明所述引导者确定模块,包括:

训练用户集确定单元,用于按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集。

项目类型选取单元,令所述训练用户集中的训练用户随机选取设定数量的所述项目类型。

权重训练模型确定单元,用于建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量。

权重更新单元,用于根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重。

引导者确定单元,通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

作为一种可选的实施方式,本发明所述内容推荐模块,包括:

面试单元,用于对新用户进行面试,以选取项目类型。

内容推荐列表确定单元,所述引导者根据新用户选择的项目类型生成内容推荐列表。

判断单元,用于根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

本发明通过引导者给新用户进行内容推荐,解决了互联网内容推荐系统的冷启动问题,且不需要用户的元数据。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。


技术特征:

1.一种互联网内容推荐方法,其特征在于,包括:

从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n;

对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;

新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

2.根据权利要求1所述的一种互联网内容推荐方法,其特征在于,所述从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重,包括:

根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积;

采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级;

根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者;

初始化各所述候选引导者涉及的项目类型的权重。

3.根据权利要求2所述的一种互联网内容推荐方法,其特征在于,所述对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者,包括:

按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集;

令所述训练用户集中的训练用户随机选取设定数量的所述项目类型;

建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量;

根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重;

通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

4.根据权利要求1所述的一种互联网内容推荐方法,其特征在于,所述新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐,包括:

对新用户进行面试,以选取项目类型;

所述引导者根据新用户选择的项目类型生成内容推荐列表;

根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

5.根据权利要求4所述的一种互联网内容推荐方法,其特征在于,所述设定条件包括:

一是所述引导者在所述内容推荐列表中的内容对应的项目类型上的真实评级高于设定分数阈值;

二是所述内容推荐列表中的内容对应的项目类型的评级次数大于所述已知用户的数量的设定百分比。

6.一种互联网内容推荐系统,其特征在于,包括:

候选引导者确定及处理模块,用于从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;k和n均为大于1的正整数且k≤n;

引导者确定模块,用于对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;

内容推荐模块,用于新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。

7.根据权利要求6所述的一种互联网内容推荐系统,其特征在于,所述候选引导者确定及处理模块,包括:

评级训练模型确定单元,用于根据n个所述已知用户的历史交互数据建立评级训练模型,如下式:

rij′=u mi bj qjpit

式中:rij′表示第i个已知用户第j个项目的预测评级,u表示真实评级的平均值,mi表示第i个已知用户的偏置,bj表示第j个项目类型的偏置,qj表示第j个项目类型的潜在因子,pi表示第i个已知用户的潜在因子,pit表示pi的转置,qjpit表示qj与pit之间的内积;

参数更新单元,采用随机梯度下降法对所述评级训练模型中的参数进行更新,如下式:

mi←mi α[(rij-rij′)-β*mi];

bj←bj α[(rij-rij′)-β*bj];

qj←qj α[(rij-rij′)*pit-β*qj];

pi←pi α[(rij-rij′)*qj-β*pi];

式中:α和β均为超参数,rij表示第i个已知用户第j个项目的真实评级;

候选引导者确定单元,用于根据参数更新后的所述评级训练模型得到各所述已知用户涉及的项目类型的预测评级,根据所述预测评级和所述真实评级得到各所述已知用户涉及项目类型的均方根误差,根据各所述已知用户涉及项目类型的数量和所述均方根误差选取k个已知用户作为候选引导者;

候选引导者处理单元,用于初始化各所述候选引导者涉及的项目类型的权重。

8.根据权利要求7所述的一种互联网内容推荐系统,其特征在于,所述引导者确定模块,包括:

训练用户集确定单元,用于按照设定比例对除了所述候选引导者之外的所述已知用户进行随机分组,得到两组用户集,选取两组用户集中比例系数高的一组作为训练用户集;

项目类型选取单元,令所述训练用户集中的训练用户随机选取设定数量的所述项目类型;

权重训练模型确定单元,用于建立权重训练模型,如下式:

wyj←wyj (a-func(ejy,ejl′));

式中:wyj表示第y个候选引导者第j个项目类型的权重,a表示已知用户的均方根误差的和,ejy表示第y个候选引导者第j个项目类型的真实评级,ejl′表示第l个训练用户第j个项目类型的预测评级,func(ejy,ejl′)=∑(ejy-ejl′)/|sy|,sy表示第y个候选引导者涉及项目类型的评级的集合,|sy|表示sy的元素数量;

权重更新单元,用于根据所述权重训练模型得到更新后的各所述候选引导者涉及项目类型的权重;

引导者确定单元,通过更新后的权重选取各所述项目类型对应的权重最高的所述候选引导者作为引导者。

9.根据权利要求6所述的一种互联网内容推荐系统,其特征在于,所述内容推荐模块,包括:

面试单元,用于对新用户进行面试,以选取项目类型;

内容推荐列表确定单元,所述引导者根据新用户选择的项目类型生成内容推荐列表;

判断单元,用于根据设定条件对所述内容推荐列表中的内容进行判断,若符合要求,则推荐给所述新用户,若不符合要求,则舍弃。

10.根据权利要求9所述的一种互联网内容推荐系统,其特征在于,所述设定条件包括:

一是所述引导者在所述内容推荐列表中的内容对应的项目类型上的真实评级高于设定分数阈值;

二是所述内容推荐列表中的内容对应的项目类型的评级次数大于所述已知用户的数量的设定百分比。

技术总结
本发明涉及一种互联网内容推荐方法及系统,所述方法包括:从n个已知用户中选取k个作为候选引导者,初始化各所述候选引导者涉及项目类型的权重;对各所述候选引导者涉及项目类型的权重进行训练,以更新各所述候选引导者涉及项目类型的权重,选取更新后的各所述项目类型对应的权重最高的所述候选引导者作为引导者;新用户进行面试时,通过所述新用户选择的项目类型对应的所述引导者对所述新用户进行内容推荐。本发明通过上述方案在不需要新用户的元数据的基础上解决了推荐系统冷启动的问题。

技术研发人员:张剑飞;杨洪伟;徐超
受保护的技术使用者:长春理工大学
技术研发日:2020.02.12
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-23340.html

最新回复(0)