1.本发明涉及数据处理技术领域,具体地说是应用于信息资源平台的推荐系统及方法。
背景技术:2.随着政府部门信息化、数字化转型进程的开展,将产生大量的基础数据及业务数据,那么如何为不同用户提供个性化的数据展示以及如何根据用户的行为习惯提供用户关注的数据,将在一定程度上反应政府部门数字化转型的成果与效果。
3.就目前的数据资源展示与应用来看,大部分政府信息化网站采用的是传统的搜索引擎来完成用户资源检索。这种方式要求用户清楚所需数据资源的内容或关键词,同时当数据资源的量达到一定程度时检索比较耗时,最为关键的是,采用搜索引擎的方式不能记录用户的行为喜好,不会为用户提供可能感兴趣的数据资源,造成数据的使用率不高。
4.如何引入数据推荐,通过数据推荐为用户提供更多其感兴趣的数据,提升数据的使用率,是需要解决的技术问题。,
技术实现要素:5.本发明的技术任务是针对以上不足,提供应用于信息资源平台的推荐系统及方法,来解决如何引入数据推荐,通过数据推荐为用户提供更多其感兴趣的数据的技术问题。
6.第一方面,本发明的一种应用于信息资源平台的推荐系统,包括:
7.数据层,所述数据层用于采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据;
8.策略层,所述策略层与所述数据层交互,用于分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系;用于基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;并用于通过排序模型对所述候选数据集进行排序,从排序后的候选数据集中选取n个候选数据作为推荐数据,n为大于1的自然数;
9.应用层,所述应用层与所述策略层交互,用于将推荐数据转化为推荐内容,并将推荐内容展示给用户。
10.更优的,所述策略层用于对排序后的候选数据集进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据;
11.所述策略层用于从预处理后的候选数据集中选取n个候选数据作为推荐数据。
12.作为优选,所述召回策略用于通过协同过滤、矩阵分析或dnn算法对数据资源原始数据进行过滤召回,选取用户感兴趣的数据资源原始数据。
13.作为优选,所述策略层调用mapreduce、spark或tensorflow工具、通过排序模型对候选数据集进行排序;
14.所述排序模型用于基于点击率、转化率、lr和/或gbdt算法对所述候选数据集进行排序。
15.作为优选,所述应用层用于通过http或rpc的方式将推荐内容推荐给相关用户。
16.第二方面,本发明的一种应用于信息资源平台的推荐方法,基于如第一方面任一项所述的应用于信息资源平台的推荐系统实现,包括如下步骤:
17.采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据;
18.分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系;
19.基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;
20.通过排序模型对所述候选数据集进行排序,从排序后的候选数据集中选取n个候选数据作为推荐数据,n为大于1的自然数;
21.将推荐数据转化为推荐内容,并将推荐内容展示给用户。
22.更优的,还包括如下步骤:
23.对排序后的候选数据集进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据,从预处理后的候选数据集中选取n个候选数据作为推荐数据。
24.作为优选,通过协同过滤、矩阵分析或dnn算法对数据资源原始数据进行过滤召回,选取用户感兴趣的数据资源原始数据。
25.作为优选,调用mapreduce、spark或tensorflow工具、通过排序模型对候选数据集进行排序;
26.所述排序模型基于点击率、转化率、lr和/或gbdt算法对所述候选数据集进行排序。
27.作为优选,通过http或rpc的方式将推荐内容推荐给相关用户。
28.本发明的应用于信息资源平台的推荐系统及方法具有以下优点:
29.1、对于数据层采集的业务数据和日志数据进行分析,构建用户画像和知识图谱,基于用户画像和知识图谱、通过召回策略分析用户推荐感兴趣的数据资源原始数据,将通过召回策略得到数据作为候选数据集,对后续数据集进行排序后,选取topn的候选数据作为推荐数据,从而实现了数据推荐,解决了传统搜索引擎方式带来的数据使用率不高,未能针对特定用户提供特定数据的问题;
30.2、对于排序后的候选数据集进行预处理,去除位于黑名单的数据以及重复的数据,提高了推荐数据的准确率。
附图说明
31.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.下面结合附图对本发明进一步说明。
33.图1为实施例1应用于信息资源平台的推荐系统的架构框图;
34.图2为实施例2应用于信息资源平台的推荐系统的工作流程框图。
具体实施方式
35.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
36.本发明实施例提供应用于信息资源平台的推荐系统及方法,用于解决如何引入数据推荐,通过数据推荐为用户提供更多其感兴趣的数据的技术问题。
37.实施例1:
38.本发明一种应用于信息资源平台的推荐系统,如图1所示分为三层,分别为数据层、策略层以及应用层。
39.数据层用于采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据。
40.本实施例中,数据层主要存储海量的原始数据,包括业务数据以及日志数据,其中业务数据包括用户数据、数据资源原始数据。日志数据包括用户行为数据,日志数据的采集方式包括前端埋点以及后端埋点两种。
41.数据层可以采用hdfs以及hbase对采集的海量原始数据进行数据存储。
42.策略层与所述数据层交互,用于分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系;用于基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;并用于通过排序模型对所述候选数据集进行排序,从生成的排序列表中选取n个候选数据作为推荐数据,n为大于1的自然数。
43.本实施例中策略层配置有基础数据计算、召回策略、排序模型。
44.基础数据计算主要对原始数据进行计算处理,具体可采用mapreduce、spark等工具对数据层数据进行计算形成继承数据,形成用户画像和知识图谱等。本实施例中用户可以为个人或企业,用户画像包括个人用户画像以及企业用户画像,图1中用户画像表示作为个人的用户的画像,企业画像表示作为企业的用户的画像。
45.召回策略可以采用协同过滤、矩阵分析、dnn等算法对原始数据进行过滤召回。召回策略的意义在于缩小对原始数据的计算范围,将用户感兴趣的资源数据从百万、千万甚至亿级别缩小至几百甚至几十量级,这样才有机会在毫秒的延迟下得到快速的数据反馈。
46.以协同过滤算法为例。协同过滤算法分为基于物品协同过滤和基于用户的系统过滤。在本系统中,物品指的是数据资源。
47.基于用户协同过滤,当用户a需要个性化推荐资源数据时,算法先找到和a有相同兴趣的其他用户b,然后把用户b喜欢的而用户a未关注的资源数据推荐给a。基于物品的协同过滤是根据用户a所有的历史偏好记录计算数据资源之间的相似性,然后把用户a喜欢的数据资源的相似数据资源推荐给用户a。
48.排序模型则可以通过点击率、转化率、lr、gbdt等算法进行排序处理。计算工具可以采用mapreduce、spark、tensorflow等。
49.应用层与所述策略层交互,用于将推荐数据转化为推荐内容,并将推荐内容展示给用户。
50.本实施例中应用层主要根据策略层排序模型以及其他策略将原始数据转化为相关推荐、个性化推送,然后以http或rpc的方式推荐个相关用户。
51.本实施例系统的工作流程为:首先采集海量原始数据,然后通过召回算法形成候选数据集,接着采用合适的排序模型将候选数据集进行排序形成排序列表,基于排序列表形成推荐内容topn,最后将topn展示给相关用户。
52.作为改进,策略层还用于对排序列表进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据。
53.该改进实施中,按若干规则策略如黑名单、去重等对排序列表进行进一步处理形成推荐内容topn,最后将topn展示给相关用户。
54.实施例2:
55.本发明一种应用于信息资源平台的推荐方法,基于实施例1公开的系统实现,包括如下步骤:
56.s100、采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据。
57.步骤s100是基于实施例1公开的数据层实现的。主要存储海量的原始数据,其中,日志数据的采集方式包括前端埋点以及后端埋点两种。实施过程中采用hdfs以及hbase对采集的海量原始数据进行数据存储。
58.s200、分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系。
59.步骤s200是基于实施例1中策略层实现的。为对获取的海量的原始数据进行基础计算。具体可采用mapreduce、spark等工具对数据层数据进行计算形成继承数据,形成用户画像和知识图谱等。
60.s300、基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集。
61.步骤s300是基于实施例1中策略层实现的。召回策略可以采用协同过滤、矩阵分析、dnn等算法对原始数据进行过滤召回。召回策略的意义在于缩小对原始数据的计算范围,将用户感兴趣的资源数据从百万、千万甚至亿级别缩小至几百甚至几十量级,这样才有机会在毫秒的延迟下得到快速的数据反馈。
62.以协同过滤算法为例。协同过滤算法分为基于物品协同过滤和基于用户的系统过滤。在本系统中,物品指的是数据资源。
63.基于用户协同过滤,当用户a需要个性化推荐资源数据时,算法先找到和a有相同兴趣的其他用户b,然后把用户b喜欢的而用户a未关注的资源数据推荐给a。基于物品的协同过滤是根据用户a所有的历史偏好记录计算数据资源之间的相似性,然后把用户a喜欢的数据资源的相似数据资源推荐给用户a。
64.s400、通过排序模型对所述候选数据集进行排序,从生成的排序列表中选取n个候选数据作为推荐数据,n为大于1的自然数。
65.步骤s400是基于实施例1中策略层实现的。排序模型则可以通过点击率、转化率、
lr、gbdt等算法进行排序处理。计算工具可以采用mapreduce、spark、tensorflow等。
66.s500、将推荐数据转化为推荐内容,并将推荐内容展示给用户。
67.步骤s500是基于实施例1中应用层实现的。根据策略层排序模型以及其他策略将原始数据转化为相关推荐、个性化推送,然后以http或rpc的方式推荐个相关用户。
68.作为该方法的改进,该方法还包括如下步骤:对排序列表进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据。
69.该改进实施中,按若干规则策略如黑名单、去重等对排序列表进行进一步处理形成推荐内容topn,最后将topn展示给相关用户。
70.上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
技术特征:1.一种应用于信息资源平台的推荐系统,其特征在于,包括:数据层,所述数据层用于采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据;策略层,所述策略层与所述数据层交互,用于分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系;用于基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;用于通过排序模型对所述候选数据集进行排序,从生成的排序列表中选取n个候选数据作为推荐数据,n为大于1的自然数;应用层,所述应用层与所述策略层交互,用于将推荐数据转化为推荐内容,并将推荐内容展示给用户。2.根据权利要求1所述的应用于信息资源平台的推荐系统,其特征在于,所述策略层用于排序列表进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据;所述策略层用于从预处理后的排序列表中选取n个候选数据作为推荐数据。3.根据权利要求1或2所述的应用于信息资源平台的推荐系统,其特征在于,所述召回策略用于通过协同过滤、矩阵分析或dnn算法对数据资源原始数据进行过滤召回,选取用户感兴趣的数据资源原始数据。4.根据权利要求1或2所述的应用于信息资源平台的推荐系统,其特征在于,所述策略层调用mapreduce、spark或tensorflow工具、通过排序模型对候选数据集进行排序;所述排序模型用于基于点击率、转化率、lr和/或gbdt算法对所述候选数据集进行排序。5.根据权利要1或2所述的应用于信息资源平台的推荐系统,其特征在于,所述应用层用于通过http或rpc的方式将推荐内容推荐给相关用户。6.一种应用于信息资源平台的推荐方法,其特征在于,基于如权利要求1-5任一项所述的应用于信息资源平台的推荐系统实现,包括如下步骤:采集并存储原始数据,所述原始数据包括业务数据和日志数据,所述业务数据包括用户数据和数据资源原始数据,所述日志数据包括用户行为数据;分析原始数据并构建用户画像和知识图谱,所述用户画像用于表述用户喜好,所述知识图谱用于表述业务数据与用户行为之间的关联关系;基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;通过排序模型对所述候选数据集进行排序,从生成的排序列表中选取n个候选数据作为推荐数据,n为大于1的自然数;将推荐数据转化为推荐内容,并将推荐内容展示给用户。7.根据权利要求6所述的应用于信息资源平台的推荐方法,其特征在于,还包括如下步骤:对排序列表进行预处理,去除位于黑名单的候选数据,并去除重复的候选数据,从预处理后的排序列表中选取n个候选数据作为推荐数据。8.根据权利要求6或7所述的应用于信息资源平台的推荐方法,其特征在于,通过协同过滤、矩阵分析或dnn算法对数据资源原始数据进行过滤召回,选取用户感兴趣的数据资源
原始数据。9.根据权利要求6或7所述的应用于信息资源平台的推荐方法,其特征在于,调用mapreduce、spark或tensorflow工具、通过排序模型对候选数据集进行排序;所述排序模型基于点击率、转化率、lr和/或gbdt算法对所述候选数据集进行排序。10.根据权利要求6或7所述的应用于信息资源平台的推荐方法,其特征在于,通过http或rpc的方式将推荐内容推荐给相关用户。
技术总结本发明公开了应用于信息资源平台的推荐系统及方法,属于数据处理技术领域,要解决的技术问题为如何引入数据推荐,通过数据推荐为用户提供更多其感兴趣的数据。数据层,用于采集并存储原始数据;策略层,用于分析原始数据并构建用户画像和知识图谱;用于基于用户画像和知识图谱、通过召回策略分析用户感兴趣的数据资源原始数据,得到候选数据集;并用于通过排序模型对所述候选数据集进行排序,从排序后的候选数据集中选取N个候选数据作为推荐数据,N为大于1的自然数;应用层,用于将推荐数据转化为推荐内容,并将推荐内容展示给用户。并将推荐内容展示给用户。并将推荐内容展示给用户。
技术研发人员:段雅鑫 王柏华 赵绍祥
受保护的技术使用者:浪潮软件股份有限公司
技术研发日:2022.08.25
技术公布日:2022/12/1