POI推荐模型的构建方法及系统与流程

专利2022-06-29  61


本发明涉及信息处理
技术领域
,尤其涉及一种poi推荐模型的构建方法及系统。
背景技术
:随着可以获取位置的设备和无线通信的发展,用户使用lbsn(location-basedsocialnetworks,基于位置的社交网络)的次数越来越多,例如,foursquare、gowalla、facebook等。在lbsn中,用户可以通过签到,来彼此分享他们历史曾访问过位置的经历,这些经历(也就是用户所访问过的位置)也被称为poi(points-of-interest,兴趣点),例如用户签到的访问记录中有餐馆、商店和博物馆,这些访问的经历表明用户对这些地点的喜好。通过用户签到的数据从而了解用户的偏好,进而将其用于制作用户的poi建议。这将有助于用户探索新的地方,并使得lbsn对用户更加具有吸引力。在实现本发明过程中,发明人发现相关技术中至少存在如下问题:现有的方法通常考虑用户访问poi的概率与地点的各特征(热度、地理位置、时间等)之间独立的关系,例如独立地模拟用户偏好与用户访问poi的概率、地理影响与用户访问poi的概率等,然后通过简单地融合各个独立关系的模型来得出最终结果。然而这种方法基于各特征的单独假设,即假设结果与用户签到的数据特征不匹配,因为这种方法仅仅考虑单独的特征。例如,可推荐的地点有:火锅店、烧烤店、粥铺,当在早上7点向用户推荐时,如果仅仅考虑用户对热度的需求(例如,火锅店热度最高),那么很有可能会向用户推荐火锅店。而根据人的生活作息,一大早通常不吃火锅、烧烤等食物,又或者不考虑地理位置特征,向用户推荐了距离用户10km以外的粥铺a,而没有向用户推荐距离相对较近的粥铺b。又或者,现有的全联合模型方法,该方法考虑用户访问的poi的概率与地点的各特征(热度、地理位置、时间等)之间所有特征相互的关系,例如,同时考虑到热度、地理位置、时间等所有特征,然后通过监督学习模型来预测用户可能访问的下一个top-k(概率最高的k个poi)的poi进行推荐。然而这种方法在使用中需要用户具有足够的历史签到数据。当用户在lbsn中签到的数据较少时,应用完整的模型可能会导致poi建议过度拟合,以至于准确性反而降低。技术实现要素:为了至少解决现有技术中仅考虑独立特征的模型在poi推荐时没有将各特征之间的关系考虑在内而导致的推荐不准确以及将所有特征都考虑的全联合模型在签到数据较少时,过度拟合,poi推荐准确度较低的问题。申请人意外的发现用户在lbsn中的目的地是由同时起作用的多个特征驱动的,而不同的用户可能会受到不同特征的影响。通过结合多个这些会影响用户的特征进行监督学习,不去利用包含所有特征的复杂模型,而是利用这些会影响用户的部分特征的建立个性化部分模型,从而解决上述问题。第一方面,本发明实施例提供一种poi推荐模型的构建方法,包括:获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。第二方面,本发明实施例提供一种poi推荐模型的构建系统,包括:历史签到数据集获取程序模块,用于获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息,poi特征集合确定程序模块,用于根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;子模型训练集确定程序模块,用于提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;poi推荐子模型确定程序模块,用于通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;poi推荐模型确定程序模块,用于根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的poi推荐模型的构建方法的步骤。第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的poi推荐模型的构建方法的步骤。本发明实施例的有益效果在于:通过用户的历史签到数据集中确定多个poi特征,没有利用所有特征建立复杂模型,而是根据多个有影响力的poi特征确定部分模型,以从特征的子集学习二元决策分类器,再通过应用附加方法来组合多个个性化部分模型,最终应用所提出的模型来计算用户访问poi的概率以推荐具有最高概率top-k的poi(向用户推荐的地点)。考虑了多个poi特征而不是所有的poi特征,相比于根据单个poi特征推荐准确度更高。又避免了根据所有poi特征时,历史数据集中数据不够或过度拟合的问题,poi推荐的准确度更高。同时,也设定了更多的poi特征进行参考,使其所训练的poi推荐模型的准确度更高。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例提供的一种poi推荐模型的构建方法的流程图;图2是本发明一实施例提供的一种poi推荐模型的构建方法的部分个性化模型示意图;图3是本发明一实施例提供的一种poi推荐模型的构建方法的关于top-k值的推荐性能的数据图;图4是本发明另一实施例提供的一种poi推荐模型的构建方法的关于top-k值的推荐性能的数据图;图5是本发明一实施例提供的一种poi推荐模型的构建系统的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示为本发明一实施例提供的一种poi推荐模型的构建方法的流程图,包括如下步骤:s11:获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;s12:根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;s13:提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;s14:通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;s15:根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。在本实施方式中,为了进行poi推荐,就需要一定数量的用户的签到数据为基础,用户在lbsn进行签到,来彼此分享他们所访问过位置的经历,随着用户在lbsn上签到次数的增多,历史签到数据集中也就有了越来越多的数据。对于步骤s11,获取多个用户在社交网络中的历史签到数据集,在本实施方式中,以取用户a、用户b、用户c的历史签到数据为例(为了便于理解,所取用户a、用户b、用户c为一个团体,一起旅行游玩以及同时签到),历史签到数据集如下:用户1:签到号码场地id场地类别纬度经度时间-小时时间-星期1商店a商店x1y11312餐馆a餐馆x2y21713酒吧a酒吧x3y31424商店a商店x1y11335餐馆a餐馆x2y21716商店b商店x4y42017餐馆b餐馆x5y5174用户2:签到号码场地id场地类别纬度经度时间-小时时间-星期1商店a商店x1y11312餐馆a餐馆x2y21713酒吧a酒吧x3y31424商店a商店x1y11335餐馆a餐馆x2y21716商店b商店x4y42017餐馆b餐馆x5y5174用户3:签到号码场地id场地类别纬度经度时间-小时时间-星期1商店a商店x1y11312餐馆a餐馆x2y21713酒吧a酒吧x3y31424商店a商店x1y11335餐馆a餐馆x2y21716商店b商店x4y42017餐馆b餐馆x5y5174对于步骤s12,根据所述历史签到数据集内的签到时间、签到地址的信息来确定所述用户的poi特征集合。其中签到时间包括:时间-小时,时间-星期,签到地址的信息包括所述签到地址场地id也就是签到地址名称,签到场地类别以及经纬度信息。通过这些信息来确定用户的poi特征集合。例如根据这些信息确定的poi特征集合中有12个poi特征;对于步骤s13,提取所述poi特征集合中的至少一个poi特征,从而确定多个子模型训练集,例如所述poi特征集合中包括的poi特征有:x1:poi偏好,x2:类型偏好,x3:poi流行度,x4:地理距离,x5:poi转换偏好,x6:类型转换偏好,x7:poi转换流行度,x8:类型转换流行度,x9:poi时间感知流行度-小时,x10:poi时间感知流行度-星期,x11:类型时间感知流行度-小时,x12:类型时间感知流行度-星期。在确定多个子模型训练集时,可以将各特征进行组合,确定各子模型的训练集,例如:[x1],[x2],[x3],…,[x1,x2],[x1,x3],…,[x1,x12],[x1,x2,x3],[x1,x2,x4],…,[x1,x2,x3,x4],…,[x2,x3],[x2,x4],…,[x2,x3,x4,x5],…,…,[x9,x10],…。s14:通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型,根据在步骤s13中确定的多个子模型训练集确定prm(personalizedpartialmodel,个性化部分模型),另其个性化部分模型内的一部分功能特征所有功能特征。其中所述个性化部分模型是从包含部分功能特征的数据集学习的决策树二元分类器,在确定prm个性化部分模型时,基于增强算法进行学习,在学习过程中,在每层m迭代地选择prm,并在m次迭代结束时建立具有m层prm的预测模型,从而确定poi推荐子模型。对于步骤s15:根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。在确定出多个poi推荐子模型后,可以通过应用加法的方法对所述多个poi推荐子模型进行组合。进而通过组合与被测用户相关联的poi推荐子模型确定poi推荐模型。在确定poi推荐模型之后,可以对用户进行poi推荐。根据用户的历史签到数据集确定每个可能的poi生成特征向量,并根据其特征进行计算。例如,可以同时考虑到被测用户的x1(poi偏好)和x6(类型转换偏好)特征,根据被测用户的偏好,以及被测用户当前的位置信息,再基于所有用户在同一类型区域的下一活动区域的偏好对被测用户进行计算,从而确定出相应的得分,也可以根据其他特征进行预测,确定相应的得分,最后根据得分相对较高的poi向用户进行推荐。通过该实施方法可以看出,通过用户的历史签到数据集中确定多个poi特征,没有利用所有特征建立复杂模型,而是根据多个有影响力的poi特征确定部分模型,以从特征的子集学习二元决策分类器,再通过应用附加方法来组合多个个性化部分模型,最终应用所提出的模型来计算用户访问poi的概率以推荐具有最高概率top-k的poi(向用户推荐的地点)。考虑了多个poi特征而不是所有的poi特征,相比于根据单个poi特征推荐准确度更高。又避免了根据所有poi特征时,历史数据集中数据不够或过度拟合的问题,poi推荐的准确度更高。作为一种实施方式,在本实施例中,所述签到地址的信息包括:签到地址名称、签到地址类别、签到地址坐标;所述poi特征集合包括:根据单个用户在各签到地址名称以及签到地址类别的签到次数,确定所述单个用户的poi偏好以及类别偏好;根据所述多个用户在各签到地址名称以及签到地址类别的签到次数,确定各签到地址的poi流行度;根据所述单个用户在预设签到时间内相邻的签到地址的信息,确定所述单个用户的poi转换偏好以及类别转换偏好;根据所述多个用户在预设签到时间内相邻的签到地址的信息,确定各签到地址的poi转换流行度以及类别转换流行度,其中,所述预设签到时间还包括:小时、星期,确定所述各签到地址的poi时间感知流行度以及类型时间感知流行度;根据所述签到地址坐标,确定各签到地址间的地理距离。在本实施方式中,确定各poi特征。poi偏好x1:poi的用户访问次数p。此功能测量用户的签到可能出现在用户过去访问过的地点的程度,例如,用户本次签到的地点为商店a,则检查该用户在过去访问过商店a几次(不计算当前次数),也就是说,当用户第一次访问商店a时,用户访问商店a的poi偏好为0,当用户第二次访问商店a时,用户访问商店a的poi偏好为1。类别偏好x2:为了确定给定用户的不同类别的poi(电影院,咖啡馆,餐馆等)的重要性,考虑在特定类别中执行的签到用户的数量,计算方式同x1(不计算本次,以下poi特征的计算均按照这种方法计算,不再赘述),例如,用户第一次访问商店a时,用户访问“商店”类别偏好为0,用户第二次访问商店b时,用户访问“商店”类别偏好为1。poi流行度x3:数据集中所有用户执行的签到总数,例如,用户1、用户2、用户3曾经都去过一次商店a,则商店a的poi流行度为3。地理距离x4:用户签到两地间的距离,例如,用户第一次签到的地点为“商店a”,其经纬度为(x1,y1),用户第二次签到的地点为“餐馆a”,其经纬度为(x2,y2),则两地间的距离为d((x2,y2),(x1,y1))。poi转换偏好x5:用户在poi之间的过度不是随机的,也是含有一定信息的。例如,用户第n次签到的地点为“商店a”,用户第n 1次签到的地点为“餐馆a”,签到后,“商店a”→“餐馆a”的poi转换偏好为1。类型转换偏好x6:表示当前位置的类别与目标poi类别之间转换中给定用户的首选项,也就是说,用户第n次签到的地点为“商店a”,用户第n 1次签到的地点为“餐馆a”,签到后,类型“商店”→类型“餐馆”的poi转换偏好为1。隔日,用户第n m次签到的地点为“商店b”,用户第n m 1次签到的地点为“餐馆b”,签到后,类型“商店”→类型“餐馆”的poi转换偏好为2。poi转换流行度x7:所有用户在当前位置与目标poi之间完成的转换总数,其方法与poi转换偏好x5相似,x5所指个体用户,而x7查询的是所有用户。类型转换流行度x8:所有用户在具有相同当前位置类别的poi与具有与目标位置类别相同类别的poi之间完整的过渡总数,其方法与类型转换偏好x6相似,x6所指个体用户,而x8是查询所有用户。poi时间感知流行度(小时-x9)(星期-x10):本方法还将访问poi的时间模式作为有影响力的特征考虑在内,将poi小时流行度和poi日流行度定义为在当天给定小时h和一周的给定日d中poi的过去签到的总和。例如,在一天内的19点之前,所有用户从餐馆a到商店a的次数。类别时间感知流行度(小时-x11)(星期-x12):确定在不同时间段和一周中不同日期访问特定类别的时间模式,例如,在周一中,所有用户从类型“餐馆”到类型“商店”的次数。通过该实施方法可以看出,通过历史签到数据提取的特征集涵盖了各种类型的特征,充分考虑到用户的所有兴趣点,所提取的poi特征种类更多,有更多的poi特征做参考,所训练的poi推荐模型的准确度更高。作为一种实施方式,在本实施例中,所述提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集包括:通过预先指定簇的数量阈值,根据各签到地址的地址坐标对所述各签到地址进行聚类;根据各聚类类别内各签到地址的签到次数确定各聚类类别的多个poi特征,从而确定多个子模型训练集。在本实施方式中,根据用户1、用户2、用户3的历史签到数据,确定特征集合如下,例如,用户1:签到号码x1x2x3x4x5x6x7x8x9x10x11x1210000000000002000d((x2,y2),(x1,y1))000000003000d((x3,y3),(x2,y2))000000004113d((x1,y1),(x3,y3))000030305113d((x2,y2),(x1,y1))113333336020d((x4,y4),(x2,y2))000000007020d((x5,y5),(x4,y4))02060060根据上述实施例中的特征x1-x12确定方法来确定用户1的特征集合。当签到为1时,因为这是第一个签到,所以poi偏好x1和类别偏好x2的值是0。poi流行度x3取决于所有用户的签到数据,所以此特征的值也为0,因为之前还没有任何用户在商店a签到过。地理距离x4测量当前签到的poi之间的距离。由于这是用户1的第一次签到,因此该特征的值为0。poi转换偏好x5,由于这是用户的第一次签到,所以没有之前的签到,所以也为0。类型转换偏好x6、poi转换流行度x7、类型转换流行度x8、poi时间感知流行度(小时-x9)(星期-x10)、类别时间感知流行度(小时-x11)(星期-x12)都为0,在此不再赘述。当签到号码为5时:poi偏好x1的值为1,因为餐馆a已经被同一用户访问过一次。类别偏好x2的值为1,因为同一用户已经访问了来自餐馆类别的poi一次。poi流行度x3的值为3,因为在本次签到之前,除了;用户1外,还有用户2、用户3都在餐馆a签到过。地理距离x4是签到号码4和签到号码5之间的距离,即d((x2,y2),(x1,y1))。poi转换偏好x5为1,签到号码4到签到号码5的poi转换为:“商店a”→“餐馆a”。而在本次签到之前,也有过一次“商店a”→“餐馆a”的转换(签到号码1-签到号码2)。类型转换偏好x6为1,因为之前已经从具有“商店”类别的poi到具有“餐馆”类别的poi执行了一次签到(方式与poi转换偏好x5相类似,在此不再赘述)。poi转换流行度x7为3,因为所有用户之前已经从商店a到餐馆a进行了3次签到,(根据用户a、用户b、用户c的签到号码5之前的历史签到信息)。类型转换流行度x8为3,因为之前已经从所有用户从具有“商店”类别的poi到具有“餐馆”类别的poi执行了三次签到。poi时间感知流行度(小时-x9)(星期-x10),其中,x9为3,因为所有用户在17小时(点)之前已经从商店a到餐馆a进行了3次签到,x10为3,因为所有用户在星期一内已经从商店a到餐馆a进行了3次签到。类别时间感知流行度(小时-x11)(星期-x12),其中,x11为3,因为在时间17小时(点)之前已经从具有“商店”类别的poi到“餐馆”类别的poi执行了3次签到,x12为3,因为在星期一内已经从“商店”类别的poi到具有“餐馆”类别的poi执行了3次签到。按照上述方法即可对签到号码2、3、4、6、7进行确定,在此不再赘述。例如,与签到号码7有关的特征为x2、x6、x8、x11,根据所述特征x2、x6、x8、x11确定子模型训练集。还可以根据各签到地址的位置进行聚类,从而识别每个用户经常访问的地理区域,用户在lbsn中的活动经常在他们经常访问的领域内出现强烈的偏好。通过对每个聚类中学习决策树,应用此方法,将自动识别每个集群的有影响力的特征,来确定子模型训练集,因为决策树将选择最具有影响力的特征。通过预先指定簇的数量,应用k均值聚类来识别聚类。通常根据可用训练数据的数量来确定集群的数量,该数量等于用户已经执行的签到的数量。如果可以获得每个用户更多的数据,那么就可以设置更高的集群数量。随着集群数量的增加,每个集群容量的减小,所确定的特征更加具有影响力,所训练的poi推荐模型的准确度更高,同时提取更精确简洁的特征,减少训练时间。作为一种实施方式,在本实施例中,所述历史签到数据集包括训练数据集以及验证数据集,其中,所述训练数据集用于确定用户的poi特征集合。在本实施方式中,当历史签到数据集中的数据较多时,可以将其划分为训练数据集以及验证数据集进行训练。通过所述训练数据集来确定用户的poi特征。其中验证数据集可以进行验证,根据验证结果来对确定的poi推荐模型进行修正调整。通过该实施方法可以看出,将历史数据集划分为训练数据集以及验证数据集可以对训练的poi推荐模型进行验证以及修正调整,使得poi推荐模型的准确度进一步提高。作为一种实施方式,在本实施例中,在根据所述训练数据集确定的用户的poi特征集合之后,所述方法还包括:根据所述poi特征集合确定多个poi推荐子模型;通过验证数据集对所述多个poi推荐子模型进行校验,确定所述多个poi推荐子模型中的部分有效poi推荐子模型;根据所述部分有效poi推荐子模型修剪所述多个poi推荐子模型,以减少过度拟合。在本实施方式中,通过验证数据集对所述多个poi推荐子模型进行校验,进而确定所述多个poi推荐子模型中的有效poi推荐子模型,其目标是输出部分模型的子集,由于其部分模型的子集性能与整个集合相同,通过修剪,来减少可能的过度拟合,来改善性能。例如可以通过使用reduce-errorpruning(减少错误修剪)的贪婪方法,修剪删除了不影响推荐性能的部分模型。通过该实施方法可以看出,通过验证数据集对所述多个poi推荐子模型进行校验,修剪掉不影响推荐性能的部分模型,减少了过度拟合,从而使得poi推荐模型的准确度提高。下面对所述方案进行整体说明,poi(pointofinterest,兴趣点)推荐的问题,可以通过函数f:x→y表示。其中,x是输入特征空间,y是输出空间,在本方法的设置中,输入空间是一组具有影响力的特征,输出空间是一组poi。设d={{x(u,t),y(u,t)},u=1,..,n}是n个用户的数据集,y(u,t)是用户u在时间t访问的poi,x(u,t)是对访问过的poi的特征值进行编码,要计算特征空间x(u,t)的输出y(u,t),我们只能通过使用数据{x(u,t′),y(u,t′)}t′=1,..,t-1学习函数f。本方法考虑一种概率方法,其中输入和输出被建模为随机变量。为此,我们从训练集中学习分布p(y|x),其中,x={x1,x2,...,xf}表示f特征的集合,y表示poi。为了获得上述分布,本方法学习了特征空间上的监督模型,以计算用户访问poi的概率。为了训练模型,将在预测时间t之前访问所有的poi视为正实例。然后,通过在城市中所有其他地方随机抽样来检索负面标记的实例,这种通过用户偏好的形式提供反馈,来训练模型的方法。本方法考虑了poi特征之间的作用,使得推荐更加准确。因此,将poi推荐的问题确定如下:鉴于:包含用户历史签到数据的数据集,从中抽取的训练和测试实例。发现:基于培训实例的推荐模型。意图:通过在测试实例上评估模型来改进建议的性能。其中,用户历史签到数据的数据集是由使用lbsn(locationbasedsocialnetwork,基于位置的社会化网络)的用户,在彼此分享自己位置时,签到所获取的。他们彼此分享位置,也被称为poi,例如餐馆、商店、博物馆等。本方法目标构建一个推荐模型,表示为h,它将poi的特征向量x作为输入,然后输出h(x)作为用户访问poi的概率。然后返回具有最高概率的top(k)poi作为推荐。当用户访问推荐的poi时(也包括用户在推荐的poi地点签到),认为该模型正确推荐poi。可见,特征空间越精确,所推荐的建议就越精确。换句话说,结合更多相关特征,可以产生更精确的模型。例如,考虑到poi特征中人气和距离两个因素,可能比单独使用更加有效。然而随着特征空间x的增加,也就需要更多的数据来准确得估计分布p(y|x)。因此,主要的挑战是构建一个能够有效利用培训实例中可用功能的模型。本方法通过将模型分割成多个部分模型来提出解决方案,每个模型将x的子集作为输入特征,如图2所示的部分个性化模型示意图,从输入特征c1学习决策树二元分类器r1,将其称为部分个性化模型(prm),因为它并没有考虑所有的特征,而是考虑所有特征的子集来构建模型。对于每个用户,模型学习不同特征的重要性,以区分有趣的poi和不吸引用户的poi。然后,prm的定义如下:令并且包含cl中特征值的训练集表示为dl。prmrl是从dl学习的决策树二元分类器,考虑到特征子集c1,prob(l|cl),使用rl 来计算访问poi的概率,和rl-作为不访问poi的概率prob(-1|cl)。本方法将从特征空间中的所有可能子集中学习prms,然后将它们组合在一起以构建推荐模型。通过一种基于分区的方法,以有效的方式学习prms。为了构建prms然后共同利用它们,结合了基于增强算法的加法学习过程。该过程在每个层m迭代地选择prm,并在m次迭代结束时建立具有m层prms的预测模型。对于每个rm,学习假设hm,其中hm(x)∈ir,x是实例poi的特征向量,ir是实数域。因此,从r m学习了h m,并且在m次迭代结束时,从r-m学习了h-m,最终的假设被建模为:其中,其本身可以分为h (x)和h-(x),它们相应的从h (x)和h-(x)获得。当我们正在寻找确定访问poi的概率时,除非另有说明,否则h(x)表示h (x)。这种加性学习方法主要应用与实值置信度增强方法相同的原理,该方法允许使用来自决策树的概率估计rm来更新加性模型。目标是在每次迭代中找到最佳hm,这对训练实例产生最小预测误差。为此,首先使用二维向量v=(v1,v2)重新编码训练实例的输出,如果x是负实例,则v=(1,-1),如果x是正实例,则v=(-1,1)。然后迭代m的指数损失函数的推广如下:为了简化表示,在下文中使用h(x)表示hm(x),因此,最小化问题表述为:subjecttoh-(x) h (x)=0这种约束优化问题的拉格朗日可以写成:exp(-h-(x))prob(-1|x) exp(-h (x))prob(1|x)-λ(h-(x) h (x))其中,λ是拉格朗日乘数。考虑到h和λ的导数,达到了:-exp(-h-(x))prob(-1|x)-λ=0,-exp(-h (x))prob(1|x)-λ=0,h-(x) h (x)=0求解这组方程,得到h(x):除非另有说明,否则h(x)表示h (x),h-(x)以与h (x)相反的方式计算。可以使用决策树r的概率估计作为条件期望的近似值:基于上述分析,首先提出poi推荐模型buildappr(additivepersonalizedpoint-of-interestrecommendationmodel,附加个性化兴趣点推荐模型),此外还提出了pruneappr函数来重新评估结果模型,以防止最终假设h过度拟合并且还减小prm集的大小。因此,将用户u,du的签到记录的数据集划分为两个子集,即增长数据集(growset)和验证数据集(pruneset)。其中,前一个数据集用于bulidappr函数,后一个用于pruneappr函数。对于buildappr函数,首先在每轮m处对训练实例的权重进行归一化,使其成为概率分布其中,wm(i)是迭代m处的实例i的权重。然后,从训练数据中学习该组prm,然后随机选择一个prmr并将其添加到rlist。根据从所选择的prm计算的概率估计,得到r 和r-,hm(x)得到了上述公式。为了给出hm无法识别的数据实例,在下一次迭代中赋予更多关注,指数地降低hm正确识别的权重,并增加hm错误识别的权重。实例的权重更新如下:最后,结果是prm列表,rlist={r1,r2,...,rm},这是它们对应的假设{h1,h2,...,hm}。最终假设可以根据上述公式获得。为了将h(x)转换为概率分布,将其设置为h(x)=exp(h(x)),然后将其标准化。对于pruneappr功能,改善了模型的性能。通过计算pruneset上错误率来重新评估bulidappr返回的prm集,以解决可能的过度拟合问题。目标是获得prm的子集,而在pruneset上获得最佳性能。将h (x)>0作为正预测,并且h-(x)>0作为否定结果。然后将错误计算为分别是模型无法正确识别的实例数。此函数重复从rlist中删除r,直到达到最小错误值或rlist中只剩下一个prm,最后,返回具有最小错误的rlist。至此,本方法设计了基于迭代构建prm(presonalizedpartialmode,个性化部分模型),并通过附加方法将他们组合在一起。然而,构建prm的过程效率不高,因为我们从特征空间的所有可能子集中识别它们。从而通过基于分区的方法来学习部分模型,进而提高了推荐poi的性能,也减少了培训的时间。用户在lbsn中的活动经常在他们经常访问的领域呈现出强烈的偏好偏见。在另一方面,类似的活动是由类似的有影响力的特征驱动的。用户仅在其每个常去区域中执行几种类型的活动(即,访问几个类别的poi)。例如,一个人去购物的区域不同于他/她去参观博物馆或艺术画廊的区域。通过观察用户等级行为的地理偏好,表明了不同的用户通常有自己常去的区域。通过检查用户在其经常光顾的地区的活动,其用户的行动通常仅限于大多数经常光顾的地区的几种活动。来自同一常去区域的签到等级表明其有影响力的特征具有很强的相似性。为此,本方法设计了一种基于分区的方法来识别从地理聚集签到数据中获取的分区的隐藏模式。在每个分区中存在一个模式,从每个分区学习一个二元决策树分类器来表示底层模式,称之为pprm(partition-basedpartialpersonalizedmodel,基于分区的部分个性化模型),因此,在基于分区的prm发现中嵌入了一个特征选择的过程,该过程选择最合适的特征来表示底层pprm。从而,pprm的定义如下:让pl称为签到数据的分区。prrmrl是从pl学习的决策树二元分类器,其设计特征子集cl,因此,考虑到特征子集cl,概率prob(l,cl)和r1作为不访问poi的概率prob(-l,cl),用于计算访问poi的概率。为了以不同的粒度级别从分区捕获pprm,进而通过改变簇的数量来对具有不同相似度的嵌入进行聚类。应当注意,所提取的分区不是互相排斥的,从中可以更有效的学习特征。应用基于分区的方法来识别pprm考虑了签到数据的空间特征,这导致更准确的推荐。此外,与考虑特征空间的所有可能子集的之前方法相比,它减少了训练时间。在确定用户特征时,本方法定义了一组特征x={x1,x2,…,xf},以涵盖用户在lbsn中运动的不同方面;覆盖个人用户偏好的特征,例如历史访问,以及考虑到整个系统的知识而得出的特征,例如地点的流行度,地理距离和地点之间的用户转换。本方法还定义了一组利用用户移动的时间信息的功能。将t’和y’视为当前等级的时间和地点,其中c(y’)确定poiy’的类别,并且tod(t’)反馈一天中的小时和dow(t’)返回时间t’的星期几,计算所有特征的值,知道当前时间为t’。需要注意,所使用的功能取决于任务,并且可以根据应用定义不同类型的功能。(上述实施例中已经对各poi特征进行具体说明,下述为具体的公式)兴趣点poi偏好:poi的用户访问次数p。此功能测量用户的下一次签到可能出现在用户过去访问过的地点的程度,公式有:x1(p)=|{(y,t)∈du:t<t∧y=p}|类别偏好:为了确定给定用户的不同类别的poi(电影院,咖啡馆,餐馆等)的重要性,考虑在特定类别中执行的签到用户的数量:x2(p)=|{(y,t)∈du:t<t∧c(y)=c(p)}|其中c(p)是poip的类别。poi流行度:poip中数据集中所有用户u执行的签到总数:x3(p)=|{(y,t)∈d:t<t∧y=p}|地理距离:将y视为用户u的当前位置,我们测量poip与当前位置之间的距离作为一个有影响力的特征:x4(p)=dist(y,p)poi转换偏好:用户在poi之间的过度不是随机的。将tu视为用户u当前时间t之前的连续转换中涉及的poi的元组集合,定义以下特征:x5(p)=|{(v1,v2)∈tu:v1=y∧v2=p}|类型转换偏好:表示当前位置的类别与目标poi类别之间转换中给定用户的首选项:x6(p)=|{(v1,v2)∈tu:c(v1)=c(y)∧c(v2)=c(p)}|poi转换流行度:所有用户在当前位置与目标poip之间完成的转换总数:x7(p)=|{(v1,v2)∈t:v1=y∧v2=k}|类型转换流行度:所有用户在具有相同当前位置类别的poi与具有与目标位置类别相同类别的poi之间完整的过渡总数:x8(p)=|{(v1,v2)∈t:c(v1)=c(y)∧c(v2)=c(p)}|poi时间感知流行度:本方法还将访问poi的时间模式作为有影响力的特征考虑在内,将poi小时流行度和poi日流行度定义为在当天给定小时h和一周的给定日d中poi的过去签到的总和。x9(p)=|{(y,t)∈d:t<t∧y=p∧tod(t)=tod(t)}|x10(p)=|{(y,t)∈d:t<t∧y=p∧tow(t)=tow(t)}|其中,tod(t)返回一天中的小时,dow(t)返回时间周的某一天。类别时间感知流行度:确定在不同时间段和一周中不同日期访问特定类别的时间模式:x11(p)=|{(y,t)∈d:t<t∧c(y)=c(p)∧tod(t)=tod(t)}|x12(p)=|{(y,t)∈d:t<t∧c(y)=c(p)∧tow(t)=tow(t)}|对于特定用户u,为每个访问的poi提取上述特征集x,从而按照上述推荐模型训练步骤,获得用户u的推荐模型。对于每个poi,通过提取特征集x,并计算用户访问poi的概率。最后,返回具有最高概率前k个poi座位推荐列表plist。为了证明本方法的效果,在此将描述本方法的实验设置,用于根据poi推荐技术评估提议的poi推荐模型的性能。在此,使用了两个公开的真实签到数据集,这些数据集lbsn上抓取。它包含两个大城市纽约和东京的活跃用户的签到。在实验中实施的基线推荐技术基于所采用的poi推荐测量分为两类。朴素贝叶斯方法(basel):该方法分别表征访问poi的概率与每个有影响的特征xi之间的依赖关系,为了实现这种方法,根据不同的特征对poi进行排名,最终排名是各个排名的乘积。全关节模型(base2):这种方法表征了访问poi的概率与所有影响的特征x之间的依赖关系,它应用m5决策树来预测用户的下一个poi。为了评估poi推荐的质量,采用了三个标准指标:准确度,精确度和召回率。首先评估推荐下一个位置的质量,为此,定义准确度:准确度为1,如果在前k个poi中发现下一个poi,则为plist。然后将平均准确度计算为成功实例在推荐任务总数上的比例。为了评估位置推荐的质量,还必须要找出目标用户在测试数据集中访问的位置,由推荐方法识别的位置。为此,定义精确度和召回率。精确定义发现的poi数量与k个推荐的poi比率:召回定义发现的poi数量与测试集中目标用户访问过的正poi数量的比率,以便:由于只能使用过去的签到数据来预测未来的签到,因此每个数据集分为训练集和有关签到时间的测试集。使用了前八个月的签到作为训练数据集,最后两个月的签到作为测试数据集。训练集用于学习推荐模型,以预测测试数据。在实验中,检查了关于从5到100的top-k范围的评估推荐技术的准确度,精确度和召回率。迭代次数m设置为50,并且用于评估p-appr的聚类数量g设置为4。最终通过实验比较:朴素贝叶斯方法:这种方法只是假设特征在结果上是独立的。它模拟了分别访问poi和每个特征xi的概率,然后通过相乘来组合他们。因此,它无法利用poi建议中的功能之间的交互。考虑到lbsn中的用户行为受到同步作用的多个特征的影响,base1返回不太准确的poi,关于精度(图3-a和图4-a)和准确度(图3-b和图4-b)。与appr相比,目标用户访问的poi与召回有关。这已在图3-c和图4-c中表示。这种方法也忽略了这样一个事实,即不同的用户可能会受到不同用户的影响,并认为所有功能都具有了相同的重要性。全关节模型:为了克服朴素贝叶斯方法的局限性,该模型描述了访问pio概率与xi共同影响的所有特征之间的依赖关系。它采用监督学习策略来模拟poi建议。因此,它考虑了特征的交互,并且还区分了不同特征对用户行为的重要性。但是,它在精度和准确度方面,返回最不准确的poi,并且错过了目标用户实际访问的有关找回的大多数poi。原因是用户的签到数据在lbsn中通常是稀疏的,并且全关节模型导致概率估计的过度拟合和低性能。附加个性化poi推荐(appr):相比之下,appr继承了朴素贝叶斯方法和全关节模型的优势,包括组合各个模型,考虑特征交互,并区分特征对不同用户的重要性。因此,它基本上表现出两个数据集上的各种top-k值的更好性能。基于分区的附加个性化poi推荐(p-appr):与appr相比,基于分区的方法显著提高了两个数据集中推荐的精度,图3-a和图3-b中。但是,考虑到建议的召回和准确性,p-appr略低于appr方法。由于基于分区的appr中只涉及最合适的功能,而不是所有功能,因此他会产生比appr更精确的推荐。另一方面,特征空间的所有可能子集都涉及构建appr。这导致模型可以识别用户想要访问的更多poi,这导致更高的召回率。根据图3和图4看出,应用朴素贝叶斯策略的base1不如在两个数据集上应用全关节的方法base2.主要原因是,由于base1分别为每个功能建模,因此它更好地处理数据稀疏性问题。另一方面,由于可用的训练集有限,base2面临过度拟合,导致性能不佳。然而这两种策略的优势可以通过appr整合到统一的推荐框架中。各种top-k值的推荐性能,从图3到图4可以看出,随着k的上升,召回逐渐增加,但这两个数据集的精度稳步下降,是由于当更多的poi返回给用户时,他可以识别用户想要访问的更多未知,从而导致更高的召回率,另一方面,由于推荐技术反馈具有前k个最高概率(得分)的poi,因此用户不太可能访问额外推荐的poi,因为这些poi的访问概率较低导致较低的精度。与召回相同的解释是为了准确性,通过返回更多的位置,发现用户访问的下一个位置的既会增加。随着推荐的poi数量k的增加,appr-p在精度方面的优势变得更加明显。另一方面,召回appr-p低于appr。它表明,随着k的增加,appr发现了更多阳性的poi,然而,他也会返回更多假阳性的结果。。这导致比appr-p更高的召回率和更低的精度。在测试迭代次数中通过达到某些推荐性能所需的迭代次数来表示,在本方法中,设置k=20(推荐的poi数)。对于两个数据集,从appr何p-appr获得的性能在m=50附近达到其上限,并且设置m>50不一定改善推荐模型的性能。由于群体数量对appr性能有影响,群集的数量g通常基于可用训练数据的量来确定,其等于用于已经执行的签到数量。在此试验期间,设置了另外两个参数m=50(迭代次数)和k=20(推荐的poi数)。g使用获得的两个数据集-纽约和东京进行评估。基本没有聚类和整个数据集是唯一的集群。因此,观察到使用聚类可以获得更好的整体精度,召回率和准确性。这是因为使用聚类来成功找到prm可以捕获用户访问的常用区域的隐藏模式。收敛水平取决于可用训练数据的数量,可用的等级数据越多,可以提取的群集越多。要构建appr,bulidappr函数必须从特征空间的所有可能子集中识别prm。假设有f个特征,那么在每次迭代中,都应该识别2fprm。因此,该步骤的计算量很大。根据p-appr,bulidappr功能仅需要从提取的集群中识别prm。考虑到有g个簇,那么应该只识别gprms,应该注意,g<2f,特别是涉及许多功能时,同时这样也提高了推荐的精确度。如图5所示为本发明一实施例提供的一种poi推荐模型的构建系统统的结构示意图,该系统可执行上述任意实施例所述的poi推荐模型的构建方法,并配置在终端中。本实施例提供的一种用于语音对话平台的词库编辑系统包括:历史签到数据集获取程序模块11,poi特征集合确定程序模块12,子模型训练集确定程序模块13,poi推荐子模型确定程序模块14和poi推荐模型确定程序模块15。其中,历史签到数据集获取程序模块11用于获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;poi特征集合确定程序模块12用于根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;子模型训练集确定程序模块13用于提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;poi推荐子模型确定程序模块14用于通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;poi推荐模型确定程序模块15用于根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。进一步地,所述签到地址的信息包括:签到地址名称、签到地址类别、签到地址坐标;所述poi特征集合包括:根据单个用户在各签到地址名称以及签到地址类别的签到次数,确定所述单个用户的poi偏好以及类别偏好;根据所述多个用户在各签到地址名称以及签到地址类别的签到次数,确定各签到地址的poi流行度;根据所述单个用户在预设签到时间内相邻的签到地址的信息,确定所述单个用户的poi转换偏好以及类别转换偏好;根据所述多个用户在预设签到时间内相邻的签到地址的信息,确定各签到地址的poi转换流行度以及类别转换流行度,其中,所述预设签到时间还包括:小时、星期,确定所述各签到地址的poi时间感知流行度以及类型时间感知流行度;根据所述签到地址坐标,确定各签到地址间的地理距离。进一步地,所述子模型训练集确定程序模块用于:通过预先指定簇的数量阈值,根据各签到地址的地址坐标对所述各签到地址进行聚类;根据各聚类类别内各签到地址的签到次数确定各聚类类别的多个poi特征,从而确定多个子模型训练集。进一步地,所述历史签到数据集包括训练数据集以及验证数据集,其中,所述训练数据集用于确定用户的poi特征集合。进一步地,在所述poi特征集合确定程序模块之后,所述系统还用于:根据所述poi特征集合确定多个poi推荐子模型;通过验证数据集对所述多个poi推荐子模型进行校验,确定所述多个poi推荐子模型中的部分有效poi推荐子模型;根据所述部分有效poi推荐子模型修剪所述多个poi推荐子模型,以减少过度拟合。本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的poi推荐模型的构建方法;作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的poi推荐模型的构建方法。非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的poi推荐模型的构建方法的步骤。本申请实施例的客户端以多种形式存在,包括但不限于:(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。(4)其他具有数据处理功能的电子装置。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 
技术特征:

1.一种poi推荐模型的构建方法,包括:

获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;

根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;

提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;

通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;

根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。

2.根据权利要求1所述的方法,其中,所述签到地址的信息包括:签到地址名称、签到地址类别、签到地址坐标;

所述poi特征集合包括:

根据单个用户在各签到地址名称以及签到地址类别的签到次数,确定所述单个用户的poi偏好以及类别偏好;

根据所述多个用户在各签到地址名称以及签到地址类别的签到次数,确定各签到地址的poi流行度;

根据所述单个用户在预设签到时间内相邻的签到地址的信息,确定所述单个用户的poi转换偏好以及类别转换偏好;

根据所述多个用户在预设签到时间内相邻的签到地址的信息,确定各签到地址的poi转换流行度以及类别转换流行度,其中,所述预设签到时间还包括:小时、星期,确定所述各签到地址的poi时间感知流行度以及类型时间感知流行度;

根据所述签到地址坐标,确定各签到地址间的地理距离。

3.根据权利要求2所述的方法,其中,所述提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集包括:

通过预先指定簇的数量阈值,根据各签到地址的地址坐标对所述各签到地址进行聚类;

根据各聚类类别内各签到地址的签到次数确定各聚类类别的多个poi特征,从而确定多个子模型训练集。

4.根据权利要求1所述的方法,其中,所述历史签到数据集包括训练数据集以及验证数据集,其中,所述训练数据集用于确定用户的poi特征集合。

5.根据权利要求4所述的方法,其中,在根据所述训练数据集确定的用户的poi特征集合之后,所述方法还包括:

根据所述poi特征集合确定多个poi推荐子模型;

通过验证数据集对所述多个poi推荐子模型进行校验,确定所述多个poi推荐子模型中的部分有效poi推荐子模型;

根据所述部分有效poi推荐子模型修剪所述多个poi推荐子模型,以减少过度拟合。

6.一种poi推荐模型的构建系统,包括:

历史签到数据集获取程序模块,用于获取多个用户在社交网络中的历史签到数据集,其中,所述历史签到数据集至少包括:签到时间、签到地址的信息;

poi特征集合确定程序模块,用于根据所述历史签到数据集内的签到时间、签到地址的信息确定所述用户的poi特征集合;

子模型训练集确定程序模块,用于提取所述poi特征集合中的至少一个poi特征,确定多个子模型训练集;

poi推荐子模型确定程序模块,用于通过监督模型对所述多个子模型训练集分别训练对应的poi概率估计,根据自决策树对所述poi概率估计迭代更新,当所述poi概率估计达到或超过预设阈值时,确定多个poi推荐子模型;

poi推荐模型确定程序模块,用于根据应用加法聚集所述多个poi推荐子模型,以构建poi推荐模型。

7.根据权利要求6所述的系统,其中,所述签到地址的信息包括:签到地址名称、签到地址类别、签到地址坐标;

所述poi特征集合包括:

根据单个用户在各签到地址名称以及签到地址类别的签到次数,确定所述单个用户的poi偏好以及类别偏好;

根据所述多个用户在各签到地址名称以及签到地址类别的签到次数,确定各签到地址的poi流行度;

根据所述单个用户在预设签到时间内相邻的签到地址的信息,确定所述单个用户的poi转换偏好以及类别转换偏好;

根据所述多个用户在预设签到时间内相邻的签到地址的信息,确定各签到地址的poi转换流行度以及类别转换流行度,其中,所述预设签到时间还包括:小时、星期,确定所述各签到地址的poi时间感知流行度以及类型时间感知流行度;

根据所述签到地址坐标,确定各签到地址间的地理距离。

8.根据权利要求7所述的系统,其中,所述子模型训练集确定程序模块用于:

通过预先指定簇的数量阈值,根据各签到地址的地址坐标对所述各签到地址进行聚类;

根据各聚类类别内各签到地址的签到次数确定各聚类类别的多个poi特征,从而确定多个子模型训练集。

9.根据权利要求6所述的系统,其中,所述历史签到数据集包括训练数据集以及验证数据集,其中,所述训练数据集用于确定用户的poi特征集合。

10.根据权利要求9所述的系统,其中,在所述poi特征集合确定程序模块之后,所述系统还用于:

根据所述poi特征集合确定多个poi推荐子模型;

通过验证数据集对所述多个poi推荐子模型进行校验,确定所述多个poi推荐子模型中的部分有效poi推荐子模型;

根据所述部分有效poi推荐子模型修剪所述多个poi推荐子模型,以减少过度拟合。

技术总结
本发明实施例提供一种POI推荐模型的构建方法。该方法包括:获取多个用户在社交网络中的历史签到数据集;根据历史签到数据集内的签到时间、签到地址的信息确定用户的POI特征集合;提取POI特征集合中的至少一个POI特征,确定多个子模型训练集;通过监督模型对多个子模型训练集分别训练对应的POI概率估计,根据自决策树对POI概率估计迭代更新,当POI概率估计达到或超过预设阈值时,确定多个POI推荐子模型;根据应用加法聚集多个POI推荐子模型,以构建POI推荐模型。本发明实施例还提供一种POI推荐模型的构建系统。本发明实施例考虑了多个POI特征而不是所有的POI特征,相比于根据单个POI特征或所有POI特征时避免了过度拟合以及数据不足,使得推荐准确度更高。

技术研发人员:王新珩;伊雷·内择瑞安汗择;陈涛;玛德塞·伊克巴尔
受保护的技术使用者:知谷(上海)网络科技有限公司
技术研发日:2018.11.30
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-23322.html

最新回复(0)