一种基于传粉启发聚类的商户选址方法及系统与流程

专利2022-06-29  127


本发明属于数据挖掘和机器学习领域,涉及一种基于传粉启发聚类的商户选址方法及系统。



背景技术:

目前,商家对餐饮店、零售店或自动贩卖机等类型的商户进行选址时,一般是通过人工统计客流量的方式,来判断与选择合适开设店铺、投放设备的位置,这种方式往往需要大量的人力与时间的投入,选址效率比较低。而且,商户选址中最常用的k-means聚类方法,则需要在聚类开始就给出确定的聚类个数,而在很多实际应用中,聚类个数是无法确定的。

因此,亟需一种能够在未知聚类个数的前提下,能够分析出最佳商户选址位置的方法。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于传粉启发的聚类算法以及地理信息系统(gis)空间分析方法相结合的方法,解决了当聚类个数不能预知,无法使用传统选址方法中的k-means聚类方法以及现有人工统计客流量效率低的选址问题。

为达到上述目的,本发明提供如下技术方案:

一种基于传粉启发聚类的商户选址方法,具体包括以下步骤:

s1:获取数据:收集调查某地区或街道等移动终端用户的数据集,包含(居住地)信息、收入水平以及消费水平等信息;

s2:构建系统:将数据库单元、信息分类及分析单元和信息查询单元集合在一起,组建一个显示集成网站和数据库等功能的平台;

s3:数据库信息的输入:将采集到的信息及时输入数据库,并根据时间的推移不断对数据库内信息进行更新;

s4:对数据库信息分类及分析:对数据库中的数据归类整理,运用传粉启发的聚类算法(aclusteringalgorithminspiredbypollination,ipca)来挖掘用户的兴趣爱好,并判断每个不同地址的商业投资前景,然后使用see原则和地理信息系统分析方法选出初始的商户地址;

s5:智能查询:查询者向系统输入欲查询的地址,然后输入相关因素的权重,例如租金、与该地区内各个小区移动终端用户的消费水平等因素,得出最终的选址地点。

进一步,步骤s2中,构建的系统包括有数据库单元、信息分类及分析单元和信息查询单元;

构建数据库单元:构建包含大量地址的地址数据库(包括居民区数据库)和与该地址数据库有关联的、存储查询者想要得知的、且与各个地址对应的商业信息数据库,并建立索引;

构建信息分类及分析单元:对地址数据库内用户的地址进行空间定位,采用传粉启发聚类算法对数据处理;

构建信息查询单元:综合分析各个因素对选址的影响,根据已有地区商户的商业信息在索引中进行查询,并以报告的形式输出,最终确定商户的地址选择。

进一步,步骤s4中,采用ipca聚类算法对信息分类、分析从而找到初始商户选址的地理位置,具体包括以下步骤:

s41:基于ipca聚类算法构建聚类统计模型;

s42:对移动终端用户数据进行聚类分析得到聚类簇,根据每个类簇推断出用户的特征,如该用户的居住点、上班地点、经常在哪个餐馆吃饭、经常在哪个地铁出行等,分析出用户的兴趣爱好以及消费记录等信息;

s43:信息分析,根据某区域内用户的位置信息,推断出该用户的兴趣点,结合该用户的消费记录以及待选址商户的信息与已有商户的信息来实现某商户的选址问题;

s44:商户初步选址,以各个小区的地理位置为中心,运用k-means算法中的目标函数sse来最小化各个小区的用户到商户地址的总距离,从而计算出商户的初始位置。

进一步,步骤s4中,所述ipca聚类算法具体包括:

1)根据昆虫介导的植物授粉生态过程的原理,抽象出昆虫传粉媒介与植物之间的相互作用,通过以下假设来制定聚类算法:a)其中每个数据代表一个单独的一年生植物,每个数据的属性代表植物花朵性状的一个特征;b)每个单独的代理代表一个昆虫传粉者,感知、记忆、觅食、花粉篮、花粉的提取和沉积;c)数据之间的相似度等于不同植物物种之间的花粉粒相似度;d)每棵植物在一年后死亡,但如果获得了足够的花粉繁殖量,其后代取代亲本的位置或重新随机放置在空间的任何位置;在所有植物经过多次迭代进化之后,所有植物的位置都视为数据集的聚类结果;

2)算法中的昆虫即是代理,植物即是移动终端数据点;昆虫的觅食活动包括授粉和采粉行为,其中授粉指的是昆虫从自身花粉篮随机散落一定数量的花粉在当前的植物柱头上,即表示代理与移动终端数据点之间的信息交流,相似度的交流;采粉指的是昆虫从当前植物上获取的花粉装入自身花粉篮,即表示代理从移动终端数据点获取数据信息;3)初始阶段,选取某个数据集和一定数量的代理,数据集中的每个数据点表示一个移动终端数据点,数据点的特征向量表示移动终端数据的特征;将所有代理和移动终端数据点的位置随机分布在空间中,并在算法开始时,使得每个代理随机选择一个数据点作为觅食对象;

4)代理选择飞往与自身位置距离最近的移动终端数据点进行觅食活动;

5)统计移动终端数据点从代理身上获得的数据点总数量n,选取欧式距离作为相似数据之间特征差异的度量,拉普拉斯核函数计算数据点间的相似度s;

6)记录代理过去的觅食历史,觅食过程完成后,在代理的觅食历史中添加该移动终端数据点;

7)判断线性队列的长度是否超过代理的记忆深度md;如果线性队列的长度超过代理的记忆深度md,则删除超出部分的数据点的标记;如果没有超过,则不改变线性队列;

8)判断觅食次数是否达到阈值;如果代理觅食次数没有达到阈值,代理继续选择与觅食历史中不重复且网格中距离最近的移动终端数据点进行觅食活动,如果达到阈值,统计每个移动终端数据点从代理身上获得的数据点总数量n和数据点间的相似度s,当所有代理觅食次数达到上限后,根据每个移动终端数据点从代理身上获得的数据收益来计算每个数据点从所有的代理身上获得的总的数据收益;并计算当前移动终端数据点的存活概率;

9)根据每个数据点当前位置的存活概率pi与随机数r1比较的结果,判断数据点的当前位置是否改变;如果某个数据点i的存活率pi>r1,表示该位置的移动终端数据点能够存活,当前位置保持不变;如果pi<r1,则该位置的移动终端数据点死亡,统计该数据点邻域内的其他移动终端数据点的数量;

10)如果移动终端数据点i的邻域内的移动终端数据点数量不为零,则计算该移动终端数据点的邻域适应度fiti,否则,利用全局位置更新策略给该移动终端数据点重新生成一个与当前存活移动终端数据点不重复的位置代替死亡数据点的位置;

11)将数据点i的适应度函数fiti与随机数r2比较,如果fiti>r2,则该移动终端数据点的位置保持不变,数据点的下一年的子代还在此位置;如果该数据点的邻域适应度fiti<r2,则终端位置数据点i使用全局位置更新策略重新赋予一个位置position1,且与当前存活移动终端数据点的位置不重复;然后使用局部位置更新策略对position1进行局部调整,使得移动终端数据点更新到适应度更高的位置position2;

12)当算法每迭代1000次的时候,统计此次迭代结果中改变位置的数据点的数目nc;如果nc高于0.2倍的nc,则更新参数α=α 0.04,如果nc低于0.2倍的nc时,α保持不变;

13)当满足一定条件时,算法终止;

14)当每个移动终端数据点在网格上得到最终的聚类位置时,根据移动终端数据得到的最终位置得到聚类簇。

进一步,步骤3)中,花粉之间特征差异的度量为:

其中,xi表示移动终端数据点i的花粉包含所有属性值的特征向量,xi=(xi1,xi2,xi3,…xin),xj表示移动终端数据点j的花粉包含所有属性值的特征向量,xj=(xj1,xj2,xj3,…xjn);

花粉间的相似度,即移动终端数据点之间的相似度采用拉普拉斯核函数进行度量其中α表示相似度参数,即自适应参数。

进一步,步骤3)中,花粉之间特征差异的度量为:

其中,xi表示植物i的花粉包含所有属性值的特征向量,xi=(xi1,xi2,xi3,…xin),xj表示植物j的花粉包含所有属性值的特征向量,xj=(xj1,xj2,xj3,…xjn);而花粉间的特征差异越大,则花粉间相似度越低,反之花粉间相似度越高;

花粉间相似度采用拉普拉斯核函数进行度量其中α表示相似度参数,即算法的自适应参数,初始值设为0.06。

进一步,步骤6)中,每个移动终端位置数据点从代理身上获得的数据收益为:

每个数据点从所有的代理身上获得的总的数据收益为:

其中,dnk表示移动终端数据点i接收来自第k个移动终端数据点的数据量,sik表示移动终端数据点i和移动终端数据点k之间的相似度,在算法中授粉量为固定值,m表示所有访问过移动终端数据点i的代理数量,n表示数据点i从代理身上一共接收来自n个移动终端数据点的数据;

当前数据点的存活概率为:

其中,p0表示初始花粉收益,与算法中数据点的邻域半径有关,并且初始值设为0.79。

进一步,步骤8)中,数据点i的邻域适应度fiti由局部密度决定,其计算公式为:

其中,zoi表示移动终端数据点i的邻域大小,t表示移动终端数据点i邻域范围内的移动终端数据点数量。

进一步,步骤9)中,设某个移动终端数据点的位置为x1,xi表示该移动终端数据点邻域内的其他数据点;其中,i=2,3,4,调整方式如下:

则x1就是经过局部位置更新策略更新后的位置即position2;其中,表示移动终端数据点i和移动终端数据点j之间的特征差异,positioni表示数据点i的当前位置,neighborhood表示移动终端数据点i的邻域范围。

进一步,步骤11)中,所述的满足一定条件具体包括:

a、如果某次迭代结果显示所有数据点的位置均不改变;

b、算法迭代次数达到阈值。

本发明的有益效果在于:本发明采用传粉启发的聚类方法,可以依据数据对象之间的特征关系使得聚类簇的数目自动涌现出来,从而使得分类方法更加科学,能够有效的发现用户常去的兴趣点,进一步挖掘用户的兴趣爱好,从而使得商户更好的进行营销服务,既满足了了用户生活需求,也使得商户获得了利益。此外,与地址信息关联的商业信息的录入和分析,也使得商业选址不仅快速,且可控因素得到提高。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为本发明所述的商户选址方法的构建流程图;

图2为传粉启发式聚类算法用于信息分类及分析的流程图;

图3为传粉启发的聚类算法流程图;

图4为聚类前的数据位置分布效果图;

图5为聚类后的数据位置分布效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

请参阅图1~图5,如图1所示,本发明所述的商户选址系统包括:数据库单元:构建包含大量移动终端用户信息的数据库和与该数据库有关联的地址、存储查询者想要得知的、且与各个地址对应的商业信息数据库,并建立索引。信息分类及分析单元:对上述用户终端位置信息数据和移动终端消费数据进行分析,从而发现用户的兴趣爱好。信息查询单元:综合分析各个因素对选址的影响,根据已有该地区商户的商业信息在索引中进行查询,并以报告的形式输出,最终确定商户的地址的选择。

对空间定位好的各级地址对应的商业信息数据进行时间推序,即将各个地址在一段时间内的商业信息数据按照时间的前后排序并列入表格;对时间推序好的表格内的数据进行归纳统计,分析数据产生的变化;在归纳统计好后将分析信息以图表形式输出或以分析报告的形式输出。信息查询单元:根据各个因素的权重选择输入,将待查询地址或是商业信息在索引中进行查询,也可以将该地址或商户信息关联的图表以及分析报告输出。

前期需要采集的主要商业信息数据包括宏观投资环境需求数据组模块和微观环境需求数据组模块。其中,宏观投资环境需求数据组模块包含人口数据组、商贸数据组、收入水平数据组、居民消费水平数据组。它主要用来甄别关联地址的商业情形好差的大环境,实现盈利。微观环境需求数据组模块包含客流数据组、租金数据组、商户组合数据组、物业管理数据组,它主要用来甄别关联地址的商户情形好差的小环境,不管是微观环境需求还是宏观环境需求,整体而言都是为了商户的的盈利和可持续发展,在此基础上居民消费者也可以满足自身的生活需求。

原始数据,经过一连串收集、提取、清洗、整理等等的预处理过程,形成高质量的数据。本发明中的数据表示用户移动终端数据,如geolife数据集(移动终端定位数据),本发明对该数据基于速度的剪枝处理,筛选掉用户行进中无意义的点等,从而得到想要的数据,进而对这些数据进行分析。以下详细介绍本发明对于数据的分析采用了传粉启发的聚类算法(ipca)对处理过的数据进行分析。

如图1所示,本发明所述商户选址系统构建如下:

第一步:数据获取,收集调查某地区或街道等移动终端用户的数据集包含(居住地)信息、收入水平以及消费水平等信息。建立者通过人工调查与各个地址对应的商业信息数据,如地区内行业的的种类、地区租金情况等。

第二步:构建系统,通过将数据库单元,信息分类、分析单元,信息查询单元集合在一起,组建一个能显示集成网站、数据库等功能的平台。

第三步:数据库信息的输入,将采集到的信息及时输入数据库,并根据时间的推移不断对数据库内信息进行更新。

第四步:数据库信息分类、分析,对数据库中的数据归类整理,运用传粉启发的聚类算法来挖掘用户的兴趣爱好,并来判断每个不同地址的商业投资前景,接着使用see原则、结合地理信息系统分析方法选出初始的商户地址。如图2所示,信息分类、分析的具体流程包括:

s41:基于ipca聚类算法构建聚类统计模型;

s42:对移动终端用户数据进行聚类分析得到聚类簇,根据每个类簇推断出用户的特征,如该用户的居住点、上班地点、经常在哪个餐馆吃饭、经常在哪个地铁出行等,分析出用户的兴趣爱好以及消费记录等信息;

s43:信息分析,根据某区域内用户的位置信息,推断出该用户的兴趣点,结合该用户的消费记录以及待选址商户的信息与已有商户的信息来实现某商户的选址问题;

s44:商户初步选址,以各个小区的地理位置为中心,运用k-means算法中的目标函数sse来最小化各个小区的用户到商户地址的总距离,从而计算出商户的初始位置。

第五步:智能查询,查询者向系统输入欲查询的地址后,输入相关因素的权重之后,例如租金等,得出最终的选址地点。

其中,如图3所示,ipca聚类算法具体包括:

1)根据昆虫介导的植物授粉生态过程的原理,抽象出昆虫传粉媒介与植物之间的相互作用,通过以下假设来制定聚类算法:a)其中每个数据代表一个单独的一年生植物,每个数据的属性代表植物花朵性状的一个特征;b)每个单独的代理代表一个昆虫传粉者,感知、记忆、觅食、花粉篮、花粉的提取和沉积;c)数据之间的相似度等于不同植物物种之间的花粉粒相似度;d)每棵植物在一年后死亡,但如果获得了足够的花粉繁殖量,其后代取代亲本的位置或重新随机放置在空间的任何位置;在所有植物经过多次迭代进化之后,所有植物的位置都视为数据集的聚类结果;

2)算法中的昆虫即是代理,植物即是移动终端数据点;昆虫的觅食活动包括授粉和采粉行为,其中授粉指的是昆虫从自身花粉篮随机散落一定数量的花粉在当前的植物柱头上,即表示代理与移动终端数据点之间的信息交流,相似度的交流;采粉指的是昆虫从当前植物上获取的花粉装入自身花粉篮,即表示代理从移动终端数据点获取数据信息;3)初始阶段,选取某个数据集和一定数量的代理,数据集中的每个数据点表示一个移动终端数据点,数据点的特征向量表示移动终端数据的特征;将所有代理和移动终端数据点的位置随机分布在空间中,并在算法开始时,使得每个代理随机选择一个数据点作为觅食对象;

4)代理选择飞往与自身位置距离最近的移动终端数据点进行觅食活动;

5)统计移动终端数据点从代理身上获得的数据点总数量n,选取欧式距离作为相似数据之间特征差异的度量,拉普拉斯核函数计算数据点间的相似度s;

6)记录代理过去的觅食历史,觅食过程完成后,在代理的觅食历史中添加该移动终端数据点;

7)判断线性队列的长度是否超过代理的记忆深度md;如果线性队列的长度超过代理的记忆深度md,则删除超出部分的数据点的标记;如果没有超过,则不改变线性队列;

8)判断觅食次数是否达到阈值;如果代理觅食次数没有达到阈值,代理继续选择与觅食历史中不重复且网格中距离最近的移动终端数据点进行觅食活动,如果达到阈值,统计每个移动终端数据点从代理身上获得的数据点总数量n和数据点间的相似度s,当所有代理觅食次数达到上限后,根据每个移动终端数据点从代理身上获得的数据收益来计算每个数据点从所有的代理身上获得的总的数据收益;并计算当前移动终端数据点的存活概率;

9)根据每个数据点当前位置的存活概率pi与随机数r1比较的结果,判断数据点的当前位置是否改变;如果某个数据点i的存活率pi>r1,表示该位置的移动终端数据点能够存活,当前位置保持不变;如果pi<r1,则该位置的移动终端数据点死亡,统计该数据点邻域内的其他移动终端数据点的数量;

10)如果移动终端数据点i的邻域内的移动终端数据点数量不为零,则计算该移动终端数据点的邻域适应度fiti,否则,利用全局位置更新策略给该移动终端数据点重新生成一个与当前存活移动终端数据点不重复的位置代替死亡数据点的位置;

11)将数据点i的适应度函数fiti与随机数r2比较,如果fiti>r2,则该移动终端数据点的位置保持不变,数据点的下一年的子代还在此位置;如果该数据点的邻域适应度fiti<r2,则终端位置数据点i使用全局位置更新策略重新赋予一个位置position1,且与当前存活移动终端数据点的位置不重复;然后使用局部位置更新策略对position1进行局部调整,使得移动终端数据点更新到适应度更高的位置position2;

当满足以下条件时,算法终止:

a、如果某次迭代结果显示所有数据点的位置均不改变;

b、算法迭代次数达到阈值。

12)当算法每迭代1000次的时候,统计此次迭代结果中改变位置的数据点的数目nc;如果nc高于0.2倍的nc,则更新参数α=α 0.04,如果nc低于0.2倍的nc时,α保持不变;

13)当满足一定条件时,算法终止;

14)当每个移动终端数据点在网格上得到最终的聚类位置时,根据移动终端数据得到的最终位置得到聚类簇。

实施例1

如图2所示,本发明中信息分类、分析中使用了ipca聚类算法用于发现用户的兴趣爱好,结合用户的消费记录可以得到商户初步的选址位置,该实现包括以下步骤,本实施例中的数据点表示某区域用户移动终端的数据点,昆虫表示代理,聚类算法具体解释如下:

1)选取移动终端定位数据集,如geolife数据集等,用数据点的个数表示移动终端定位点数目,数据集中的每个数据点表示一个移动终端位置,数据点的特征向量表示移动终端位置的特征,例如经度、纬度、高程等。根据每个数据的不同特征,分别赋予不同的颜色,同时选取一定数量的代理,将所有代理和数据点随机分布在40×40网格空间中,如图4所示。

2)运用ipca算法对移动终端数据点进行聚类,得到聚类簇。

实施例2

1)对某地区内的用户的移动终端数据进行聚类分析得到聚类簇,如图5所示,对每个类簇进行数据分析得到用户的兴趣爱好等信息(比如用户喜爱周黑鸭等)并结合分析各个用户对爱好餐饮(周黑鸭)的消费情况,来判断用户对不同餐饮的喜爱程度。

2)初始选址位置的确定,结合地理信息系统(gis)查询数据集中用户的居住信息,然后选择各个小区的中间地理位置分别为a1,a2,a3…al,c1,c2,c3...ck分别表示此区域地理位置中的备选的商户位置,然后利用k-means中的目标函数来得到各个位置相对应的距离来确定餐饮店铺的初步选址。公式为:

以上得到see(ai)值进行从小到大排序,得到初步选址序列positioni,得到的最小see(ai)即是所要的初步选址位置(position0)。

3)得到初步选址结果之后,根据用户的消费水平d1、各个区域(不同的位置有不同的租金)的租金情况d2、以及人流量情况d3因素等,分别对这些因素赋予权重比如ω1,ω2,ω3来进一步调整商铺的位置,得到商铺的最终位置,计算公式如下:

positionlasti=(ω1×d1 ω2×d2 ω3×d3…)×positioni

当position0(序列中最小)的值综合考虑了各个因素之后,还是在各个序列中最小,则选址最终结果就是position0,否则的话,我们根据初步选址序列positioni中的其他值综合考虑了各个因素之后更新初始选址新序列。我们依据上述方法分别得到调整后的位置positioni,并对它进行排序得到排序后的最合适的值positionlast(一般是序列中的最小值)作为最终的选址位置。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。


技术特征:

1.一种基于传粉启发聚类的商户选址方法,其特征在于,该方法具体包括以下步骤:

s1:获取数据:收集调查某地区或街道的移动终端用户的数据集;

s2:构建系统:将数据库单元、信息分类及分析单元和信息查询单元集合在一起,组建一个显示集成网站和数据库的平台;

s3:数据库信息的输入:将采集到的信息及时输入数据库,并根据时间的推移不断对数据库内信息进行更新;

s4:对数据库信息分类及分析:对数据库中的数据归类整理,运用传粉启发的聚类算法(aclusteringalgorithminspiredbypollination,ipca)来挖掘用户的兴趣爱好,并判断每个不同地址的商业投资前景,然后使用see原则和地理信息系统分析方法选出初始的商户地址;

s5:智能查询:查询者向系统输入欲查询的地址,然后输入相关因素的权重,得出最终的选址地点。

2.根据权利要求1所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤s2中,构建的系统包括有数据库单元、信息分类及分析单元和信息查询单元;

构建数据库单元:构建包含大量地址的地址数据库和与该地址数据库有关联的、存储查询者想要得知的、且与各个地址对应的商业信息数据库,并建立索引;

构建信息分类及分析单元:对地址数据库内用户的地址进行空间定位,采用基于传粉启发的聚类算法对数据聚类处理;

构建信息查询单元:综合分析各个因素对选址的影响,根据已有地区商户的商业信息在索引中进行查询,并以报告的形式输出,最终确定商户的地址选择。

3.根据权利要求1所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤s4中,采用ipca聚类算法对信息分类、分析从而找到初始商户选址的地理位置,具体包括以下步骤:

s41:基于ipca聚类算法构建聚类统计模型;

s42:对移动终端用户数据进行聚类分析得到聚类簇,根据每个类簇推断出用户的特征,分析出用户的兴趣爱好以及消费记录信息;

s43:信息分析,根据某区域内用户的位置信息,推断出该用户的兴趣点,结合该用户的消费记录以及待选址商户的信息与已有商户的信息来实现某商户的选址问题;

s44:商户初步选址,以各个小区的地理位置为中心,运用k-means算法中的目标函数sse来最小化各个小区的用户到商户地址的总距离,从而计算出商户的初始位置。

4.根据权利要求3所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤s4中,所述ipca聚类算法具体包括:

1)根据昆虫介导的植物授粉生态过程的原理,抽象出昆虫传粉媒介与植物之间的相互作用,通过以下假设来制定聚类算法:a)其中每个数据代表一个单独的一年生植物,每个数据的属性代表植物花朵性状的一个特征;b)每个单独的代理代表一个昆虫传粉者,感知、记忆、觅食、花粉篮、花粉的提取和沉积;c)数据之间的相似度等于不同植物物种之间的花粉粒相似度;d)每棵植物在一年后死亡,但如果获得了足够的花粉繁殖量,其后代取代亲本的位置或重新随机放置在空间的任何位置;在所有植物经过多次迭代进化之后,所有植物的位置都视为数据集的聚类结果;

2)算法中的昆虫即是代理,植物即是移动终端数据点;昆虫的觅食活动包括授粉和采粉行为,其中授粉指的是昆虫从自身花粉篮随机散落一定数量的花粉在当前的植物柱头上,即表示代理与移动终端数据点之间的信息交流,相似度的交流;采粉指的是昆虫从当前植物上获取的花粉装入自身花粉篮,即表示代理从移动终端数据点获取数据信息;3)初始阶段,选取某个数据集和一定数量的代理,数据集中的每个数据点表示一个移动终端数据点,数据点的特征向量表示移动终端数据的特征;将所有代理和移动终端数据点的位置随机分布在空间中,并在算法开始时,使得每个代理随机选择一个数据点作为觅食对象;

4)代理选择飞往与自身位置距离最近的移动终端数据点进行觅食活动;

5)统计移动终端数据点从代理身上获得的数据点总数量n,选取欧式距离作为相似数据之间特征差异的度量,拉普拉斯核函数计算数据点间的相似度s;

6)记录代理过去的觅食历史,觅食过程完成后,在代理的觅食历史中添加该移动终端数据点;

7)判断线性队列的长度是否超过代理的记忆深度md;如果线性队列的长度超过代理的记忆深度md,则删除超出部分的数据点的标记;如果没有超过,则不改变线性队列;

8)判断觅食次数是否达到阈值;如果代理觅食次数没有达到阈值,代理继续选择与觅食历史中不重复且网格中距离最近的移动终端数据点进行觅食活动,如果达到阈值,统计每个移动终端数据点从代理身上获得的数据点总数量n和数据点间的相似度s,当所有代理觅食次数达到上限后,根据每个移动终端数据点从代理身上获得的数据收益来计算每个数据点从所有的代理身上获得的总的数据收益;并计算当前移动终端数据点的存活概率;

9)根据每个数据点当前位置的存活概率pi与随机数r1比较的结果,判断数据点的当前位置是否改变;如果某个数据点i的存活率pi>r1,表示该位置的移动终端数据点能够存活,当前位置保持不变;如果pi<r1,则该位置的移动终端数据点死亡,统计该数据点邻域内的其他移动终端数据点的数量;

10)如果移动终端数据点i的邻域内的移动终端数据点数量不为零,则计算该移动终端数据点的邻域适应度fiti,否则,利用全局位置更新策略给该移动终端数据点重新生成一个与当前存活移动终端数据点不重复的位置代替死亡数据点的位置;

11)将数据点i的适应度函数fiti与随机数r2比较,如果fiti>r2,则该移动终端数据点的位置保持不变,数据点的下一年的子代还在此位置;如果该数据点的邻域适应度fiti<r2,则终端位置数据点i使用全局位置更新策略重新赋予一个位置position1,且与当前存活移动终端数据点的位置不重复;然后使用局部位置更新策略对position1进行局部调整,使得移动终端数据点更新到适应度更高的位置position2;

12)当算法每迭代1000次的时候,统计此次迭代结果中改变位置的数据点的数目nc;如果nc高于0.2倍的nc,则更新参数α=α 0.04,如果nc低于0.2倍的nc时,α保持不变;

13)当满足一定条件时,算法终止;

14)当每个移动终端数据点在网格上得到最终的聚类位置时,根据移动终端数据得到的最终位置得到聚类簇。

5.根据权利要求4所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤3)中,花粉之间特征差异的度量为:

其中,xi表示移动终端数据点i的花粉包含所有属性值的特征向量,xi=(xi1,xi2,xi3,…xin),xj表示移动终端数据点j的花粉包含所有属性值的特征向量,xj=(xj1,xj2,xj3,…xjn);

花粉间的相似度,即移动终端数据点之间的相似度采用拉普拉斯核函数进行度量其中α表示相似度参数,即自适应参数。

6.根据权利要求5所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤6)中,每个移动终端数据点从代理身上获得的数据收益为:

每个数据点从所有的代理身上获得的总的数据收益为:

其中,dnk表示移动终端数据点i接收来自第k个移动终端数据点的数据量,sik表示移动终端数据点i和移动终端数据点k之间的相似度,在算法中授粉量为固定值,m表示所有访问过移动终端数据点i的代理数量,n表示数据点i从代理身上一共接收来自n个移动终端数据点的数据;

当前数据点的存活概率为:

其中,p0表示初始花粉收益,即初始数据收益。

7.根据权利要求6所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤8)中,数据点i的邻域适应度fiti由局部密度决定,其计算公式为:

其中,zoi表示移动终端数据点i的邻域大小,t表示移动终端数据点i邻域范围内的移动终端数据点数量。

8.根据权利要求7所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤9)中,设某个移动终端数据点的位置为x1,xi表示该移动终端数据点邻域内的其他数据点;其中,i=2,3,4,调整方式如下:

则x1就是经过局部位置更新策略更新后的位置即position2;其中,表示移动终端数据点i和移动终端数据点j之间的特征差异,positioni表示数据点i的当前位置,neighborhood表示移动终端数据点i的邻域范围。

9.根据权利要求8所述的一种基于传粉启发聚类的商户选址方法,其特征在于,步骤11)中,所述的满足一定条件具体包括:

a、如果某次迭代结果显示所有数据点的位置均不改变;

b、算法迭代次数达到阈值。

技术总结
本发明涉及一种基于传粉启发聚类的商户选址方法及系统,属于数据挖掘和机器学习领域。该方法包括:获取数据:收集调查某地区或街道的移动终端的数据集;构建系统:将数据库单元、信息分类及分析单元和信息查询单元集合在一起,组建一个显示集成网站和数据库的平台;数据库信息的输入:将采集到的信息及时输入数据库,并对数据库内信息进行更新;对数据库信息分类及分析:对数据库中的数据归类整理,运用IPCA算法挖掘用户的兴趣爱好,并判断每个不同地址的商业投资前景,然后使用SEE原则和地理信息系统选出初始的商户地址;智能查询:向系统输入欲查询的地址,输入相关因素的权重,得出最终选址地点。本发明能快速高效的进行商业选址。

技术研发人员:屈洪春;吴晶晶;吕强;张兴成;尹力
受保护的技术使用者:重庆邮电大学
技术研发日:2020.01.20
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-50463.html

最新回复(0)