本发明涉及轨道交通技术领域,尤其是涉及一种高速铁路成网条件下旅客出行行为分析方法。
背景技术:
传统的出行行为分析方法通常基于旅客行为选择模型得出,首先建立旅客出行离散选择模型,进而通过sp问卷调查推定模型中的参数,得出不同方式分配的比例。该方法对sp问卷调查的要求较高,需要保证调查者能够清楚的反映自己意愿,在问题和答案设计上也要保证相互独立性和没有明显的倾向性。因此,该方法具有一定的主观性,并受限于调查数据的可靠性,无法真实地反映客观存在的出行行为。
客票数据是指通过12306网站或app以及高速铁路车站售票窗口所购买的车票信息,在铁路客票系统中以订单数据的形式保存。订单数据中包括订单发生的事件id、订购的车次、起讫点、座席类型、订购数量等字段信息,不直接提供旅客的个人属性。因此,客票数据无法应用于传统的出行行为分析方法中。
综上,现阶段出行行为分析存在以下缺陷:
1、传统的出行行为分析方法具有一定的主观性,并受限于调查数据的可靠性,无法真实地反映客观存在的出行行为。
2、客票数据为旅客出行时产生的客观数据,但无法应用于传统的出行行为分析中。
技术实现要素:
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种更具客观性、实现速度更快的高速铁路成网条件下旅客出行行为分析方法。
本发明的目的可以通过以下技术方案来实现:
一种高速铁路成网条件下旅客出行行为分析方法,该方法为一种内嵌在计算机中的程序,包括以下步骤:
步骤1:获取地区经济数据和该地区的客票数据;
步骤2:剔除客票数据中的不合理数据;
步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;
步骤4:对数据集进行多次聚类,获得备选聚类子集;
步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;
步骤6:根据步骤5获得的聚类结果完成对旅客出行行为的分析。
优选地,所述步骤2中的不合理数据包括退票数据和下单未购票数据。
优选地,所述步骤3中数据集预处理方法具体为:
首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用z-score方法对数据集进行标准化处理。
优选地,所述步骤4的具体步骤为:
步骤4-1:确定k-means聚类方法所使用的最优k值;
步骤4-2:使用步骤4-1所确定的k值和随机初始聚类中心对数据集进行多次聚类,获得聚类子集。
更加优选地,其特征在于,所述步骤4-1中最优k值采用轮廓系数法获取,具体为:使用枚举法列举k值,并计算在该k值下每个样本点的轮廓系数值和所有样本点的平均轮廓系数值,最大的平均轮廓系数值对应的k值即为最优k值;
所述的轮廓系数的计算方法为:
其中,
所述的平均轮廓系数的计算方法为:
优选地,所述步骤5中具体为:
首先使用投票法获得聚类集成结果,然后使用平均标准化互信息对聚类集成结果进行检验。
更加优选地,所述的平均标准化互信息的计算方法为:
令
其中,n为样本总数,备选聚类子集yi的信息熵为:
平均标准化互信息anmi的计算方法为:
其中,
更加优选地,所述的
一种存储介质,该存储介质存储有所述的分析方法的计算机程序。
与现有技术相比,本发明具有以下优点:
一、实现速度快:本发明中的旅客出行行为分析方法通过计算机实现,相较于传统的人为的实现方式,本发明中的分析方法实现旅客行为分析速度更快。
二、更具客观性:本发明中的旅客出行行为分析方法考虑了旅客的客票信息,并且将客票信息与地区经济信息相关联,相较于传统的问卷调查方式,本发明对旅客的出行行为分析更具客观性。
三、行为分析更加细化:本发明中的旅客出行行为分析方法使用基于投票法的聚类集成的方式进行分析,最终将旅客出行行为总结为工作型、休闲型、商务型、高端型和经济型五类,对旅客出行行为的划分更加细化,为铁路部门的运营和决策提供了数据基础。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例中从出行时间因素和地域因素分析的聚类结果图;
图3为本发明实施例从出行时间因素和个人消费因素分析的聚类结果图;
图4为本发明实施例从个人消费因素和地域因素分析的聚类结果图;
图5为本发明实施例中五个聚类结果的购票提前期分布图;
图6为本发明实施例中五个聚类结果的出行日期的分布图;
图7为本发明实施例中五个聚类结果的发车时间的分布图;
图8为本发明实施例中五个聚类结果的抵达时间的分布图;
图9为本发明实施例中五个聚类结果的单位运价的分布图;
图10为本发明实施例中五个聚类结果的售票模式选择的分布图;
图11为本发明实施例中五个聚类结果的起讫点所在城市人均gdp的分布图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明涉及一种高速铁路成网条件下旅客出行行为分析方法,该方法为一种内嵌在计算机中的程序,具体流程如图1所示,包括以下步骤:
步骤1:获取地区经济数据和该地区的客票数据;
步骤2:剔除客票数据中的不合理数据,不合理数据包括退票数据和下单未购票数据;
步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;
具体融合方法为:根据客票数据中每个订单的起点和终点,将起点终点与地区经济数据相关联;
对数据进行预处理的方法为:首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用z-score方法对数据集进行标准化处理;
归一化:要把需要处理的数据经过处理后限制在一定范围内。首先归一化是为了后面数据处理的方便,其次是保证不同字段按照相同的标准被处理。一般指将数据限制在[0,1]之间。本实施例采用最大-最小规范化对原始数据进行线性变换:
其中,xi,j为数据表第i行的第j项指标。
标准化:对原始数据进行缩放处理,将其限制在一定的范围内,一般指正态化处理。即使数据不符合正态分布,也可以采用这种方法对数据进行标准化处理,标准化后的数据有正有负。本实施例采用z-score规范化方法对数据集进行处理,即将数据集变为均值为0,方差为1的正态分布:
其中,μj为第j项指标的平均值,σj为第j项指标的标准差;
步骤4:对数据集进行多次聚类,获得备选聚类子集;
步骤4具体为:
步骤4-1:确定k-means聚类方法所使用的最优k值,本实施例采用轮廓系数法获取最优k值,具体为:使用枚举法列举k值,并计算在该k值下每个样本点的轮廓系数值和所有样本点的平均轮廓系数值,最大的平均轮廓系数值对应的k值即为最优k值;
轮廓系数的计算方法为:
其中,
平均轮廓系数的计算方法为:
步骤4-2:使用固定的k值和随机初始聚类中心对数据集进行10次聚类,获得聚类子集,通常,具有不同初始化的k-means的生成机制是以固定的k值和不同的初始聚类中心运行若干次,具体步骤为:
1、选择一个指标子集
2、随机选择k个初始聚类中心;
3、计算样本点与聚类中心的距离,然后将样本点划分到最近的簇中,样本点与聚类中心距离的具体计算方法为:
其中,i=1,2,...,k,m为数据集和聚类中心的数据维度;
4、根据簇中已有的样本点,更新簇中心的位置,更新方法为:
其中,|ci|为簇中样本的数量;
5、重复步骤4,直至簇中心不再发生变化或目标函数达到最小值,完成一次聚类,目标函数具体为:
步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果,本实施例采用投票法获得聚类集成结果,然后使用平均标准化互信息对聚类集成结果进行检验;
平均标准化互信息的计算方法为:
令
其中,n为样本总数,备选聚类子集yi的信息熵为:
平均标准化互信息anmi的计算方法为:
其中,
步骤6:根据最终筛选出的聚类结果完成对旅客出行行为的分析。
本发明还涉及一种存储有上述方法对应程序的存储介质。
以下为本发明中旅客出行行为分析方法一种具体实施例。
空间范围:以上海局下午内车主车站为起讫点的所有高速铁路列车包括g字头列车和d字头列车。
时间范围:2017年3月1日至2017年3月20日。
数据规模:约620000条有效数据,对该数据进行预处理,即提出退票以及下单未购票的记录。
基本字段:订购日期,发车日期,车次号,始发站,终点站,票面起始站,票面终到站,始发时间,席位类别,销售模式,票数,票额收入。
补充字段:起讫点的经济、人口、社会属性。
可获取的有关旅客出行特征的字段:购票提前期,出发日的(星期,月份),出发时段,行程时长,终到时段,席位类别,订单票数,票额收入。
将客票数据与地区经济数据进行融合后,对数据进行预处理,然后使用k-means聚类方法对数据进行多次聚类,获得的聚类效果如表1所示。
表1聚类效果说明
由于各指标之间存在相关性,因此有可能用较少的综合指标反映原始指标的大部分信息。本实施例采用主成分分析法从原始指标中提取公因子,并选取特征值大于1的因子作为公共因子。经过主成分分析后可获得6个新的综合指标来代表原有的11个变量,6个新的指标可以解释85.06%的信息。
下面进行聚类集成,聚类集成的结果如表2所示。
表2聚类集成结果
由上表可知,本实施例中采用投票法所得到的聚类集成结果,平均标准互信息的计算值为0.67,在所有的聚类集成结果中集成效果最好。
从出行时间因素、地域因素和个人消费因素对聚类效果进行分析,分析结果如图2-4所示,可以看出本实施例中的聚类结果之间有较为清晰的界限,聚类效果合理。
最终获得的五个簇所对应的客流类别的分布特点如表5所示。
表5
图5-11分别为上表中五个聚类结果的订票提前期分布图、发车日期分布图、出发时段分布图、抵达时段分布图、单位运价分布图、售票模式选择分布图和经济水平分布图,由图可以总结出五个聚类结果的具体特征,如表6所示。
表6
经过聚类,最终将旅客出行行为总结为工作型、休闲型、商务型、高端型和经济型五类。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
1.一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,该方法为一种内嵌在计算机中的程序,所述的分析方法包括以下步骤:
步骤1:获取地区经济数据和该地区的客票数据;
步骤2:剔除客票数据中的不合理数据;
步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;
步骤4:对数据集进行多次聚类,获得备选聚类子集;
步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;
步骤6:根据步骤5获得的聚类结果完成对旅客出行行为的分析。
2.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤2中的不合理数据包括退票数据和下单未购票数据。
3.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤3中数据集预处理方法具体为:
首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用z-score方法对数据集进行标准化处理。
4.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤4的具体步骤为:
步骤4-1:确定k-means聚类方法所使用的最优k值;
步骤4-2:使用步骤4-1所确定的k值和随机初始聚类中心对数据集进行多次聚类,获得聚类子集。
5.根据权利要求4所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤4-1中最优k值采用轮廓系数法获取,具体为:使用枚举法列举k值,并计算在该k值下每个样本点的轮廓系数值和所有样本点的平均轮廓系数值,最大的平均轮廓系数值对应的k值即为最优k值;
所述的轮廓系数的计算方法为:
其中,
所述的平均轮廓系数的计算方法为:
6.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤5中具体为:
首先使用投票法获得聚类集成结果,然后使用平均标准化互信息对聚类集成结果进行检验。
7.根据权利要求6所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述的平均标准化互信息的计算方法为:
令
其中,n为样本总数,备选聚类子集yi的信息熵为:
平均标准化互信息anmi的计算方法为:
其中,
8.根据权利要求7所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述的
9.一种存储介质,其特征在于,所述的存储介质存储有权利要求1所述的分析方法的计算机程序。
技术总结