本发明涉及人工智能领域,尤其涉及一种多频次派件时长预测方法、装置、设备及存储介质。
背景技术:
受益于电商消费的高速发展,快递行业景气度持续,运单的业务量继续保持高增长态势,因此,用户在下单时,也对物流到货时刻比较关注,而预测的签收时刻往往由于误差较大,常常引起用户的投诉,影响物流派送人员的绩效考核。
在现有的技术中,当前业内主要采用始发地和目的地之间的距离以及货车所耗时长预估运单投递时长和运单签收时刻,但忽视了投递路径中每个网点的个体特征,例如,是否上门收件以及去分拨中心交件的时刻,导致预估派件时长的误差较大,以及预测运单签收时刻准确性较低。
技术实现要素:
本发明的主要目的在于解决预估派件时长的误差较大,以及预测运单签收时刻准确性较低的问题。
本发明第一方面提供了一种多频次派件时长预测方法,包括:获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻。
可选的,在本发明第一方面的第一种实现方式中,所述对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据,包括:对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行经纬度转换,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度;将所述揽件网点的经纬度和所述始发分拨中心的经纬度设置为第一特征数据,将所述始发分拨中心的经纬度和所述目的分拨中心的经纬度设置为第二特征数据,将所述目的分拨中心的经纬度和所述目的网点的经纬度设置为第三特征数据。
可选的,在本发明第一方面的第二种实现方式中,所述对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行经纬度转换,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度,包括:对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址按照预设的行政区划标准进行标准化处理,得到多个标准地址,所述多个标准地址包括所述揽件网点的标准地址、所述始发分拨中心的标准地址、所述目的分拨中心的地址和所述目的网点的地址;解析所述多个标准地址的经度和纬度,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度。
可选的,在本发明第一方面的第三种实现方式中,所述通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行时长预测,得到第一预测时长、第二预测时长和第三预测时长,包括:将所述揽件网点的经纬度、所述始发分拨中心的经纬度和所述揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第一预测时长;将所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第二预测时长;将所述目的分拨中心的经纬度、所述目的网点的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第三预测时长。
可选的,在本发明第一方面的第四种实现方式中,所述基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻,包括:对所述第一预测时长、所述第二预测时长和所述第三预测时长进行求和运算,得到总的预测时长;基于所述揽件时刻累加所述总的预测时长,得到所述目标运单的预测签收时刻。
可选的,在本发明第一方面的第五种实现方式中,在所述获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址之前,所述多频次派件时长预测方法还包括:对历史运单数据进行数据抽取和数据清洗,得到样本数据,并将所述样本数据划分为训练数据集和测试数据集;根据预置决策树算法和所述训练数据集对预置决策树模型进行训练;采用所述测试数据集评估已训练的决策树模型,得到评估结果,并根据所述评估结果对所述已训练的决策树模型进行迭代训练,得到训练好的决策树模型。
可选的,在本发明第一方面的第六种实现方式中,所述根据预置决策树算法和所述训练数据集对预置决策树模型进行训练,包括:根据预置决策树算法提取所述训练数据集的特征属性,所述特征属性用于指示所述历史运单数据的预设特征输入变量和预设目标变量;通过所述训练数据集的特征属性初始化预置决策树模型的根节点和对应的特征属性集;判断当前决策树模型的目标节点中所述特征属性集是否属于相同类别;若所述当前决策树模型的目标节点中所述特征属性集属于相同类别,则将所述目标节点设置为待分裂的节点,并获取所述目标节点的信息增益率;采用所述目标节点的信息增益率对所述目标节点进行二分法分裂,将分裂后的节点替换所述目标节点,并添加一个新的叶子节点,实现决策树的递归分裂,得到所述特征属性集的时效均值。
本发明第二方面提供了一种多频次派件时长预测装置,包括:获取模块,用于获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;预处理模块,用于对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;预测模块,用于通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;计算模块,用于基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻。
可选的,在本发明第二方面的第一种实现方式中,所述预处理模块还包括:转换单元,用于对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行经纬度转换,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度;设置单元,用于将所述揽件网点的经纬度和所述始发分拨中心的经纬度设置为第一特征数据,将所述始发分拨中心的经纬度和所述目的分拨中心的经纬度设置为第二特征数据,将所述目的分拨中心的经纬度和所述目的网点的经纬度设置为第三特征数据。
可选的,在本发明第二方面的第二种实现方式中,所述转换单元具体用于:对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址按照预设的行政区划标准进行标准化处理,得到多个标准地址,所述多个标准地址包括所述揽件网点的标准地址、所述始发分拨中心的标准地址、所述目的分拨中心的地址和所述目的网点的地址;解析所述多个标准地址的经度和纬度,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度。
可选的,在本发明第二方面的第三种实现方式中,所述预测模块具体用于:将所述揽件网点的经纬度、所述始发分拨中心的经纬度和所述揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第一预测时长;将所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第二预测时长;将所述目的分拨中心的经纬度、所述目的网点的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第三预测时长。
可选的,在本发明第二方面的第四种实现方式中,所述计算模块具体用于:对所述第一预测时长、所述第二预测时长和所述第三预测时长进行求和运算,得到总的预测时长;基于所述揽件时刻累加所述总的预测时长,得到所述目标运单的预测签收时刻。
可选的,在本发明第二方面的第五种实现方式中,所述多频次派件时长预测装置还包括:处理模块,用于对历史运单数据进行数据抽取和数据清洗,得到样本数据,并将所述样本数据划分为训练数据集和测试数据集;训练模块,用于根据预置决策树算法和所述训练数据集对预置决策树模型进行训练;评估模块,用于采用所述测试数据集评估已训练的决策树模型,得到评估结果,并根据所述评估结果对所述已训练的决策树模型进行迭代训练,得到训练好的决策树模型。
可选的,在本发明第二方面的第六种实现方式中,所述训练模块具体用于:根据预置决策树算法提取所述训练数据集的特征属性,所述特征属性用于指示所述历史运单数据的预设特征输入变量和预设目标变量;通过所述训练数据集的特征属性初始化预置决策树模型的根节点和对应的特征属性集;判断当前决策树模型的目标节点中所述特征属性集是否属于相同类别;若所述当前决策树模型的目标节点中所述特征属性集属于相同类别,则将所述目标节点设置为待分裂的节点,并获取所述目标节点的信息增益率;采用所述目标节点的信息增益率对所述目标节点进行二分法分裂,将分裂后的节点替换所述目标节点,并添加一个新的叶子节点,实现决策树的递归分裂,得到所述特征属性集的时效均值。
本发明第三方面提供了一种多频次派件时长预测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述多频次派件时长预测设备执行上述的多频次派件时长预测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的多频次派件时长预测方法。
本发明提供的技术方案中,获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行时长预测,得到第一预测时长、第二预测时长和第三预测时长;基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻。本发明实施例中,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树模型和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
附图说明
图1为本发明实施例中多频次派件时长预测方法的一个实施例示意图;
图2为本发明实施例中多频次派件时长预测方法的另一个实施例示意图;
图3为本发明实施例中多频次派件时长预测装置的一个实施例示意图;
图4为本发明实施例中多频次派件时长预测装置的另一个实施例示意图;
图5为本发明实施例中多频次派件时长预测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种多频次派件时长预测方法、装置、设备及存储介质,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树模型和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中多频次派件时长预测方法的一个实施例包括:
101、获取目标运单的初始特征数据,初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址。
服务器读取预置数据表,得到目标运单的初始特征数据,其中,揽件时刻用于指示目标运单的生成时刻,例如,2020-01-0215:34:27;揽件网点的地址为收取目标运单对应网点的地址,例如,重庆市九龙坡区金凤路xx号;始发分拨中心用于对揽件网点的商品提供配送服务,例如,始发分拨中心的地址为重庆分拨中心;目的分拨中心用于对目的网点的商品提供配送服务,例如,始发分拨中心的地址为重庆分拨中心;目的分拨中心用于对目的网点的商品提供配送服务,例如,目的分拨中心的地址为湖北武汉分拨中心,目的网点的地址为湖北省武汉市武昌区新生路xx号。
需要说明的是,分拨中心是物流行业运作的经济活动组织,也是集加工、理货、送货等多种职能于一体的物流据点。分拨中心的服务对象是为数众多的生产企业和商业网点例如:超级市场和连锁店,分拨中心的作用是按照用户的要求,及时将已配装好的货物配送给用户,进一步地,分拨中心可以包括始发分拨中心和目的分拨中心。
可以理解的是,本发明的执行主体可以为多频次派件时长预测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据。
数据预处理主要用于对初始特征数据进行数据清洗和数据转化,数据清洗用于指示按照预设条件对初始特征数据的各参数值进行判别和筛选,例如,初始特征数据的各参数值均不为空值。数据转化用于指示对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行地址到经纬度的转换,得到揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度,并根据揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度进行两两组合,得到第一特征数据、第二特征数据和第三特征数据,第一特征数据。
需要说明的是,揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址均为地图上标识的正确的地址其中,地址包括市、区、县、乡、街道的名称、路的名称、花园的名称、小区的名称、学校的名称、医院的名称、酒店的名称、建筑物的名称以及停车场的名称,具体此处不做限定。
103、通过训练好的决策树模型分别对第一特征数据、第二特征数据和第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长。
其中,第一预测时长用于指示目标运单从揽件网点运输到始发分拨中心的时长数据,第二预测时长用于指示目标运单从始发分拨中心运输到目的分拨中心的时长数据,第三预测时长用于指示目标运单从目的分拨中心运输到目的网点的时长数据。具体的,服务器通过训练好的决策树模型对揽件时刻和第一特征数据进行派件时长预测,得到第一预测时长;服务器通过训练好的决策树模型对揽件时刻和第二特征数据进行派件时长预测,得到第二预测时长;服务器通过训练好的决策树模型对揽件时刻和第三特征数据进行派件时长预测,得到第三预测时长。
需要说明的是,服务器对第一特征数据、第二特征数据和第三特征数据分别建立决策树模型,使模型学习的对象更加精确,误差更小,并将运单经过的投递路径划分为三段,对三段路程的时效分别进行预测,然后服务器执行步骤104,从而得到的时效预测更加准确,误差更低。
104、基于揽件时刻对第一预测时长、第二预测时长和第三预测时长进行累加计算,得到目标运单的预测签收时刻。
具体的,首先,服务器根据第一预测时长、第二预测时长和第三预测时长构成了总的派送时长数据,例如,第一预测时长为1.75小时,第二预测时长为20.00小时,第三预测时长为2.25小时,则总的派送时长数据为24小时。
其次,服务器获取揽件时刻,并基于揽件时刻和总的派送时长数据进行累计计算,得到用户签收订单时刻,例如,揽件时刻为2020-01-0311:00:00,那么得到目标运单的预测签收时刻为2020-01-0411:00:00。
可以理解的是,通过对目标运单进行预测签收时刻,实时并准确了解该目标运单的派送状态,对该目标运单进行合理安排配送,提高配送的效率和预测签收时刻的准确性。
本发明实施例中,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
请参阅图2,本发明实施例中多频次派件时长预测方法的另一个实施例包括:
201、获取目标运单的初始特征数据,初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址。
具体的,当接收到目标用户下单时,服务器获取目标运单的揽件时刻、揽件网点的地址和目的网点的地址;服务器将揽件网点的地址和目的网点的地址按照预置数据表和结构化查询语言语法规则生成查询语句;服务器执行查询语句,得到始发分拨中心的地址和目的分拨中心的地址;服务器将揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址设置为目标运单的初始特征数据,例如,服务器获取目标运单a的数据包括(揽件时刻,2020-01-0215:34:27)、(揽件网点的地址,重庆市九龙坡区金凤路xx号)、(目的网点的地址,湖北省武汉市武昌区新生路xx号);预置数据表的名称为order_form,服务器根据结构化查询语言语法规则、揽件网点的地址和目的网点的地址生成查询预置数据表的查询语句,例如,select*fromorder_formwherestart_addr=`重庆市九龙坡区金凤路xx号`andend_addr=`湖北省武汉市武昌区新生路xx号`,服务器执行该查询语句,得到的初始特征数据包括(揽件时刻,2020-01-0215:34:27)、(揽件网点的地址,重庆市九龙坡区金凤路xx号)、(始发分拨中心的地址,重庆分拨中心)、(目的分拨中心的地址,湖北武汉分拨中心)以及(目的网点的地址,湖北省武汉市武昌区新生路xx号)。
202、对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行经纬度转换,得到揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度。
具体的,服务器对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址按照预设的行政区划标准进行标准化处理,得到多个标准地址,多个标准地址包括揽件网点的标准地址、始发分拨中心的标准地址、目的分拨中心的地址和目的网点的地址;服务器解析多个标准地址的经度和纬度,得到揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度。
可选的,服务器根据第一地址信息查询预置配置信息,得到待测试的经纬度数据集,第一地址信息包括揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址,待测试的经纬度数据集包括揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度;服务器根据待测试的经纬度数据集查询第二地址信息;服务器判断第一地址信息和第二地址信息是否相同,当第一地址信息和第二地址信息相同时,服务器将待测试的经纬度数据集设置为最终的经纬度数据。
203、将揽件网点的经纬度和始发分拨中心的经纬度设置为第一特征数据,将始发分拨中心的经纬度和目的分拨中心的经纬度设置为第二特征数据,将目的分拨中心的经纬度和目的网点的经纬度设置为第三特征数据。
其中,揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度均为准确的经纬度坐标表示,揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度构成了目标运单的全链路投递路径,服务器将始发分拨中心的经纬度和目的分拨中心的经纬度设置为数据分割点,服务器根据数据分割点对揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度进行数据划分,得到第一特征数、第二特征数据和第三特征数据,其中,第一特征数据包括揽件网点的经纬度和始发分拨中心的经纬度,第二特征数据包括始发分拨中心的经纬度和目的分拨中心的经纬度、第三特征数据包括目的分拨中心的经纬度和目的网点的经纬度。
需要说明的是,经度与纬度合称为经纬度,经纬度是一种利用三维空间的球面来定义地球上的空间的球面坐标系统,能够标示地球上的任何一个位置,因此,地址与经纬度之间存在一一对应关系。
204、通过训练好的决策树模型分别对第一特征数据、第二特征数据和第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长。
具体的,服务器将揽件网点的经纬度、始发分拨中心的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第一预测时长;服务器将始发分拨中心的经纬度、目的分拨中心的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第二预测时长;服务器将目的分拨中心的经纬度、目的网点的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第三预测时长。
可选的,服务器对预置决策树模型进行参数训练,得到训练好的决策树模型,具体的,服务器对历史运单数据进行数据抽取和数据清洗,得到样本数据,并将样本数据划分为训练数据集和测试数据集,其中,历史运单数据历史运单的揽件时刻、历史运单的称重扫描时刻、历史运单的经纬度信息和历史运单的距离数据,例如,训练数据集采用时段为2019.7.1至2019.8.10,以江浙沪为始发分拨中心的数据,总量4200万,测试数据采用时段为2019.8.11至2019.8.18,全国所有的数据,总量6300万;服务器根据预置决策树算法和训练数据集对预置决策树模型进行训练,进一步地,服务器根据预置决策树算法提取训练数据集的特征属性,特征属性用于指示历史运单数据的预设特征输入变量和预设目标变量,预置决策树算法采用采用自顶向下的递归算法,以信息熵为度量构造一棵熵值下降最快的决策树,根节点处信息熵为最大值,叶子节点处信息熵为0;服务器通过训练数据集的特征属性初始化预置决策树模型的根节点和对应的特征属性集;服务器判断当前决策树模型的目标节点中特征属性集是否属于相同类别;若当前决策树模型的目标节点中特征属性集属于相同类别,则服务器将目标节点设置为待分裂的节点,并获取目标节点对应的条件属性和条件属性对应的信息增益率,进一步地,服务器获取条件属性对应的信息熵,根据信息熵计算得到条件属性的信息增益,利用信息熵,找出最佳分割点,提升预置决策数据模型的精度;服务器采用目标节点的信息增益率对目标节点进行二分法分裂,将分裂后的节点替换目标节点,并添加一个新的叶子节点,实现决策树的递归分裂,得到特征属性集的时效均值;服务器采用测试数据集评估已训练的决策树模型,得到评估结果,并根据评估结果对已训练的决策树模型进行迭代训练,得到训练好的决策树模型。
需要说明的是,将客户下单时刻、揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度、目的网点的经纬度、以及各网点和各分拨点之间的距离设置为特征属性,通过预置决策树模型进行无监督学习,并自动选取最佳变量划分训练数据集,将相同类别的数据划分为同一类,经过多次划分后,形成多个数据集,而每个数据集的时效均值则视为这个类叶节点的预测值,在划分过程中通过选取最优划分点,使叶节点的预测值和实际值的误差最小。例如,某客户在周末下单,其目的网点的经度大于122,下单时刻是下午15点,得到对应的数据集是子数据集6,通过对子数据集6的数据进行学习得到所需时长是8.9小时,则8.9小时是该段快递链路的所需时长。
205、对第一预测时长、第二预测时长和第三预测时长进行求和运算,得到总的预测时长。
其中,第一预测时长、第二预测时长和第三预测时长均大于0,举例说明,某客户居住在重庆市九龙坡区金凤路xx号,星期三下午3点10分下单寄件到湖北省武汉市武昌区新生路xx号,其中,星期三下午3点10分为揽件时刻,重庆市九龙坡区金凤路xx号为揽件网点的地址,湖北省武汉市武昌区新生路xx号为目的网点的地址,服务器根据揽件网点的地址和目的网点的地址从预置全链路信息表中查询得到始发分拨中心的地址为重庆分拨中心和目的分拨中心的地址为湖北武汉分拨地址,服务器获取揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度,进一步地,服务器生成第一特征数据、第二特征数据和第三特征数据,通过训练好的决策树模型对第一特征数据、第二特征数据和第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长,其中,第一特征数据包括重庆市九龙坡区金凤路xx号的经纬度和重庆分拨中心的经纬度,对应的第一预测时长10.66小时;第二特征数据包括从重庆分拨中心的经纬度和湖北武汉分拨中心的经纬度,对应的第二预测时长18.38小时;第三特征数据包括湖北武汉分拨中心的经纬度到湖北省武汉市武昌区新生路xx号的经纬度,对应的第三预测时长为12.37小时,因此,服务器对10.66小时、18.38小时和12.37小时进行求和运算,得到总的预测时长为41.41小时。
206、基于揽件时刻累加总的预测时长,得到目标运单的预测签收时刻。
其中,目标运单的预测签收时刻用于指示目的网点的最终派送物流并由用户签收运单的时刻,例如,揽件时刻星期三下午3点10分,总的预测时长为41.41小时,那么服务器将星期三下午3点10分向后推算41.41小时,得到用户对目标运单的预测签收时刻是星期五早上8点34分。
本发明实施例中,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树模型和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
上面对本发明实施例中多频次派件时长预测方法进行了描述,下面对本发明实施例中多频次派件时长预测装置进行描述,请参阅图3,本发明实施例中多频次派件时长预测装置一个实施例包括:
获取模块301,用于获取目标运单的初始特征数据,初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;
预处理模块302,用于对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;
预测模块303,用于通过训练好的决策树模型分别对第一特征数据、第二特征数据和第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;
计算模块304,用于基于揽件时刻对第一预测时长、第二预测时长和第三预测时长进行累加计算,得到目标运单的预测签收时刻。
本发明实施例中,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树模型和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
请参阅图4,本发明实施例中多频次派件时长预测装置的另一个实施例包括:
获取模块301,用于获取目标运单的初始特征数据,初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;
预处理模块302,用于对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;
预测模块303,用于通过训练好的决策树模型分别对第一特征数据、第二特征数据和第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;
计算模块304,用于基于揽件时刻对第一预测时长、第二预测时长和第三预测时长进行累加计算,得到目标运单的预测签收时刻。
可选的,预处理模块302还包括:
转换单元3021,用于对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址进行经纬度转换,得到揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度;
设置单元3022,用于将揽件网点的经纬度和始发分拨中心的经纬度设置为第一特征数据,将始发分拨中心的经纬度和目的分拨中心的经纬度设置为第二特征数据,将目的分拨中心的经纬度和目的网点的经纬度设置为第三特征数据。
可选的,设置单元3022还可以具体用于:
对揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址按照预设的行政区划标准进行标准化处理,得到多个标准地址,多个标准地址包括揽件网点的标准地址、始发分拨中心的标准地址、目的分拨中心的地址和目的网点的地址;
解析多个标准地址的经度和纬度,得到揽件网点的经纬度、始发分拨中心的经纬度、目的分拨中心的经纬度和目的网点的经纬度。
可选的,预测模块303还可以具体用于:
将揽件网点的经纬度、始发分拨中心的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第一预测时长;
将始发分拨中心的经纬度、目的分拨中心的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第二预测时长;
将目的分拨中心的经纬度、目的网点的经纬度和揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第三预测时长。
可选的,计算模块304还可以具体用于:
对第一预测时长、第二预测时长和第三预测时长进行求和运算,得到总的预测时长;
基于揽件时刻累加总的预测时长,得到目标运单的预测签收时刻。
可选的,多频次派件时长预测装置还包括:
处理模块305,用于对历史运单数据进行数据抽取和数据清洗,得到样本数据,并将样本数据划分为训练数据集和测试数据集,历史运单数据包括历史揽件时刻、多个称重扫描时刻、多个经纬度信息和多个距离数据;
训练模块306,用于根据预置决策树算法和训练数据集对预置决策树模型进行训练;
评估模块307,用于采用测试数据集评估已训练的决策树模型,得到评估结果,并根据评估结果对已训练的决策树模型进行迭代训练,得到训练好的决策树模型。
可选的,训练模块306还可以具体用于:
根据预置决策树算法提取训练数据集的特征属性,特征属性用于指示历史运单数据的预设特征输入变量和预设目标变量;
通过训练数据集的特征属性初始化预置决策树模型的根节点和对应的特征属性集;
判断当前决策树模型的目标节点中特征属性集是否属于相同类别;
若当前决策树模型的目标节点中特征属性集属于相同类别,则将目标节点设置为待分裂的节点,并获取目标节点的信息增益率;
采用目标节点的信息增益率对目标节点进行二分法分裂,将分裂后的节点替换目标节点,并添加一个新的叶子节点,实现决策树的递归分裂,得到特征属性集的时效均值。
本发明实施例中,通过将各投递网点和各分拨中心的位置转化为经纬度,通过已训练的决策树模型和经纬度进行分段派件时长预测,从而消除不同的网点和分拨中心的个体特征影响,减小预估派件时长的误差,提高预测签收时刻的准确性。
上面图3和图4从模块化功能实体的角度对本发明实施例中的多频次派件时长预测装置进行详细描述,下面从硬件处理的角度对本发明实施例中多频次派件时长预测设备进行详细描述。
图5是本发明实施例提供的一种多频次派件时长预测设备的结构示意图,该多频次派件时长预测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对多频次派件时长预测设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在多频次派件时长预测设备500上执行存储介质530中的一系列指令操作。
多频次派件时长预测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的多频次派件时长预测设备结构并不构成对多频次派件时长预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述多频次派件时长预测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种多频次派件时长预测方法,其特征在于,所述多频次派件时长预测方法包括:
获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;
对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;
通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;
基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻。
2.根据权利要求1所述的多频次派件时长预测方法,其特征在于,所述对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据,包括:
对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行经纬度转换,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度;
将所述揽件网点的经纬度和所述始发分拨中心的经纬度设置为第一特征数据,将所述始发分拨中心的经纬度和所述目的分拨中心的经纬度设置为第二特征数据,将所述目的分拨中心的经纬度和所述目的网点的经纬度设置为第三特征数据。
3.根据权利要求2所述的多频次派件时长预测方法,其特征在于,所述对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行经纬度转换,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度,包括:
对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址按照预设的行政区划标准进行标准化处理,得到多个标准地址,所述多个标准地址包括所述揽件网点的标准地址、所述始发分拨中心的标准地址、所述目的分拨中心的地址和所述目的网点的地址;
解析所述多个标准地址的经度和纬度,得到所述揽件网点的经纬度、所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述目的网点的经纬度。
4.根据权利要求2所述的多频次派件时长预测方法,其特征在于,所述通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长,包括:
将所述揽件网点的经纬度、所述始发分拨中心的经纬度和所述揽件时刻输入到训练好的决策树模型进行派件时长预测,得到第一预测时长;
将所述始发分拨中心的经纬度、所述目的分拨中心的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第二预测时长;
将所述目的分拨中心的经纬度、所述目的网点的经纬度和所述揽件时刻输入到所述训练好的决策树模型进行派件时长预测,得到第三预测时长。
5.根据权利要求1所述的多频次派件时长预测方法,其特征在于,所述基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻,包括:
对所述第一预测时长、所述第二预测时长和所述第三预测时长进行求和运算,得到总的预测时长;
基于所述揽件时刻累加所述总的预测时长,得到所述目标运单的预测签收时刻。
6.根据权利要求1-5中任一项所述的多频次派件时长预测方法,其特征在于,在所述获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址之前,所述多频次派件时长预测方法还包括:
对历史运单数据进行数据抽取和数据清洗,得到样本数据,并将所述样本数据划分为训练数据集和测试数据集;
根据预置决策树算法和所述训练数据集对预置决策树模型进行训练;
采用所述测试数据集评估已训练的决策树模型,得到评估结果,并根据所述评估结果对所述已训练的决策树模型进行迭代训练,得到训练好的决策树模型。
7.根据权利要求6所述的多频次派件时长预测方法,其特征在于,所述根据预置决策树算法和所述训练数据集对预置决策树模型进行训练,包括:
根据预置决策树算法提取所述训练数据集的特征属性,所述特征属性用于指示所述历史运单数据的预设特征输入变量和预设目标变量;
通过所述训练数据集的特征属性初始化预置决策树模型的根节点和对应的特征属性集;
判断当前决策树模型的目标节点中所述特征属性集是否属于相同类别;
若所述当前决策树模型的目标节点中所述特征属性集属于相同类别,则将所述目标节点设置为待分裂的节点,并获取所述目标节点的信息增益率;
采用所述目标节点的信息增益率对所述目标节点进行二分法分裂,将分裂后的节点替换所述目标节点,并添加一个新的叶子节点,实现决策树的递归分裂,得到所述特征属性集的时效均值。
8.一种多频次派件时长预测装置,其特征在于,所述多频次派件时长预测装置包括:
获取模块,用于获取目标运单的初始特征数据,所述初始特征数据包括揽件时刻、揽件网点的地址、始发分拨中心的地址、目的分拨中心的地址和目的网点的地址;
预处理模块,用于对所述揽件网点的地址、所述始发分拨中心的地址、所述目的分拨中心的地址和所述目的网点的地址进行数据预处理,得到第一特征数据、第二特征数据和第三特征数据;
预测模块,用于通过训练好的决策树模型分别对所述第一特征数据、所述第二特征数据和所述第三特征数据进行派件时长预测,得到第一预测时长、第二预测时长和第三预测时长;
计算模块,用于基于所述揽件时刻对所述第一预测时长、所述第二预测时长和所述第三预测时长进行累加计算,得到所述目标运单的预测签收时刻。
9.一种多频次派件时长预测设备,其特征在于,所述多频次派件时长预测设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述多频次派件时长预测设备执行如权利要求1-7中任意一项所述的多频次派件时长预测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述多频次派件时长预测方法。
技术总结