本发明一般涉及物流领域,具体涉及一种新增网点历史件量数据的补全方法及系统。
背景技术:
在物流领域当中,对车辆调度方案、人力调度方案等进行优化是节约成本的重要一环。而对车辆调度方案、人力调度方案等进行优化的基础则是对网点每日收发件量的预测,其预测准确性会显著影响到物流成本。
目前,件量预测模型以prophet、xgboost以及深度学习模型lstm(longshort-termmemory,长短期记忆网络)等为主。这些预测模型都需要以网点历史年份的件量数据(包括小时、日期、星期、月份等多种时间维度的件量数据)作为模型输入,再通过调节参数训练出预测效果最佳的模型,用来对未来的件量进行预测。在物流业务场景中,经常会新增一些网点。当新增网点的件量数据较少时,由于数据较少,预测准确性不高。现在的处理方法是不对该新增网点的件量进行预测,进而导致新增网点较多时,难以对配送网络进行优化,影响物流的成本。
技术实现要素:
鉴于现有技术中的上述缺陷或不足,期望提供一种新增网点历史件量数据的补全方法及系统,能够解决新增网点件量数据较少的问题,从而能够解决难以准确对新增网点进行件量预测的问题。
第一方面,本发明提供了一种新增网点历史件量数据的补全方法,包括如下步骤:
计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点;
识别与所述新增网点历史件量时间序列相似度最高的现有网点;
基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。
另一方面,本发明还提供了一种新增网点历史件量数据的补全系统,包括:
计算单元,用于计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点;
识别单元,用于识别与所述新增网点历史件量时间序列相似度最高的现有网点;
补全单元,用于基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。
本发明提供的新增网点历史件量数据的补全方法,通过在现有网点中查找与新增网点最相似的网点,用其件量数据对新增网点的件量数据进行补全,从而使得新增网点的件量数据足够使用预测模型进行预测。本发明还对应提供了新增网点历史件量数据的补全系统。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明的实施例中一种新增网点历史件量数据的补全方法的流程图;
图2为本发明的实施例中一种新增网点历史件量数据的补全系统的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了解决新增网点件量数据较少的问题,从而解决难以准确对新增网点进行件量预测的问题,在本发明的一个实施例中,公开了一种新增网点历史件量数据的补全方法,如图1所示,为本发明的实施例中一种新增网点历史件量数据的补全方法的流程图,包括步骤:
s101.计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点。由于新增网点和现有网点的区别是看能否直接使用预测模型进行网点的件量数据的预测,所以,所述新增网点,为历史件量时间序列的数据长度小于由件量预测模型进行预测所限定的数据长度的网点,除新增网点以外的网点为现有网点。一般来说,历史件量时间序列的数据长度由网点运营的时间决定,在历史件量时间序列数据中,最常用的是以天作为时间间隔的件量数据(以星期、月份、季度等作为时间间隔的件量数据可以由以天作为时间间隔的件量数据得到),即每天的收件量(或发件量)是多少件,所以,新增网点与现有网点的区别可以由网点的运营天数确定,运营天数小于由件量预测模型进行预测所限定的数据长度(以天作为时间间隔,例如90天)的网点被定义为新增网点,运营天数不小于由件量预测模型进行预测所限定的数据长度的网点被定义为现有网点。历史件量时间序列可以是件量随时间变化的数据(如每天的件数)、累积件量随时间变化的数据(如件数随时间累计的数据),还可以是件量平均处理时间的数据(如每件的平均处理时间)等,这些数据的特点是可以唯一确定件量随时间的变化数据。在本发明的一个实施例中,新增网点和现有网点的历史件量时间序列具有相同的时间刻度间隔,通常都是以小时、天、周、月等作为时间刻度间隔,进一步的,以天作为时间刻度间隔,此时既能保证网点的历史件量时间序列的数据长度不至于过少,又能较为准确的反映出网点的件量变化规律。由于网点的历史件量时间序列除了受当地的经济情况等的影响以外,还和网点在整个配送网络中的位置有关,而能表现这一位置的最直观的属性就是网点的级别。不同级别的网点的件量数据的变化规律上也有一些差异。因此不需要计算与新增网点的级别不同的现有网点与该新增网点的相似度,只需要选取与该新增网点同级的网点来计算相似度可以显著减少计算量。如当新增网点为2级网点时,仅选取2级网点的历史件量时间序列与该新增网点的历史件量时间序列计算相似度。
s102.识别与所述新增网点历史件量时间序列相似度最高的现有网点。通过比较各现有网点与该新增网点的历史件量时间序列的相似度,选取与新增网点最为相似的一个或多个现有网点。
s103.基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。通常在新增网点所空缺数据的时间点上,直接把与所述新增网点相似度最高的现有网点的在该时间点上的件量(如果有多个时,可以取平均值。在有必要的情况下,还可以增加修正系数对件量进行修正)作为新增网点在所述空缺数据的时间点上的件量数据。如新增网点缺少2018年1月份到2018年3月份的数据,则从与所述新增网点相似度最高的现有网点的历史件量数据中选取2018年1月份到2018年3月份的数据直接补入所述新增网点的历史件量数据之中,并且保持补入数据的顺序不变。
在本发明的该实施例中,通过在现有网点中查找与新增网点最相似的网点,用其件量数据对新增网点的件量数据进行补全,从而使得新增网点的件量数据足够使用预测模型进行预测。
由于每个现有网点的历史件量时间序列的长度往往不统一,容易导致在计算相似度时,历史件量时间序列较长的现有网点与新增网点的历史件量时间序列相似度更低。同时,即使历史件量时间序列的长度统一,不同时间的变化也有所不同,不同时期的数据之间(如6月和11月之间、夏季和秋季之间、前年春季和今年春季的之间等等)的相似度结果相对更不可靠,为了避免计算这些可靠性更低的时间段的相似度,减少计算相似度时的计算量,在本发明的一个实施例中,所述计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度的步骤,包括:
确定新增网点历史件量时间序列与每个现有网点历史件量时间序列所共有的时间区间;通常以新增网点历史件量时间序列所覆盖的时间范围作为所述共有的时间区间,在本发明的一个实施例中,新增网点为7月1日开始运营,而件量数据采集到10月31日,则将从7月1日到10月31日这一时间区间作为共有的时间区间。如果因为某些原因(如自然灾害造成的交通异常、大型网购促销活动等)使得某一天有较多的现有网点的数据异常或新增网点的数据异常,则将数据异常的日期从用于计算相似度的共有的时间区间中排除。该数据异常可由分类器等进行查找。
选取新增网点历史件量时间序列在所述时间区间上的数据和每个现有网点历史件量时间序列在所述时间区间上的数据;对新增网点和现有网点来说,仅截取上述共有的时间区间上的数据用于相似度计算。在本发明的一个实施例中,仅考虑从7月1日到10月31日这一时间区间内的件量数据的相似度。
基于所选取的数据进行相似度计算,将所得到的相似度结果作为新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度。对于每一个与新增网点同级的现有网点,分别用其在上述共有的时间区间(如在本发明的一个实施例中的从7月1日到10月31日)上的件量数据与新增网点在上述共有的时间区间(如在本发明的一个实施例中的从7月1日到10月31日)上的件量数据计算相似度,得到该现有网点的历史件量时间序列与新增网点的历史件量时间序列的相似度。
在本发明的该实施例中,通过选取具有共有的时间区间的件量数据来计算现有网点和新增网点的相似度,避免了因为件量数据的长度不同或计算相似度所用的时间不同所造成的得到的相似度的结果可靠性较低的问题。尤其是能够避免经济的周期性,尤其是淡、旺季的不同的影响。
在物流行业的真实业务场景中,由于历史件量时间序列具有在时间方向存在动态关联、在时间上具有位置偏移和尺度缩放的特点。经典的相似性度量方式如欧式距离、相关系数等在表征历史件量时间序列之间的相似度时往往效果不佳。为了解决这一问题,避免在进行相似度计算时由于数据点之间的一一对应关系难以适用物流行业的真实业务场景中网点的历史件量时间序列具有的动态关联、位置偏移和尺度缩放的特性,在本发明的一个实施例中,在计算相似度时允许数据点之间出现一对多和多对一的对应(关联)关系,所述基于所选取的数据进行相似度计算的步骤,包括:
将所选取的新增网点的数据中的每一数据点与所选取的现有网点的数据中的数据点进行关联,使得所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性;在本发明的一个实施例中,所选取的新增网点的数据(历史件量时间序列)为:x1、x2、x3、x4、x5、x6、x7…xi…xj…x60,为60天的件量数据,第i天的件量为xi;某一现有网点的数据(历史件量时间序列)为:y1、y2、y3、y4、y5、y6、y7…ym…yn…y60,同样为60天的件量数据,第m天的件量为ym。关联关系可以是x1与y1关联,x2与y2关联且与y3关联,x3与y4关联,x4与y4关联,x5与y4关联、x6与y5关联,x7与y6关联且与y7关联……,这种关联不需要限制为一一映射的关系,从而容易通过一对多和多对一的关联关系适用于位置偏移和尺度缩放,在本实施例中,x2与y2关联且与y3关联表示在现有网点的数据y2和y3通过尺度收缩对应与x2,或者是相当于将新增网点的数据x2通过尺度放大分别与y2和y3进行关联,同理,x6与y5关联相当于将新增网点的数据x6向前平移一个时间单位(在本发明的该实施例中为一天)来关联到y5上。通过这种关联方式,能够适用于物流行业的真实业务场景中网点的历史件量时间序列具有的位置偏移和尺度缩放的特性。同时,由于这种关联要满足所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性,即对于序列x1、x2、x3、x4、x5、x6、x7…xi…xj…x60中的每一点,在序列y1、y2、y3、y4、y5、y6、y7…ym…yn…y60中都有其关联的点,同样,对于序列y1、y2、y3、y4、y5、y6、y7…ym…yn…y60中的每一点,在序列x1、x2、x3、x4、x5、x6、x7…xi…xj…x60中也有与其关联的点。所述保序性,为新增网点中的数据点xi及其所关联的现有网点中的任一数据点ym,以及新增网点中的数据点xj及其所关联的现有网点中的任一数据点yn,满足:当i<j时,m≤n。即关联关系不破坏关联的各数据点在时间上的先后顺序。如不允许出现x5关联y7且x6关联y5的情况(此时,在后出现的x6关联到了在前出现的y5,破坏了时间上的先后顺序),但可以出现x5关联y7且x6关联y7的情况。这种关联要满足所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性的要求,能够适用于物流行业的真实业务场景中网点的历史件量时间序列具有的动态关联的特性。
确定所关联的数据点之间的距离;在本发明的实施例中,为分别确定每一对所关联的数据点之间的距离,即x1与y1之间的距离d(x1,y1),x2与y2之间的距离d(x2,y2),x2与y3之间的距离d(x2,y3),x3与y4之间的距离d(x3,y4),x4与y4之间的距离d(x4,y4),x5与y4之间的距离d(x5,y4),x6与y5之间的距离d(x6,y5),x7与y6之间的距离d(x7,y6),x7与y7之间的距离d(x7,y7)……直到所有的关联的数据点之间的距离确定完成。
确定所选取的新增网点的数据与所选取的现有网点的数据中所有相关联的数据点之间的距离的总和;即对上一步所确定的所有的关联的数据点之间的距离进行求和,在本发明的一个实施例中,即求:d(x1,y1) d(x2,y2) d(x2,y3) d(x3,y4) d(x4,y4) d(x5,y4)
d(x6,y5) d(x7,y6) d(x7,y7) ……
确定使所述所有相关联的数据点之间的距离的总和最小的关联方式和所述距离的总和的最小值。通过调整所选取的新增网点的数据中的每一数据点与所选取的现有网点的数据中的数据点的关联方式,将得到新的关联方式,所述新的关联方式满足:所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性。在本发明的一个实施例中,新的关联方式为:x1与y1关联,x2与y2关联,x3与y3关联且与y4关联,x4与y5关联,x5与y5关联、x6与y6关联,x7与y7关联……,该新的关联方式会导致所有相关联的数据点之间的距离的总和的改变,由于关联方式的数量是有限的,因此,存在这样一种关联方式,使得所有相关联的数据点之间的距离的总和达到最小。而这种关联方式可以通过多种方法得到,如遗传算法、动态规划等等,同时可以得到所述距离的总和的最小值。
在本发明的该实施例中,通过在进行相似度计算时对数据点之间进行灵活的关联,而不仅仅限于一一对应关系,从而能够适用物流行业的真实业务场景中网点的历史件量时间序列具有的动态关联、位置偏移和尺度缩放的特性,从而能够更选取更合适的现有网点来对新增网点的数据进行补全。使得对新增网点的件量的预测效果更好。
由于使用的不是传统的相似性度量方式,而且选取的是与新增网点最相似的现有网点,不需要对相似度做进一步的处理,只要求相似度能区分相似性的大小即可。为了节约计算资源,不对由所述距离的总和的最小值做进一步的变换来确定相似度,直接用该所述距离的总和的最小值来衡量相似性,在本发明的一个实施例中,所述识别与所述新增网点历史件量时间序列相似度最高的现有网点的步骤,包括:
比较所述距离的总和的最小值;
确定所述距离的总和的最小值最小的现有网点作为与所述新增网点历史件量时间序列相似度最高的现有网点。
在本发明的一个实施例中,对于每一个被选取的现有网点,均计算其与新增网点的历史件量时间序列的所述距离的总和的最小值。现有网点a、b、c、d、e与新增网点的历史件量时间序列的所述距离的总和的最小值分别为1000、1200、800、1800、2500,则选取所述距离的总和的最小值最小(即800)的现有网点(即c)作为与所述新增网点历史件量时间序列相似度最高的现有网点。本发明的该实施例中,通过直接比较距离而不对距离做进一步的处理,可以降低相似度比较时的计算量。
在本发明的一个实施例中,所述所关联的数据点之间的距离为所关联的数据点对应的件量之差的绝对值。即每一对所关联的数据点之间的距离为相关联的数据点的件量之差的绝对值,如x1与y1之间的距离d(x1,y1)=|x1-y1|,x2与y2之间的距离d(x2,y2)=|x2-y2|,x2与y3之间的距离d(x2,y3)=|x2-y3|,x3与y4之间的距离d(x3,y4)=|x3-y4|……,在本发明的另一个实施例中,所述所关联的数据点之间的距离为:|属于现有网点的数据点的件量-属于新增网点的数据点的件量|/属于新增网点的数据点的件量。即每一对所关联的数据点之间的距离为相关联的现有网点的数据点相对于新增网点的数据点的件量之间的相对值。在该实施例中,如x1与y1之间的距离d(x1,y1)=|x1-y1|/x1,x2与y2之间的距离d(x2,y2)=|x2-y2|/x2,x2与y3之间的距离d(x2,y3)=|x2-y3|/x2,x3与y4之间的距离d(x3,y4)=|x3-y4|/x3……。由于时间点的数据只有件量数据,因此采用件量之差的绝对值,或以件量之差与新增网点的件量数据的相对值作为距离具有较好的效果。在该实施例中,当新增网点的件量数据出现异常时,如某一数据点的件量特别小甚至是0的时候,会导致该数据点和与其关联的数据点之间的距离过大,使得其他数据点的匹配作用变小,从而使相似度的衡量失去意义。为了避免这种情况的出现,在本发明的一个实施例中,当某一数据点的件量小于预设阈值(如以一段时间的平均件量的1/5或1/10作为该阈值)时,以其前后相同的一段时间内的多个数据点的件量的平均值作为该数据点的件量,所述多个数据点与所述某一数据点之间的时间间隔为7天的整数倍(如前后第7天,前后第14天),此时,当所述某一数据点为周一的数据时,用于进行平均的数据点也均为周一的数据。这样可以避免件量的周效应的影响。当用于进行平均的数据点中出现节假日等情况,则不考虑节假日的数据点,并分别前后顺延7天选取用于进行平均的数据点。
为了避免新增网点的历史件量时间序列中数据过少而影响所识别与所述新增网点历史件量时间序列相似度最高的现有网点的稳健性,需要对新增网点的历史件量时间序列的长度进行限定,在本发明的一个优选实施例中,新增网点历史件量时间序列的数据长度不小于预设的长度阈值,当新增网点历史件量时间序列的数据长度过少时,例如仅有几天的数据,会导致该数据的稳健性不够,因此对于这种数据特别少的新增网点不进行数据补全。进一步的,预设的长度阈值不应超过365。当预设的长度阈值超过365时,由于新增网点可能已经有了一整年的件量数据,因此不需要进行数据补全即可用来对未来的件量进行预测。
在本发明的一个实施例中,公开了一种新增网点历史件量数据的补全系统,如图2所示,为本发明的实施例中一种新增网点历史件量数据的补全系统的示意图,包括:
计算单元,用于计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点;
识别单元,用于识别与所述新增网点历史件量时间序列相似度最高的现有网点;
补全单元,用于基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。
在本发明的一个优选实施例中,所述计算单元进一步包括:
确定单元,用于确定新增网点历史件量时间序列与每个现有网点历史件量时间序列所共有的时间区间;
选取单元,用于选取新增网点历史件量时间序列在所述时间区间上的数据和每个现有网点历史件量时间序列在所述时间区间上的数据;
相似度计算单元,用于基于所选取的数据进行相似度计算,将所得到的相似度结果作为新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度。
在本发明的一个优选实施例中,所述相似度计算单元进一步用于:
将所选取的新增网点的数据中的每一数据点与所选取的现有网点的数据中的数据点进行关联,使得所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性;
确定所关联的数据点之间的距离;
确定所选取的新增网点的数据与所选取的现有网点的数据中所有相关联的数据点之间的距离的总和;
确定使所述所有相关联的数据点之间的距离的总和最小的关联方式和所述距离的总和的最小值。
在本发明的一个优选实施例中,所述识别单元进一步用于:
比较所述距离的总和的最小值;
确定所述距离的总和的最小值最小的现有网点作为与所述新增网点历史件量时间序列相似度最高的现有网点。
本发明的实施例及优选实施例所提供的一种新增网点历史件量数据的补全系统,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
1.一种新增网点历史件量数据的补全方法,其特征在于,包括如下步骤:
计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点;
识别与所述新增网点历史件量时间序列相似度最高的现有网点;
基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。
2.根据权利要求1所述新增网点历史件量数据的补全方法,其特征在于,所述计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度的步骤,包括:
确定新增网点历史件量时间序列与每个现有网点历史件量时间序列所共有的时间区间;
选取新增网点历史件量时间序列在所述时间区间上的数据和每个现有网点历史件量时间序列在所述时间区间上的数据;
基于所选取的数据进行相似度计算,将所得到的相似度结果作为新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度。
3.根据权利要求2所述新增网点历史件量数据的补全方法,其特征在于,所述基于所选取的数据进行相似度计算的步骤,包括:
将所选取的新增网点的数据中的每一数据点与所选取的现有网点的数据中的数据点进行关联,使得所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性;
确定所关联的数据点之间的距离;
确定所选取的新增网点的数据与所选取的现有网点的数据中所有相关联的数据点之间的距离的总和;
确定使所述所有相关联的数据点之间的距离的总和最小的关联方式和所述距离的总和的最小值。
4.根据权利要求3所述新增网点历史件量数据的补全方法,其特征在于,所述识别与所述新增网点历史件量时间序列相似度最高的现有网点的步骤,包括:
比较所述距离的总和的最小值;
确定所述距离的总和的最小值最小的现有网点作为与所述新增网点历史件量时间序列相似度最高的现有网点。
5.根据权利要求3或4所述新增网点历史件量数据的补全方法,其特征在于,所述所关联的数据点之间的距离为所关联的数据点对应的件量之差的绝对值。
6.根据权利要求3或4所述新增网点历史件量数据的补全方法,其特征在于,所述所关联的数据点之间的距离为:
|属于现有网点的数据点的件量-属于新增网点的数据点的件量|/属于新增网点的数据点的件量。
7.一种新增网点历史件量数据的补全系统,其特征在于,包括:
计算单元,用于计算新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度,其中,所述每个现有网点是与该新增网点同级的网点;
识别单元,用于识别与所述新增网点历史件量时间序列相似度最高的现有网点;
补全单元,用于基于所述新增网点相似度最高的现有网点的历史件量数据,补全新增网点相同历史时期的空缺的历史件量数据。
8.根据权利要求7所述新增网点历史件量数据的补全系统,其特征在于,所述计算单元进一步包括:
确定单元,用于确定新增网点历史件量时间序列与每个现有网点历史件量时间序列所共有的时间区间;
选取单元,用于选取新增网点历史件量时间序列在所述时间区间上的数据和每个现有网点历史件量时间序列在所述时间区间上的数据;
相似度计算单元,用于基于所选取的数据进行相似度计算,将所得到的相似度结果作为新增网点历史件量时间序列与每个现有网点历史件量时间序列的相似度。
9.根据权利要求8所述新增网点历史件量数据的补全系统,其特征在于,所述相似度计算单元进一步用于:
将所选取的新增网点的数据中的每一数据点与所选取的现有网点的数据中的数据点进行关联,使得所选取的现有网点的数据中的每一数据点均被关联,且所述关联在时间关系上满足保序性;
确定所关联的数据点之间的距离;
确定所选取的新增网点的数据与所选取的现有网点的数据中所有相关联的数据点之间的距离的总和;
确定使所述所有相关联的数据点之间的距离的总和最小的关联方式和所述距离的总和的最小值。
10.根据权利要求9所述新增网点历史件量数据的补全系统,其特征在于,所述识别单元进一步用于:
比较所述距离的总和的最小值;
确定所述距离的总和的最小值最小的现有网点作为与所述新增网点历史件量时间序列相似度最高的现有网点。
技术总结