本发明属于轨道交通,尤其涉及一种基于强化学习的高速列车速度曲线优化方法及系统。
背景技术:
1、高速列车速度曲线优化是指根据高速列车的运行环境、技术特性、运营目标等因素,设计合理的列车运行速度曲线,使得列车在满足安全、舒适等要求的同时,尽可能地节约运行能耗,提高运行效率和质量。目前,对于高速列车速度曲线优化的方法主要基于数学规划和智能算法,包括非线性规划、粒子群算法等,
2、数学规划方法基于严格的数学理论,且遗传算法、粒子群算法具有全局搜索能力,可以找到全局最优解。但数学规划和智能算法需要大量计算资源和时间,特别是在复杂问题上;另一方面,传统方法通常只考虑少数目标,难以平衡列车运行时的多项性能指标,如节能、准时和舒适度。
3、同时,这些方法由并未充分考虑隧道内外环境变化对于乘客舒适度的影响,而且难以平衡列车运行时节能、准时、舒适等各项性能指标。
技术实现思路
1、有鉴于此,本发明提出了一种基于强化学习的高速列车速度曲线优化方法及系统,旨在解决目前轨道交通技术领域列车状况数据利用不足带来的速度曲线欠优的问题。本发明利用强化学习对列车运行指标进行建模,综合考虑到道路、能耗和乘客舒适性的平衡,提高了高速列车运行安全性和乘客舒适性。
2、一种基于强化学习的高速列车速度曲线优化方法,包括以下步骤:
3、s1:获取道路数据、列车运行时刻数据、列车速度、列车加速度数据,并对其进行预处理,得到预处理后的道路数据、列车运行时刻数据、列车速度、列车加速度数据;
4、s2:定义列车速度曲线优化网络的状态空间和动作空间;
5、s3:构建列车速度曲线优化网络的值函数,并根据根据迭代步对值函数进行更新;
6、s4:设定列车速度曲线优化网络的奖励函数,所述奖励函数中包括乘客舒适度函数、运行总能耗函数、准点性函数;
7、s5:强化学习训练,更新q表并输出高速列车速度曲线。
8、进一步地,所述s1步骤获取道路数据、列车运行时刻数据、列车速度、加速度数据,并进行预处理,得到预处理后的道路数据、列车速度、列车加速度数据,包括:
9、s11:获取道路数据、列车运行时刻数据、列车速度、列车加速度数据;其中,道路数据包括高速列车全线各个隧道的起始位置、终止位置、隧道长度和隧道直径,以及桥梁和限速段的起始位置、终止位置;
10、s12:对道路数据、列车运行时刻数据、列车速度、列车加速度数据进行预处理,包括采用平均值法进行缺失值填补和采用z-score方法进行数据归一化,得到预处理后的道路数据、列车运行时刻数据、列车速度、列车加速度数据,其中,z-score方法的计算方式为:
11、
12、其中,x为待处理数据,μ为待处理数据的均值,σ为待处理数据的标准差,socre为归一化后的标准分数。
13、进一步地,所述s2步骤定义列车速度曲线优化网络的状态空间和动作空间,包括:
14、s21:定义状态空间,包括:列车位置、列车速度、列车加速度、列车运行时刻、道路类型、道路限速;
15、s22:定义动作空间,包括:列车牵引力、列车制动力。
16、进一步地,所述s3步骤构建列车速度曲线优化网络的值函数,并根据根据迭代步对值函数进行更新,包括:
17、s31:定义值函数q(s,a),为在状态s下采取动作a的期望回报,计算方式为:
18、
19、其中,e为期望,γ为折扣因子,rt为第t迭代步的奖励,s0为初始状态,a0为初始动作;
20、s32:根据迭代步调整值函数,值函数更新公式的计算方式为:
21、
22、其中,β为学习率,s′为下一个状态,a′为下一个动作,为使得下一步q值最大时对应的下一步动作。
23、进一步地,所述s4步骤设定列车速度曲线优化网络的奖励函数,包括乘客舒适度函数、运行总能耗函数、准点性函数,计算方式为:
24、rt=w1rt1+w2rt2+w3rt3
25、其中,rt1、rt2、rt3分别为乘客舒适度函数、运行总能耗函数、准点性函数,w1、w2、w3分别为三种函数的权重系数;
26、乘客舒适度函数的计算方式为:
27、
28、其中,ct为第t迭代步的列车加速度,tc为列车加速和减速的总时间,vt为第t步的列车速度,vmax为第t步的列车速度上限,it为第t迭代步的进出隧道指示器,k1为列车加速度的影响系数、k2为列车加速减速的时间总和的影响系数、k3为隧道内超速的影响系数,k4为进出隧道对舒适度的影响系数;
29、第一项:表示列车的加速度对舒适度的影响,加速度越小,舒适度越高;
30、第二项:―k2tc,表示列车加速减速的总时间对舒适度的影响,加速减速的时间越短,舒适度越高;
31、第三项:―k3∣vt―vmax∣,表示列车在隧道内的超速对舒适度的影响,在隧道内超速越小,舒适度越高;同时,为了避免智能体(列车)在隧道内超低速行驶而避免惩罚,因此增加绝对值号,使得列车行驶过快或过慢均会受到惩罚,vmax根据隧道的长度和直径以及路段限速确定,以避免隧道内车速过快引起耳内负压;
32、第四项:―k4itct,表示进出隧道时列车加速或减速对舒适度的影响;it为第t迭代步的进出隧道指示器,当第t步是进出隧道的时候,it为1,否则为0;如果列车在进出隧道的时候加速或减速,则ct不为0,智能体会受到惩罚,以促使它在远离隧道出入口时进行加速或减速,而不是在进出隧道时;
33、关于如何判断是否是进出隧道的时刻,本发明使用了距离和隧道在全线中的位置作为判定条件,具体如下:
34、如果第t迭代步时,列车车头位置距离隧道入口小于阈值d1,或列车车头距离隧道出口小于阈值d2,则认为是进出隧道的时刻,it为1,否则为0;
35、阈值d1和d2根据隧道的长度和列车的速度确定,隧道越长或列车速度越快时,阈值越大,计算方式为:
36、
37、其中,l表示隧道的长度;
38、乘客舒适度函数是强化学习多目标优化的子目标之一,反映乘客舒适度对列车运行的影响,从而指导智能体(列车)做出更合理的决策。乘客舒适度函数考虑了多种因素,包括列车的加速度、加速减速的时间、隧道内的超速、加速减速的时机。乘客舒适度函数的值越大,表示乘客的舒适度越高,智能体会受到更大的奖励,从而激励它采取更舒适的运行方式。
39、乘客舒适度函数和运行总能耗函数、准点性函数一起构成了列车速度曲线优化网络的奖励函数,它们之间存在协调关系,本发明通过权重系数来平衡它们的重要性和影响。
40、运行总能耗函数的计算方式为:
41、
42、其中,n为列车运行的区间数,fi为第i个区间内的平均牵引力;v(i)为第i个区间内的平均速度,ηi为第i个区间内的牵引效率,δti为第i个区间内的运行时间,g1为列车辅助设备的能耗,g2为列车制动能耗;
43、准点性函数的计算方式为:
44、
45、其中,time1为列车的实际到达时间,time2是列车的预定到达时间,time为列车的最大容忍迟到时间,min()为取最小值,max()为取最大值;
46、如果列车准时到达或提前到达,那么奖励是正的,且随着提前到达的时间增加而减少,最大为1;
47、如果列车迟到,那么奖励是负的,且随着迟到的时间增加而减少,最小为-1;
48、如果列车迟到超过time秒,那么奖励为-1,不再继续减少;
49、准点性函数的设计考虑了列车的实际到达时间和预定到达时间的差值,以及列车的最大容忍迟到时间,准点性函数的值越大,表示列车的准时性越高,智能体会受到更大的奖励,从而激励它采取更准时的运行方式。
50、传统的数学规划方法通常需要建立复杂的数学模型,涉及大量的约束和变量,求解过程耗时长,难以适应限制条件较多的环境。智能算法虽然可以避免复杂的数学模型,但是需要大量的训练数据和参数调整,也难以保证全局最优和实时性。
51、强化学习通过与环境的交互,不断更新值函数和策略,从而找到最优的行动。这种方法适合解决列车速度曲线优化问题,因为列车运行过程中会遇到各种不确定的因素,如隧道限速,需要实时调整速度曲线,以达到节能、舒适和准时的目标。强化学习能够在不需要训练数据和参数调整的情况下,通过在线学习和探索,快速地生成优化的速度曲线,同时具有良好的全局最优性。
52、进一步地,所述s5步骤强化学习训练,更新q表并输出高速列车速度曲线,包括:
53、s51:初始化q表,为每个状态-动作对赋予一个随机值,其中q表全称为quintuple表,即四元学习表;
54、s52:设定初始状态s0为:列车速度、加速度、运行时刻为0,从始发站开始运动;
55、s53:重复以下步骤,直到列车到达最后一个站点,包括:
56、从当前状态s出发,以概率ε随机选择一个动作,以概率1―ε选择q值最大的动作;
57、执行动作a,观察下一个状态s′和当前奖励rt;
58、根据值函数更新公式,更新q表中的q(s,a);
59、将s更新为s′;
60、输出q表中得分最高的策略;
61、s54:由训练好的强化学习模型,输出高速列车速度曲线结果。
62、本发明还提供了一种基于强化学习的高速列车速度曲线优化系统,包括:
63、数据获取与预处理模块:获取道路数据、列车运行时刻数据、列车速度、列车加速度数据,并对其进行预处理,得到预处理后的道路数据、列车运行时刻数据、列车速度、列车加速度数据;
64、状态动作空间构建模块:定义列车速度曲线优化网络的状态空间和动作空间;
65、值函数构建模块:构建列车速度曲线优化网络的值函数,并根据根据迭代步对值函数进行更新;
66、奖励函数构建模块:设定列车速度曲线优化网络的奖励函数,所述奖励函数中包括乘客舒适度函数、运行总能耗函数、准点性函数;
67、强化学习训练模块:强化学习训练,更新q表并输出高速列车速度曲线。
68、与现有技术相比,本发明的优点在于:
69、(1)在整体方案上,针对高速列车速度曲线优化考虑乘客舒适性不足的问题,本发明结合隧道情况采用强化学习,利用列车实时速度、加速度等数据,实现列车速度曲线的自动优化,提高列车运行的舒适性和节能性。
70、(2)在算法改进上,本发明采用强化学习,考虑隧道内限速、加减速时机等方面,提出新的奖励函数,输出高速列车速度曲线的优化结果,相比于传统的数学规划和智能算法,具有更高的效率、效果和适应性,促使列车运行在进出隧道时避免加减速,在隧道内避免超速。
71、(3)在数据获取上,本发明所需的列车实时速度、实时加速度、道路类型等数据均较易获取,且处理方法简单,提高了本方案的可用性。
72、(4)此外,本发明结合列车速度和隧道长度计算隧道指示器的阈值,避免在优化列车速度曲线时忽略隧道出入口的位置,有效避免列车在隧道出入口出现加减速,进而降低乘客舒适度的情况。
1.一种基于强化学习的高速列车速度曲线优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的高速列车速度曲线优化方法,其特征在于,所述步骤s1包括以下步骤:
3.根据权利要求2所述的基于强化学习的高速列车速度曲线优化方法,其特征在于,所述步骤s2包括以下步骤:
4.根据权利要求3所述的基于强化学习的高速列车速度曲线优化方法,其特征在于,所述步骤s3包括以下步骤:
5.根据权利要求4所述的基于强化学习的高速列车速度曲线优化方法,其特征在于,所述步骤s4的奖励函数计算方式为:
6.根据权利要求5所述的基于强化学习的高速列车速度曲线优化方法,其特征在于,所述步骤s5包括以下步骤:
7.一种基于强化学习的高速列车速度曲线优化系统,其特征在于,包括:
