基于深度强化学习的能源互联网中虚拟电厂经济调度方法与流程

专利2022-06-29  95


本发明属于虚拟电厂的能源分配技术领域,具体涉及一种基于深度强化学习的能源互联网中虚拟电厂经济调度方法。



背景技术:

随着能源互联网中大规模分布式发电的接入,由于地理条件的限制,传统的微电网存在一定的局限性,阻碍了多区域大规模分布式发电的有效利用,电力削减十分频繁。由于可再生能源站的建设规模与当地负荷的需求不匹配,可再生能源的容纳能力受到限制,导致在风力发电站和光伏电站集中地区出现一定数量的电力削减。与微电网相比,vpp具有更大的能源负荷通道,可以更好地将可再生能源的建设规模与本地负荷的需求规模相匹配,并减少电力削减。

由于经济调度场景的复杂性,例如,管理分布式可再生能源和工业用户的智能设备,需要实时传输大量的不同类型的数据。由于工业用户和vpp运营商之间的密切关系,合理的经济调度应充分考虑用户的参与。工业用户可以通过与vpp运营商签订合同来参与经济调度。vpp运营商需要从需求侧工业用户和dg单元(分布式发电单元)接收数据。由于vpp运营商和设备之间的数据传输需要一定程度的性能保证,以实现最佳的经济调度,因此vpp采用先进的控制,传感和通信技术,以感知和收集数据,并将其传输到vpp的经济调度控制中心。vpp在复杂的情况下实现最佳的经济调度,需要考虑到大多数设备与vpp运营商之间的无线链路,大量数据传输很容易超过传输容量限制。因此,资源有限的批量设备无法直接将需求发送给vpp运营商,这对有效的经济调度构成了重大挑战。

传统上,vpp运营商以集中方式分配地理位置分散的分布式电源。用户的信息和来自多个区域的dg的实时状态数据被发送到云中进行存储和处理,这导致大量的网络通信负载和计算资源消耗。但是,这导致更高的网络延迟和计算复杂度。在实际情况下,从各种dg和工业用户到云计算中心的长距离数据传输会消耗大量能源。而且,传输的数据引起了不同地区的工业用户对隐私的关注。传统的云计算模式需要将本地敏感数据上传到云计算中心,增加了用户隐私泄露的风险。另外,大量数据的产生和传输使得难以准确地保证在复杂环境中数据传输的可靠性。



技术实现要素:

本发明的目的是为解决现有方法存在的计算复杂度高、通信的负载和延迟大、以及数据传输的可靠性差的问题,而提出了一种基于深度强化学习的能源互联网中虚拟电厂经济调度方法。

本发明为解决上述技术问题采取的技术方案是:基于深度强化学习的能源互联网中虚拟电厂经济调度方法,该方法包括以下步骤:

步骤一、对于任意区域i,利用区域i的工业侧服务器和电源侧服务器收集来自于区域i的发电侧和用户侧信息,i=1,2,…,i,i为区域总个数;

利用各区域收集的信息分别对actor-critic网络进行训练,以分别获得利用各区域信息训练好的actor-critic网络;

步骤二、将训练好的actor-critic网络分别部署在对应区域的边缘节点;

步骤三、各区域的工业侧服务器和电源侧服务器实时收集来自于发电侧和用户侧的信息,并将收集的信息输入对应边缘节点上的actor-critic网络,实时获得各区域的决策信息。

本发明的有益效果是:本发明提出了一种基于深度强化学习的能源互联网中虚拟电厂经济调度方法,由于虚拟电厂中分布式电源的分布式特性,本发明在云环境的辅助下设置边缘节点,以分别处理虚拟电厂中不同区域的分布式电源和用户侧的智能设备生成的大数据。由于我们考虑实时的经济调度场景,即需求响应和能量传递是实时的。在第二层由agent管理本区域的分布式电源和工业用户进行在线调度,相比于将所有区域的调度放到云中心,可以减少通信延迟和对工业用户响应时间。将计算和存储都放到边缘节点完成,在边缘服务器上启用应用程序,就近使用新能源为服务器供电,可以显著减少能耗。在本发明提出的框架中,第一层和第二层是边缘计算层,而第三层是云计算层。所提出的三层边缘计算架构降低了在中央节点处处理训练任务的计算复杂度,并进一步降低了vpp运营商与dg部门之间的通信负载,因此也降低了工业用户的响应时间,同时还保留了工业用户的隐私,提高了数据传输的可靠性。

附图说明

图1是本发明提出的经济调度架构图;

图2是本发明提出的基于边缘计算的利用三层体系结构的分布式发电经济调度结构图;

图3是本发明的基于drl的vpp经济调度的信息传递模型图;

图中:si为区域i的实时状态,ai为状态si对应的动作,ri为回报值,π为策略,v为状态值函数,θ为线程中actor网络的参数,θv为线程中critic网络的参数,θ′为全局actor网络的参数,θ′v为全局critic网络的参数;

图4为随机一天的光伏发电、风力发电的功率,以及可控负荷、不可控负荷的功率曲线图;

图中:pv代表光伏,wt代表风力,controllableload代表可控负荷,uncontrollableload代表不可控负荷;

图5是回报值随迭代次数的变化曲线图;

图6是风电的发电功率与实际功率的对比图;

图7是光伏的发电功率与实际功率的对比图;

图8是燃气轮机的发电功率与实际功率的对比图;

图9是可控负载的最优化结果图;

图10是本发明方法与dpg方法的成本对比图。

具体实施方式

具体实施方式一:本实施方式所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,该方法包括以下步骤:

步骤一、对于任意区域i,利用区域i的工业侧服务器和电源侧服务器收集来自于区域i的发电侧和用户侧信息,i=1,2,…,i,i为区域总个数;

利用各区域收集的信息分别对vpp运营商云服务器的actor-critic网络进行训练,以分别获得利用各区域信息训练好的actor-critic网络;

步骤二、将训练好的actor-critic网络分别部署在对应区域的边缘节点;

步骤三、各区域的工业侧服务器和电源侧服务器实时收集来自于发电侧和用户侧的信息,并将收集的信息输入对应边缘节点上的actor-critic网络,实时获得各区域的决策信息。

具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中,利用各区域收集的信息分别对vpp运营商云服务器的actor-critic网络进行训练,采用的是异步的方法,同时并行运行8个线程。

具体实施方式三:本实施方式与具体实施方式一不同的是:所述actor-critic网络的目标函数为:

其中:c为区域i的总运营成本,为区域i在时隙k的光伏投资初始折旧成本,k=0,1,…,k(在vpp中考虑24小时,k等于23),为区域i在时隙k的光伏运营和维护成本,为区域i在时隙k的风力涡轮机初始折旧成本,为区域i在时隙k的风力涡轮机运行和维护成本,为区域i在时隙k的微型燃气轮机初始折旧成本,为区域i在时隙k的微型燃气轮机运行和维护成本,为区域i在时隙k的微型燃气轮机环保成本,为区域i在时隙k的微型燃气轮机自身消耗的成本,λ为补偿系数,为区域i在时隙k的可控制负载,xi(k)为区域i在时隙k的选择可中断负载百分比向量,xi(k)的取值范围为[0,1]。

具体实施方式四:本实施方式与具体实施方式一不同的是:所述actor-critic网络中的actor网络的具体训练过程为:

所述actor网络由mu网络和sigma网络构成,且mu网络和sigma网络均由2个全连接层构成;

mu网络和sigma网络的第1个全连接层的激活函数均为tanh,输入维度均为5,输出维度均为h;

mu网络和sigma网络的第2个全连接层的激活函数均为softplus,输入维度均为h,输出维度均为m;

将发电侧和用户侧的信息输入mu网络和sigma网络后,获得mu网络和sigma网络的输出;再对mu网络和sigma网络的输出进行正态随机采样,获得actor网络输出的4维动作。

具体实施方式五:本实施方式与具体实施方式四不同的是:所述actor-critic网络中的critic网络的具体训练过程为:

所述critic网络由全连接层构成;

将发电侧和用户侧的信息和actor网络输出的4维动作输入critic网络的全连接层后,再将全连接层的输出进行拼接,获得拼接结果,并对拼接结果进行线性变换,获得critic网络输出的一维回报值。

具体实施方式六:本实施方式与具体实施方式五不同的是:所述actor-critic网络的回报函数的表达式为:

其中:k1、k2、k3和k4均为权重值。

根据critic网络输出的回报函数值指导actor网络的训练。

边缘计算用于在vpp的网络边缘附近的批处理设备上提供计算服务。首先,边缘计算可以通过预处理极大地减少从设备到vpp运营商的数据传输。其次,边缘计算架构可以将计算负担转移到边缘。图1显示了本发明方法提出的经济调度架构,它由四个主要组件组成:电源侧服务器(pss),工业用户侧服务器,代理边缘服务器和vpp运营商云服务器。电源侧服务器通过不同的通信技术(例如5g,wifi)连接电力设备。它收集和处理来自分布式电力设备的发电数据,并将数据实时传输到代理边缘服务器。pss还接收代理边缘服务器的调度信息,并为工业用户供电。工业用户端服务器通过不同的通信技术(例如5g,wifi)连接电力设备。它收集并处理工业用户的功耗信息,并将数据实时传输到代理边缘服务器。根据工业用户侧服务器和电源侧服务器的分析结果,做出本地经济调度决策,并且代理边缘服务器与两侧的服务器进行交互。vpp运营商云服务器满足代理边缘服务器的计算要求并管理每个代理。它不仅可以帮助代理服务器提供实时分析和计算,还可以收集被管理代理的调度信息。

图2显示了本发明提出的基于边缘计算的利用三层体系结构的分布式发电经济调度结构。首先,vpp运营商设置代理来管理不同地区的分布式发电和工业用户。在需求方面,用户的可控制负载参与需求响应,这可以减少高峰时段的负载需求。与vpp运营商相比,每个代理都是一个边缘计算服务器。工业用户侧服务器和电力侧服务器从每个分布式发电单元收集数据,并以实时模式提取和汇总数据。这些分布式发电可以是光伏发电,风力发电和微型燃气轮机。代理服务器为该区域提供最佳的经济调度策略,最后将决策信息发送给vpp运营商。所提出的体系结构适合于离线训练和实时在线调度。首先,在离线训练阶段,工业侧服务器和电源服务器必须处理并收集特定区域中来自发电侧和用户侧的信息,并将收集到的信息传输到vpp运营商云服务器。vpp运营商云服务器是根据大规模离线数据进行模型训练,并将经过训练的模型传递到特定区域中的代理边缘服务器。在实时经济调度时,工业用户和分布式电源的数据会由双方服务器收集,并将数据传输到代理边缘服务器,代理边缘服务器会将其放入之前训练过的模型中作为输入,以获得实时的调度策略。三层经济调度模型适应电源的分布式特性,解决了vpp经济调度中大规模数据传输的问题。更加灵活并且适合于动态网络的扩展,从而使其成为更具可扩展性的解决方案。

vpp运营商进行经济调度的目标是最大程度地降低对于工业用户的补偿和dg(包括光伏,风力涡轮机和微型燃气轮机)的运营成本。在最小化vpp运营商成本的基础上,提出的最优经济调度算法充分考虑了cpom,cwom和cdom。具体而言,我们还考虑了微型燃气轮机的环保成本cde和燃料成本cd。总体上,将dg单位的初始折旧成本考虑在内,并分别定义为cpdp,cwdp和cddp。我们考虑了工业用户的需求,还包括对参与需求响应的工业用户的补偿成本,表示为cdr。我们将工业用户视为可调度的资源,参与vpp的经济调度。提出的算法通过削减可控负载,用户灵活性的提高可能会导致负荷峰谷偏移,降低了峰值功率消耗期间vpp的经济损失。在这种情况下,工业用户相当于虚拟发电资源。因此,在提出的模型的目标函数中,加入对需求方的补偿成本为cdr,补偿选择削减可控负载的用户。目标函数由两部分组成,第一部分是dg的运行成本,第二部分是需求方参与系统运行时可控负载的补偿成本。

其中c是管理vpp中的dg和工业用户总的运营成本。ci是用于管理区域i中的管理dg和工业用户的运营成本。是i地区的dg的运营成本,是i地区的对工业用户参与需求响应的补偿成本。

在实时方案中,vpp的边缘代理由i表示。在我们提出的最佳经济调度模型中,考虑了三种类型的dg,分别是光伏,风力涡轮机和微型燃气轮机。dg装置的运行成本包括vpp的初始折旧,运行和维护成本。具体而言,还考虑了微型燃气轮机的环境保护和燃料成本。其中,k表示时隙间隔,表示光伏,风力涡轮机和微型燃气轮机分别在时隙k的实际消耗;

(1)光伏:光伏投资的初始折旧费用可以表示为

其中r是年利率,是光伏电池的单位容量安装成本,kp是光伏容量系数,np是光伏的使用寿命。

光伏的运营和维护成本将

其中是光伏的维护运营成本,而kpom是维护运营成本光伏系数。

(2)风力发电机:风力发电机的初始投资成本折算为单位时间的输出功率。作为风力涡轮机的折旧成本,它已包括在风力涡轮机的运行成本中

其中是风力涡轮机的初始折旧成本,是风力涡轮机的单位安装成本,kw是风力涡轮机的容量因子,r是年利率,nw是风力涡轮机的使用寿命。

风力涡轮机在运行期间的运行和维护成本可以表示为

其中,kwom是风力涡轮机的运行成本系数。

(3)微型燃气轮机:微型燃气轮机的初始折旧成本建模为:

其中是微型燃气轮机的单位容量安装成本,kd是微型燃气轮机的容量系数,nd是微型燃气轮机的使用寿命。

微型燃气轮机的运行和维护成本:

其中,kdom是微型燃气轮机的运行和维护成本系数。

微型燃气轮机的环保成本为:

其中m是排放的污染物,m是污染物的总数,βm是单位污染物m排放量的处理成本,αdm是微型燃气轮机产生单位电时污染物的排放量。

微型燃气轮机的发电效率与输出功率之间的关系函数为:

其中ηd是微型燃气轮机的发电效率,是微型燃气轮机的输出功率。

微型燃气轮机的消耗特性可表示为(10)

其中是燃料成本,cd是天然气价格,l是由天然气释放的最低能量。

根据以上描述,dg的运营成本如下:

需求响应可以有效地整合用户方响应的潜力,从而增强电网运营的安全性,稳定性和经济性。在本文中,我们考虑了模型构建过程中工业用户的需求响应。为了实现最佳的经济调度策略,每个代理商都选择可控制负荷的大小进行削减。由于可控负载减少了,这给工业用户带来了不便,为此需要对其进行补偿。vpp运营商应向选择削减可控负载的用户提供功率补偿。控制可控负载的变量为xi(k),补偿系数λ。xi(k)是从区域内所有工业用户的电力信息中获得的变量,该变量定义为考虑代理i的工业区域每个时隙中最大可中断可控负载的百分比,在负载端的补偿成本为这种方法可以减少或减少部分功耗,从而避免了工业用户的峰值负载。工业用户的负载是从获得的,分为可控制负载和不可控制负载由于可控负荷可以直接响应vpps的经济调度,因此本文主要考虑参与vpps调度过程中对可控负荷削减。代理i的管理的可控负载的补偿成本可以表示为:

其中λ为补偿系数,xi(k)表示为选择可中断负荷百分比的向量,值的范围为[0,1]。每个代理i的经济调度的目标函数可以表示为:

对于整个vpp系统,功率平衡约束是基本问题,在模型构建过程中应充分考虑。在代理i的每个管理区域中,各个dg单元的总功耗应等于工业用户的总功耗。对于工业用户的总电力需求,考虑了代理i对工业用户的可控制负载的削减,即

每个代理商管理区域中dg的实际功耗受该区域中实际发电量的限制。dg的光伏,风能,微型燃气轮机的实际功率为分别如下:

由代理商i管理的工业领域中的可中断负载百分比不应超过每个时隙中最大中断可控负载的百分比,即

0≤xi(k)≤xi(k)(18)

vpp运营商管理所有区域并汇总每个区域的调度信息。基于以上描述,我们定义最佳经济调度策略的目标函数如下:

在本发明中,我们提出的最优经济调度策略使分布式电源的发电成本最小化,同时也满足了vpp的功率平衡和发电能力的限制。

为了使方案更加实际,我们将各种成本组成部分纳入了目标函数。本发明建立的目标函数为一个非线性的成本函数,虽然本发明没有加入有关非凸性的约束,但是真实的场景中,发电单元通常会受到阀点效应的影响,成本函数通常是非凸的。为了解决这些困难,之前的工作多采用启发式方法。我们采用的深度强化学习方法可以适应于这种非线性非凸情况,放松了非线性和非凸的约束。在实际的经济调度方案中,调度过程通常应在短时间内完成。由于光伏和风力发电的随机特性以及负载的灵活性,因此从前一个时隙到下一个时隙的状态转换构成了较大的状态空间,并且状态信息需要快速更新。drl作为一种有效的人工智能算法,在解决问题的许多领域都取得了巨大成功,例如物联网,它可以找到不同的优化策略在合理的时间范围内。在本发明中,提出的基于drl的算法放宽了非线性特性的约束,该算法通过深度学习算法拟合值函数,提高了求解精度。本发明中的经济调度问题是非线性的,转移概率未知,状态空间较大且连续,drl不需要环境信息即可计算状态转移的概率分布。将离线训练的模型可以直接应用于在线经济调度,本发明提出的基于drl的最佳经济调度算法显著提高了计算效率。

基于drl的vpp经济调度的信息传递模型如图3所示。该算法采用离线数据训练模式,供电侧服务器和用户侧服务器收集历史临时数据,并将信息传输到vpp云服务器。vpp云服务器根据从不同区域传输来的数据,使用drl对网络进行单独的训练,从而获得了不同区域的经济调度策略。在线经济调度阶段,每个代理边缘服务器从vpp云服务器获取相应的网络权重值。电源侧服务器和工业用户侧服务器汇总实时传输信息和电力需求,然后将所有汇总的信息传输到相应的代理边缘服务器。代理边缘服务器基于历史权重并根据实时状态信息,获得了实时最优经济调度策略,并将结果反馈到双方的服务器。

离线训练和在线调度分别在不同的节点实现。首先在云中心,基于离线数据对模型进行完全训练。然后,将提出的基于drl的方法和边缘计算结合,将训练的模型放在边缘节点,这个模型就可以在真实的环境中在线应用。如果此时在线与离线训练环境有轻微的变化,我们离线训练的模型可以默认学习这些变化并动态调整动作来实现最优调度。在线调度时,分布式电源发电数据和工业用户的需求数据就可以直接传递到边缘节点,不用传递到云中心,更加适应于实时的经济调度场景。

对于vpp我们考虑24小时,用k∈(0,1,…,23)表示。经济调度的目标是找到一种最佳的经济调度解决方案,以最小化vpp的运营成本。对于区域i,状态设置为si,si∈si,由电源侧服务器和工业用户侧服务器聚合,分别表示时隙k中光伏,风力,微型燃气轮机实际发电量,工业用户控制的负载和不可控制的负载需求。动作集ai,ai∈ai,分别表示时隙k中光伏发电,风力发电和微型燃气轮机的实际功耗,以及可控负载的控制系数。a是满足功率平衡约束的连续动作空间,ai是满足动作约束的选定动作。

在任何时隙中,为了找到从状态到动作的映射关系,我们引入策略π。该策略表示在已知当前状态的情况下每个动作的条件概率分布。下一个状态表示为s′i,初始状态表示为s0i。即在实际情况下,状态转换概率未知,并且状态空间和行为空间是连续的。当已知si,ai时,可以获得与目标函数相关的回报值ri(si,ai)。回报值为评估动作好坏和指导学习过程效果的关键组成部分。为了更好的设置回报值,通过反复实验,将回报值设置为与成本有关的函数,下面,详细解释奖励值的具体设置:

其中k1,k2,k3,k4为设置的权重值。因为要最小化虚拟电厂的成本,所以回报值为负数。可以获得k小时的总回报值,具体如下:

为了使回报值最大化,我们使用了梯度上升方法来更新提出的算法中的策略,即

从(23)中,可以得到状态值函数vπ(si)和状态作用值函数qπ(si,ai),γ是折扣因子,代表回报值的折现率。

目标是选择最佳策略并最大化状态作用值函数,最优状态作用值函数表示如下:

为了找到最佳的经济调度策略,通常考虑利用数据表表示函数。但是,这种方法限制了强化学习算法的规模。当问题的规模太大时,用于存储表的存储空间会很大,并且需要很长时间才能准确计算表中的每个值。如果从小型训练数据集获得学习经验,则训练模式的泛化能力不足。为了解决上述问题,考虑到大规模的状态动作空间,使用深度神经网络对状态值函数和状态作用值函数进行参数化。在本发明提出的算法中,使用深度神经网络提取大规模输入状态数据的特征来训练经济调度模型,这使训练后的模型更具泛化性。从神经元的第一层开始,通过非线性激活函数进入神经元的下一层,继续向下传递,直至输出层。由于非线性函数对于深度神经网络是必不可少的,因此深度神经网络具有足够的能力来提取数据特征。θv用于近似状态值函数v(si)和状态作用值函数q(si,ai)。

q(si,ai)≈q(si,ai,θv)(26)

v(si)≈v(si,θv)(27)

深度神经网络作为函数逼近器,其参数θ是策略参数。π服从高斯分布,可以用来解决连续动作空间问题,即

每个区域i的每个时隙回报值在(20)给出,所以

在我们的场景中,为了增加具有较高回报值的策略的可能性,我们进行策略梯度的更新,梯度更新的计算为:

其中ri是区域i中的总回报值,并由q(si,ai)估算,即ri≈q(si,ai)。b(si)是用于减少估计误差的基线。v(si)用于估计基线,即b(si)≈v(si)。

aπ(si,ai;θ,θv)=qπ(si,ai,θv)-vπ(si,θv)(31)

等式(31)是优势函数,表示动作值函数相对于价值函数的优势。如果动作值函数大于值函数,则优势函数为正,如果动作值函数较小,则优势函数为负。当优势函数为正时,沿增加策略概率的方向更新参数,而当优势函数为负时,沿减小策略概率的方向更新参数。因此,当采用优势函数时,算法的收敛速度更快。

策略梯度的更新为:

参数θv,θ的更新分别为:

为了使训练策略更具适应性并防止过早收敛到次优的确定性策略,在策略梯度中加入熵正则化,即

当进行神经网络训练时,需要的数据是独立同分布的,为了打破数据之间的相关性,采用异步的方法,我们可以并行运行多个线程,每个线程都有自己的环境副本。在训练过程中,多个线程会维护一个全局的actor-critic网络,并且每个线程都保留一个全局网络的本地网络权重值副本。本地网络累积梯度更新,并将梯度传递到全局网络以进行参数更新。之后,本地网络将同步全局网络中的参数。本地网络不仅可以通过学习环境状态来更新自己的独立网络,而且还可以与全局网络进行交互。我们将全局共享参数向量定义为θ′和θ′v:

从这个意义上说,每个区域都实现了最佳的经济调度。在离线训练过程的数值部分,我们实现8个线程,vpp运营商与每个区域通信并计算c。基于该算法,可以获得区域i的经济调度模型。在线调度阶段,每个代理边缘服务器首先从vpp云服务器即代理i获得相应的网络权重值。基于drl的经济调度模型如图3所示。

实验部分

为了训练基于drl的经济调度模型,我们利用离线数据集对来自光伏,风力,微型燃气轮机和工业用户的负荷数据进行训练。图4为随机一天的光伏发电和风力发电的功率,以及可控负荷,不可控负荷的功率。其中微型燃气轮机的最大功率设为200kw。由于工业负荷主要是各种工业生产,其电力需求一般变化不大,没有特别明显的峰谷差。负荷需求较高时期为9.00-10.00,12.00-14.00和19.00-21.00,负荷需求较低时期为1.00-5.00。可以看出,光伏和风力发电存在较大的峰谷差,光伏发电高峰期为10.00-16.00,风力发电的高峰期为10.00-18.00。随机一天的光伏发电和风力发电的功率,以及可控负荷,不可控负荷的用电量。

表1和表2中列出了污染的排放成本以及光伏,风力发电和微型燃气轮机的运行和维护成本。

表1

表2

下面详细描述本发明使用的基于drl的算法中神经网络的结构。状态表示成5维向量表示,最后获得的动作有4维,动作根据状态以正态分布随机采样获得,我们采用神经网络计算正态分布所需的mu和sigma参数。将状态分别输入到mu网络和sigma网络中,产生4维的mu和sigma参数。其中,mu网络有2个mlp层构成,第一层输入维度为5,输出维度为h,使用tanh进行激活;第二层输入维度h,输出维度m使用softplus进行激活。其中,sigma网络同样有2个mlp层构成,第一层输入维度为5,使用tanh进行激活,输入两层神经网络,输出维度4,使用softplus进行激活,为了保证sigma网络不输出0,我们在输出的sigma向量上加1×10-6。之后,通过正太分布随机采样出4维动作。根据状态和动作,通过使用critic网络计算q值。critic网络中,状态使用一个mlp进行编码,输入维度5维,使用tanh进行激活。动作使用另一个mlp进行编码,输入维度5维,使用tanh进行激活。再将两个编码后的输出进行拼接使用一个线性变化输出分数,最后的输出维度为1。对于actor-critic网络,它实现了两个神经网络,折扣系数为0.90,熵权值为0.01。通常,actor更新是在critic的回报指导下产生,critic更新比actor快。当学习速率增加时,收敛速度更快。但是,较高的学习率可能会导致局部最优而不是全局最优。因此,我们将学习率设置为适中。

在本发明中,我们在8核cpu,16gb内存计算机上进行了数值实验。线程数为8,也就是说,每个本地actor和critic网络都相当于一个子线程,总共有8个线程。通过子线程异步学习环境,并且学习结果会定期更新到全局网络。在学习的开始有很多随机选择,但是,通过多次迭代,经济调度模型会收敛并选择优化目标的动作。我们使用离线数据集来训练最佳的经济调度策略。drl的主要优势在于,在对此类离线数据进行完全训练之后,该模型可以在实际环境中在线应用。这种在线环境略有变化,drl模型可以了解这些变化并动态调整动作以实现最佳调度。

为了验证算法的收敛性,我们采样了100天的数据作为训练数据,每个episode运行100天中任意一天的数据,运行了4.5万个episodes后,模型可以生成最佳动作。每episode有24个step,其中每个step是一个小时,迭代过程如图5所示。动作根据状态以正态分布随机采样获得。我们可以看到,该算法在前3万个episodes,存在较大的波动,主要是由于策略选择的随机性,所以一直在进行探索。但是由于动作区间的约束和等式约束,波动区间是大约是-300到-400之间。训练了32000个episodes后,训练有了好的突破,由于模型学习到了如何选择最优的动作。从35000个episodes后,模型开始逐渐收敛。训练结果表明,提出的模型可以使经过充分训练的vpp运营商的成本降到最低。尽管在学习开始时有许多随机选择,许多迭代,但深度强化学习模型可以收敛并学习选择接近最佳目标值的动作。

由于在虚拟电厂中,光伏发电和风力发电相比于微型燃气轮机来说,成本更低,也更为环保,我们训练的策略主要以风电光伏发电为主。所以负载主要由风电光伏供电,剩余的部分由燃气轮机进行补充或者通过需求响应对于可控负荷进行削减。其中图6,图7,图8为风电,光伏,燃气轮机的发电功率和实际的功耗对比,深灰色为发电功率,浅灰色为实际的功耗,横轴为时间,单位小时,纵轴为功率。由图6,图7可以看出,每个小时,风力发电和光伏发电的实际发电量和最后的功耗之差近似为0,在1.00-7.00和23.00-24.00,光伏和风力发电的功率实际输出很小。这时候的负荷,需要由微型燃气轮机来供电。由图7可以看出,1.00-7.00和23.00-24.00,微型燃气轮机为主要的供电单元。由图9可以看出,在20.00-24.00,由于工业用户的用电需求较大,而燃气轮机的成本较高,这个时间段对于可控负荷削减的比重很大,几乎全部削减。所以综上可以得出,使用我们提出的算法最小化虚拟电厂的成本,在预先设置的回报值下,学习的早期阶段比较随机,在训练过程中,随着时间的推移,模型学习到了正确的策略选择,如何以稳定的控制分布式电源发电和需求响应来最小化虚拟电厂的成本。

为了验证所提方法的有效性,我们将所提算法与其他强化学习算法进行了比较。本发明方法与确定性策略梯度算法(dpg)进行比较,确定性策略梯度算法可以解决这种连续动作空间问题。结果如图10所示,浅灰色曲线为dpg,深灰色曲线为我们提出的基于drl的算法。比较dpg和我们提出的基于drl算法在30天中的成本,从图中可以看出,通过对比两种方法的成本,可以看出从第22天开始,我们提出的方法的成本明显更低。相比于我们提出的方法,由于dpg使用当下时刻的回报值作为当前策略下的动作状态函数的无偏估计,求得的策略有较高的方差,泛化性小,在有些情况下不稳定。我们提出的方法使用神经网络拟合动作值状态函数,通过减去baseline得到更小的方差。为了打破数据之间的相关性,使用异步更新机制来创建多个并行环境,因为并行会不互相干扰,使子线程同时在并行环境中更新主网络的参数。

表3

与ddpg和dpg做比较,我们将episode设置为4.5万,比较不同方法的运行时间。由表3可以看出,与不同的适应于求解虚拟电厂经济调度的深度强化学习方法相比,我们提出的方法时间复杂度最低。由于每个episode时间为几毫秒,在虚拟电厂实时经济调度场景中,可以根据状态输入在几毫秒内作出决策。传统的启发式方法,需要针对每个状态重新运行优化过程,时间复杂度更高。

本发明适应于分布式可再生能源发电的随机特性,提出了一种基于深度强化学习的vpp最优经济调度算法。我们进一步利用基于边缘计算的框架,从而可以以较低的计算复杂度实现最佳调度解决。我们使用真实世界的气象和负荷数据评估了我们提出的算法的性能,实验结果表明,我们提出的基于drl的模型可以成功学习到虚拟电厂经济调度问题中分布式电源发电和工业用户需求的特征,并学会了选择动作来最小化虚拟电厂的成本。通过与dpg对比,我们提出的方法具有更好的性能。通过与dpg和ddpg对比,我们提出的方法具有更低的时间复杂度。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。


技术特征:

1.基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,该方法包括以下步骤:

步骤一、对于任意区域i,利用区域i的工业侧服务器和电源侧服务器收集来自于区域i的发电侧和用户侧信息,i=1,2,…,i,i为区域总个数;

利用各区域收集的信息分别对actor-critic网络进行训练,以分别获得利用各区域信息训练好的actor-critic网络;

步骤二、将训练好的actor-critic网络分别部署在对应区域的边缘节点;

步骤三、各区域的工业侧服务器和电源侧服务器实时收集来自于发电侧和用户侧的信息,并将收集的信息输入对应边缘节点上的actor-critic网络,实时获得各区域的决策信息。

2.根据权利要求1所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,所述步骤一中,利用各区域收集的信息分别对vpp运营商云服务器的actor-critic网络进行训练,采用的是异步的方法,同时并行运行8个线程。

3.根据权利要求1所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,所述actor-critic网络的目标函数为:

其中:c为区域i的总运营成本,为区域i在时隙k的光伏投资初始折旧成本,k=0,1,…,k,为区域i在时隙k的光伏运营和维护成本,为区域i在时隙k的风力涡轮机初始折旧成本,为区域i在时隙k的风力涡轮机运行和维护成本,为区域i在时隙k的微型燃气轮机初始折旧成本,为区域i在时隙k的微型燃气轮机运行和维护成本,为区域i在时隙k的微型燃气轮机环保成本,为区域i在时隙k的微型燃气轮机自身消耗的成本,λ为补偿系数,为区域i在时隙k的可控制负载,xi(k)为区域i在时隙k的选择可中断负载百分比向量,xi(k)的取值范围为[0,1]。

4.根据权利要求1所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,所述actor-critic网络中的actor网络的具体训练过程为:

所述actor网络由mu网络和sigma网络构成,且mu网络和sigma网络均由2个全连接层构成;

mu网络和sigma网络的第1个全连接层的激活函数均为tanh,输入维度均为5,输出维度均为h;

mu网络和sigma网络的第2个全连接层的激活函数均为softplus,输入维度均为h,输出维度均为m;

将发电侧和用户侧的信息输入mu网络和sigma网络后,获得mu网络和sigma网络的输出;再对mu网络和sigma网络的输出进行正态随机采样,获得actor网络输出的4维动作。

5.根据权利要求4所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,所述actor-critic网络中的critic网络的具体训练过程为:

所述critic网络由全连接层构成;

将发电侧和用户侧的信息和actor网络输出的4维动作输入critic网络的全连接层后,再将全连接层的输出进行拼接,获得拼接结果,并对拼接结果进行线性变换,获得critic网络输出的一维回报值。

6.根据权利要求5所述的基于深度强化学习的能源互联网中虚拟电厂经济调度方法,其特征在于,所述actor-critic网络的回报函数的表达式为:

其中:k1、k2、k3和k4均为权重值。

技术总结
基于深度强化学习的能源互联网中虚拟电厂经济调度方法,它属于虚拟电厂的能源分配技术领域。本发明解决了现有方法存在的通信负载和延迟大、计算复杂度高以及数据传输的可靠性差的问题。本发明提出了基于边缘计算的利用三层体系结构的分布式发电经济调度结构,其中:第一层和第二层是边缘计算层,而第三层是云计算层。所提出的三层边缘计算架构降低了在中央节点处处理训练任务的计算复杂度,并进一步降低了VPP运营商与DG之间的通信负载,因此也降低了工业用户的响应时间,同时还保留了工业用户的隐私,提高了数据传输的可靠性。本发明可以应用于虚拟电厂的能源分配。

技术研发人员:孙迪;王宁;关心;林霖
受保护的技术使用者:国网黑龙江省电力有限公司;黑龙江大学
技术研发日:2020.01.06
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-51738.html

最新回复(0)