本发明属于无线通信技术领域,具体涉及一种基于深度强化学习的无人机轨迹设置和功率分配联合优化方法。
背景技术:
最近,无人机被认为是未来无线网络中的有效技术。由于其快速的部署,灵活的配置,广泛的覆盖范围和较低的成本,无人机可以用作与地面用户设备之间的中继以进行协作通信。此外,由于无人机可以智能地改变其位置以为地面用户设备提供按需无线服务,所以无人机还被设计用于无线通信的空中基站。因此,无人机辅助蜂窝网络已被应用于各种应用,例如遥感,交通监控,公共安全和军事。
但是,当前在无人机辅助的蜂窝网络中,还存在一些技术挑战,包括轨迹控制,资源分配和干扰管理。通过适当地设计无人机的轨迹,无人机可以移动到目标用户设备附近以提供无线服务,这可以减轻对未服务的用户设备的同信道干扰。此外,还应该控制无人机的发射功率,以实现频谱效率与避免干扰管理之间的平衡。因此,本发明提出,应该共同考虑轨迹控制和功率分配的优化实现技术问题。
技术实现要素:
为了克服现有轨迹控制和功率分配问题的非凸性,本发明的目的在于提出一种基于深度强化学习的联合轨迹控制和功率分配的最优技术方案。
为了达到上述目的,本发明所采用的技术方案是:
根据权利要求定稿待补,暂不处理
和现有技术相比,本发明的优点在于,将深度强化学习技术引入到无人机网络中,提供轨迹控制和功率分配的联合优化技术方案。在大型应用场景中,用户设备的数量可能是非常巨大的,本发明的智能化自动优化方案能够应对这种复杂情况,提供高效合理的无人机网络支持。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种基于深度强化学习的无人机轨迹及功率联合优化方法,首先,建立无人机系统模型,对无人机轨迹控制和功率分配问题进行描述。其次,针对轨迹控制和功率分配问题的非凸性,本专利提出了一种基于强化学习的方法,通过设置状态、动作空间和奖励函数,确定了马尔可夫决策过程。在此基础上,由于马尔可夫模型具有连续的动作空间,研究了深度强化学习方法,提出了深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化。实施例所提供方法的具体实现包括以下步骤:
步骤1,建立无人机系统模型:
在一般的无人机辅助蜂窝网络中,将n个无人机部署为空中基站,以在n个非重叠热点中为m个用户设备提供无线服务,用户设备和无人机的集合分别表示为
同时,所有的无人机都由一个核心地面基站控制,在t时刻,同一热点中的用户设备都将由相同的无人机同时提供服务。
于是,在t时刻,第i个无人机的水平坐标表示为
此外,实施例将第i个无人机的高度定义为hi(t)∈[hmin,hmax],其中hmin和hmax分别表示无人机的最小高度和最大高度。第i个无人机与第m个无人机之间的距离为
这里,考虑到无人机的飞行速度有限,无人机的轨迹应以最大行驶距离为准:
||vi(t 1)-vi(t)||≤vlts,(1)
||hi(t 1)-hi(t)||≤vats,(2)
其中,vl和va分别表示每个时隙ts中无人机的水平飞行和垂直飞行速度。
此外,为了避免任何两架无人机的碰撞,还应考虑无人机的碰撞约束,即对于第i个无人机和第j个无人机有:
其中,dmin表示任意两架无人机之间的最短距离。
值得注意的是,时隙ts应足够小,这样可以将信道近似为恒定。此外,考虑到任意两架无人机之间的避碰,ts应满足
这里,从无人机发出的无线电信号由视线传输和非视线传输组成,第m个用户设备和第i个无人机之间的视线传输连接的概率表示为:
其中,a和b是与环境有关的参数,
因此,在时间t,视线传输和非视线传输的路径损耗可以表示为以下模型:
其中,fc为载频,ηlos和ηnlos分别为视线传输和非视线传输的平均额外损失。
于是,预期平均路径损耗可以表示为
此外,从无人机接收到的第m个用户设备的信噪比表示为:
其中,gi,m(t)是第i个无人机和第m个用户设备之间的信道增益,n0是噪声功率谱密度。
因此,可以从第i个无人机获得第m个用户设备的可达到的速率ri,m(t)=bi,mlog2(1 γi,m(t))。于是,实施例得到了第i个无人机的总速率:
步骤2,无人机轨迹控制和功率分配问题描述:
在无人机辅助蜂窝网络中,保证每个用户设备满足来自身的最低服务质量要求ωm,第m个用户设备的信噪比γi,m(t)不应小于ωm,即
γi,m(t)≥ωm.(9)
于是,将第i个无人机的效用wi(t)定义为传输成本减去可实现的利润,可以给出
其中,ρi为利润,λp为无人机发射功率的单价。
同时,本优化问题是通过获得联合最优的无人机的轨迹(vi(t)和hi(t))和发射功率pi(t)来最大化整个网络效用,优化问题为:
由于该问题具有非凸性和组合性,特别是在大型网络中,求解的优化问题可能比较困难,并且对用户设备信息和信道状态的不了解,使得传统的优化策略难以实现。所以实施例将提出一个强化学习的解决方案,以找到最优的联合轨迹控制和功率分配策略。
步骤3,建立马尔可夫模型:
本步骤通过设计状态、动作空间和奖励函数,制定了马尔可夫决策过程。马尔可夫模型由五个元素(s,a,r,pss′,γ)组成,其中s为状态空间,a为动作空间,r为报酬,pss′为转移概率,γ∈[0,1)为衰减因子。定义状态s(t)为所有用户设备是否满足其服务质量要求,为s(t)={s1(t),s2(t),...,sm(t)},其中,sm(t)∈{0,1}。如果第m个用户设备满足其最小服务质量要求,γi,m(t)≥ωm,sm(t)=1,否则sm(t)=0。注意状态空间为2m,这对于数量较大的m来说可能是非常巨大的。
此外,考虑到无人机的运动轨迹和发射功率的确定,动作空间被定义为a(t)={p(t),l(t),φ(t),h(t)},其中p(t)={p1(t),p2(t),…,pn(t)}为带有pi(t)∈{0,pmax}的无人机传输功率,l(t)={l1(t),l2(t),…,ln(t)}为无人机的水平距离。考虑到水平轨迹约束,设置
于是,为了确保所有无人机都提供下行无线服务,应在奖励函数中考虑到用户设备的覆盖范围。如果某些用户设备不被任何无人机覆盖,在奖励函数中会有惩罚。因此,在优化问题(11)的基础上,将惩罚引入到碰撞约束的效用函数(3)中,奖励函数为:
其中,m′(i)为第i个无人机覆盖的用户设备数,ζ1为与覆盖程度相关的惩罚系数,
步骤4,实现基于深度强化学习的联合轨迹控制和功率分配的最优控制:
在本专利中,由于马尔可夫的连续作用空间,要获得精确的状态转移概率pss′是很困难的。虽然基于策略的学习方法可以产生连续的学习行为,但学习方差可能很大。此外,基于价值的学习可以获得较低学习方差的最优策略,但其只能应用于离散动作空间。因此,实施例优选采用ddpg方法实现无人机轨迹及功率联合优化方法,包括将基于策略的学习方法(actor网络)和基于价值的学习方法(critic网络)结合起来,得到深度确定性策略梯度(deepdeterministicpolicygradient,ddpg)方法。
在ddpg方法中,在有限周期t中,学习最佳策略以获得最大预期的衰减奖励
此外,基于actor-critic框架,使用深层神经网络来实现actor网络和critic网络。这里,critic网络表示为q(s(t),a(t)|θq),其权重为θq,actor网络表示为μ(o(t)|θμ),权重为θμ,o(t)为网络环境的观察。
同时,为了提高学习的稳定性,在ddpg中设计了目标网络策略。目标网络是actor网络和critic网络的复制,目标网络权重更新如下:
其中,τ为目标网络权重的软更新率,θq′和θμ′分别为相应目标网络的权重。
于是,针对本方法的无模型特性,采用了经验回放策略。在经验回放存储器d中存储转移样本(状态s(t)、下一状态s′(t)、动作a(t)和奖励r(t))。在学习过程中,通过从经验回放存储器d中随机采样mini-batch样本(状态si、下一状态s′i、动作ai和奖励ri)来更新actor网络和critic网络。其中,mini-batch是指在训练数据中随机选择小批量的数据。
这里,使用策略梯度方法更新actor网络的权重,方法为计算梯度如下:
其中,m为mini-batch的大小。
此外,通过最小化损失函数来更新critic网络l(θq),写为:
其中,yi=ri γq′(si 1,ai 1|θq′)是由critic网络的目标网络生成的目标值。
于是,利用(14)和(15),actor网络和critic网络的权重可以通过
核心地面基站首先初始化经验回放存储器d、actor-critic网络的权重以及相应的目标网络。设训练过程有ep个训练集,每个训练集都有t时隙。在每个训练集中,首先初始化网络状态s(t),在每一训练集的每一个时隙,动作由带有随机噪音
此外,通过导频信号,每个用户设备可以测量来自所有无人机的接收功率。基于最大接收信号功率,用户设备与无人机相关联。在用户关联之后,用户设备给关联的无人机报告他们自己的当前状态。最后,在回程链路的帮助下,核心地面基站可以获得全局网络下一状态s′(t)和即时奖励r(t)。因此,这些信息(s(t),a(t),r(t),s′(t))保存在经验回放存储器d中。于是,从经验回放存储器d中随机抽取mini-batch转移样本,以更新actor网络和critic网络。两个目标网络的权重在(13)中被缓慢更新。重复上述训练过程,直到所有无人机覆盖所有热点而没有重叠,并且所有用户设备的服务质量要求都得到满足。
以上流程可采用计算机软件技术实现自动运行,运行方法流程的装置也应当在本发明的保护范围内。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
1.一种基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:建立无人机系统模型,对无人机轨迹控制和功率分配问题进行描述;建立马尔可夫模型,包括通过设置状态、动作空间和奖励函数,确定马尔可夫决策过程;采用深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化,实现方式如下,
所述深度确定性策略梯度方法结合actor网络和critic网络,并设置相应目标网络;核心地面基站首先初始化经验回放存储器d、actor-critic网络的权重以及相应的目标网络;
设训练过程有ep个训练集,每个训练集都有t时隙;在每个训练集中,首先初始化网络状态,在每一训练集的每一个时隙,动作由带有随机噪音的actor网络发出;核心地面基站将选定的动作发送给所有无人机后,所有无人机都会相应地设置自己的轨迹和传输功率;当某些无人机飞出网络区域时,它将选择一个随机方向角,如果某些无人机的高度hi(t)超过[hmin,hmax],无人机将停留在hmin或hmax高度,其中hmin和hmax分别表示无人机的最小高度和最大高度;一旦某些无人机学习到最好的轨迹和功率,并为覆盖范围内的用户设备提供无线服务时,训练过程全部结束;
此外,通过导频信号,每个用户设备测量来自所有无人机的接收功率;基于最大接收信号功率,用户设备与无人机相关联;在用户关联之后,用户设备给关联的无人机报告自己的当前状态;
最后,在回程链路的帮助下,核心地面基站获得全局网络下一状态和即时奖励,相应信息保存在经验回放存储器d中,所述信息包括状态s(t)、下一状态s′(t)、动作a(t)和奖励r(t);从经验回放存储器d中随机抽取mini-batch转移样本,以更新actor网络和critic网络;目标网络的权重相应被缓慢更新;
重复上述训练过程,直到所有无人机覆盖所有热点而没有重叠,并且所有用户设备的服务质量要求都得到满足。
2.根据权利要求1所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述建立无人机系统模型,实现如下,
在无人机辅助蜂窝网络中,将n个无人机部署为空中基站,以在n个非重叠热点中为m个用户设备提供无线服务,用户设备和无人机的集合分别表示为
同时,所有的无人机都由一个核心地面基站控制,在t时刻,同一热点中的用户设备都将由相同的无人机同时提供服务;记第m个用户设备的平面坐标
在t时刻,第i个无人机的水平坐标表示为
将第i个无人机的高度定义为hi(t)∈[hmin,hmax],其中hmin和hmax分别表示无人机的最小高度和最大高度;第i个无人机与第m个无人机之间的距离为
基于无人机的飞行速度有限,无人机的轨迹以最大行驶距离为准:
||vi(t 1)-vi(t)||≤vlts,(1)
||hi(t 1)-hi(t)||≤vats,(2)
其中,vl和va分别表示每个时隙ts中无人机的水平飞行和垂直飞行速度;
此外,为了避免任何两架无人机的碰撞,考虑无人机的碰撞约束,对于第i个无人机和第j个无人机有:
其中,dmin表示任意两架无人机之间的最短距离;
设定时隙ts足够小,将信道近似为恒定;考虑到任意两架无人机之间的避碰,ts应满足
设从无人机发出的无线电信号由视线传输和非视线传输组成,第m个用户设备和第i个无人机之间的视线传输连接的概率表示为:
其中,a和b是与环境有关的参数,
在时间t,视线传输和非视线传输的路径损耗可以表示为以下模型:
其中,fc为载频,ηlos和ηnlos分别为视线传输和非视线传输的平均额外损失;
预期平均路径损耗表示为
从无人机接收到的第m个用户设备的信噪比表示为:
其中,gi,m(t)是第i个无人机和第m个用户设备之间的信道增益,n0是噪声功率谱密度;
设从第i个无人机获得第m个用户设备的可达到的速率ri,m(t)=bi,mlog2(1 γi,m(t)),得到第i个无人机的总速率:
3.根据权利要求2所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述对无人机轨迹控制和功率分配问题进行描述,实现如下,
在无人机辅助蜂窝网络中,保证每个用户设备满足来自身的最低服务质量要求ωm,第m个用户设备的信噪比γi,m(t)不应小于ωm:
γi,m(t)≥ωm.(9)
将第i个无人机的效用wi(t)定义为传输成本减去能够实现的利润:
其中,ρi为利润,λp为无人机发射功率的单价;
同时,为通过获得联合最优的无人机的轨迹(vi(t)和hi(t))和发射功率pi(t)来最大化整个网络效用,优化问题为:
4.根据权利要求3所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述建立马尔可夫模型,实现如下,
设定马尔可夫模型由五个元素(s,a,r,pss′,γ)组成,其中s为状态空间,a为动作空间,r为报酬,pss′为转移概率,γ∈[0,1)为衰减因子;
定义状态s(t)为所有用户设备是否满足其服务质量要求,记为s(t)={s1(t),s2(t),...,sm(t)},其中,sm(t)∈{0,1};如果第m个用户设备满足其最小服务质量要求,γi,m(t)≥ωm,sm(t)=1,否则sm(t)=0;
考虑到无人机的运动轨迹和发射功率的确定,动作空间被定义为a(t)={p(t),l(t),φ(t),h(t)},其中p(t)={p1(t),p2(t),...,pn(t)}为带有pi(t)∈{0,pmax}的无人机传输功率,l(t)={l1(t),l2(t),...,ln(t)}为无人机的水平距离;考虑水平轨迹约束,设置
为了确保所有无人机都提供下行无线服务,应在奖励函数中考虑到用户设备的覆盖范围,在优化问题(11)的基础上,将惩罚引入到碰撞约束的效用函数(3)中,奖励函数为:
其中,m′(i)为第i个无人机覆盖的用户设备数,ζ1为与覆盖程度相关的惩罚系数,
5.根据权利要求3所述基于深度强化学习的无人机轨迹及功率联合优化方法,其特征在于:所述采用深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化时,
在深度确定性策略梯度方法中,在有限周期t中,学习最佳策略以获得最大预期的衰减奖励
此外,基于actor-critic框架,使用深层神经网络来实现actor网络和critic网络;critic网络表示为q(s(t),a(t)|θq),其权重为θq,actor网络表示为μ(o(t)|θμ),权重为θμ,o(t)为网络环境的观察;
同时,为了提高学习的稳定性,在ddpg中设置目标网络策略,目标网络是actor网络和critic网络的复制,目标网络权重更新如下:
其中,τ为目标网络权重的软更新率,θq′和θμ′分别为相应目标网络的权重;
针对无模型特性,采用经验回放策略,在经验回放存储器d中存储转移样本,包括状态s(t)、下一状态s′(t)、动作a(t)和奖励r(t);在学习过程中,通过从经验回放存储器d中随机采样mini-batch样本,包括状态si、下一状态s′i、动作ai和奖励ri,以更新actor网络和critic网络;
使用策略梯度方法更新actor网络的权重,包括计算梯度如下:
其中,m为mini-batch的大小;
此外,通过最小化损失函数来更新critic网络l(θq),写为:
其中,yi=ri γq′(si 1,ai 1|θq′)是由critic网络的目标网络生成的目标值。
利用(14)和(15),actor网络和critic网络的权重通过
