一种基于强化学习的M2M通信中中继节点的选择方法与流程

专利2022-06-29  96


本发明涉及一种中继选择方法,具体涉及一种针对电池供电中继选择的、基于强化学习的m2m通信中中继节点的选择方法,属于无线通信技术领域。



背景技术:

近年来,随着计算机技术的不断发展,机器学习(machinelearning)逐渐成为了人工智能的核心技术,得到了众多业内研究人员的广泛关注。

具体而言,依据其数据库中的样本数据是否存在标签,可以将机器学习大致分为监督学习、非监督学习以及强化学习三种类型。其中,强化学习是一种以环境反馈作为输入、以统计和动态规划技术为指导的学习方法。强化学习的灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。与上述其他两种机器学习的方法不同,强化学习的优势着眼于智能体在不确定的环境中进行交互的问题,强调如何基于环境而行动、以取得最大化的预期利益。目前,强化学习已经在许多相关领域内得到了广泛的应用,针对通信领域,一般将其应用于无线资源分配、中继选择等场景中。

在无线通信领域内,中继技术是近年来的研究热点之一,中继技术是指在无线通信网络中设置多个中继节点,这些中继节点可以将消息辅助传送到目的节点中,从而有效地克服无线信道衰落、提高无线系统的通信质量,同时扩大通信系统的覆盖范围。进一步而言,

中继节点对于信号的处理方式主要包括放大转发与解码转发两种方式。其中,对于中继节点的选择方法一般包括四种,即信噪比最大方案、最近邻居方案、最优最差信道方案以及最小调和平均方案,这些算法基本的参考依据都是源、中继节点及目的节点间的信道条件。

在执行现有的这些中继节点选择方法时,技术人员发现,整个无线通信网络中信道条件较好的中继节点会被频繁选择用于信息传输,为其供电的电池能量会消耗的比其他中继节点更快,从而造成系统内的能量失衡、缩短整个系统的使用寿命。

综上所述,如何在现有技术的基础上提出一种全新的中继节点选择方法,尽可能地克服现有技术中所存在的缺陷,也就成为了本领域内技术人员共同的研究目标。



技术实现要素:

鉴于现有技术存在上述缺陷,本发明的目的是提出一种针对电池供电中继选择的、基于强化学习的m2m通信中中继节点的选择方法,具体如下。

一种基于强化学习的m2m通信中中继节点的选择方法,应用于m2m通信系统中,包括如下步骤:

s1、搭建强化学习模型框架,确定强化学习的动作集、状态集以及奖赏值;

s2、采用q-learning算法对强化学习模型的框架进行细化;

s3、根据具体问题确定q-learning算法中的超参数,对强化学习模型进行迭代循环;

s4、根据训练结果对强化学习模型进行调整,应用调整后的强化学习模型进行中继节点的选择。

优选地,所述s1包括如下步骤:

s11、将m2m通信系统中不同的中继节点选择定义为强化学习中的动作;

s12、将各中继节点的电池的剩余能量及下次通信的目标节点作为强化学习的状态;

s13、根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,计算出单次通信选择过程中各中继节点所消耗的能量。

优选地,所述s11包括如下步骤,

将m2m通信系统中通信设备的个数记为n,中继节点的个数记为m,智能体动作记为a∈a={1,2,…,m}、即所选择的中继节点的编号;

所述s12包括如下步骤,

将编号为i的中继节点的电池的剩余能量记为pi,通信的目标设备的编号记为n,强化学习状态s为

s=[p1,p2,…,pm,n];

所述s13包括如下步骤,

根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,采用解码转发的转发方式,计算出单次通信选择过程中各中继节点所消耗的能量,随后综合能量消耗与中继节点的电池的均衡情况作为强化学习的奖赏,将多目标问题转化为单目标问题,并通过参数调整完成对两者的意向均衡点的调整。

优选地,在所述s13中,将中继节点的能量消耗记为e,中继节点的能量均衡记为dmax、表示中继节点的电池的最大能量与最小能量间的差值,强化学习的奖赏r为

r=r0-ξee-δξddmax,

其中,ξe与ξd分别表示能量消耗与能量均衡所占的权重,δ表示将能量消耗与能量均衡映射到相近的范围,r0为一个正数,其取值范围为

max(ξee δξddmax)<r0<2*max(ξee δξddmax)。

优选地,所述s2包括如下步骤:

s21、依据各中继节点所消耗的能量进行分桶;

s22、将各中继节点的电池能量取最小值,将强化学习状态中的能量特征与所取得的电池的最小能量相减,使结果反映出中继节点的能量均衡情况;

s23、更新动作选择策略。

优选地,所述s21包括如下步骤,

依据s1中所得的单次通信选择过程中各中继节点所消耗的能量进行分桶,使能量消耗从无限维度降为有限维度;

所述s22包括如下步骤,

将各中继节点的电池的最小能量记为pm0n,将更新后的编号为i的中继节点的电池的剩余能量记为pi,将强化学习的状态s修改为

s=[p1,p2,…,pm,n],

其中,pi=p0-pmin;

所述s23包括如下步骤,

采用q-learning算法中的状态-动作对的值函数q(s,a)进行更新,更新过程为

qt 1(s,a)=(1-α)qt(s,a) α[rt γmaxb∈aqt(s’,b)],

其中,s表示当前状态,s’表示状态转移后的状态,qt与qt 1分别表示更新前后的q值,α表示强化学习的学习速率、α值越大表示奖赏的更新越依赖于即时奖赏,rt表示当前迭代得到的奖赏r,γ为一个折扣因子、表示未来奖赏的重要程度、取值小于1;

q-learning算法中的策略π(s,a)表示在s状态下选择a动作的概率,采用softmax函数对动作选择策略进行更新。

优选地,所述s3包括如下步骤:

s31、对强化学习模型进行初始化处理,初始化奖赏值r=0,初始化动作选择策略π(s,a)=1/m,依据对能量消耗与能量均衡的期望确定权重值ξe与ξd,ξe与ξd二者之和等于1;

s32、确定强化学习的学习速率α,确定最大迭代次数k,并进行多次迭代。

优选地,所述s32包括如下步骤:

根据动作选择策略π(s,a)得到选择各动作的概率,依据概率选中任一中继节点进行数据发送,在完成一次通信后,依据此次通信的能量消耗与通信结束后的能量均衡情况计算奖赏值,并更新值函数q(s,a),随后依据新的值函数,运用softmax函数计算新的动作选择策略,得到下一次通信任务,当确定需要发送消息的目标节点时,更新模型的状态。

优选地,在所述s4中,

若达到设定的最大迭代次数后,强化学习模型仍未收敛,则调整学习速率,使其变小,重新进行迭代训练;

迭代过程中,每次发送消息前根据状态计算出选择每个中继节点得到的累积奖赏值的期望值,选择奖赏最大的中继节点进行消息的转发。

与现有技术相比,本发明的优点主要体现在以下几个方面:

本发明提出了一种基于强化学习的m2m通信中中继节点的选择方法,将每次通信的能量消耗情况与为中继节点供能的电池的能量均衡情况都纳入强化学习的目标中,使系统在减少能量消耗与实现能量均衡中达到平衡,避免了能量失衡、延长了整个系统的使用寿命。

同时,本发明的方法可以让系统自主地完成对中继节点的选择、自适应性较强,即使在中途向系统内添加新的m2m设备,也不需要对中继节点的选择方式进行重新设定,从而为本发明的方法的实际应用提供了便利。

此外,本发明的方法还为同领域内的其他相关问题提供了参考,具有十分广阔的应用前景,可以以此为依据进行拓展延伸,将其应用于与无线通信系统内中继节点选择相关的其他技术方案中。

以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法流程示意图;

图2为本发明的系统模型示意图。

具体实施方式

本发明揭示了一种基于强化学习的m2m通信中中继节点的选择方法,下面结合实施例,进一步阐述本发明的方案。

本发明的整体思路如下:利用m2m通信设备低移动性的特点,根据各中继节点到m2m通信设备的信道情况及源节点到各中继节点的信道情况,采用解码转发(decodeandforward)的方式计算出单次通信选择各中继节点所消耗的能量。再将对中继节点的选择作为强化学习中的动作(action),将单次通信所消耗的能量与各中继节点的电池能量的均衡情况相结合、作为强化学习中的奖赏(reward),将各中继节点的电池剩余能量及下次通信的目标节点作为强化学习的状态,采用q学习(q-learning)的算法以及softmax函数的动作选择策略,进行迭代运算,直至收敛。

如图1~图2所示,一种基于强化学习的m2m通信中中继节点的选择方法,应用于m2m通信系统中,系统内包括源节点、中继节点以及m2m通信设备,方法包括如下步骤:

s1、搭建强化学习模型框架,确定强化学习的动作集、状态集以及奖赏值;

s2、采用q-learning算法对强化学习模型的框架进行细化;

s3、根据具体问题确定q-learning算法中的超参数,对强化学习模型进行迭代循环;

s4、根据训练结果对强化学习模型进行调整,应用调整后的强化学习模型进行中继节点的选择。

具体而言,所述s1包括如下步骤:

s11、将m2m通信系统中不同的中继节点选择定义为强化学习中的动作;即将m2m通信系统中通信设备的个数记为n,中继节点的个数记为m,智能体动作记为a∈a={1,2,…,m}、即所选择的中继节点的编号。

s12、将各中继节点的电池的剩余能量及下次通信的目标节点作为强化学习的状态;即将编号为i的中继节点的电池的剩余能量记为pi,通信的目标设备的编号记为n,强化学习状态s为

s=[p1,p2,…,pm,n]。

s13、根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,计算出单次通信选择过程中各中继节点所消耗的能量;

即根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,采用解码转发(decodeandforward,df)的转发方式,计算出单次通信选择过程中各中继节点所消耗的能量,随后综合能量消耗与中继节点的电池的均衡情况作为强化学习的奖赏,将多目标问题转化为单目标问题,并通过参数调整完成对两者的意向均衡点的调整。

此外,在所述s13中,将中继节点的能量消耗记为e,中继节点的能量均衡记为dmax、表示中继节点的电池的最大能量与最小能量间的差值,强化学习的奖赏r为

r=r0-ξee-δξddmax,

其中,ξe与ξd分别表示能量消耗与能量均衡所占的权重;δ表示将能量消耗与能量均衡映射到相近的范围;r0为一个正数,避免奖赏值为负数,其值可根据对能量消耗与能量均衡所期望的要求进行调整,一般情况下,其取值范围为

max(ξee δξddmax)<r0<2*max(ξee δξddmax)。

具体而言,所述s2包括如下步骤:

s21、依据各中继节点所消耗的能量进行分桶;即依据s1中所得的单次通信选择过程中各中继节点所消耗的能量进行分桶,使能量消耗从无限维度降为有限维度。

s22、将各中继节点的电池能量取最小值,将强化学习状态中的能量特征与所取得的电池的最小能量相减,使结果反映出中继节点的能量均衡情况;即将各中继节点的电池的最小能量记为pmin,将更新后编号为i的中继节点的电池的剩余能量记为pi,将强化学习的状态s修改为

s=[p1,p2,…,pm,n],

其中,pi=pi-pmin。

s23、更新动作选择策略;即采用q-learning算法中的状态-动作对的值函数q(s,a)进行更新,更新过程为

qt 1(s,a)=(1-α)qt(s,a) α[rt γmaxb∈aqt(s’,b)],

其中,s表示当前状态,s’表示状态转移后的状态,qt与qt 1分别表示更新前后的q值,α表示强化学习的学习速率、α值越大表示奖赏的更新越依赖于即时奖赏,rt表示当前迭代得到的奖赏r,γ为一个折扣因子、表示未来奖赏的重要程度、取值通常小于1;

q-learning算法中的策略π(s,a)表示在s状态下选择a动作的概率,采用softmax函数对动作选择策略进行更新。

具体而言,所述s3包括如下步骤:

s31、对强化学习模型进行初始化处理,初始化奖赏值r=0,初始化动作选择策略π(s,a)=1/m,依据对能量消耗与能量均衡的期望确定权重值ξe与ξd,ξe与ξd二者之和等于1;

s32、确定强化学习的学习速率α,确定最大迭代次数k,并进行多次迭代。此处需要说明的是,学习速率α的值若太小会使模型学习缓慢、并会在前期取得较差的效果,若太大则可能使得模型最终无法收敛。

根据动作选择策略π(s,a)得到选择各动作的概率,依据概率选中任一中继节点进行数据发送,在完成一次通信后,依据此次通信的能量消耗e与通信结束后的能量均衡情况dmax计算奖赏值r,并更新值函数q(s,a),随后依据新的值函数,运用softmax函数计算新的动作选择策略,得到下一次通信任务,当确定需要发送消息的目标节点时,更新模型的状态。

具体而言,在所述s4中,

若达到设定的最大迭代次数后,强化学习模型仍未收敛,则调整学习速率,使其变小,重新进行迭代训练;

迭代过程中,每次发送消息前根据状态计算出选择每个中继节点得到的累积奖赏值的期望值,选择奖赏最大的中继节点进行消息的转发。

应用模型进行中继节点的选择,可以在能量消耗较少的情况下,保证各中继节点的电池能量较为均衡,并可以依据结果对两者的期望值进行调整,在两者之中寻找期望的均衡点。

综上所述,本发明所提出的一种基于强化学习的m2m通信中中继节点的选择方法,将每次通信的能量消耗情况与为中继节点供能的电池的能量均衡情况都纳入强化学习的目标中,使系统在减少能量消耗与实现能量均衡中达到平衡,避免了能量失衡、延长了整个系统的使用寿命。

同时,本发明的方法可以让系统自主地完成对中继节点的选择、自适应性较强,即使在中途向系统内添加新的m2m设备,也不需要对中继节点的选择方式进行重新设定,从而为本发明的方法的实际应用提供了便利。

此外,本发明的方法还为同领域内的其他相关问题提供了参考,具有十分广阔的应用前景,可以以此为依据进行拓展延伸,将其应用于与无线通信系统内中继节点选择相关的其他技术方案中。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。


技术特征:

1.一种基于强化学习的m2m通信中中继节点的选择方法,应用于m2m通信系统中,其特征在于,包括如下步骤:

s1、搭建强化学习模型框架,确定强化学习的动作集、状态集以及奖赏值;

s2、采用q-learning算法对强化学习模型的框架进行细化;

s3、根据具体问题确定q-learning算法中的超参数,对强化学习模型进行迭代循环;

s4、根据训练结果对强化学习模型进行调整,应用调整后的强化学习模型进行中继节点的选择。

2.根据权利要求1所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于,所述s1包括如下步骤:

s11、将m2m通信系统中不同的中继节点选择定义为强化学习中的动作;

s12、将各中继节点的电池的剩余能量及下次通信的目标节点作为强化学习的状态;

s13、根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,计算出单次通信选择过程中各中继节点所消耗的能量。

3.根据权利要求2所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于:

所述s11包括如下步骤,

将m2m通信系统中通信设备的个数记为n,中继节点的个数记为m,智能体动作记为a∈a={1,2,...,m}、即所选择的中继节点的编号;

所述s12包括如下步骤,

将编号为i的中继节点的电池的剩余能量记为pi,通信的目标设备的编号记为n,强化学习状态s为

s=[p1,p2,...,pm,n];

所述s13包括如下步骤,

根据各中继节点到m2m通信系统中通信设备的信道情况以及m2m通信系统中源节点到各中继节点的信道情况,采用解码转发的转发方式,计算出单次通信选择过程中各中继节点所消耗的能量,随后综合能量消耗与中继节点的电池的均衡情况作为强化学习的奖赏,将多目标问题转化为单目标问题,并通过参数调整完成对两者的意向均衡点的调整。

4.根据权利要求3所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于:

在所述s13中,将中继节点的能量消耗记为e,中继节点的能量均衡记为dmax、表示中继节点的电池的最大能量与最小能量间的差值,强化学习的奖赏r为

r=r0-ξee-δξddmax,

其中,ξe与ξd分别表示能量消耗与能量均衡所占的权重,δ表示将能量消耗与能量均衡映射到相近的范围,r0为一个正数,其其取值范围为

max(ξee δξddmax)<r0<2*max(ξee δξddmax)。

5.根据权利要求4所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于,所述s2包括如下步骤:

s21、依据各中继节点所消耗的能量进行分桶;

s22、将各中继节点的电池能量取最小值,将强化学习状态中的能量特征与所取得的电池的最小能量相减,使结果反映出中继节点的能量均衡情况;

s23、更新动作选择策略。

6.根据权利要求5所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于:

所述s21包括如下步骤,

依据s1中所得的单次通信选择过程中各中继节点所消耗的能量进行分桶,使能量消耗从无限维度降为有限维度;

所述s22包括如下步骤,

将各中继节点的电池的最小能量记为pmin,将更新后的编号为i的中继节点的电池的剩余能量记为pi,将强化学习的状态s修改为

s=[p1,p2,...,pm,n],

其中,pi=pi-pmin;

所述s23包括如下步骤,

采用q-learning算法中的状态-动作对的值函数q(s,a)进行更新,更新过程为

qt 1(s,a)=(1-α)qt(s,a) α[rt γmaxb∈aqt(s’,b)],

其中,s表示当前状态,s’表示状态转移后的状态,qt与qt 1分别表示更新前后的q值,α表示强化学习的学习速率、α值越大表示奖赏的更新越依赖于即时奖赏,rt表示当前迭代得到的奖赏r,γ为一个折扣因子、表示未来奖赏的重要程度、取值小于1;

q-learning算法中的策略π(s,a)表示在s状态下选择a动作的概率,采用softmax函数对动作选择策略进行更新。

7.根据权利要求6所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于,所述s3包括如下步骤:

s31、对强化学习模型进行初始化处理,初始化奖赏值r=0,初始化动作选择策略π(s,a)=1/m,依据对能量消耗与能量均衡的期望确定权重值ξe与ξd,ξe与ξd二者之和等于1;

s32、确定强化学习的学习速率α,确定最大迭代次数k,并进行多次迭代。

8.根据权利要求7所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于,所述s32包括如下步骤:

根据动作选择策略π(s,a)得到选择各动作的概率,依据概率选中任一中继节点进行数据发送,在完成一次通信后,依据此次通信的能量消耗与通信结束后的能量均衡情况计算奖赏值,并更新值函数q(s,a),随后依据新的值函数,运用softmax函数计算新的动作选择策略,得到下一次通信任务,当确定需要发送消息的目标节点时,更新模型的状态。

9.根据权利要求8所述的一种基于强化学习的m2m通信中中继节点的选择方法,其特征在于:在所述s4中,

若达到设定的最大迭代次数后,强化学习模型仍未收敛,则调整学习速率,使其变小,重新进行迭代训练;

迭代过程中,每次发送消息前根据状态计算出选择每个中继节点得到的累积奖赏值的期望值,选择奖赏最大的中继节点进行消息的转发。

技术总结
本发明揭示了一种基于强化学习的M2M通信中中继节点的选择方法,包括如下步骤:S1、搭建强化学习模型框架,确定强化学习的动作集、状态集以及奖赏值;S2、对强化学习模型的框架进行细化;S3、根据具体问题对强化学习模型进行迭代循环;S4、根据训练结果对强化学习模型进行调整,应用调整后的强化学习模型进行中继节点的选择。本发明将每次通信的能量消耗情况与为中继节点供能的电池的能量均衡情况都纳入强化学习的目标中,使系统在减少能量消耗与实现能量均衡中达到平衡,避免了能量失衡、延长了整个系统的使用寿命。

技术研发人员:潘甦;吴子秋
受保护的技术使用者:南京邮电大学
技术研发日:2020.01.15
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52716.html

最新回复(0)