本发明涉及wlan领域,特别涉及一种基于强化学习的信道多址接入方法,主要应用于ieee802.11ax高密度的网络环境中。
背景技术:
近年来,随着各种智能终端设备和移动物联网业务的高速发展,人们对无线流量和服务质量的需求不断增长。无线局域网与蜂窝网络由于其高速、灵活的部署和低成本等特点而成为承载无线网络的主要业务。过去,wlan的标准化工作主要集中在提高链路的吞吐量,而不是有效地利用频谱资源和提高用户体验上,并且mac算法的设计没有显著改善。但是,在广泛部署wlan之后,我们将面临一些基本的技术挑战,尤其是在密集的网络环境中。在这些环境中,由于信道争用产生的高冲突会导致网络性能严重下降,无法为用户提供足够的带宽和良好的用户体验。2014年,ieee标准委员会批准了802.11ax任务组的成立。802.11ax旨在提供一种操作模式,使站点能够在密集场景中部署,而且sta的平均吞吐量至少提高四倍。
传统的mac协议,在高密度场景中,冲突率高、干扰严重以及信道利用率低,无法支持未来无线业务服务质量(qualityofservice,qos)多样化的需求。同时,也无法提供一种高效的竞争窗口退避机制。基于ieee802.11ax的多址接入机制虽然在一定程度上可以降低冲突,提高信道的利用率。但是仍然还有很多尚未解决的问题:一方面,在高密度场景中,随着站点的大幅度增加,当前多址接入机制仍然无法有效的避免冲突和干扰,mac层性能严重下降;另一方面,网络在运行过程中,所面临的的环境极其复杂,而当前基于传统通信理论的mac算法,无法做到资源的动态分配,也无法对历史经验进行高效的学习。
技术实现要素:
为解决上述问题,本发明的目的在于提出一种基于强化学习的信道多址接入方法,将信道接入中竞争窗口调整问题建模为马尔科夫决策过程,通过强化学习算法实现系统性能的提升。
为实现上述目的,本发明主要采用以下过程进行处理:
信道接入过程,站点使用ap广播的统一竞争窗口,生成obo退避值进行退避。退避完成之后随机选择一个ru发送缓冲区状态报告(bufferstatusreport,bsr)竞争信道资源,如果满足竞争结束条件,则竞争结束;否则,其余站点继续竞争ru。待竞争结束之后,ap通过触发帧给竞争成功的站点分配不同的ru,站点使用各自分配的ru传输数据。
学习过程,在经过一个动作调整周期之后,ap根据上一周期的网络性能计算当前状态下的奖励,更新强化学习模型的价值函数,重新选择一个竞争窗口广播给sta。在经过一个动作调整周期,重复执行以上过程从而优化竞争窗口。
具体的,本发明提出了一种基于强化学习的信道多址接入方法,尤其适用于802.11ax标准,所述方法包括:
步骤1)将信道接入过程中的竞争窗口调整建模为马尔科夫决策过程;
步骤2)在当前动作调整周期,使用ε-贪婪策略选择出竞争窗口动作;ap从竞争窗口集合中选择出当前状态下的最优竞争窗口;
步骤3)sta使用ap广播的最优竞争窗口,生成obo退避值进行退避,直至竞争结束;
步骤4)ap通过触发帧给竞争成功的站点分配资源单元ru,站点使用各自分配的ru传输数据;判断当前动作调整周期是否结束,若结束,则进入步骤5);否则返回步骤3);
步骤5)待一个动作调整周期后,计算出系统的性能指标作为奖励;
步骤6)根据当前所获得的性能指标的奖励,更新动作价值函数;判断是否满足终止条件,若不满足则进入下一个动作调整周期后返回步骤2)不断优化竞争窗口;否则终止流程。
本发明的有益效果:
本发明提出了一种基于强化学习的信道多址接入方法。在ieee802.11ax标准退避机制的基础上,使用强化学习算法动态的调整竞争窗口。实现了对站点竞争信道的进一步控制,从而达到了提升系统吞吐量和公平性、降低时延的效果。
附图说明
图1为本发明中基于强化学习的信道多址接入的框架结构图;
图2为本发明中强化学习的模型图;
图3为本发明的基于强化学习的信道多址接入方法的流程图;
图4为本发明中ap进行学习的流程图;
图5为本发明中sta进行信道接入流程图;
图6是本发明中sta进行信道接入的时序图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在一个实施例中,如图1所示,本实施例提供基于强化学习的信道多址接入的框架结构,ap通过学习评估的方式调整竞争窗口cw,sta从ap发送的确认帧中获取到竞争窗口cw,并采用此竞争窗口竞争信道资源;待sta多次使用此竞争窗口竞争信道资源后,形成网络反馈发送至ap。
在一个实施例中,如图2所示,本实施例提供ap进行强化学习的模型,强化学习模型中,将ap设置为智能体,ap所处的环境状态s为当前的竞争窗口;允许执行的动作a为对当前竞争窗口的增加、减小和保持;奖励为网络中重要的性能指标,如吞吐量、时延以及公平性等。
在一个实施例中,如图3所示,本实施例提供一种基于强化学习的信道多址接入方法,所述方法包括:
步骤1)将信道接入过程中的竞争窗口调整建模为马尔科夫决策过程;
步骤2)在当前动作调整周期,使用ε-贪婪策略选择出竞争窗口动作;ap从竞争窗口集合中选择出当前状态下的最优竞争窗口;
步骤3)sta使用ap广播的最优竞争窗口,生成obo退避值进行退避,直至竞争结束;
步骤4)ap通过触发帧给竞争成功的站点分配资源单元ru,站点使用各自分配的ru传输数据;判断当前动作调整周期是否结束,若结束,则进入步骤5);否则返回步骤3);
步骤5)待一个动作调整周期后,计算出系统的性能指标作为奖励;
步骤6)根据当前所获得的性能指标的奖励,更新动作价值函数;判断是否满足终止条件,若不满足则进入下一个动作调整周期后返回步骤2)不断优化竞争窗口;否则终止流程。
在一个实施例中,所述步骤1)中的马尔科夫决策过程的模型包括:
其中,s表示状态空间,即站点可选择的所有竞争窗口集合;st表示在t时刻的竞争窗口;a表示动作空间,即对当前的竞争窗口进行缩放或保持操作;at=-1表示在t时刻采取竞争窗口减小的动作;at=0表示在t时刻采取竞争窗口保持不变的动作,at=1表示在t时刻采用竞争窗口增加的动作;η表示调整因子;cwcurr表示当前状态的竞争窗口;cwnext表示下一个状态的竞争窗口。
在一个优选实施例中,下一个状态由下一时刻的竞争窗口决定。η可以取2或
在一个实施例中,本系统采用q-learning算法的价值函数更新方式;系统首次运行不存在更新动作价值函数,非首次运行需用以下公式;所述动作价值函数包括:
q(s,a)←q(s,a) α[u-q(s,a)](2)
u←r γmaxa′∈a(s′)qπ(s′,a′)(3)
其中,q(s,a)表示在s状态采取竞争窗口动作a的价值;α为学习率,γ为折扣因子;r表示性能指标的奖励;u为时序差分目标,表示预测的实际奖励;qπ(s′,a′)表示使用策略π,在下一个状态s′中采取动作a′的价值当然,本发明也可以采用其他强化学习算法。
在一个实施例中,本系统使用ε-贪婪策略选择动作,ap选择的动作实际上指的是竞争窗口。即,ap通过强化学习选择当前状态下最优的竞争窗口cw广播给sta。在系统最初可以用信标帧捎带cw的方式进行广播,非首次广播竞争窗口可以通过在确认帧mba中添加一个cw字段。待ap确认数据帧的同时广播cw。ε-贪婪策略选择动作公式如下:
其中,π(s|a)表示ap智能体以概率1-ε选择当前最大化价值的动作,以概率ε随机从所有动作中选择一个动作;|a(s)|表示在s状态的竞争窗口下可选动作的数量;qπ(s,a)表示采用策略π下的价值函数,即当前状态s下,采用策略π选择动作a的价值。
在一个实施例中,使用本发明的信道接入方法之后,系统运行一个动作调整周期之后就可以统计这个周期内的系统吞吐量、时延、公平性等性能指标,在一个动作调整周期内可以进行多次数据传输。通过这些性能指标可以计算奖励r,所述性能指标的奖励的计算公式包括:
r=p(t)(5)
其中,p(t)为网络中重要的性能指标,包括吞吐、时延或/和公平性;thougthputi表示第i个周期的系统吞吐量;delytimei表示第i个周期的平均时延。
在另一个实施例中,所述基于强化学习的信道多址接入方法还可以包括:
学习过程,在经过一个动作调整周期之后,ap根据上一周期的网络性能计算当前状态下的奖励,更新强化学习模型的价值函数,重新选择一个竞争窗口广播给sta。在经过一个动作调整周期,重复执行以上过程从而优化竞争窗口。
信道接入过程,站点使用ap广播的统一竞争窗口,生成obo退避值进行退避。退避完成之后随机选择一个ru发送bsr竞争信道资源,如果满足竞争结束条件,则竞争结束;否则,其余站点继续竞争ru。待竞争结束之后,ap通过触发帧给竞争成功的站点分配不同的ru,站点使用各自分配的ru传输数据。
所述学习过程可以参考如图4所示,也可以包括:
步骤s21,初始化参数,建立以ap为智能体、以其环境状态为当前竞争窗口的马尔科夫决策过程;
ap所处的环境状态s为当前的竞争窗口;允许执行的动作为对当前竞争窗口的增加、减小或不变;奖励为网络中重要的性能指标,如吞吐量、时延等。
步骤s22,更新动作价值函数;
其中,动作价值函数能记录历史经验,可用于后期竞争窗口的调整。
步骤s23,用ε-贪婪策略选择动作;
以此来权衡探索和利用。ap执行动作实际上是对当前的竞争窗口进行缩放或者不做调整即保持。
步骤s24,sta竞争信道与传输数据;
可选的,步骤s24的过程可为信道接入过程,可参考上述实施例。
步骤s25,获取奖励,通过统计上一个动作调整周期的一些性能指标作为奖励;
作为一个优选实施例,本实施例优先考虑吞吐量作为奖励。
步骤s26,更新动作价值函数,根据当前的动作调整周期获得的奖励,系统再次更新动作价值函数。此时需要判断,系统是否满足终止条件,满足终止条件则终止。否则继续执行,步骤s21。
所述信道接入过程可以参考如图5所示,也可以包括:
步骤s11,sta从ap发送的确认帧中获取到竞争窗口cw后,从[0,cw]中随机选择一个退避值,记为obo。若信道处于空闲,则在每一次退避过程中obo减去总ru数,直至obo小于或等于0。
步骤s12,当sta的obo小于或等于0时,sta获得竞争信道资源的机会。sta随机选择一个ru发送bsr。为保证高优先级sta的服务质量,允许高优先级sta在一次退避完成后获得连续两次竞争信道资源的机会;而低优先级sta只有一次竞争信道资源的机会。
步骤s13,sta在竞争ru的同时,ap统计竞争成功的sta数量和竞争轮数。如果竞争成功的sta数量大于或等于ru总数或者竞争轮数大于最大竞争轮数,则竞争结束。竞争结束后ap发送触发帧,给每个成功竞争ru的sta分配一个ru。
步骤s14,sta使用ap分配的ru传输数据,待收到确认帧之后,sta重新执行步骤s11。
在另一个实施例中,所述信道接入过程还可以包括:
步骤s111,sta从ap发送的确认帧中获取到竞争窗口cw后,从[0,cw]中随机选择一个退避值,记为obo。若信道连续空闲一个difs帧间隔之后,则sta开始退避;若信道因传输rsb帧而导致繁忙,则只需要等待一个mifs帧间隔之后就可以开始退避。在每一次退避过程中obo总要减去总ru数,直至obo小于或等于0。
步骤s112,当sta的obo小于或等于0时,sta获得竞争信道资源的机会。sta随机选择一个子信道发送bsr竞争信道,每一个ru可以看做是一个子信道。为保证高优先级sta的服务质量,允许高优先级sta在一次退避完成后获得连续两次竞争信道资源的机会,两次中若有一次竞争成功,则视为sta竞争信道成功;而低优先级sta只有一次竞争信道资源的机会。本系统最要将业务类型分为两类:高优先级的视频站点和低优先级的背景站点。
步骤s113,sta在竞争ru的同时,ap统计竞争成功的sta数量和竞争轮数。在等待一个difs帧空闲时间之后,每一个空闲时隙和每一次传输bsr的时间都视为一个竞争轮次。
例如,图6是本发明系统中的sta竞争信道及传输数据的时序图;图6中竞争轮数为5轮。如果竞争成功的sta数量大于或等于ru总数或者竞争轮数大于最大竞争轮数,则竞争结束。竞争结束后ap发送触发帧,为每个成功竞争ru的sta分配一个ru。如果竞争成功的sta数量大于ru总数,则随机将部分sta标记为竞争失败。直至竞争成功的sta数量等于ru总数,从而为每个sta分配一个ru。
步骤s114,参与竞争信道资源的sta在收到触发帧tf之后,使用ap分配的ru传输数据,待收到确认帧mba之后,转至步骤s111,有数据传输的sta可重新进行信道接入。
在一个优选实施例中,将视频流量化为高优先级,背景流量划为低优先级。
在一个实施例中,所述ap广播的最优竞争窗口包括ap使用信标帧捎带竞争窗口cw的方式进行广播,非首次广播竞争窗口在确认帧mba中添加一个cw字段;待ap确认数据帧的同时广播cw;当然,首次广播可以参考图6所示,在所有子信道中发送mba帧。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种基于强化学习的信道多址接入方法,其特征在于,所述方法包括:
步骤1)将信道接入过程中的竞争窗口调整建模为马尔科夫决策过程;
步骤2)在当前动作调整周期,使用ε-贪婪策略选择出竞争窗口动作;ap从竞争窗口集合中选择出当前状态下的最优竞争窗口;
步骤3)sta使用ap广播的最优竞争窗口,生成obo退避值进行退避,直至竞争结束;
步骤4)ap通过触发帧给竞争成功的站点分配资源单元ru,站点使用各自分配的ru传输数据;判断当前动作调整周期是否结束,若结束,则进入步骤5);否则返回步骤3);
步骤5)待一个动作调整周期后,计算出系统的性能指标作为奖励;
步骤6)根据当前所获得的性能指标的奖励,更新动作价值函数;判断是否满足终止条件,若不满足则进入下一个动作调整周期后返回步骤2)不断优化竞争窗口;否则终止流程。
2.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤1)中的马尔科夫决策过程的模型包括:
s={s1,s2,,sn},st∈cw
a={a1,a2,,an},at∈{-1,0,1}
st=cwcurr
st 1=cwnext
其中,s表示状态空间,即站点可选择的所有竞争窗口集合;st表示在t时刻的竞争窗口;a表示动作空间,即对当前的竞争窗口进行缩放或保持操作;at=-1表示在t时刻采取竞争窗口减小的动作;at=0表示在t时刻采取竞争窗口保持不变的动作,at=1表示在t时刻采用竞争窗口增加的动作;η表示调整因子;cwcurr表示当前状态的竞争窗口;cwnext表示下一个状态的竞争窗口。
3.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤2)中ε-贪婪策略选择竞争窗口动作采用的公式包括:
其中,π(s|a)表示ap智能体以概率1-ε选择当前最大化价值的动作,以概率ε随机从所有动作中选择一个动作;|a(s)|表示在s状态的竞争窗口下可选动作的数量;qπ(s,a)表示在策略π下的动作价值函数。
4.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤2)中初始的动作价值为q(s,a)=0。
5.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤3)中退避竞争的过程包括:
步骤31)sta从ap发送的确认帧中获取到最优竞争窗口cw后,从[0,cw]中随机选择一个退避值,记为obo;若信道处于空闲,则在每一次退避过程中obo减去总ru数,直至obo小于或等于0;
步骤32)当sta的obo小于或等于0时,sta获得竞争信道资源的机会;sta随机选择一个ru发送bsr帧;
步骤33)ap统计竞争成功的sta数量和竞争轮数;如果竞争成功的sta数量大于或等于ru总数或者竞争轮数大于最大竞争轮数,则竞争结束。
6.根据权利要求5所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤32)包括为保证高优先级sta的服务质量,允许高优先级sta在一次退避完成后获得连续两次竞争信道资源的机会;而低优先级sta只有一次竞争信道资源的机会。
7.根据权利要求5所述的一种基于强化学习的信道多址接入方法,其特征在于,所述ap广播的最优竞争窗口包括ap使用信标帧捎带竞争窗口cw的方式进行广播,非首次广播竞争窗口在确认帧mba中添加一个cw字段;待ap确认数据帧的同时广播cw。
8.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤5)中性能指标的奖励的计算公式包括:
r=p(t)
其中,p(t)为网络中重要的性能指标,包括吞吐、时延或者公平性中任意一种或多种;thougthputi表示第i个周期的系统吞吐量;delytimei表示第i个周期的平均时延。
9.根据权利要求1所述的一种基于强化学习的信道多址接入方法,其特征在于,所述步骤6)中动作价值函数的计算公式包括:
q(s,a)←q(s,a) α[u-q(s,a)]
u←r γmaxa′∈a(s′)qπ(s′,a′)
其中,q(s,a)表示在s状态采取竞争窗口动作a的价值;α为学习率,γ为折扣因子;r表示性能指标的奖励;u为时序差分目标,表示预测的实际奖励;qπ(s′,a′)表示使用策略π,在下一个状态s′中选择动作a′的价值。
技术总结