本发明属于通信技术领域,更为具体地讲,涉及一种基于q学习的能量阈值动态优化方法。
背景技术:
随着移动通信技术的快速发展,各种智能终端的数量呈现爆炸式的增长,频谱资源随着智能终端的数量的增长越来越少。频谱资源可分为授权频谱资源和免授权频谱资源,其中适合用于通信传输的授权频谱资源越来越稀少并且也越来越拥挤,单纯的提高频谱利用率已经不足以缓解频谱资源的短缺。3gpp标准化组织提出利用免授权频谱是解决日益增长的流量的一种有效方案。
目前可以共享的免授权频段包括2.4ghz工业、科学和医疗频段(ismband)和5ghzu-nii(unlicensednationalinformationinfrastructure)频段,而在现有频段上,已经存在一些成熟的接入技术,如wi-fi、蓝牙、雷达、d2d(device-to-device)等,其中最主要的是wi-fi接入技术。lte使用免授权频段除了要满足不同国家和地区对于未授权频段的使用限制以外,最主要的问题是如何保证在公平使用频带资源的情况下与wi-fi和谐共存。
lte技术和wi-fi技术是两种截然不同的无线通信技术,两种技术协议的差异导致网络在直接融合的过程中会产生负面效应。对于将lte系统部署到免授权频段上3gpp标准化组织在lterelease13中制定了授权辅助接入(licensed-assistedaccess,laa)技术。laa方案为了解决lte和wi-fi和谐共存问题,对lte的接入机制做出改变,采用了一种“先听后说”(listenbeforetalk,lbt)的接入机制。该机制要求所有的lte设备在接入信道之前都需要对当前的信道状态进行检测,lte设备需要和wi-fi设备相互竞争信道,此方案需要改变lte的接入协议。lbt机制的核心是空闲信道评估技术(clearchannelaccess,cca),cca使用能量检测(energydetection,ed)技术对信道进行感知。在laa方案中lte设备在接入信道之前先对当前信道状态进行检测,如果信道状态检测为忙,设备等待其他设备传输完成并寻找机会进行数据传输,如果信道状态检测为空闲,设备立即接入信道并进行数据传输,能量检测技术是对信道状态进行判断的一种简单有效的方案。因此lte设备是否接入信道进行数据传输取决于能量检测的结果,laa方案的能量阈值的大小将直接影响能量检测的结果。
3gpp标准化组织规定的参考阈值为固定值,没有考虑到实时的网络环境等情况。因此,设计一种考虑实时网络环境的动态能量阈值优化方案。
技术实现要素:
有鉴于此,本发明提供了一种基于q学习的能量阈值动态优化方法,用来解决两种不同的网络在免授权频段上共存时的公平性问题。
为了达到上述目的,本发明提供如下技术方案:
基于q学习的能量阈值动态优化方法,包括以下步骤:
s1:设置laasbss的动作集合a={a1,a2...at}和状态集合s={s1,s2...st},初始化q矩阵为零阶矩阵,laasbss随机选择一个初始状态;
s2::laasbss根据ε-greedy选择策略选择一个动作at;
s3:根据动作at计算出当前选择的动作对应的共存系统吞吐量和公平性系数,获取当前选择动作at的奖励r(st,at);
s4:根据q学习的q表更新公式,更新q表,laasbss进入下一个状态;
s5:重复执行步骤s2及以下步骤,直到下一个状态达到目标状态;
进一步,在步骤s1中,对于动作集合a={a1,a2...at},其中每一个动作at表示不同的能量阈值的取值,对于状态集合s={s1,s2...st},每一个状态st都是由吞吐量和公平性系数组成,即st={rt,ft};
进一步,在步骤s2中,使用ε-greedy动作选择策略来选取动作。区别于随机选择策略和贪婪选择策略,既避免了随机选择策略中因为重复的动作选择而导致的迭代次数过多的情况又避免了贪婪选择策略出现局部最优解的情况。ε-greedy动作选择策略采用两者相结合的选择方式可以高效准确的进行动作选择。
进一步,在步骤s3中,使用ε-greedy选择策略选取动作at,使用动作at计算对应的吞吐量rt和公平性系数ft,即确认当前动作对应的状态st={rt,ft}。对于状态st中的吞吐量rt,表示laa系统和wi-fi系统吞吐量之和,参考markov链模型求取共存系统的吞吐量。对于状态st中的公平性系数ft,表示共存系统的公平性系数,定义为:
其中rl和rw分别表示laa和wi-fi的吞吐量,nl和nw分别表示laasbss和wi-fiaps的设备数量,公平性系数ft越接近1时,共存系统越公平。因此,根据吞吐量和公平性可以将状态分为如下四个状态,分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性。其中高吞吐量高公平性为laasbss的目标状态,定义四种状态如下:
其中
其中f1°和f2°为定义的最小的公平性系数,只有当动作at对应的吞吐量和公平性系数满足一定条件时,当前选择的动作才会有奖励。
进一步,在步骤s4中,根据q学习的q表更新公式,更新q表。更新公式为:
其中α表示学习速率且0<α<1,γ表示折扣因子且0≤γ<1。
进一步,在步骤s5中,对于本文中的q学习,只有当前状态达到目标状态,即laasbss当前状态达到高吞吐量高公平性,才算完成一次迭代过程。
本发明的有益效果在于:通过q学习算法动态优化lte-laa在免授权频段上能量阈值,能够在保证共存系统吞吐量一定的条件下,使共存系统的公平性最高,对于其他异构网络的和谐共存具有参考意义。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为q学习框架图;
图2为lte与wi-fi共存的网络模型图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对lte和wi-fi在免授权频段上的共存问题,提出一种基于q学习的能量阈值动态优化方法。参考3gpp标准化文件中固定的参考阈值方案,本发明基于q学习算法能够对laasbss对信道探测的能量阈值进行动态优化。laasbss可以根据网络实时环境动态调整能量阈值的大小。q学习框架图如图1所示,首先laasbss作为智能体,在某个状态下,根据ε-greedy动作选择策略进行动作选择,此动作在一定的环境中能够获取奖励,根据q学习更新公式更新q表,重复上述动作直到收敛为止。
共存场景中存在多个laasbss和多个wi-fiaps,网络模型如图2所示,我们仅考虑数据流量在下行链路中的传输,因此laasbss和wi-fiaps分别进行信道探测。在图2中,黑色实线和虚线分别表示授权频谱和免授权频谱,我们仅考虑免授权频谱上的数据传输,红色虚线表示wi-fiaps在每个决策时刻广播当前接入点的吞吐量等信息,此外laasbss能够对接收到的广播信息进行分析。
在q学习中,我们将异构网络中的laasbss当作智能体。在特定的时刻,智能体从其环境中观测状态并采取行动,在每一个决策时刻t智能体都会采取适当的措施使奖励在下一个时刻t 1达到最大。在q学习中,使用即时奖励和折扣奖励更新学习的q值,并保存在二维q表中。
在异构网络中,laa设备在免授权频段上与wi-fi用户共存。基于q学习的工作原理,定义动作和状态集合表示分别为:a={a1,a2...at}和s={s1,s2...st}。其中a集合中的每一个元素都代表不同的能量阈值,用于检测免授权信道的状态,s集合中的每一个元素都代表都是由吞吐量和公平性系数组成的参数对,即st={rt,ft},对于状态st中的吞吐量rt,表示laa系统和wi-fi系统吞吐量之和,参考markov链模型求取共存系统的吞吐量。对于状态st中的公平性系数ft,表示共存系统的公平性系数,定义为:
其中rl和rw分别表示laa和wi-fi的吞吐量,nl和nw分别表示laasbss和wi-fiaps的设备数量,公平性系数ft越接近1时,共存系统越公平。因此,根据吞吐量和公平性可以将状态分为如下四个状态,分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性。其中高吞吐量高公平性为laasbss的目标状态,定义状态如下:
其中
算法在动作选择策略上,使用ε-greedy策略来选取动作。区别于随机选择策略和贪婪选择策略,ε-greedy动作选择策略采用两者相结合的选择方式可以高效准确的进行动作选择。定义为:
根据ε-greedy选择策略,执行动作at获取奖励为r(st,at)。奖励函数定义为:
f1°和f2°为规定最小公平性系数,只有当动作at对应的吞吐量和公平性系数满足一定条件时,选择的动作才会有奖励。根据更新公式更新q值:
其中0<α<1,0≤γ<1。如果α=1将会忽略以前学习的经验,并用最新估计的奖励来替代,此外γ越大,智能体对折价奖励的依赖就越大。
最后,对于本文中的q学习算法,只有当前状态达到目标状态,即laasbss当前状态达到高吞吐量高公平性,才算完成一次迭代过程。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
1.一种基于q学习的能量阈值动态优化方法,其特征在于:该方法包括以下步骤:
s1:设置laasbss的动作集合a={a1,a2...at}和状态集合s={s1,s2...st},初始化q矩阵为零阶矩阵,laasbss随机选择一个初始状态;
s2::laasbss根据ε-greedy选择策略选择一个动作at;
s3:根据动作at计算出当前选择的动作对应的共存系统吞吐量和公平性系数,获取当前选择动作at的奖励r(st,at);
s4:根据q学习的q表更新公式,更新q表,laasbss进入下一个状态;
s5:重复执行步骤s2及以下步骤,直到q表收敛完成训练。
2.根据权利要求1所述的一种基于q学习的能量阈值动态优化方法,其特征在于:在步骤s1中,对于动作集合a={a1,a2...at},其中每一个动作at表示不同的能量阈值的取值,对于状态集合s={s1,s2...st},每一个状态st都是由吞吐量和公平性系数组成,即st={rt,ft}。
3.根据权利要求2所述的一种基于q学习的能量阈值动态优化方法,其特征在于:在步骤s2中,使用ε-greedy动作选择策略来选取动作。ε-greedy动作选择策略采用两者相结合的选择方式可以高效准确的进行动作选择。
4.根据权利要求3所述的一种基于q学习的能量阈值动态优化方法,其特征在于:在步骤s3中,使用ε-greedy选择策略选取动作at,使用动作at计算对应的吞吐量rt和公平性系数ft,即确认当前动作对应的状态st={rt,ft}。对于状态st中的吞吐量rt,表示laa系统和wi-fi系统吞吐量之和,参考markov链模型求取共存系统的吞吐量。对于状态st中的公平性系数ft,表示共存系统的公平性系数,定义为:
其中rl和rw分别表示laa和wi-fi的吞吐量,nl和nw分别表示laasbss和wi-fiaps的设备数量,公平性系数ft越接近1时,共存系统越公平。因此,根据吞吐量和公平性可以将状态分为如下四个状态,分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性。其中高吞吐量高公平性为laasbss的目标状态,此外,当选取动作at完成后,根据当前选择的动作获取奖励r(st,at)。奖励函数定义为:
其中f1°和f2°为定义的最小的公平性系数,只有当动作at对应的吞吐量和公平性系数满足一定条件时,当前选择的动作才会有奖励。
5.根据权利要求4所述的一种基于q学习的能量阈值动态优化方法,其特征在于:在步骤s4中,根据q学习的q表更新公式:
其中α表示学习速率且0<α<1,γ表示折扣因子且0≤γ<1。
6.根据权利要求5所述的一种基于q学习的能量阈值动态优化方法,其特征在于:在步骤s5中,对于本文中的q学习,只有当前状态达到目标状态,即laasbss当前状态达到高吞吐量高公平性,才算完成一次迭代过程。重复执行步骤s2及以下步骤,直到q表收敛完成训练。
技术总结