本发明属于移动通信网络优化技术领域,具体涉及一种基于强化学习的天线调整方法。
背景技术:
作为面向5g演进的4g增强关键技术之一,3dmimo(多进多出)的技术优势一方面在于可同时提升4g网络的覆盖和容量,即利用水平垂直立体维度的波束赋形,提升频谱效率和吞吐量,满足4g热点区域多层次、差异化的容量需求和高层楼宇深度覆盖,提升4g业务承载能力;另一方面,3dmimo实际为4g化的5g技术,3dmimo天线波束赋形权值的前期实施和经验准备完全适用于5g网络时代massivemimo天线广播波束赋形的需求,3dmimo相应的权值调优思路可以积累转化成为一整套可同时满足4g网络增强时代3dmimo和5g网络时代massivemimo天线广播波束赋形需求的更为成熟可靠的权值调优方案。
随着4g与5g业务需求的发展及终端技术的改进和用户数量的激增,网络流量与频率覆盖的矛盾,将会导致3dmimo和massivemimo网络性能评估与天线覆盖在优化上的技术困难愈发突出,主要表现两个方面:一是用户终端的复杂多样化,出现了多网络制式终端,既有4glte终端也有5gnr终端、既有单模工作方式也有同时支持双模工作方式的终端;二是不同用户不同业务特征将交织在4g与5g相混合的现网中,使网络评估标准和天线参数动态调整方法更加复杂化。由于3dmimo和massivemimo权值组合变得越来越复杂,尤其是massivemimo的子波束调整权值组合规模可达数千或上万种,导致网络性能数据变化和空口使用效率变化程度的陡增,给网络性能数据栅格化评估和天线权值的计算带来难以估量的复杂性,远超人工所能及。
技术实现要素:
为了解决现有技术中存在的上述问题,本发明提出一种基于强化学习的天线调整方法。
为实现上述目的,本发明采用如下技术方案:
一种基于强化学习的天线调整方法,包括以下步骤:
步骤1,获取用户上报的mdt(minimizationofdrivetests,最小化路测数据)数据,对用户小区进行栅格化;
步骤2,调整天线使天线方位波束对正用户聚类方向;
步骤3,基于栅格化的mdt数据计算主小区信号覆盖参数,根据主小区信号覆盖参数判断是否需要对天线进行调整;如果需要调整,转下一步;
步骤4,在确定天线调整优化目标的基础上,构建分别由主小区性能参数和天线调整动作组成的状态集和动作集,通过进行强化学习实现对天线的优化调整。
与现有技术相比,本发明具有以下有益效果:
本发明通过获取用户上报的mdt数据,调整天线使天线方位波束指向用户聚类方向,根据主小区信号覆盖参数判断是否需要对天线进行调整,构建分别由主小区性能参数和天线调整动作组成的状态集和动作集,通过进行强化学习实现对天线的优化调整。本发明以基于天线调整优化目标的强化机器学习代替人工计算实现天线的优化调整,可以很好地解决因3dmimo和massivemimo网络性能数据变化陡增带来的复杂而且繁琐的栅格化评估与相应的权值计算问题,能够显著提升4g3d-mimo和5gmassivemimo天线调整速度、效率和准确度,提升用户的网络体验。
附图说明
图1为本发明实施例一种基于强化学习的天线调整方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种基于强化学习的天线调整方法,流程图如图1所示,所述方法包括以下步骤:
s101、获取用户上报的mdt数据,对用户小区进行栅格化;
s102、调整天线使天线方位波束对正用户聚类方向;
s103、基于栅格化的mdt数据计算主小区信号覆盖参数,根据主小区信号覆盖参数判断是否需要对天线进行调整;如果需要调整,转下一步;
s104、在确定天线调整优化目标的基础上,构建分别由主小区性能参数和天线调整动作组成的状态集和动作集,通过进行强化学习实现对天线的优化调整。
在本实施例中,步骤s101主要用于获取用户上报的mdt数据,并对用户小区进行栅格化。对于没有用户mdt数据可用的情形,可用mr(measurementreport)数据或仿真数据补填。mr是无线网络用户和无线网络设备本身上报的无线测量报告,具体内容与格式因厂家而异,但总体消息类型相同。栅格化可采用规格为20米×20米或30米×30米的栅格。对小区进行栅格化后可计算栅格化数据,如将一个小区粗略的位置信息(经纬度)细化到每个栅格的位置信息,还可计算栅格内的性能参数,如栅格主小区信号强度均值等。本实施例涉及到小区、主小区等概念,为便于理解技术方案,下面简单介绍一下这些概念。通信基站的小区可分为物理小区和逻辑小区,本实施例涉及的小区为物理小区。小区一般是由以基站为中心的一方形或圆形区域划分而成的,比如以基站为圆心、半径1.5公里的圆形区域。由于一个天线的方位波束很难完全覆盖3600的圆形区域,因此每个基站都设有多个物理天线(一般不少于3个),分别覆盖位于不同方位的扇形区域。一个基站有多少个天线在发射信号,周围就分布有多少个小区。一个天线的方位波束覆盖的区域相对该天线就是主小区。对于用户而言,在当前位置下一般能够检测到周边基站所有天线的发射信号,只是接收信号中来自不同天线的信号强度不同,其中接收信号最强的天线的方位波束覆盖的区域,就是与该天线对应的主小区,用户接收信号中最强的信号就是主小区信号;其它较弱的接收信号对应的小区均为邻小区或邻区,用户接收信号中较弱的信号就是邻区信号。主小区和邻区的意义只体现在当前用户在所处位置下上报给基站的测量报告中,随着用户位置的变化,主小区与邻区的信息随之也会发生变化。
在本实施例中,步骤s102主要用于天线在方位方向进行调整,使天线在方位上指向用户聚类方向。用户聚类方向是由基站指向用户分布密度最大的区域的中心的方向。当用户主小区是一个以基站为圆心、圆心角为θ、半径为r的扇形区域时,可通过以下方法获得用户聚类方向:将所述扇形区域等分成n个圆心角为θ/n的小扇形区域,统计每个小扇形区域内的用户数量(一段时间内的平均值),用户数量最多的小扇形区域的对称轴所在方向即为聚类方向。n值越大,得到的聚类方向越准确。包围所述对称轴且用户数量占主小区用户总数70%(也可是其它近似百分比)的扇形区域称为用户热度区域。天线方位波束宽度(3db)应近似等于用户热度区域的扇形角度。进行此项调整是对天线的初步调整,目的是防止天线法线方向(方位波束最大值方向)发生明显偏离,同时使波束宽度应能覆盖70%以上的用户。
在本实施例中,步骤s103主要用于根据主小区信号覆盖参数判断是否需要对天线进行调整。覆盖参数包括主小区信号覆盖率、重叠覆盖率和边缘信号干扰噪声比等。覆盖参数可利用栅格化的mdt数据进行计算获得。当覆盖参数满足指标要求时,不需要调整天线;否则,需要调整,转步骤s104。
在本实施例中,步骤s104主要用于通过对主小区性能参数进行强化学习实现天线的优化调整。首先,在步骤s103获取的覆盖参数的基础上确定天线调整优化目标(单一的性能参数优化目标或由某几种性能参数组合成的综合优化目标);然后,基于优化目标构建分别由主小区性能参数和天线调整动作组成的状态集和动作集,通过进行强化学习训练实现对天线的优化调整。强化学习属于无监督机器学习,包括5个核心组成部分:环境(environment),智能体(agent),状态(state),动作(action),奖励(reward)。强化学习把学习看作试探评价过程,智能体选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖励值)反馈给天线的下倾角,智能体根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正奖励值最大。本实施例中强化学习的状态用主小区性能参数表示,强化学习的动作为天线调整操作,如天线方位角、下倾角的调整等。
作为一种可选实施例,所述步骤s101获取用户上报的mdt数据主要包括:获取用户主小区接收信号强度、用户经纬度、信号干扰噪声比和邻区测量报告。
本实施例给出了从用户上报的mdt数据中主要获取的数据参数。这些数据参数主要用于各种性能参数的计算,如重叠覆盖率等。信号干扰噪声比主要依赖mr中的mrs(mrstatistics,即测量报告中的统计数据文件,含邻区测量信息,数据量很大)数据或仿真数据。
作为一种可选实施例,所述s103具体包括:
s1031、计算主小区信号覆盖率fg1:
fg1=∑(pij*sij)/∑sij(1)
式中,pij为第i行第j列栅格的主小区信号均值,即所述栅格内所有用户接收的主小区信号强度的平均值;sij为第i行第j列栅格的面积;
s1032、计算重叠覆盖率fg2:
fg2=number0/number1(2)
式中,number0为主小区内重叠覆盖栅格样本的数量;当主小区内一个栅格的主小区信号均值在-105dbm以上,且信号强度大于设定阈值的邻区个数达到3个以上时,所述栅格为一个重叠覆盖栅格样本,所述阈值为主小区信号均值衰减4db后的值;number1为主小区内栅格的数量;
s1033、计算主小区边缘信号干扰噪声比fg3:
fg3=10log10(∑10sinr_crid_ave(ij)/10/number2)(3)
式中,sinr_crid_ave(ij)为主小区内非主覆盖区域的第i行第j列栅格内的信号干扰噪声比均值,sinr_crid_ave(ij)和fg3的单位均为db;number2为所述非主覆盖区域内栅格的数量;当主小区为扇形区域时,半径小于设定阈值的扇形区域为主覆盖区域,主小区中除去主覆盖区域后的剩余部分为非主覆盖区域;
s1034、通过将fg1、fg2和fg3分别与设定的阈值进行比较,确定天线是否需要调整。
本实施例基于栅格化的mdt数据计算主小区信号覆盖参数,并根据主小区信号覆盖参数判断是否需要对天线进行调整。步骤s1031用于计算主小区信号覆盖率fg1,fg1的计算公式如(1)式;步骤s1032用于计算重叠覆盖率fg2,fg2的计算公式如(2)式;步骤s1033用于计算重叠覆盖率fg3,fg3的计算公式如(3)式。步骤s1034通过将fg1、fg2和fg3分别与设定的阈值进行比较,确定天线是否需要调整。影响fg1~fg3大小的天线参数(权值)有下倾角、方位波束宽度和垂直波束宽度,因此,根据覆盖参数的大小可确定是否需要对下倾角、方位波束宽度和垂直波束宽度进行调整。
作为一种可选实施例,所述s104具体包括:
s1041、建立由主小区性能参数组成的状态集,以及由天线调整动作组成的动作集;
s1042、基于状态集和动作集建立收益期望矩阵q,q的第i行第j列q(si,aj)表示第i个状态si下执行第j个动作aj获得的收益期望值;
s1043、进行初始化;在状态st下执行动作at得到新状态st 1,t≥1,根据bellman方程按下式更新收益期望值q(st,at):
newq(st,at)=q(st,at) α[rt 1 γ*maxq(st 1,at 1)-q(st,at)](4)
式中,α为学习效率;γ为折扣率;rt 1为在状态st下执行动作at反馈的收益奖励值,其大小由执行动作at前后主小区性能参数打分的增量决定;maxq(st 1,at 1)表示在状态st执行动作at后获得新的状态st 1,在状态st 1下执行所有动作能够获得的最大收益期望值;
s1044、反复迭代,直到q的每一行得到最大值,或达到最大学习次数。
本实施例给出了利用强化学习进行天线调整的一种技术方案。
步骤s1041用于建立状态集和动作集。状态集用主小区性能参数表示,不同的状态对应不同的性能参数;动作集由天线调整动作组成,即每个数据代表一个动作。
步骤s1042用于建立收益期望矩阵q。q的一行对应一个状态,一列对应一个动作,第i行第j列q(si,aj)表示第i个状态si下执行第j个动作aj获得的收益期望值。
步骤s1043、s1044是迭代训练过程。
q初始状态对应的动作项值为零,动作的选取可以是随机的。但为了避免和减少机器学习重复训练的次数,应当根据性能指标所要求优先选择初始动作。对于信号覆盖优化,选择动作时应首先考虑小区边缘信号干扰噪声比栅格均值和重叠覆盖率值,如果小区边缘信号干扰噪声比栅格均值过低或整体重叠覆盖率值过高,应以最小化降低下倾角为优先,逐渐使小区边缘信号干扰噪声比栅格均值和重叠覆盖率值达到要求;对于用户热度聚类优化,选择动作时应首先确定正确的方位角。当q状态行对应的某动作值不为零,则持续搜索直到找到对应行中最大的值,相应列对应的动作即为要找的下一步的动作。
假设在状态st下执行动作at得到新状态st 1,根据上面给出的bellman方程更新q。式中的α是学习效率,其大小决定q值收敛的步伐和速度,当性能参数偏离优化调整指标比较严重时,可取1;一般情况下取0.1~0.3。γ是折扣率,一般取0.8或0.9。maxq(st 1,at 1)表示在状态执行动作at后获得新的状态st 1,在状态st 1下执行所有动作能够获得的最大收益期望值。rt 1是在状态st下执行动作at反馈的收益奖励值,其大小反映了执行动作后性能参数的改进程度,改进越显著奖励分值越高,其值一般等于执行动作前后性能参数打分的增量,可以是正数、0或负数(如-3,-2,-1,0,1,2,3等),分别表示执行动作后性能参数得到改进、不变和恶化。迭代过程反复进行,可以使q的所有行达到最大值,实现天线的优化调整。
用于形成奖励分数的主小区性能参数打分,可以是单项性能参数打分,也可以是通过对多项性能参数加权求和得到的综合打分。综合打分可表示为:
zf=∑(kifi)(5)
式中,zf为综合打分分值;fi为第i个性能参数的打分分值;ki为第i个性能参数打分的权重,0<ki<1,∑ki=1。
主小区性能参数主要包括主小区信号覆盖率、重叠覆盖率和边缘信号干扰噪声比等。前面的实施例已经给出了这几个参数的计算方法,这里不再重述。单项主小区性能参数打分根据所述参数大小进行线性打分或分段线性打分得到。例如,重叠覆盖率就是分段线性打分,当其值x>6%时,分值y=0;当3%≤x≤6%时,在0~60分之间线性打分,x=3%时,y=60;当0%≤x<3%时,在60~100分之间线性打分,x=0%时,y=100。
作为一种可选实施例,根据天线调整优化目标将状态集分为两类:一类是用户聚类方向,对应天线方位角调整动作;另一类包括主小区信号覆盖率、主小区边缘信号干扰噪声比和重叠覆盖率,对应天线的下倾角、方位波束宽度和垂直波束宽度调整动作。
在本实施例中,根据天线调整优化目标对状态集进行分类,目的是减少q中状态与动作的组合数量,提高天线调整速度。如果不进行分类,只有一个状态集和一个动作集。状态集包含4个状态,分别是用户聚类方向、主小区信号覆盖率、主小区边缘信号干扰噪声比和重叠覆盖率;动作集包含4个动作,分别为调整天线方位角、下倾角、方位波束宽度和垂直波束宽度。分类前的状态动作组合数为4×4=16种。如果按照上面的方法将状态分成两类,变成2个状态集和2个动作集。第一个状态集包含1个状态,第一个动作集包含1个动作;第二个状态集包含3个状态,第二个动作集包含3个动作。分类后的状态动作组合数最多有1×1 3×3=10种。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
1.一种基于强化学习的天线调整方法,其特征在于,包括以下步骤:
步骤1,获取用户上报的mdt数据,对用户小区进行栅格化;
步骤2,调整天线使天线方位波束对正用户聚类方向;
步骤3,基于栅格化的mdt数据计算主小区信号覆盖参数,根据主小区信号覆盖参数判断是否需要对天线进行调整;如果需要调整,转下一步;
步骤4,在确定天线调整优化目标的基础上,构建分别由主小区性能参数和天线调整动作组成的状态集和动作集,通过进行强化学习实现对天线的优化调整。
2.根据权利要求1所述的基于强化学习的天线调整方法,其特征在于,所述步骤1获取用户上报的mdt数据主要包括:获取用户主小区接收信号强度、用户经纬度、信号干扰噪声比和邻区测量报告。
3.根据权利要求2所述的基于强化学习的天线调整方法,其特征在于,所述步骤3具体包括:
步骤3.1,计算主小区信号覆盖率fg1:
fg1=∑(pij*sij)/∑sij(1)
式中,pij为第i行第j列栅格的主小区信号均值,即所述栅格内所有用户接收的主小区信号强度的平均值;sij为第i行第j列栅格的面积;
步骤3.2,计算重叠覆盖率fg2:
fg2=number0/number1(2)
式中,number0为主小区内重叠覆盖栅格样本的数量;当主小区内一个栅格的主小区信号均值在-105dbm以上,且信号强度大于设定阈值的邻区个数达到3个以上时,所述栅格为一个重叠覆盖栅格样本,所述阈值为主小区信号均值衰减4db后的值;number1为主小区内栅格的数量;
步骤3.3,计算主小区边缘信号干扰噪声比fg3:
fg3=10log10(∑10sinr_crid_ave(ij)/10/number2)(3)
式中,sinr_crid_ave(ij)为主小区内非主覆盖区域的第i行第j列栅格内的信号干扰噪声比均值,sinr_crid_ave(ij)和fg3的单位均为db;number2为所述非主覆盖区域内栅格的数量;当主小区为扇形区域时,半径小于设定阈值的扇形区域为主覆盖区域,主小区中除去主覆盖区域后的剩余部分为非主覆盖区域;
步骤3.4,通过将fg1、fg2和fg3分别与设定的阈值进行比较,确定天线是否需要调整。
4.根据权利要求3所述的基于强化学习的天线调整方法,其特征在于,所述步骤4具体包括:
步骤4.1,建立由主小区性能参数组成的状态集,以及由天线调整动作组成的动作集;
步骤4.2,基于状态集和动作集建立收益期望矩阵q,q的第i行第j列q(si,aj)表示第i个状态si下执行第j个动作aj获得的收益期望值;
步骤4.3,进行初始化;在状态st下执行动作at得到新状态st 1,t≥1,根据bellman方程按下式更新收益期望值q(st,at):
newq(st,at)=q(st,at) α[rt 1 γ*maxq(st 1,at 1)-q(st,at)](4)
式中,α为学习效率;γ为折扣率;rt 1为在状态st下执行动作at反馈的收益奖励值,其大小由执行动作at前后主小区性能参数打分的增量决定;maxq(st 1,at 1)表示在状态st执行动作at后获得新的状态st 1,在状态st 1下执行所有动作能够获得的最大收益期望值;
步骤4.4,反复迭代,直到q的每一行得到最大值,或达到最大学习次数。
5.根据权利要求4所述的基于强化学习的天线调整方法,其特征在于,根据天线调整优化目标将状态集分为两类:一类是用户聚类方向,对应天线方位角调整动作;另一类包括主小区信号覆盖率、主小区边缘信号干扰噪声比和重叠覆盖率,对应天线的下倾角、方位波束宽度和垂直波束宽度调整动作。
技术总结