【技术领域】
本发明属于飞行控制技术领域,特别是涉及一种基于最大评分状态更新的无人机自动化控制方法。
背景技术:
目前,对于无人机的自动化控制,通常采用基于经典pid控制论的方法。无人机在飞行时,飞行控制器首先通过一个定时循环的传感器参数收集过程,设置一组基本的pid参数分别针对飞行器的横滚、俯仰及偏航三个基本姿态进行自我稳定调整,以实现在空中的自主姿态控制,这个过程通常被称为无人机自动化控制的内部环路。其次,无人机需要可以在用户的输入下执行移动指令,飞行控制器这时会以用户输入的指令为依据使用另一组pid参数来实现飞行器的移动,这个过程被称为外部环路控制。通过调整这几组pid参数,合并用户输入的指令,可以实现飞行器以不同的姿态进行自主飞行。然而,当pid的参数调整不当的时候,就会出现飞行器不能够以稳定的状态进行姿态控制和移动。由于上述的飞行器控制论的过程,两个采样循环之下的pid参数调整通常需要对飞行器理论和控制论都非常熟悉才能进行良好的调整,且控制程序非常复杂,难以达到精准的、最优化的飞行路径控制。
因此,有必要提供一种新的基于最大评分状态更新的无人机自动化控制方法来解决上述问题。
技术实现要素:
本发明的主要目的在于提供一种基于最大评分状态更新的无人机自动化控制方法,能够快速的、精准的进行自主飞行达到目标状态。
本发明通过如下技术方案实现上述目的:一种基于最大评分状态更新的无人机自动化控制方法,其包括以下步骤:
1)根据初始状态st与目标状态s0的空间距离以及控制精度要求划分n个中间状态点,并建立每一个状态点si(i=t,t 1,t 2,…,t n,0)与所有可执行动作aj(j=1,2,…,m)一一对应的评分量表,其中m代表有m个可执行动作;
2)随机产生一组(n 2)×m矩阵数据作为评分量表的初始评分;
3)计算无人机在si状态下执行完动作aj之后的状态si 1与既定目标状态s0之间的差距δsi 1,其中δsi 1=-|si 1-s0|;
4)令无人机在si状态下执行完动作aj之后的状态si 1所得评分为
5)在每一状态下,无人机根据前述评分量表,选择最高评分的动作执行,然后根据执行完动作之后状态和目标状态之间的差距,更新当前状态对应的已执行动作的评分,其中,
其中,
6)重复步骤3)-5),对评分表进行优化迭代,最终获得最大评分值表,该表中,每一个状态均会对应有一个最大评分,然后无人机根据查找此评分表并执行最大评分所对应的执行动作,使其逐渐接近既定目标状态。
与现有技术相比,本发明一种基于最大评分状态更新的无人机自动化控制方法的有益效果在于:通过建立当前状态执行各个执行动作后至下一状态的评分表,建立评分的计算公式,然后利用下一状态与目标状态的差距来更新优化评分表,实现评分表的自主优化迭代,最终得到最大评分值的评分表,最后无人机根据此评分表来执行所有状态下最大评分值所对应的执行动作,从而从当前状态达到目标状态的飞行控制,其控制精度高,飞行过程平稳,控制效率高,在编程控制方法上更加简便,对专业人员要求低,更加容易实现。
【具体实施方式】
实施例:
本实施例一种基于最大评分状态更新的无人机自动化控制方法,其包括以下步骤:
1)根据初始状态st与目标状态s0的空间距离以及控制精度要求划分n个中间状态点,并建立每一个状态点si(i=t,t 1,t 2,…,t n,0)与所有可执行动作aj(j=1,2,…,m)一一对应的评分量表,其中m代表有m个可执行动作;
2)随机产生一组(n 2)×m矩阵数据作为评分量表的初始评分;
3)计算无人机在si状态下执行完动作aj之后的状态si 1与既定目标状态s0之间的差距δsi 1,其中δsi 1=-|si 1-s0|;
4)令无人机在si状态下执行完动作aj之后的状态si 1所得评分为
5)在每一状态下,无人机根据前述评分量表,选择最高评分的动作执行,然后根据执行完动作之后状态和目标状态之间的差距,更新当前状态对应的已执行动作的评分,其中,
其中,
6)重复步骤3)-5),对评分表进行优化迭代,最终获得最大评分值表,该表中,每一个状态均会对应有一个最大评分,然后无人机根据查找此评分表并执行最大评分所对应的执行动作,使其逐渐接近既定目标状态。
由于本实施例控制方式在一开始就要给定无人机一个确定的三维坐标状态,因此对于要求无人机飞行或悬停至固定高度固定位置这样的任务非常合适。在实际应用中,对于需要无人机在三维空间内无预定坐标的任意方向移动的任务,可以在给定目标状态上采取如下策略:
1)对于仅飞行高度变化的情况,设定初始目标状态为三维空间内一固定坐标(x0,y0,z0),且要求无人机各个方向上的姿态角不能超过某限定值,当无人机接近预定高度z0时,改变目标状态为新三维坐标点(x0,y0,z1),其中z1-z0<z0;由于δst 1为无人机当前高度和目标高度间的差值,因此原目标的状态动作评分表同样适用于新目标,所以,无人机可以直接执行已知较优的评分动作;
2)对于飞行高度不变,无人机仅在三维空间内某二维平面移动的情况,设定初始目标状态为三维空间内一固定坐标(x0,y0,z0),且要求无人机各个方向上的姿态角不能超过某限定值,当无人机在平面内接近坐标(x0,y0)时,改变目标状态为新三维坐标点(x1,y1,z0),其中x1-x0<x0,且y1-y0<y0,且
通过上述两种策略的有机结合,可以在使用固定几套评分量表的前提之下,通过变换评分量表索引的形式使得无人机可以自由执行全方位的三维空间移动任务。
由于评分表内的无人机状态和动作通常以离散值来表示,对于实际上是连续值的状态和动作来说,在简单环境下,可以通过对连续值的离散化操作来实现;对于复杂环境下,可以通过深度神经网络算法来实现最优概率化的状态和动作选择。
本实施例一种基于最大评分状态更新的无人机自动化控制方法,通过建立当前状态执行各个执行动作后至下一状态的评分表,建立评分的计算公式,然后利用下一状态与目标状态的差距来更新优化评分表,实现评分表的自主优化迭代,最终得到最大评分值的评分表,最后无人机根据此评分表来执行所有状态下最大评分值所对应的执行动作,从而从当前状态达到目标状态的飞行控制。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
1.一种基于最大评分状态更新的无人机自动化控制方法,其特征在于:其包括以下步骤:
1)根据初始状态st与目标状态s0的空间距离以及控制精度要求划分n个中间状态点,并建立每一个状态点si(i=t,t 1,t 2,…,t n,0)与所有可执行动作aj(j=1,2,…,m)一一对应的评分量表,其中m代表有m个可执行动作;
2)随机产生一组(n 2)×m矩阵数据作为评分量表的初始评分;
3)计算无人机在si状态下执行完动作aj之后的状态si 1与既定目标状态s0之间的差距δsi 1,其中δsi 1=-|si 1-s0|;
4)令无人机在si状态下执行完动作aj之后的状态si 1所得评分为
5)在每一状态下,无人机根据前述评分量表,选择最高评分的动作执行,然后根据执行完动作之后状态和目标状态之间的差距,更新当前状态对应的已执行动作的评分,其中,
其中,
6)重复步骤3)-5),对评分表进行优化迭代,最终获得最大评分值表,该表中,每一个状态均会对应有一个最大评分,然后无人机根据查找此评分表并执行最大评分所对应的执行动作,使其逐渐接近既定目标状态。
技术总结