一种多智能体系统协同策略的反演辨识方法与流程

专利2022-06-29  56


本发明属于系统辨识和参数技术领域,具体涉及一种多智能体系统协同策略的反演辨识方法。



背景技术:

反演问题是指由结果及某些一般原理(或模型)出发去确定表征问题特征的参数(或模型参数)。在工程应用中,反演问题广泛出现在地球物理、生物、医疗及建筑等领域。反演是指能够模仿人类智能的计算机程序系统的人工智能系统,它具有学习和推理的功能。例如专家系统、人工神经网络系统等。在反问题求解过程中应用人工智能的方法技术,引导局部或全局最优,这种反演方法称为人工智能反演,现阶段又分为线性反演、迭代反演、最优化反演等。其中,最优化反演建模算法不但具有较强的理论研究意义,而且在军事上有着重要应用价值。例如,对敌方多无人车/机的协同模式进行反演辨识,能够探悉敌方作战策略的缺陷/弱点,从而提高己方的胜算概率。

关于反演建模问题的研究,最早期的工作可以追溯到20世纪20年代在研究线性偏微分方程的cauchy问题时对反演问题不适定性的陈述和研究。20世纪40年代前苏联开始了反问题的理论研究,在60年代推出了至今仍然广泛沿用的tikhonov变分正则化方法,于70年代出版了关于病态反演理论的论著,并将不适定反演问题的正则化放在抽象的泛函空间进行完整描述。关于反演理论和方法研究的另一个方向是迭代正则化方法,也就是通过迭代求解正则优化问题来获得反演问题的近似解。广义逆方法、梯度型方法和newton型方法是目前求解反演问题的常用方法。上述这些传统反演建模算法多是在对最佳轨迹的完整观察条件下进行的,难以实现在有限数据条件下对最优系统目标函数参数进行准确推断和估计。

最优化反演建模在控制领域也称为最优控制反演或逆强化学习,最早由rudolfemilkalman于1964年提出,并广泛的应用于机器人、经济学、仿生学领域。briandoanderson、antonyjameson、takaofuji等人研究了在连续无限时间域条件下lqr(linearquadraticregulator)反最优控制问题,但他们都是在假设最优反馈增益已知的条件下进行针对目标函数的反演建模。在实际应用中,由于受到电磁干扰、虚假信息攻击、信息屏蔽以及障碍物影响,所观测到的数据通常是有噪声的,只有离散有限时序内观测数据可利用且反馈增益也无法提前获知。mcodypriess等人于2015年发表《solutionstotheinverselqrproblemwithapplicationtobiologicalsystemsanalysis》一文中,针对离散无限时域噪声下的观测数据,研究了反馈增益是时变的lqr反最优化控制问题。但在实际应用中,反演建模任务必须在有限时序内完成,这种方法不能实现,并且这个算法是先辨识最优反馈增益矩阵再计算相应目标函数参数矩阵,涉及大量的参数计算,普通计算平台难以实现,难以进行实际运用。

上述最优化反演建模方法要应用于多智能体系统协同策略的辨识还存在两个方面的难点:一方面在于结合多智能体协同系统的特征,恰当地描述问题,建立简明实用的多智能体协同策略最优化反演模型;另一方面在于,对离散有限时间域的情形,上述方法难以在噪声影响下对多智能体系统协同策略进行准确可靠的反演辨识。



技术实现要素:

有鉴于此,本发明提供了一种多智能体系统协同策略的反演辨识方法,实现了在噪声影响下对多智能体系统的协同策略的可靠反演辨识。

本发明提供的一种多智能体系统协同策略的反演辨识方法,采用反演辨识得到的协同策略实现对多智能体系统的控制,其特征在于,包括以下步骤:

步骤1、根据获取的智能体动力学特性得到智能体的系统矩阵a和输入矩阵b,根据所述系统矩阵a和输入矩阵b采用线性二次调节器构建多智能体系统协同策略反演辨识模型,所述反演辨识模型如公式(1)所示:

其中,q为多智能体之间的协同策略矩阵,q为正半定矩阵;t为第t个观测时间点,n为观测时间点的最大值,xt为智能体在第t个观测时间点的真实状态向量,yt为智能体在第t个观测时间点的观测状态向量,λt为智能体在第t个观测时间点的最优对偶状态序列向量;

步骤2、根据获取的智能体的观测状态向量yt,求解所述反演辨识模型,得到所述协同策略矩阵q,即多智能体系统的协同策略。

进一步地,所述步骤2中求解所述反演辨识模型采用逐步二次规划法实现。

有益效果:

本发明通过采用线形二次型最优控制方法,基于智能体的动力学特性构建了多智能体系统协同策略反演辨识模型,能够基于有限时域内的离散状态观测值计算得到协同策略,同时,本发明建立的反演辨识模型能够同时估计得到智能体的真实运动状态,因此实现了在噪声干扰下的精确协同策略反演。

附图说明

图1为本发明提供的一种多智能体系统协同策略的反演辨识方法的应用场景示意图。

图2为本发明提供的一种多智能体系统协同策略的反演辨识方法的求解过程流程图。

图3为本发明提供的一种多智能体系统协同策略的反演辨识方法的100次随机仿真所获得矩阵q的相对误差分布图。

图4为本发明提供的一种多智能体系统协同策略的反演辨识方法的100次随机仿真所获得矩阵q的相对误差直方图。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

多智能体系统执行协同任务即由多个智能体组成的系统共同执行任务的过程,其应用场景之一是多无人机系统执行协同任务的情况,如图1所示,多无人机系统需要根据协同策略执行协同任务。

单个智能体为离散线性定常控制系统,符合离散线性定常控制系统状态空间描述的状态方程,具有如下一般形式:

x′(t 1)=a′x′(t) b′u′(t)t=0,1,2,…

其中,x′(t)为智能体在t时刻的状态变量组;u′(t)为智能体在t时刻的输入变量组;a′为系统矩阵,描述了不考虑输入的情况下t时刻的状态与t 1时刻的状态的关系;b′为输入矩阵,描述了t时刻的输入如何对t 1时刻状态产生影响。上述状态方程的系统矩阵和输入矩阵共同反映了系统的动力学特性,是一个离散线性定常控制系统的固有属性。

多智能体系统是由多个彼此独立的智能体组成的系统,也是一个离散线性定常控制系统。根据单个智能体的状态方程可推导出由多个智能体组成的多智能体系统的状态方程,记智能体的状态分别为x′1(t),x′2(t),…,x′n(t),输入为u′1(t),u′2(t),…,u′n(t),系统矩阵为a′1,a′2,…,a′n,状态矩阵为b′1,b′2,…,b′n,各单智能体组成的整体组成多智能体系统,其状态空间描述的状态方程如下:

其中,xt为多智能体系统在t时刻的状态向量,ut为多智能体系统在t时刻的输入向量,a为多智能体系统的系统矩阵,为多智能体系统的输入矩阵,n为多智能体系统中智能体的编号。

在多智能体系统执行协同任务的过程中,要实现对多智能体的最优控制,通常情况下,将求解最优控制问题转换为求解线性二次调节器(lqr)的优化问题,即通过求解线性二次调节器(lqr)的优化问题来获得多无人机系统最优控制输入和状态序列以实现对无人机集群的最优控制,这个过程属于正向求解最优控制的过程,此时协同策略矩阵q为已知条件,可采用公式(1)来建立模型和约束条件:

其中,矩阵q为智能体之间的协同策略矩阵,矩阵中元素的取值则表示对应的智能体之间协同关联的强度;n为多智能系统中智能体的总数。

对于公式(1)的模型和约束条件的求解可采用庞特里亚金最大值原理pmp来实现,即可将公式(1)的模型和约束条件转换为如下等式方程(2):

xt 1=axt but,1≤t≤n-1

λt=atλt 1 qxt,1≤t≤n-1#(2)

λn=0,

ut=-btλt 1,1≤t≤n-1

其中,λt为多智能体系统在t时刻的最优对偶状态序列向量。

本发明所要解决的问题是与正向求解最优控制问题相反的问题,即,在对抗条件下,根据观测到的多智能体在有限离散时间点上的状态信息求解多智能体之间的协同策略矩阵q的问题,通过求解协调策略探悉和挖掘无人机集群的协同模式,也就是反演辨识问题。

本发明提供的一种多智能体系统协同策略的反演辨识方法,具体包括以下步骤:

步骤1、建立多智能体系统协同策略反演辨识模型。根据获取的智能体动力学特性得到智能体的系统矩阵a和输入矩阵b,根据系统矩阵a和输入矩阵b采用线性二次调节器构建多智能体系统协同策略反演辨识模型。

为了便于技术方案的说明,本发明作如下定义:智能体在第t个观测时间点的观测状态向量为yt,智能体在第t个观测时间点的状态向量为xt(该状态向量即为真实值),智能体在第t个观测时间点的噪声扰动为vt,且观测状态向量、真实状态向量与噪声扰动之间的关系满足公式(3)。

yt=xt vt(3)

在对抗条件下,通过雷达成像或阵列天线可以从多目标物体的运动影像中提取每个智能体的运动轨迹和状态信息,并根据提取到的运动轨迹和状态信息判定各智能体的属性,由此来推断智能体的动力学特性,根据动力学特性即可得到系统矩阵a和输入矩阵b。

在此基础上,根据最优控制策略方程(2)和观测得到的状态信息(3)建立多智能体系统协同策略反演辨识模型,如公式(4)所示:

其中,q为多智能体之间的协同策略矩阵,q为正半定矩阵;t为第t个观测时间点,n为观测时间点的最大值,xt为智能体在第t个观测时间点的真实状态向量,yt为智能体在第t个观测时间点的观测状态向量,λt为智能体在第t个观测时间点的最优对偶状态序列向量。

本发明通过采用线性二次调节器构建多智能体系统协同策略反演辨识模型,在求解协同策略矩阵的过程中屏蔽了多智能体系统所受噪声的影响。

步骤2、求多智能体系统协同策略反演辨识模型。根据获取的智能体的观测状态向量yt,求解所述反演辨识模型,得到协同策略矩阵q,即多智能体系统的协同策略。

由于本发明建立的多智能体系统协同策略反演辨识模型中存在两个变量耦合在一起的约束条件,如λt=atλt 1 qxt,针对此类双线性约束优化问题,目前还没有较为成熟的求解算法,但可利用逐步二次规划法(sqp)、内点法、信赖域法、滤子方法、既约hessian阵方法等非线性约束优化方法及其衍生方法或进化计算类方法对其进行近似求解。

另一实施例中,采用逐步二次规划法(sqp)求解多智能体系统协同策略反演辨识模型,具体过程如下:

步骤2.1、为了便于求解将多智能体系统协同策略反演辨识模型转换为适用于逐步二次规划法(sqp)的形式,如公式(5)所示:

s.t.ci(q)=0,i=1,…,me(5)

ci(q)≥0,i=me 1,…,m

其中,q为由协同策略矩阵q向量化的协同向量;相当于公式(4)中的目标函数s.t.ci(q)=0,i=1,…,me相当于s.t.xt 1=axt-bbtλt 1,t=1:n-1、λt=atλt 1 qxt,t=2:n-1和λn=0;ci(q)≥0,i=me 1,…,m表示q为正半定矩阵。

步骤2.2、采用逐步二次规划(sqp)求解反演辨识优化模型来获得多智能体系统的协同策略矩阵q,如图2所示。该方法采用迭代优化的模式,即利用参数的当前估计值来更新并计算下一步参数值,记第k步的参数估计值为qk,对非线性优化问题(5)中的目标函数作如下二阶近似:

并对约束函数作如下一阶近似:

ci(q)≈ci(qk) ai(qa)td

其中分别为目标函数和约束函数在qk处的梯度;d=q-qk为步长;为目标函数在qk处的hessian矩阵。由此,公式(5)中的非线性优化问题可近似成如下二次规划问题:

从而参数向量q在第k 1步的估计值为:

qk 1=qk dk

以此类推,可以获得参数向量在k 2,k 3,…时刻的估计值,直到参数估计的相对误差小于一个给定的阈值。在实际操作中,可采用matlab中的fmincon命令函数进行求解。

对于上述步骤求解得到的协同策略矩阵q,可采用如下步骤对其准确性进行验证:

若多智能体系统的真实矩阵q已知,则可通过求取如下矩阵q估计值的相对误差来验证其准确性:

其中为矩阵q真实值,qest为计算得到的q矩阵估计值。

若多智能体系统的真实协同矩阵q未知,则将其估计值代入公式(3)并求取系统状态xt的预测值,记为然后,通过计算状态预测值与状态观测值yt之间的相对误差来间接验证其准确性:

采用本发明计算得到的协同策略,能够实现对多智能体系统的精确控制。在军事应用中,无人机群作战往往通过简单且廉价无人机单体之间的合作来获得功能各异的作战模式。针对该特点,若能通过观测敌方无人机群的行为数据对敌方无人机群的自组织模式和内在协同机制进行建模,则能够设计有效的破坏策略和战术对其进行电磁压制和个体入侵干扰,成为反制敌方的有效途径之一。

实施例:

本实例针对由多个无人机组成的多智能体系统,采用本发明提供的一种多智能体系统协同策略的反演辨识方法求解协同策略矩阵。具体包含100组在不同噪声影响下的实验数据,求解过程如下:

在无人机群应用场景中,可以通过观测手段得到各无人机的回波特征、rcs特征、运动特征、截获雷达信号、红外特性等,结合isar成像等技术可以快速识别各无人机的型号,从而可获得各型号无人机的动力学参数。在本仿真实例中,随机生成的多智能体系统的系数矩阵和输入矩阵分别为:

给定不同的状态初值,分别求解正向lqr最优控制问题得到离散时间的状态序列作为样本。针对每个状态初值,设置状态样本的容量为n=6,并生成最优状态轨迹然后,在最优状态序列上加入标准方差为0.01的高斯白噪声vt,得到状态的观测数据yt=xt vt。由此求得协同策略矩阵q为:

反演辨识的平均用时为2.896s。所获得的协同表征矩阵估计的相对误差分布图和直方图,如图(4)所示,表明:在标准方差为0.01的高斯白噪声vt的干扰下,协同表征矩阵q的相对估计误差小于0.01的概率达到75%,而相对误差小于0.02的概率达到92%。即所提出的反演辨识算法能够在噪声干扰下实现精确的协同模式和策略的辨识。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种多智能体系统协同策略的反演辨识方法,采用反演辨识得到的协同策略实现对多智能体系统的控制,其特征在于,包括以下步骤:

步骤1、根据获取的智能体动力学特性得到智能体的系统矩阵a和输入矩阵b,根据所述系统矩阵a和输入矩阵b采用线性二次调节器构建多智能体系统协同策略反演辨识模型,所述反演辨识模型如公式(1)所示:

其中,q为多智能体之间的协同策略矩阵,q为正半定矩阵;t为第t个观测时间点,n为观测时间点的最大值,xt为智能体在第t个观测时间点的真实状态向量,yt为智能体在第t个观测时间点的观测状态向量,λt为智能体在第t个观测时间点的最优对偶状态序列向量;

步骤2、根据获取的智能体的观测状态向量yt,求解所述反演辨识模型,得到所述协同策略矩阵q,即多智能体系统的协同策略。

2.根据权利要求1所述的方法,其特征在于,所述步骤2中求解所述反演辨识模型采用逐步二次规划法实现。

技术总结
本发明公开了一种多智能体系统协同策略的反演辨识方法,通过采用线形二次型最优控制方法,基于智能体的动力学特性构建了多智能体系统协同策略反演辨识模型,能够基于有限时域内的离散状态观测值计算得到协同策略,同时,本发明建立的反演辨识模型能够同时估计得到智能体的真实运动状态,因此实现了在噪声干扰下的精确协同策略反演。

技术研发人员:俞成浦;李尧;张振华;王萍;邓方;陈杰
受保护的技术使用者:北京理工大学
技术研发日:2020.01.19
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-32988.html

最新回复(0)