基于内在奖励的视频游戏决策方法与流程

专利2022-06-29  94


本发明涉及视频游戏决策方法,尤其涉及一种基于内在奖励的视频游戏决策方法。
背景技术
:视频游戏出现于20世纪70年代初,自视频游戏诞生起,通过人工智能技术实现视频游戏中的智能体的自动决策这项技术,一直是工业界和学术界研究的热点,有着巨大的商业价值。近年来,深度强化学习方法的快速发展为实现这项技术提供了有效途径。通常来讲,游戏决策技术的好坏完全由游戏中得分多少或者能否赢得比赛而决定,视频游戏也是如此。深度强化学习算法应用于复杂博弈场景的优势在于其端到端的特性,通过深度强化学习算法学习智能体行动策略从而直接完成从输入游戏状态到输出可行动作的映射,这为解决各类博弈任务提供了一套通用的算法框架,而actor-critic算法是其中较具代表性的算法。在以actor-critic算法为基本框架的深度强化学习算法中,为了训练出各类机器博弈智能体,通常的做法是首先通过设计卷积网络对博弈状态进行特征提取,然后利用actor网络进行智能体行动策略学习,利用critic网络进行策略评估与改善,不断迭代训练直至收敛。然而在少数几个atari视频游戏场景中,以该算法为基本框架的智能体很难学习到高效获取环境奖励的策略,这类场景所具备的一个相似点是智能体所处的环境比较复杂,很难直接获得奖励反馈,智能体往往需要经过一系列的行动决策或者参考较多的历史信息才能做出获得正向奖励值的动作。原因在于actor-critic算法实质上是综合考虑了值迭代方法与策略梯度方法,其中策略梯度方法需要根据智能体交互过程中的轨迹进行采样和策略更新,如果缺乏充足的采样轨迹或者采样轨迹的质量不够好,就会影响策略梯度的优化过程从而导致智能体无法学习到正确且高效的策略。在三维视频游戏vizdoom中,智能体在游戏场景中只能接触到视线范围内的小部分环境,同时场景中具有大量迷宫和陷阱等设计机制影响智能体的探索和奖励获取,由于奖励反馈的稀疏性,采样轨迹中高收益值动作所占比例较小,策略梯度算法的训练过程缺乏正向奖励采样轨迹,整体训练过程方差较高。而actor-critic算法引入值迭代方法中的价值模型后以价值网络对轨迹值进行估计,从理论上能缓解策略梯度方法方差较高的缺点,但是在vizdoom场景实际的训练过程中使用该算法在训练时仍然会产生智能体行动策略更新幅度震荡过高、不够稳定的问题。在部分环境奖励反馈稀疏的vizdoom场景中,缺乏奖励信号会使算法无法进行策略更新或者在训练中产生大幅度震荡导致无法收敛。因此,对于深度强化学习算法在三维视频游戏vizdoom中的应用,存在三维场景中较为常见的缺乏环境反馈奖励值的问题。技术实现要素:为了解决现有技术中的问题,本发明提供了一种基于内在奖励的视频游戏决策方法。本发明提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:s1、获取视频游戏模拟环境;s2、构建神经网络模型;s3、设计内在奖励模型;s4、将内在奖励模型与构建的神经网络模型结构结合;s5、通过模拟环境获取游戏的记录;s6、通过获取的游戏记录,更新神经网络模型;s7、循环训练神经网络模型直至收敛。本发明的有益效果是:通过上述方案,较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。附图说明图1是本发明一种基于内在奖励的视频游戏决策方法的整体流程图。图2是本发明一种基于内在奖励的视频游戏决策方法的vizdoom模拟环境图。图3是本发明一种视频游戏决策方法的深度强化学习解决视频游戏神经网络结构图。图4是本发明一种基于内在奖励的视频游戏决策方法的内在奖励机制强化学习模型结构图。图5是本发明一种基于内在奖励的视频游戏决策方法的内在奖励生成模块结构图。图6是本发明一种基于内在奖励的视频游戏决策方法的目标映射网络与预测网络的网络结构图。图7是本发明一种基于内在奖励的视频游戏决策方法的视频游戏的内在奖励生成机制流程图。图8是本发明一种基于内在奖励的视频游戏决策方法的差异化的奖励融合方式示意图。图9是本发明一种基于内在奖励的视频游戏决策方法的价值网络结构的变化图。图10是本发明一种基于内在奖励的视频游戏决策方法的内在奖励策略优化算流程图。图11是本发明一种基于内在奖励的视频游戏决策方法的vizdoom平台寻路场景图。图12是本发明一种基于内在奖励的视频游戏决策方法的ibpo算法训练效果对比图。具体实施方式下面结合附图说明及具体实施方式对本发明作进一步说明。应用深度强化学习方法,结合先进的内在奖励机制,形成具有一定智能水平的决策模型和技术,从而使游戏智能体在视频游戏获取高分,是本发明的核心内容。本发明主要研究非完备信息条件下三维视频游戏的策略求解问题。(1)针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本发明提出了一种内在奖励模型。(2)通过将内在奖励与外部奖励差异性融合,提出内在奖励策略优化算法。如图1所示,一种基于内在奖励的视频游戏决策方法,包括以下步骤:s1、获取视频游戏模拟环境;s2、构建神经网络模型;s3、设计内在奖励模型;s4、将内在奖励模型与构建的神经网络模型结构结合;s5、通过模拟环境获取游戏的记录;s6、通过获取的游戏记录,更新神经网络模型;s7、循环训练神经网络模型直至收敛。本发明主要研究非完备信息条件下三维视频游戏的策略求解问题。针对视频游戏博弈中高维状态空间与信息感知不完全的问题,提出了一种基于内在奖励策略优化算法的深度强化学习方法。在该方法中,首先针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本发明提出了内在奖励模型,通过设计目标映射网络与预测网络产生内在奖励值弥补环境反馈奖励值的缺失,辅助智能体进行策略更新。其次,考虑到内在奖励模型与传统策略优化算法的结构性差异,通过调整价值网络的结构对两者进行融合,进而提出内在奖励策略优化算法,提升了智能体在稀疏奖励三维场景中的行动效果。如图1所示为基于内部奖励的视频游戏决策方法的整体流程图。本发明提供的一种基于内在奖励的视频游戏决策方法,具体过程如下:1、获取并安装视频游戏模拟环境;近年来drl(深度强化学习)随着深度学习的热度增长也大热。于是各种新的强化学习研究平台如雨后春芛冒出来,而且趋势也是从简单的toy场景慢慢扩展到3d迷宫,第一人称射击游戏,即时策略类游戏和复杂机器人控制场景等。比如,vizdoom允许开发使用视觉信息(屏幕缓冲区)播放doom的ai机器人。它主要用于机器视觉学习,尤其是深度强化学习的研究。通过vizdoom官网获取并安装vizdoom模拟游戏环境,如图2所示。2、构建神经网络;如图3所示为使用深度强化学习解决视频游戏的网络结构图,图中模型的输入为视频游戏的每帧图像,模型的输出为对应视频游戏的操作,而中间层的网络的参数则是需要使用深度强化学习训练的对应策略。本发明通过使用智能体在模拟环境中作出决策来收集数据,根据收集到到状态和动作对使用深度学习算法来优化智能体的策略。如何基于视频游戏特征训练好的模型是智能体性能的关键,同时是本发明的核心创新。3、设计视频游戏内在奖励生成机制;通常的强化学习模型中只具有环境和智能体两类实体,奖励信号也都来源于智能体所处的环境,基于这样的强化学习模型不易产生额外的奖励信号。针对一般强化学习模型的局限和不足,本发明利用内在奖励概念,通过设计相应的内在奖励机制产生辅助性的奖励信息帮助智能体在缺乏环境奖励信息时根据内在奖励进行策略更新。定义这种包含内在奖励收益的强化学习模型为内在激励强化学习模型(intrinsicallymotivatedreinforcementlearning,imrl)。内在激励强化学习的一般模型如图4所示。本发明设计了如下内在奖励生成模块:定义相同结构的目标映射网络(targetmappingnetwork)与预测网络(predictionnetwork),利用目标映射网络和预测网络对输入三维状态画面进行特征抽取与状态映射,分别得到对应的嵌入向量,通过计算两者的相似度来得到内在奖励的数值。目标映射网络与预测网络的定义分别如公式(3-1)和公式(3-2)所示:目标映射网络定义为状态到目标嵌入向量的映射:式中,———目标映射网络;———状态;———目标嵌入向量;预测网络定义为状态到预测嵌入向量的映射:式中,———预测网络;———状态;———目标嵌入向量。所设计的内在奖励生成模块如图5所示。内在奖励生成模块中,目标映射网络与预测网络所输出的嵌入向量具有相同大小的维度。对于目标映射网络而言,可以采取策略预训练或者随机初始化的方式进行网络初始化,本发明所采取的网络初始化方式利用了深度强化学习随机策略智能体,利用该智能体在环境中展开有限步的探索从而对目标映射网络进行初始化。随后基于策略优化算法智能体与环境交互产生的样本训练预测值网络,在所产生的样本数据上最小化预测值网络与目标映射网络的均方误差。采取这种做法的主要目的在于通过设置固定的优化目标减少来自拟合的随机性的误差,通过设置较为简单的以随机策略初始化的目标映射网络减少来自目标函数复杂度的误差。目标映射网络与预测网络的网络结构如图6所示。内在奖励生成模块的目标映射网络和预测网络均具有如图5所示的网络结构,三维场景中的输入状态画面通过三层卷积神经网络进行特征抽取,最终输出固定维度的向量表示。采用相同的网络结构是为了减少两者网络结构的不同给计算向量相似度带来的误差影响。内在奖励生成模块的损失函数定义为:式中———预测向量;———目标向量;———参数正则化项;———正则项惩罚因子;内在奖励生成模块中以目标映射网络和预测网络的输出向量的相似度作为所生成的内在奖励值的大小,这样做的考量在于使智能体在稀疏奖励环境中倾向于做出探索行为。在智能体训练的初始阶段,智能体在三维场景中的活动范围较小,未见状态较多,此时两个网络的输出向量相似度较小,因此所计算得到的内在奖励值较大,智能体此时主要以内在奖励信号作为自身行动策略更新时经验回放数据元组中的奖励来源。另外,由于智能体在不同三维场景或者同一场景的不同探索时刻所面临的环境信息是不大相同的,如果不对内在奖励值和输入环境状态信息进行归一化处理将会导致对应数值的变动幅度过大,不利于训练过程中的超参数选择和输入信息的表征。因此需要对内在奖励值与环境状态信息进行归一化处理。此外,预测网络的训练需要采集智能体与环境交互的样本,而智能体在环境中的行动输出来源于策略网络,因此训练过程当中内在奖励信号的生成还与策略优化算法相关。以作为策略优化算法智能体的行动策略,给出单次训练回合的内在奖励生成算法,如图7所示。内在奖励生成算法如下:输入:随机初始化步长,训练回合终止步长,随机策略,衰减因子,时间步。输出:内在奖励值。1:初始化参数。2:当时,循环执行以下步骤:3:根据随机策略采样当前时间步动作;4:基于动作得到下一状态;5:归一化环境信息;6:时间步更新;7:结束循环;8:当时,循环执行以下步骤:9:根据智能体行动策略采样当前时间步动作;10:基于动作得到下一状态;11:计算内在奖励值;12:时间步更新;13:结束循环;14:返回内部奖励。4、将内在奖励与建立的神经网络结合并应用于视频游戏;内在奖励机制的预测网络的训练过程需要基于智能体的行动数据样本,而智能体在环境中的行动过程由策略优化算法所驱动,因此完整的内在奖励算法需要与策略梯度或策略优化类算法结合。本发明将改进的策略优化算法与内在奖励机制相结合,提出内在奖励策略优化算法(intrinsicbasedpolicyoptimazation,ibpo)。由于策略优化算法的模型基础是一般的强化学习模型,与引入内在奖励机制后的内在激励强化学习模型有一定差别,因此需要分析两者在结构上存在的不同,从而适配策略优化算法和内在激励强化学习模型。在策略优化算法中,策略的更新依赖于目标函数中的行动策略概率比值与估计函数,而目标函数又基于奖励值计算行动策略概率比值与估计函数,因此适配策略优化算法与内在奖励机制的要点是对外部奖励和内在奖励的处理。在传统的策略优化算法中,策略更新的奖励值来源于只包括外部奖励,因此在引入内在奖励机制后,需要考虑内在奖励与策略优化算法的结合方式,也即内在奖励与外部奖励的结合方式。本发明采用长期内在奖励和回合制外部奖励的结合方式,如图8所示。对于内在奖励而言,其初衷在于增加智能体对于环境的探索能力,如果在策略优化算法的每次训练回合开始时重置内在奖励值,即如果按照回合制的方式累计内在奖励,智能体一旦做出某个动作使当前回合结束,内在奖励值会立刻为零,无法继续根据内在奖励进行策略迭代和更新,总体上将导致智能体更倾向于保守策略而非探索,与引入内在奖励的初衷相违背。因此,在训练过程中对于内在奖励的处理方式是在每个训练回合持续累计。对于外部奖励而言,一般做法是在单次训练回合结束后进行清零,目的是防止智能体在做出导致回合结束的动作时仍然累计外部奖励,从而导致环境的负反馈无法对策略梯度造成负向更新,从而影响智能体的行动策略。综合以上考虑,本发明采取长期内在奖励与回合制外部奖励相结合的方式结合这两类奖励值信息。采取长期内在奖励与回合制外部奖励的结合方式后,需要考虑具体的价值网络结构。在传统策略优化算法中只包含外部奖励,通常只需要单个critic价值网络处理输入的奖励值信息,而新引入的内在奖励与传统的外部奖励显然具有不同的意义,因此有必要从网络模型基础上将这两种奖励信息区分开来。如果使用独立的价值网络分别处理两类奖励信息,那么需要使用两个独立的神经网络去拟合critic价值网络,参数量和模型复杂度都增加了一倍,会增加训练时间甚至可能带来模型精度上的损失。从尽可能高效但充分考虑两类奖励信息含义的角度出发,本发明使用具有两个输入头的价值网络模型分别处理内在奖励和外部奖励,基于这样的设计可以将不同的折扣因子赋予两类奖励,相当于赋予策略优化算法的价值函数额外的监督信息,凸显出内在奖励信号与外部奖励信息的不同,策略与价值网络结构的变化如图9所示。对奖励信息以及价值网络结构进行上述处理,将策略优化算法的价值网络调整为与内在激励强化学习模型中的价值网络相似的结构,并以差异化融合的方式将外部奖励信号与内在奖励信号相加结合为经验回放池中的总体奖励信号,从而实现了策略优化算法与内在奖励生成模块相结合。内在奖励策略优化算法的整体模型结构与传统行动者评论家算法模型结构类似,同样由共用卷积网络、价值网络和策略网络构成模型的主体部分,三者分别起到提取特征信息、进行状态价值估计和输出智能体动作概率分布的作用。内在奖励策略优化算法模型与传统模型的区别主要有两点:首先,内在奖励策略优化算法模型中的价值网络经过了结构调整,能够适配内在激励强化学习模型既包含外部环境奖励信息又包含内在奖励信号的结构;其次,内在奖励策略优化算法模型中具有额外的内在奖励生成模块,用于从输入状态画面中提取特征计算内在奖励值。对于端到端的内在奖励策略优化智能体,智能体从感知三维场景环境信息到做出行动决策的主要流程如下:输入的三维状态画面首先由共用卷积网络和内在奖励生成模块网络的处理,这一过程主要目的在于感知环境状态信息;随后分别经过价值网络和策略网络的处理,这一过程主要目的在于估计状态价值和输出动作概率分布。其中,策略网络的参数更新代表整个算法模型对应智能体的行动策略的更新,参数的改变由内在奖励值、环境外部奖励值以及价值网络输出的状态价值共同决定。具体的内在奖励策略优化算法有效结合了策略优化算法与内在奖励生成模块,初始化流程类似于内在奖励生成算法,整体流程如图10所示。内在奖励策略优化算法如下:输入:初始化总迭代轮数,策略更新步长,回合步长,衰减因子,时间步。输出:策略网络参数,预测网络参数。1:初始化参数和目标映射网络。2:当时:3:并且时:4:根据行动策略采样当前时间步动作;5:基于动作得到下一状态和外部奖励;6:计算内在奖励值;7:存储智能体信息五元组到经验回放池;8:时间步更新;9:结束循环;10:计算即时奖励值与奖励优势估计值;11:根据归一化环境信息;12:当时:13:根据经验回放样本与奖励优势估计值更新;14:根据经验回放样本更新;15:结束循环;16:结束循环;17:返回。5、使用构建的神经网络与获取到的模拟游戏环境进行交互获取游戏记录;通过视频游戏模拟环境生成游戏图像并输入到神经网络,神经网络产生合法的动作并返回给模拟环境,同时价值网络产生价值,内部奖励生成网络生成内部价值,最后将外部价值与内部价值差异性融合;同时模拟环境根据神经网络产生的动作给出得分以及下一个图像。将以上生成的变量合并为游戏记录。6、使用获取的游戏记录根据相应的强化学习算法更新网络;使用获取的游戏记录根据内在奖励策略优化算法更新神经网络,循环训练神经网络直到收敛。本发明提供的一种基于内在奖励的视频游戏决策方法,有益效果如下:1、实验设置本发明以非完备信息条件下的三维视频游戏vizdoom为研究对象和测试平台,基于该测试平台实现了内在奖励策略优化算法ibpo。1.1、vizdoom场景介绍vizdoom平台是第一人称视角的三维视频游戏,智能体在该平台场景中的行动与真实世界中物体的行动类似,同样是接受视觉信号然后做出行动决策。作为目前较为主流的深度强化学习算法的测试平台,vizdoom平台提供了接口接受动作输入和反馈奖励信号,模拟了强化学习模型中的环境。目前vizdoom平台为训练智能体进行三维环境探索提供了较全面的测试能力,本发明基于该平台的寻路场景进行了实验。寻路场景是vizdoom测试平台中奖励较为稀疏的场景,整个地图由多个不同画面的不透明房间组成,只有某一特定房间内有一固定目标位置,智能体可以在寻路场景中自由移动,由于场景中只有该目标物体处存在奖励反馈,智能体在其余任何位置都不能得到奖励反馈,智能体在寻路场景中的出发位置距离目标位置较远,且途中需经过不同内容的房间。寻路场景如图11所示。1.2、实验开发环境如表1表11.3、现有方法对比(1)dfp:利用了高维感官流和低维测量流在沉浸式环境中进行感觉运动控制。(2)drqn:利用模拟器提供的游戏信息,使用模块化的架构来解决第一人称射击游戏中的三维环境。2、实验结果深度强化学习算法通常以游戏模拟环境输出的得分值作为智能体性能的度量标准,对不同游戏场景而言都略有不同,但都是对深度强化学习奖励值的等价表示形式。在寻路场景中,以平均奖励值和平均行动步数作为评估指标。其中平均奖励值定义如下:训练进行到当前步数时,能够在规定步数内到达目标位置的智能体数目与所有训练智能体的数目之比,表示了智能体的寻路成功率。平均行动步数定义如下:算法收敛后的智能体在寻路场景中进行100次验证性交互的行动步数的平均值,表示了智能体的行动策略稳定性。不同算法训练的智能体在寻路场景中的效果对比如图12所示。坐标纵轴表示强化学习智能体在寻路场景中获得的平均奖励值,坐标横轴表示训练过程中时间步的改变,ibpo算法经过训练最终能达到0.92的平均奖励值,drqn算法和dfp算法经过训练最终能达到0.79和0.86的平均奖励值。平均奖励值越接近于1,表明训练该智能体的算法学习出的行动策略越有效,越有机会到达预期位置。这种结果的主要原因在于寻路场景环境反馈奖励的缺失,而ibpo算法中的内在奖励信号在此类场景中恰好为智能体的行动策略更新提供了辅助,从而弥补了经验回放池中正向奖励值的缺失,因此能够较快地学习探索策略。通过上述对比试验说明了使用ibpo算法在三维视角的寻路场景中能够训练出探索性能较为高效的强化学习智能体。与寻路场景实验相关的平均奖励值和平均行动步数如表格2所示。其中平均奖励值与图12对应,而平均行动步数表现出了不同算法所训练出的智能体在到达目标位置时所需要的不同行动步数,其中ibpo算法以61.8的平均行动步数在三个算法中具有最优的表现,最少的平均行动步数表明ibpo算法在平均情况下能够以更快地寻找到通往目标位置的路径,即具有更稳定的行动策略。表2ibpo算法实验数据对比评估指标ibpodfpdrqn平均奖励值0.920.860.75.7平均行动步数61.869.375.7综合以上分析,内在奖励生成模块所产生的内在奖励值,在训练过程中为智能体的策略更新提供了辅助性的奖励信号,使智能体在稀疏奖励场景中仍然能够学习到有效的探索策略。通过与drqn算法和dfp算法的对比分析,ibpo算法在平均奖励值和平均行动步数两个评估指标上都超越了这两个算法,表现出了更好的综合性能。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属
技术领域
的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。当前第1页1 2 3 
技术特征:

1.一种基于内在奖励的视频游戏决策方法,其特征在于,包括以下步骤:

s1、获取视频游戏模拟环境;

s2、构建神经网络模型;

s3、设计内在奖励模型;

s4、将内在奖励模型与构建的神经网络模型结构结合;

s5、通过模拟环境获取游戏的记录;

s6、通过获取的游戏记录,更新神经网络模型;

s7、循环训练神经网络模型直至收敛。

2.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤s3包括:设计内在奖励生成模块,该内在奖励生成模块定义相同结构的目标映射网络与预测网络,利用目标映射网络和预测网络对输入三维状态画面进行特征抽取与状态映射,分别得到对应的嵌入向量,通过计算两者的相似度来得到内在奖励的数值。

3.根据权利要求2所述的基于内在奖励的视频游戏决策方法,其特征在于:在步骤s3中,目标映射网络与预测网络的定义分别如公式(3-1)和公式(3-2)所示:

目标映射网络定义为状态到目标嵌入向量的映射:

式中,

———目标映射网络;

———状态;

———目标嵌入向量;

预测网络定义为状态到预测嵌入向量的映射:

式中,

———预测网络;

———状态;

———目标嵌入向量。

4.根据权利要求3所述的基于内在奖励的视频游戏决策方法,其特征在于:在步骤s3中,内在奖励生成模块的损失函数定义为:

式中———预测向量;

———目标向量;

———参数正则化项;

———正则项惩罚因子。

5.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤s3包括内在奖励生成算法,该内在奖励生成算法如下:

输入:

随机初始化步长,训练回合终止步长,随机策略,

衰减因子,时间步

输出:

内在奖励值

1):初始化参数;

2):当时,循环执行以下步骤:

3):根据随机策略采样当前时间步动作;

4):基于动作得到下一状态;

5):归一化环境信息;

6):时间步更新;

7):结束循环;

8):当时,循环执行以下步骤:

9):根据智能体行动策略采样当前时间步动作;

10):基于动作得到下一状态;

11):计算内在奖励值;

12):时间步更新;

13):结束循环;

14):返回内部奖励

6.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:在步骤s4中,采用长期内在奖励和回合制外部奖励的结合方式。

7.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤s4包括内在奖励策略优化算法,该内在奖励策略优化算法如下:

输入:

初始化总迭代轮数,策略更新步长,回合步长,

衰减因子,时间步

输出:

策略网络参数,预测网络参数

1):初始化参数和目标映射网络;

2):当时:

3):并且时:

4):根据行动策略采样当前时间步动作;

5):基于动作得到下一状态和外部奖励;

6):计算内在奖励值

7):存储智能体信息五元组到经验回放池;

8):时间步更新;

9):结束循环;

10):计算即时奖励值与奖励优势估计值;

11):根据归一化环境信息;

12):当时:

13):根据经验回放样本与奖励优势估计值更新;

14):根据经验回放样本更新;

15):结束循环;

16):结束循环;

17):返回

8.根据权利要求7所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤s5包括:使用构建的神经网络模型与获取到的模拟游戏环境进行交互获取游戏记录,通过视频游戏模拟环境生成游戏图像并输入到神经网络模型,神经网络模型产生合法的动作并返回给模拟环境,同时价值网络产生价值,内部奖励生成网络生成内部价值,最后将外部价值与内部价值差异性融合;同时模拟环境根据神经网络模型产生的动作给出得分以及下一个图像,将以上生成的变量合并为游戏记录。

9.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤s6包括:使用获取的游戏记录,根据内在奖励策略优化算法更新神经网络模型。

技术总结
本发明提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本发明的有益效果是:较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。

技术研发人员:王轩;漆舒汉;张加佳;曹睿;何志坤;刘洋;蒋琳;廖清;夏文;李化乐
受保护的技术使用者:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
技术研发日:2020.05.06
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-15898.html

最新回复(0)