一种数据处理方法、装置、计算机设备及存储介质与流程

专利2022-06-29  86


本申请涉及数据处理技术领域,具体而言,涉及一种数据处理方法、装置、计算机设备及存储介质。



背景技术:

随着网络技术的发展,网络游戏越来越受到人们的关注,特别是角色扮演类、即时战斗类等网络游戏。不论是哪类游戏,其游戏角色的平衡性是影响游戏寿命的一个关键因素。若一个游戏角色的属性远强于另一个游戏角色的属性(即一个角色过于强大而另一个角色过于弱小),则将导致整个游戏的失衡。

为了解决这一问题,相关技术中提供了一种属性调整的方案,需要测试人员首先根据人为经验在游戏角色的初始属性值的基础上进行属性调整,然后在调整后的属性值所对应的游戏环境中人工测试其游戏平衡性,如果平衡性不佳,则再次调整和测试。

可见,上述属性调整的方法需要采用人工方式对属性进行反复调整,操作流程比较复杂,耗时耗力。



技术实现要素:

有鉴于此,本申请的目的在于提供至少一种数据处理方案,能够利用模型训练结果自动控制角色对战,进而利用对战结果自动调整角色属性,操作简单,省时省力。

主要包括以下几个方面:

第一方面,本申请提供了一种数据处理方法,所述方法包括:

获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到所述参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果;

根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值。

在一种实施方式中,所述根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型,包括:

针对待训练的第一个第一动作模型,根据所述目标虚拟角色对应的游戏状态特征,对所述待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型以及所述目标虚拟角色对应的更新后的游戏状态特征;

针对待训练的下一个第一动作模型,循环执行根据所述目标虚拟角色对应的更新后的游戏状态特征,对待训练的下一个第一动作模型进行预设训练次数的训练,得到训练好的下一个第一动作模型以及所述目标虚拟角色对应的更新后的游戏状态特征的步骤,直至得到多个第一动作模型;其中下一个第一动作模型的战斗策略是在对应的上一个第一动作模型的战斗策略的基础上的优化策略。

在一种实施方式中,所述根据所述目标虚拟角色对应的游戏状态特征,对所述待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型,包括:

针对待训练的第一个第一动作模型,将所述目标虚拟角色对应的游戏状态特征输入至所述待训练的第一个第一动作模型中,确定模型输出的执行动作信息;将所述执行动作信息发送至用户端,并接收所述用户端返回的在所述目标游戏场景中所述目标虚拟角色按照所述执行动作信息执行动作之后,该目标虚拟角色对应的更新后的游戏状态特征;根据所述更新后的游戏状态特征与更新前的所述游戏状态特征之间的比对结果,确定动作奖励值;

将确定的动作奖励值和所述更新后的游戏状态特征再次输入至所述待训练的第一个第一动作模型中,确定模型输出的下一个执行动作信息,循环执行将下一个执行动作信息发送至所述用户端的步骤,直至达到第一个预设训练次数时,得到训练好的第一个第一动作模型。

在一种实施方式中,所述根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型,还包括:

针对训练好的下一个第一动作模型,确定与该下一个第一动作模型对应的目标第二动作模型,所述目标第二动作模型为在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型;

针对所述目标第二动作模型中的每个第二动作模型,控制所述目标虚拟角色按照所述下一个第一动作模型、以及所述参考虚拟角色按照该第二动作模型进行对战,得到所述目标虚拟角色与所述参考虚拟角色之间的一个对战结果;

在确定所述目标虚拟角色与所述参考虚拟角色之间的各个对战结果满足预设对战胜率时,将训练好的下一个第一动作模型确定为训练好的所述多个第一动作模型中的最后一个第一动作模型。

在一种实施方式中,所述控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果,包括:

从所述多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,

控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果;

基于该次对战后的对战结果对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整;

基于调整后的对战分值循环执行从所述多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果的步骤,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

在一种实施方式中,所述控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果,包括:

将所述目标虚拟角色对应的游戏状态特征输入至选取出的一个第一动作模型中,确定模型输出的第一执行动作信息;以及将获取的所述参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,确定模型输出的第二执行动作信息;

在所述目标游戏场景中控制所述目标虚拟角色按照所述第一执行动作信息执行第一动作以及所述参考虚拟角色按照所述第二执行动作信息执行第二动作之后,得到一次对战后的对战结果。

在一种实施方式中,所述根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值,包括:

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,得到第一排名结果;以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,得到第二排名结果;

基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值。

在一种实施方式中,所述基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值,包括:

从所述第一排名结果中选取出得分最高的第一动作模型,以及从所述第二排名结果中选取出得分最高的第二动作模型;

确定选取出的得分最高的第一动作模型以及得分最高的第二动作模型之间的对战分值差;

基于所述对战分值差调整所述目标虚拟角色的技能属性的属性值。

在一种实施方式中,所述基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值,包括:

从所述第一排名结果中选取出排名靠前的预设数量个第一动作模型,以及从所述第二排名结果中选取出排名靠前的预设数量个第二动作模型;

控制所述目标虚拟角色按照所述预设数量个第一动作模型、以及所述参考虚拟角色按照所述预设数量个第二动作模型进行对战,得到多轮对战后的对战结果;

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对预设数量个第一动作模型进行排名,得到最终的第一排名结果;以及按照对战分值由高至低的顺序对预设数量个第二动作模型进行排名,得到最终的第二排名结果;

基于所述最终的第一排名结果和所述最终的第二排名结果,调整所述目标虚拟角色的技能属性的属性值。

在一种实施方式中,所述预设对战截止条件包括以下条件中的一种或多种:

单个第一动作模型的对战次数达到第一预设对战次数;

单个第二动作模型的对战次数达到第二预设对战次数;

总对战次数达到第三预设对战次数。

在一些实施例中,所述多轮对战包含第一轮对战和第二轮对战,所述第一轮对战中所使用的第一动作模型不同于所述第二轮对战中所述使用的第一动作模型,和/或,所述第一轮对战中所使用的第二动作模型不同于所述第二轮对战中所述使用的第二动作模型。

第二方面,本申请还提供了一种数据处理装置,所述装置包括:

特征获取模块,用于获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

模型训练模块,用于根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到所述参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

对战控制模块,用于控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果;

属性调整模块,用于根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值。

第三方面,本申请还提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式中任一所述的数据处理方法的步骤。

第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的数据处理方法的步骤。

采用上述方案,其首先可以基于获取的目标游戏场景中目标虚拟角色对应的游戏状态特征,训练得到战斗策略不同的多个第一动作模型,以及基于与该目标虚拟角色对战的参考虚拟角色的游戏状态特征,训练得到战斗策略不同的多个第二动作模型,然后可以控制目标虚拟角色按照上述多个第一动作模型以及参考虚拟角色按照上述多个第二动作模型进行对战,最后根据多轮对战的对战结果,调整目标虚拟角色的技能属性的属性值。

上述方案基于战斗策略不同的多个第一动作模型的训练可以模拟不同等级玩家对目标虚拟角色的操作行为(如高战斗策略的第一动作模型对应模拟高等级玩家对目标虚拟角色的操作行为),同理,基于战斗策略不同的多个第二动作模型的训练可以模拟不同等级玩家对参考虚拟角色的操作行为,也即,综合考虑了不同等级玩家对游戏角色的掌握程度,进而,利用训练得到的多个第一动作模型和多个第二动作模型可以自动控制不同等级玩家的多轮角色对战以实现角色属性的自动调整,避免了人工调整所存在的操作流程比较复杂,耗时耗力的问题,操作简单,省时省力。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种数据处理方法的流程图;

图2示出了本申请实施例一所提供的数据处理方法中,训练多个第一动作模型的具体示例的示意图;

图3示出了本申请实施例一所提供的数据处理方法中,确定最后一个第一动作模型的具体示例的示意图;

图4示出了本申请实施例一所提供的数据处理方法中,确定对战结果的具体示例的示意图;

图5示出了本申请实施例一所提供的数据处理方法中,调整属性值的一个具体示例的示意图;

图6示出了本申请实施例一所提供的数据处理方法中,调整属性值的另一个具体示例的示意图;

图7示出了本申请实施例一所提供的数据处理方法中,调整属性值的又一个具体示例的示意图;

图8示出了本申请实施例二所提供的一种数据处理装置的示意图;

图9示出了本申请实施例三所提供的一种计算机设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

在相关技术中,需要测试人员首先根据人为经验在游戏角色的初始属性值的基础上进行属性调整,然后在调整后的属性值所对应的游戏环境中人工测试其游戏平衡性,如果平衡性不佳,则再次调整和测试,操作流程比较复杂,耗时耗力。

基于上述研究,本申请提供了至少一种数据处理方案,能够利用模型训练结果自动控制角色对战,进而利用对战结果自动调整角色属性,操作简单,省时省力。

针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都属于发明人在本申请过程中对本申请做出的贡献性内容。

下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

为了便于理解本申请所提供的数据处理方法、装置、计算机设备及存储介质,接下来通过几个实施例进行具体描述。

实施例一

参见图1所示的本申请实施例一提供的一种数据处理方法的流程图,该方法的执行主体可以是游戏服务器,上述数据处理方法具体通过如下s101~s105的步骤进行实现:

s101、获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

s102、根据目标虚拟角色对应的游戏状态特征,训练得到目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

s103、控制目标虚拟角色按照第一动作模型、以及参考虚拟角色按照第二动作模型进行对战,得到多轮对战后的对战结果;

s104、根据对战结果,调整目标虚拟角色的技能属性的属性值。

这里,可以基于控制目标虚拟角色和参考虚拟角色按照训练得到的第一动作模型中和第二动作模型进行对战的对战结果,来调整目标虚拟角色的技能属性的属性值。

本申请实施例可以通过对战结果确定第一动作模型和第二动作模型之间的对战分值差,以根据对战分值差来调整目标虚拟角色的技能属性的属性值。这主要是考虑到对战分值差直接反映了目标虚拟角色与参考虚拟角色在游戏对战中的能力强弱差异,在目标虚拟角色在游戏对战中的能力更强时,可以通过降低目标虚拟角色的技能属性的属性值来实现目标虚拟角色与参考虚拟角色在游戏对战中的平衡性,同理,在目标虚拟角色在游戏对战中的能力较弱时,可以通过提升目标虚拟角色的技能属性的属性值来实现目标虚拟角色与参考虚拟角色在游戏对战中的平衡。

为了兼顾不同等级玩家的能力强弱差异对游戏对战中的平衡影响,本申请实施例中的对战结果可以基于训练得到的战斗策略不同的多个第一动作模型和战斗策略不同的多个第二动作模型实现多轮对战来得到,这里,战斗策略不同的多个第一动作模型可以表征不同等级玩家对目标虚拟角色的操作行为,战斗策略不同的多个第二动作模型可以表征不同等级玩家对参考虚拟角色的操作行为。

其中,本申请实施例中的多轮对战包含第一轮对战和第二轮对战,第一轮对战中所使用的第一动作模型不同于第二轮对战中使用的第一动作模型,和/或,第一轮对战中所使用的第二动作模型不同于第二轮对战中使用的第二动作模型。有关第一轮对战和第二轮对战不限定对战顺序,仅表示两轮不同的对战。

也即,每轮对战均可以从多个第一动作模型中选取一个第一动作模型以及从多个第二动作模型中选取一个第二动作模型。不同轮对战中,选取的第一动作模型不同,或者,选取的第二动作模型不同,或者,选取的第一动作模型和第二动作模型均不同。这样,经过多轮对战之后,可以将目标虚拟角色的各等级玩家以及参考虚拟角色的各等级玩家的能力强弱差异体现于对战结果中,从而提升上述平衡调整方案在各种应用场景中的适用性。

其中,上述有关多个第一动作模型的训练过程可以是顺序得到的,也即,可以先由目标虚拟角色对应的游戏状态特征,训练得到第一个第一动作模型以及更新后的游戏状态特征,而后,可以基于更新后的游戏状态特征,训练得到第二个第一动作模型以及更新后的游戏状态特征,以此类推,直至得到多个第一动作模型。由于在进行各个第一动作模型的训练过程中,综合考虑了输出动作及其动作奖励值对游戏状态特征的影响,也即,随着各个第一动作模型的依次训练,其模型输出动作与实际动作越来越接近,从而使得战斗策略越来越优化。

同理,有关多个第二动作模型的训练过程也可以是顺序得到的,具体训练过程与上述多个第一动作模型的过程类似,在此不再赘述。

值得说明的是,针对多个第一动作模型中的每个第一动作模型进行训练的过程中,也可以进行游戏状态特征的更新,针对多个第二动作模型中的每个第二动作模型进行训练的过程中,也可以进行游戏状态特征的更新。

其中,上述目标虚拟角色对应的游戏状态特征可以从与服务端(即游戏服务器)连接的一个用户端获取,上述参考虚拟角色对应的游戏状态特征可以从与服务端连接的另一个用户端获取,也即,本申请实施例在进行第一动作模型和第二动作模型训练的过程中,可以存在有服务端与用户端的交互过程。在一次交互过程中,可以通过服务端动作模型的输出动作来指导用户端目标游戏场景中的虚拟角色执行相应的动作,而后虚拟角色对应的游戏状态特征产生更新,服务端可以接收更新后的游戏状态特征,并可以基于更新后的游戏状态特征进行下一次或下一个的模型训练。

上述目标虚拟角色对应的游戏状态特征可以是目标虚拟角色的属性特征,如自身的位置、所属阵营等特征,还可以是目标虚拟角色与参考虚拟角色对战后的特征,如血量、弹药、击杀数、受到攻击的方向等特征,还可以是其它与目标虚拟角色的游戏状态相关的特征。同理,上述参考虚拟角色对应的游戏状态特征可以是参考虚拟角色的属性特征,还可以是参考虚拟角色与目标虚拟角色对战后的特征,具体参照上述描述,在此不再赘述。也即,在训练第一动作模型和第二动作模型的过程中,目标虚拟角色对应的游戏状态特征与参考虚拟角色对应的游戏状态特征可以是相互影响的。

上述多个第一动作模型和多个第二动作模型的训练过程是实现属性调整的关键步骤,考虑到多个第一动作模型和多个第二动作模型的训练过程类似,接下来结合图2以多个第一动作模型的训练过程为示例进行具体说明。

如图2所示,本申请实施例提供的多个第一动作模型的训练过程具体包括如下步骤:

s201、针对待训练的第一个第一动作模型,根据目标虚拟角色对应的游戏状态特征,对待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征;

s202、针对待训练的下一个第一动作模型,循环执行根据目标虚拟角色对应的更新后的游戏状态特征,对待训练的下一个第一动作模型进行预设训练次数的训练,得到训练好的下一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征的步骤,直至得到多个第一动作模型;其中下一个第一动作模型的战斗策略是在对应的上一个第一动作模型的战斗策略的基础上的优化策略。

这里,针对待训练的第一个第一动作模型,可以按照如下步骤训练得到训练好的第一个第一动作模型:

步骤一、针对待训练的第一个第一动作模型,将目标虚拟角色对应的游戏状态特征输入至待训练的第一个第一动作模型中,确定模型输出的执行动作信息;将执行动作信息发送至用户端,并接收用户端返回的在目标游戏场景中目标虚拟角色按照执行动作信息执行动作之后,该目标虚拟角色对应的更新后的游戏状态特征;根据更新后的游戏状态特征与更新前的游戏状态特征之间的比对结果,确定动作奖励值;

步骤二、将确定的动作奖励值和更新后的游戏状态特征再次输入至待训练的第一个第一动作模型中,确定模型输出的下一个执行动作信息,循环执行将下一个执行动作信息发送至用户端的步骤,直至达到第一个预设训练次数时,得到训练好的第一个第一动作模型。

也即,本申请中的服务端可以将目标虚拟角色对应的游戏状态特征输入至待训练的第一个第一动作模型中,此时可以确定模型输出的执行动作信息,基于服务端与用户端之间的交互关系,服务端将该执行动作信息发送至与目标虚拟角色对应的用户端,以使用户端呈现的目标游戏场景中目标虚拟角色按照执行动作信息执行动作,此时目标游戏场中有关目标虚拟角色的游戏状态特征得以更新,而后服务端可以接收目标虚拟角色对应的更新后的游戏状态特征。

在服务端接收到更新后的游戏状态特征之后,可以同步将目标虚拟角色在目标游戏场景中执行上述动作获取的动作奖励值反馈至待训练的第一个第一动作模型中,这样,便可以得到模型输出的下一个执行动作信息,将该下一个执行动作信息发送至用户端之后,可以再次对游戏状态特征进行更新,也可以确定此次动作执行所对应的动作奖励值以指导下下一次执行动作信息的输出,依次类推,直至训练得到上述第一个第一动作模型。

这里,通过动作奖励值的反馈,可以确保待训练的第一个第一动作模型输出的动作越来越趋向于动作奖励值越高的动作,也即,越来越能够学习得到正确的游戏行为。例如,有关动作奖励值可以是自己杀伤一个敌人奖励值为1,自己受伤奖励值为-1,这时,训练好的第一动作模型更倾向于执行杀伤敌人的动作;再如,有关动作奖励值可以是自己杀伤一个敌人奖励值为0.1,自己受伤奖励值为1,这时,训练好的第一动作模型更倾向于执行保护自己的动作。

有关上述第一个第一动作模型的预设训练次数,本申请实施例可以基于不同应用场景的需求来设置,如针对复杂度比较高的游戏环境,这里,可以选取更大的预设训练次数,本申请实施例对此不做具体的限制。

在训练得到第一个第一动作模型之后,可以基于目标虚拟角色对应的更新后的游戏状态特征进行下一个第一动作模型的训练,与训练第一个第一动作模型类似的是,这里,也需要基于服务端与用户端之间的交互关系,接收用户端发送的更新后的游戏状态特征,而后基于动作奖励值来指导模型输出的动作,具体训练过程参见上述描述,在此不再赘述。

值得说明的是,随着第一动作模型的不断学习,其战斗策略越来越好,也即,不同战斗策略的多个第一动作模型的训练,可以模拟不同等级玩家对目标虚拟角色的操作水平,随着战斗策略的升级,对应的玩家等级也可以越来越高。

与上述有关训练多个第一动作模型类似的是,本申请实施例可以按序训练多个第二动作模型,也即,可以先训练第一个第二动作模型,在训练得到第一个第二动作模型之后,可以按序训练第二个第二动作模型、第三个第二动作模型等第二动作模型。随着第二动作模型的不断学习,其战斗策略也越来越好,也即,不同战斗策略的多个第二动作模型的训练,可以模拟不同等级玩家对参考虚拟角色的操作水平,随着战斗策略的升级,对应的玩家等级也可以越来越高。

有关第二动作模型的训练过程与上述有关第一动作模型的训练过程类似,详见上述描述内容,在此不再赘述。

随着动作模型的训练,其战斗策略随之优化。为了兼顾动作模型训练的计算量以及动作模型训练的优化程度,本申请实施例提供的数据处理方法需要限定模型训练的个数。以第一动作模型的训练进行示例说明,如图3所示,可以按照如下步骤确定最后一个第一动作模型。

s301、针对训练好的下一个第一动作模型,确定与该下一个第一动作模型对应的目标第二动作模型,目标第二动作模型为在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型;

s302、针对目标第二动作模型中的每个第二动作模型,控制目标虚拟角色按照下一个第一动作模型、以及参考虚拟角色按照该第二动作模型进行对战,得到目标虚拟角色与参考虚拟角色之间的一个对战结果;

s303、在确定目标虚拟角色与参考虚拟角色之间的各个对战结果满足预设对战胜率时,将训练好的下一个第一动作模型确定为训练好的多个第一动作模型中的最后一个第一动作模型。

这里,针对训练好的下一个第一动作模型,可以将在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型,确定为与该下一个第一动作模型对应的目标第二动作模型,这样,可以控制目标虚拟角色按照下一个第一动作模型、以及参考虚拟角色按照目标第二动作模型中的每个第二动作模型进行对战,得到目标虚拟角色与参考虚拟角色之间的各个对战结果。

这时,可以确定目标虚拟角色与参考虚拟角色之间的各个对战结果是否满足预设对战胜率,如存在4个目标第二动作模型进行4次对战后,目标虚拟角色胜利3次、失败1次,若预设对战胜率为0.7,此时的对战胜率大于0.7,则可以将训练好的下一个第一动作模型确定为训练好的多个第一动作模型中的最后一个第一动作模型。

值得提出的是,本申请实施例在确定最后一个第一动作模型时,不仅可以基于对战胜率来选取,还可以基于其它统计参数(如技能释放成功率)来确定,在此不做赘述。

本申请实施例提供的数据处理方法确定最后一个第二动作模型的步骤与上述过程类似,同理,需要选取目标第一动作模型,以及根据对战结果与预设对战胜率之间的比较结果来确定,具体确定过程参见上述内容,在此不再赘述。

本申请实施例可以基于多轮对战后的对战结果来调整目标虚拟角色的技能属性的属性值,接下来首先对上述多轮对战的过程的进行详细说明。

如图4所示,上述多轮对战的过程具体包括如下步骤:

s401、从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;

s402、控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果;

s403、基于该次对战后的对战结果对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整;

s404、基于调整后的对战分值循环执行从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果的步骤,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

这里,可以首先从多个第一动作模型和多个第二动作模型中分别选取出一个第一动作模型和一个第二动作模型,而后控制目标虚拟角色和参考虚拟角色按照选取出的第一动作模型和第二动作模型进行对战,然后基于该次对战得到的对战结果可以对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整,如本次对战目标虚拟角色战胜了参考虚拟角色,这时,可以提升选取出的第一动作模型的对战分值,在对对战分值进行调整之后,可以再次选取一对动作模型进行对战,通过该次对战的对战结果可以对动作模型的对战分值再次进行调整,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

其中,再次选取一对动作模型进行对战的过程中,为了尽可能的目标虚拟角色与参考虚拟角色之间的平衡性,可以选取对战分值相差不大的两个动作模型进行对战。

本申请实施例中,不管是首次对战,还是再次对战,均可以按照如下步骤实现对战的具体过程。

步骤一、将目标虚拟角色对应的游戏状态特征输入至选取出的一个第一动作模型中,确定模型输出的第一执行动作信息;以及将获取的参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,确定模型输出的第二执行动作信息;

步骤二、在目标游戏场景中控制目标虚拟角色按照第一执行动作信息执行第一动作以及参考虚拟角色按照第二执行动作信息执行第二动作之后,得到一次对战后的对战结果。

这里,服务端可以将目标虚拟角色对应的游戏状态特征输出至选取出的一个第一动作模型中,即可以得到模型输出的第一执行动作信息,同理,可以将参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,得到模型输出的第二执行动作信息。

将上述第一动作模型输出的第一执行动作信息以及上述第二动作模型输出的第二执行动作信息同步发送至与目标虚拟角色对应的用户端以及与参考虚拟角色对应的用户端之后,两个用户端在各自的目标游戏场景中自己的虚拟角色可以按照执行动作信息执行动作,从而可以得到一次对战后的对战结果。

值得说明的是,一次对战可以与一局游戏相对应,在一局游戏中,有关目标虚拟角色的第一执行动作信息有多个,也即,目标虚拟角色在一局游戏中,需要依次执行多个第一执行动作信息,例如首个第一执行动作信息可以是基于目标虚拟角色对应的游戏状态特征输入选取出的第一动作模型后,输出得到的,将首个第一执行动作信息作用于用户端呈现的目标游戏场景中,可以得到更新后的游戏状态特征,这样,将更新后的游戏状态特征再次输入选取出的第一动作模型,即可得到下一个第一执行动作信息,依次循环。同理,有关参考虚拟角色的第二执行动作信息有多个,具体确定过程在此不再赘述。

本申请实施例中,上述预设对战截止条件可以是单个第一动作模型的对战次数达到第一预设对战次数,也可以是单个第二动作模型的对战次数达到第二预设对战次数,也可以是总对战次数达到第三预设对战次数,也可以是其它对战截止条件。这里,有关第一预设对战次数、第二预设对战次数以及第三预设对战次数的设置可以与动作模型的数量呈正比,也即,动作模型的数量越多,模型的对战次数可以允许的更大些,以增大被选取出的动作模型在整个动作模型集合(即由多个第一动作模型和多个第二动作模型)中的占比,在降低计算复杂度的同时,确保对战结果的准确度。

本申请实施例可以根据多轮对战后的对战结果得到的排名结果,来调整角色属性值,如图5所示,上述角色属性值的调整方法具体包括如下步骤;

s501、基于多轮对战后的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,得到第一排名结果;以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,得到第二排名结果;

s502、基于第一排名结果和第二排名结果,调整目标虚拟角色的技能属性的属性值。

这里,可以首先基于多轮对战的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,然后基于对多个第一动作模型进行排名得到的第一排名结果以及对多个第二动作模型进行排名得到的第二排名结果进行目标虚拟角色的技能属性的属性值的调整。

其中,上述目标虚拟角色的技能属性可以是物理攻击这一属性,也可以是法力攻击这一属性,还可以是其它与目标虚拟角色的技能相关的属性。

本申请实施例提供的数据处理方法可以按照如下两种方式调整角色属性值。

第一方面:如图6所示,本申请实施例可以按照如下步骤对角色属性值进行调整:

s601、从第一排名结果中选取出得分最高的第一动作模型,以及从第二排名结果中选取出得分最高的第二动作模型;

s602、确定选取出的得分最高的第一动作模型以及得分最高的第二动作模型之间的对战分值差;

s603、基于对战分值差调整目标虚拟角色的技能属性的属性值。

这里,可以基于第一排名结果,从各个第一动作模型中选取出得分最高的第一动作模型,以及基于第二排名结果,从各个第二动作模型中选取出得分最高的第二动作模型,然后,通过得分最高的第一动作模型与得分最高的第二动作模型之间的对战分值差来调整角色属性值,这里,角色属性值的调整力度与对战分值差可以成正比。

第二方面:如图7所示,本申请实施例可以按照如下步骤对角色属性值进行调整:

s701、从第一排名结果中选取出排名靠前的预设数量个第一动作模型,以及从第二排名结果中选取出排名靠前的预设数量个第二动作模型;

s702、控制目标虚拟角色按照预设数量个第一动作模型、以及参考虚拟角色按照预设数量个第二动作模型进行对战,得到多轮对战后的对战结果;

s703、基于多轮对战后的对战结果,按照对战分值由高至低的顺序对预设数量个第一动作模型进行排名,得到最终的第一排名结果;以及按照对战分值由高至低的顺序对预设数量个第二动作模型进行排名,得到最终的第二排名结果;

s704、基于最终的第一排名结果和最终的第二排名结果,调整目标虚拟角色的技能属性的属性值。

这里,本申请实施例可以基于第一排名结果和第二排名结果,选取排名靠前的预设数量个第一动作模型,以及从第二排名结果中选取出排名靠前的预设数量个第二动作模型,然后重置选取出的预设数量个第一动作模型和预设数量个第二动作模型的对战分值,并按照与上述对战控制过程类似的方法控制目标虚拟角色和参考虚拟角色按照预设数量个第一动作模型和预设数量个第二动作模型进行对战,这时,可以再次按照对战分值由高至低的顺序对预设数量个第一动作模型以及预设数量个第二动作模型进行排名,得到最终的第一排名结果和最终的第二排名结果。基于最终的第一排名结果和最终的第二排名结果,可以调整角色属性值。

其中,上述对战分值重置过程可以有一次也可以有多次,在进行一次重置之后,可以基于最终的第一排名结果中得分最高的第一动作模型以及最终的第二排名结果中得分最高的第二动作模型之间的对战分值差来调整角色属性值;在进行多次重置之后,每次重置均可以得到一组最终的第一排名结果和最终的第二排名结果,可以将多次重置得到的多个最终的第一排名结果求取第一平均排名结果,以及多次重置得到的多个最终的第二排名结果求取第二平均排名结果,可以基于第一平均排名结果中得分最高的第一动作模型以及第二平均排名结果中得分最高的第二动作模型之间的对战分值差来调整角色属性值。

本申请实施例中,有关目标虚拟角色对战的参考虚拟角色可以为各种类型的虚拟角色,可以按照不同游戏应用的需求选取各种类似的虚拟角色来调整目标虚拟角色的技能属性的属性值。考虑到不同类型的虚拟角色之间可能存在相互的克制操作,这时在进行目标虚拟角色属性值的调整时,可以综合考虑各种类型的参考虚拟角色所对应的对战分值差来调整,以提升本申请实施例提供的数据处理方法的适用性。

实施例二

基于同一发明构思,本申请实施例三还提供了与上述实施例提供的数据处理方法对应的装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参照图8所示,为本申请实施例二提供的一种数据处理装置的示意图,该装置包括:

特征获取模块801,用于获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

模型训练模块802,用于根据目标虚拟角色对应的游戏状态特征,训练得到目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

对战控制模块803,用于控制目标虚拟角色按照第一动作模型、以及参考虚拟角色按照第二动作模型进行对战,得到多轮对战后的对战结果;

属性调整模块804,用于根据对战结果,调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,模型训练模块802用于按照如下步骤训练得到目标虚拟角色的多个第一动作模型:

针对待训练的第一个第一动作模型,根据目标虚拟角色对应的游戏状态特征,对待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征;

针对待训练的下一个第一动作模型,循环执行根据目标虚拟角色对应的更新后的游戏状态特征,对待训练的下一个第一动作模型进行预设训练次数的训练,得到训练好的下一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征的步骤,直至得到多个第一动作模型;其中下一个第一动作模型的战斗策略是在对应的上一个第一动作模型的战斗策略的基础上的优化策略。

在一种实施方式中,模型训练模块802用于按照如下步骤得到训练好的第一个第一动作模型:

针对待训练的第一个第一动作模型,将目标虚拟角色对应的游戏状态特征输入至待训练的第一个第一动作模型中,确定模型输出的执行动作信息;将执行动作信息发送至用户端,并接收用户端返回的在目标游戏场景中目标虚拟角色按照执行动作信息执行动作之后,该目标虚拟角色对应的更新后的游戏状态特征;根据更新后的游戏状态特征与更新前的游戏状态特征之间的比对结果,确定动作奖励值;

将确定的动作奖励值和更新后的游戏状态特征再次输入至待训练的第一个第一动作模型中,确定模型输出的下一个执行动作信息,循环执行将下一个执行动作信息发送至用户端的步骤,直至达到第一个预设训练次数时,得到训练好的第一个第一动作模型。

在一种实施方式中,模型训练模块802还用于按照如下步骤训练得到目标虚拟角色的多个第一动作模型:

针对训练好的下一个第一动作模型,确定与该下一个第一动作模型对应的目标第二动作模型,目标第二动作模型为在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型;

针对目标第二动作模型中的每个第二动作模型,控制目标虚拟角色按照下一个第一动作模型、以及参考虚拟角色按照该第二动作模型进行对战,得到目标虚拟角色与参考虚拟角色之间的一个对战结果;

在确定目标虚拟角色与参考虚拟角色之间的各个对战结果满足预设对战胜率时,将训练好的下一个第一动作模型确定为训练好的多个第一动作模型中的最后一个第一动作模型。

在一种实施方式中,对战控制模块803用于按照如下步骤得到多轮对战后的对战结果:

从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,

控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果;

基于该次对战后的对战结果对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整;

基于调整后的对战分值循环执行从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果的步骤,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

在一种实施方式中,对战控制模块803用于按照如下步骤得到一次对战后的对战结果:

将目标虚拟角色对应的游戏状态特征输入至选取出的一个第一动作模型中,确定模型输出的第一执行动作信息;以及将获取的参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,确定模型输出的第二执行动作信息;

在目标游戏场景中控制目标虚拟角色按照第一执行动作信息执行第一动作以及参考虚拟角色按照第二执行动作信息执行第二动作之后,得到一次对战后的对战结果。

在一种实施方式中,属性调整模块804用于按照如下步骤调整目标虚拟角色的技能属性的属性值:

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,得到第一排名结果;以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,得到第二排名结果;

基于第一排名结果和第二排名结果,调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,属性调整模块804用于按照如下步骤调整目标虚拟角色的技能属性的属性值:

从第一排名结果中选取出得分最高的第一动作模型,以及从第二排名结果中选取出得分最高的第二动作模型;

确定选取出的得分最高的第一动作模型以及得分最高的第二动作模型之间的对战分值差;

基于对战分值差调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,属性调整模块804用于按照如下步骤调整目标虚拟角色的技能属性的属性值:

从第一排名结果中选取出排名靠前的预设数量个第一动作模型,以及从第二排名结果中选取出排名靠前的预设数量个第二动作模型;

控制目标虚拟角色按照预设数量个第一动作模型、以及参考虚拟角色按照预设数量个第二动作模型进行对战,得到多轮对战后的对战结果;

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对预设数量个第一动作模型进行排名,得到最终的第一排名结果;以及按照对战分值由高至低的顺序对预设数量个第二动作模型进行排名,得到最终的第二排名结果;

基于最终的第一排名结果和最终的第二排名结果,调整目标虚拟角色的技能属性的属性值。

在一些实施例中,预设对战截止条件包括以下条件中的一种或多种:

单个第一动作模型的对战次数达到第一预设对战次数;

单个第二动作模型的对战次数达到第二预设对战次数;

总对战次数达到第三预设对战次数。

在一些实施例中,多轮对战包含第一轮对战和第二轮对战,第一轮对战中所使用的第一动作模型不同于第二轮对战中使用的第一动作模型,和/或,第一轮对战中所使用的第二动作模型不同于第二轮对战中使用的第二动作模型。

实施例三

本申请实施例三提供了一种计算机设备,如图9所示,为本申请实施例提供的计算机设备的结构示意图,包括:处理器901、存储器902和总线903。存储器902存储有处理器901可执行的机器可读指令(比如,图8中的数据处理装置中特征获取模块801、模型训练模块802、对战控制模块803以及属性调整模块804对应的执行指令等),当计算机设备运行时,处理器901与存储器902之间通过总线903通信,机器可读指令被处理器901执行时执行以下指令:

获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

根据目标虚拟角色对应的游戏状态特征,训练得到目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

控制目标虚拟角色按照第一动作模型、以及参考虚拟角色按照第二动作模型进行对战,得到多轮对战后的对战结果;

根据对战结果,调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,上述处理器901执行的指令中,根据目标虚拟角色对应的游戏状态特征,训练得到目标虚拟角色的多个第一动作模型,包括:

针对待训练的第一个第一动作模型,根据目标虚拟角色对应的游戏状态特征,对待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征;

针对待训练的下一个第一动作模型,循环执行根据目标虚拟角色对应的更新后的游戏状态特征,对待训练的下一个第一动作模型进行预设训练次数的训练,得到训练好的下一个第一动作模型以及目标虚拟角色对应的更新后的游戏状态特征的步骤,直至得到多个第一动作模型;其中下一个第一动作模型的战斗策略是在对应的上一个第一动作模型的战斗策略的基础上的优化策略。

在一种实施方式中,上述处理器901执行的指令中,根据目标虚拟角色对应的游戏状态特征,对待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型,包括:

针对待训练的第一个第一动作模型,将目标虚拟角色对应的游戏状态特征输入至待训练的第一个第一动作模型中,确定模型输出的执行动作信息;将执行动作信息发送至用户端,并接收用户端返回的在目标游戏场景中目标虚拟角色按照执行动作信息执行动作之后,该目标虚拟角色对应的更新后的游戏状态特征;根据更新后的游戏状态特征与更新前的游戏状态特征之间的比对结果,确定动作奖励值;

将确定的动作奖励值和更新后的游戏状态特征再次输入至待训练的第一个第一动作模型中,确定模型输出的下一个执行动作信息,循环执行将下一个执行动作信息发送至用户端的步骤,直至达到第一个预设训练次数时,得到训练好的第一个第一动作模型。

在一种实施方式中,上述处理器901执行的指令中,根据目标虚拟角色对应的游戏状态特征,训练得到目标虚拟角色的多个第一动作模型,还包括:

针对训练好的下一个第一动作模型,确定与该下一个第一动作模型对应的目标第二动作模型,目标第二动作模型为在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型;

针对目标第二动作模型中的每个第二动作模型,控制目标虚拟角色按照下一个第一动作模型、以及参考虚拟角色按照该第二动作模型进行对战,得到目标虚拟角色与参考虚拟角色之间的一个对战结果;

在确定目标虚拟角色与参考虚拟角色之间的各个对战结果满足预设对战胜率时,将训练好的下一个第一动作模型确定为训练好的多个第一动作模型中的最后一个第一动作模型。

在一种实施方式中,上述处理器901执行的指令中,控制目标虚拟角色按照第一动作模型、以及参考虚拟角色按照第二动作模型进行对战,得到多轮对战后的对战结果,包括:

从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,

控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果;

基于该次对战后的对战结果对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整;

基于调整后的对战分值循环执行从多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果的步骤,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

在一种实施方式中,上述处理器901执行的指令中,控制目标虚拟角色按照选取出的一个第一动作模型、以及参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果,包括:

将目标虚拟角色对应的游戏状态特征输入至选取出的一个第一动作模型中,确定模型输出的第一执行动作信息;以及将获取的参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,确定模型输出的第二执行动作信息;

在目标游戏场景中控制目标虚拟角色按照第一执行动作信息执行第一动作以及参考虚拟角色按照第二执行动作信息执行第二动作之后,得到一次对战后的对战结果。

在一种实施方式中,上述处理器901执行的指令中,根据对战结果,调整目标虚拟角色的技能属性的属性值,包括:

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,得到第一排名结果;以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,得到第二排名结果;

基于第一排名结果和第二排名结果,调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,上述处理器901执行的指令中,基于第一排名结果和第二排名结果,调整目标虚拟角色的技能属性的属性值,包括:

从第一排名结果中选取出得分最高的第一动作模型,以及从第二排名结果中选取出得分最高的第二动作模型;

确定选取出的得分最高的第一动作模型以及得分最高的第二动作模型之间的对战分值差;

基于对战分值差调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,上述处理器901执行的指令中,基于第一排名结果和第二排名结果,调整目标虚拟角色的技能属性的属性值,包括:

从第一排名结果中选取出排名靠前的预设数量个第一动作模型,以及从第二排名结果中选取出排名靠前的预设数量个第二动作模型;

控制目标虚拟角色按照预设数量个第一动作模型、以及参考虚拟角色按照预设数量个第二动作模型进行对战,得到多轮对战后的对战结果;

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对预设数量个第一动作模型进行排名,得到最终的第一排名结果;以及按照对战分值由高至低的顺序对预设数量个第二动作模型进行排名,得到最终的第二排名结果;

基于最终的第一排名结果和最终的第二排名结果,调整目标虚拟角色的技能属性的属性值。

在一种实施方式中,预设对战截止条件包括以下条件中的一种或多种:

单个第一动作模型的对战次数达到第一预设对战次数;

单个第二动作模型的对战次数达到第二预设对战次数;

总对战次数达到第三预设对战次数。

在一些实施例中,多轮对战包含第一轮对战和第二轮对战,第一轮对战中所使用的第一动作模型不同于第二轮对战中使用的第一动作模型,和/或,第一轮对战中所使用的第二动作模型不同于第二轮对战中使用的第二动作模型。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器901运行时执行上述数据处理方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使响应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。


技术特征:

1.一种数据处理方法,其特征在于,所述方法包括:

获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到所述参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果;

根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值。

2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型,包括:

针对待训练的第一个第一动作模型,根据所述目标虚拟角色对应的游戏状态特征,对所述待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型以及所述目标虚拟角色对应的更新后的游戏状态特征;

针对待训练的下一个第一动作模型,循环执行根据所述目标虚拟角色对应的更新后的游戏状态特征,对待训练的下一个第一动作模型进行预设训练次数的训练,得到训练好的下一个第一动作模型以及所述目标虚拟角色对应的更新后的游戏状态特征的步骤,直至得到多个第一动作模型;其中下一个第一动作模型的战斗策略是在对应的上一个第一动作模型的战斗策略的基础上的优化策略。

3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述目标虚拟角色对应的游戏状态特征,对所述待训练的第一个第一动作模型进行预设训练次数的训练,得到训练好的第一个第一动作模型,包括:

针对待训练的第一个第一动作模型,将所述目标虚拟角色对应的游戏状态特征输入至所述待训练的第一个第一动作模型中,确定模型输出的执行动作信息;将所述执行动作信息发送至用户端,并接收所述用户端返回的在所述目标游戏场景中所述目标虚拟角色按照所述执行动作信息执行动作之后,该目标虚拟角色对应的更新后的游戏状态特征;根据所述更新后的游戏状态特征与更新前的所述游戏状态特征之间的比对结果,确定动作奖励值;

将确定的动作奖励值和所述更新后的游戏状态特征再次输入至所述待训练的第一个第一动作模型中,确定模型输出的下一个执行动作信息,循环执行将下一个执行动作信息发送至所述用户端的步骤,直至达到第一个预设训练次数时,得到训练好的第一个第一动作模型。

4.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型,还包括:

针对训练好的下一个第一动作模型,确定与该下一个第一动作模型对应的目标第二动作模型,所述目标第二动作模型为在训练得到该下一个第一动作模型对应的第二动作模型之前、训练好的至少一个第二动作模型;

针对所述目标第二动作模型中的每个第二动作模型,控制所述目标虚拟角色按照所述下一个第一动作模型、以及所述参考虚拟角色按照该第二动作模型进行对战,得到所述目标虚拟角色与所述参考虚拟角色之间的一个对战结果;

在确定所述目标虚拟角色与所述参考虚拟角色之间的各个对战结果满足预设对战胜率时,将训练好的下一个第一动作模型确定为训练好的所述多个第一动作模型中的最后一个第一动作模型。

5.根据权利要求1所述的数据处理方法,其特征在于,所述控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果,包括:

从所述多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,

控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果;

基于该次对战后的对战结果对选取出的一个第一动作模型或选取出的一个第二动作模型的对战分值进行调整;

基于调整后的对战分值循环执行从所述多个第一动作模型中选取出一个第一动作模型,以及从多个第二动作模型中选取出一个第二动作模型;以及,控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果的步骤,直至达到预设对战截止条件时,得到多轮对战后的对战结果。

6.根据权利要求5所述的数据处理方法,其特征在于,所述控制所述目标虚拟角色按照选取出的一个第一动作模型、以及所述参考虚拟角色按照选取出的一个第二动作模型进行对战,得到一次对战后的对战结果,包括:

将所述目标虚拟角色对应的游戏状态特征输入至选取出的一个第一动作模型中,确定模型输出的第一执行动作信息;以及将获取的所述参考虚拟角色对应的游戏状态特征输入至选取出的一个第二动作模型中,确定模型输出的第二执行动作信息;

在所述目标游戏场景中控制所述目标虚拟角色按照所述第一执行动作信息执行第一动作以及所述参考虚拟角色按照所述第二执行动作信息执行第二动作之后,得到一次对战后的对战结果。

7.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值,包括:

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对多个第一动作模型进行排名,得到第一排名结果;以及按照对战分值由高至低的顺序对多个第二动作模型进行排名,得到第二排名结果;

基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值。

8.根据权利要求7所述的数据处理方法,其特征在于,所述基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值,包括:

从所述第一排名结果中选取出得分最高的第一动作模型,以及从所述第二排名结果中选取出得分最高的第二动作模型;

确定选取出的得分最高的第一动作模型以及得分最高的第二动作模型之间的对战分值差;

基于所述对战分值差调整所述目标虚拟角色的技能属性的属性值。

9.根据权利要求7所述的数据处理方法,其特征在于,所述基于所述第一排名结果和所述第二排名结果,调整所述目标虚拟角色的技能属性的属性值,包括:

从所述第一排名结果中选取出排名靠前的预设数量个第一动作模型,以及从所述第二排名结果中选取出排名靠前的预设数量个第二动作模型;

控制所述目标虚拟角色按照所述预设数量个第一动作模型、以及所述参考虚拟角色按照所述预设数量个第二动作模型进行对战,得到多轮对战后的对战结果;

基于多轮对战后的对战结果,按照对战分值由高至低的顺序对预设数量个第一动作模型进行排名,得到最终的第一排名结果;以及按照对战分值由高至低的顺序对预设数量个第二动作模型进行排名,得到最终的第二排名结果;

基于所述最终的第一排名结果和所述最终的第二排名结果,调整所述目标虚拟角色的技能属性的属性值。

10.根据权利要求5~6任一所述的数据处理方法,其特征在于,所述预设对战截止条件包括以下条件中的一种或多种:

单个第一动作模型的对战次数达到第一预设对战次数;

单个第二动作模型的对战次数达到第二预设对战次数;

总对战次数达到第三预设对战次数。

11.根据权利要求1~9任一所述的数据处理方法,其特征在于,

所述多轮对战包含第一轮对战和第二轮对战,所述第一轮对战中所使用的第一动作模型不同于所述第二轮对战中所述使用的第一动作模型,和/或,所述第一轮对战中所使用的第二动作模型不同于所述第二轮对战中所述使用的第二动作模型。

12.一种数据处理装置,其特征在于,所述装置包括:

特征获取模块,用于获取目标游戏场景中目标虚拟角色对应的游戏状态特征、以及与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征;

模型训练模块,用于根据所述目标虚拟角色对应的游戏状态特征,训练得到所述目标虚拟角色的多个第一动作模型;以及基于与该目标虚拟角色对战的参考虚拟角色对应的游戏状态特征,训练得到所述参考虚拟角色的多个第二动作模型;其中不同第一动作模型之间的战斗策略不同,不同第二动作模型之间的战斗策略不同;

对战控制模块,用于控制所述目标虚拟角色按照所述第一动作模型、以及所述参考虚拟角色按照所述第二动作模型进行对战,得到多轮对战后的对战结果;

属性调整模块,用于根据所述对战结果,调整所述目标虚拟角色的技能属性的属性值。

13.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至11任一所述的数据处理方法的步骤。

14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11任一所述的数据处理方法的步骤。

技术总结
本申请提供了一种数据处理方法、装置、计算机设备及存储介质,其中,该方法包括:首先基于获取的目标游戏场景中目标虚拟角色对应的游戏状态特征,训练得到战斗策略不同的多个第一动作模型,以及基于与该目标虚拟角色对战的参考虚拟角色的游戏状态特征,训练得到战斗策略不同的多个第二动作模型,然后控制目标虚拟角色按照上述多个第一动作模型以及参考虚拟角色按照上述多个第二动作模型进行对战,最后根据多轮对战的对战结果,调整目标虚拟角色的技能属性的属性值。采用上述方案,避免了人工调整所存在的操作流程比较复杂,耗时耗力的问题,操作简单,省时省力。

技术研发人员:关凯;林磊;范长杰;胡志鹏
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2020.01.09
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-20866.html

最新回复(0)