本发明涉及深度强化学习技术,特别涉及一种深度强化学习模型的组合方法、装置及计算机设备。
背景技术:
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,是智能体(agent)与环境之间一种学习和反馈。可以通过深度强化学习来实现经验的快速积累,并针对实时情况做出动态规划。例如,游戏角色属于agent,可以通过深度强化学习,确定游戏角色如何在学习环境中采取一系列行为,从而获得最大的累积回报。其中,涉及状态(s),即agent当前处于的状态。策略(policy),即在当前处于的状态下如何做出行动。行动(a),即agent根据策略采取的行动。回报(r),即在当前处于的状态采取相应的行动后获得的奖励。模型(model),即通过模型可以在已知当前处于的状态和行动的情况下获得下一个状态。在深度强化学习应用中较为广泛的就是q-learning。其中,q函数为q(s,a)表示在特定策略下,从状态s时执行行动a后可以获得的总回报值。
相关技术中,还可以组合深度强化学习算法,一般采用简单地将若干个强化学习模型平均求和的方法进行模型融合。但是,当模型在特征空间中状态分布区域差距较大时,融合后得到的模型无法同时解决各个子问题,甚至不能单独处理任意一个子问题。
技术实现要素:
本申请提供一种深度强化学习模型的组合方法、装置及计算机设备。
本申请公开了一种深度强化学习模型的组合方法,包括:
确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,所述深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
可选地,上述方法中,所述确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,包括:
确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
根据每个深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
可选地,上述方法中,所述对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,包括:
按照每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
根据所述q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
可选地,上述方法还包括:
根据组合使用的每个深度强化学习模型的训练数据,生成分类模型,所述分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度。
可选地,上述方法中,所述分类模型至少包括基于变分自编码器构建的分类器、基于神经网络构建的分类模型中的一种。
本申请还公开了一种深度强化学习模型的组合装置,包括:
权重信息确定模块,用于确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,所述深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
数据传输模块,用于将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
计算模块,用于对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
可选地,上述装置中,所述权重信息确定模块包括:
第一权重信息确定子模块,用于确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
第二权重信息确定子模块,用于根据每个深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
可选地,上述装置中,所述计算模块,包括:
第一计算子模块,用于按照每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
第二计算子模块,用于根据所述q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
可选地,上述装置还包括:
分类模块,用于根据组合使用的每个深度强化学习模型的训练数据,生成分类模型,所述分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度;
所述第一权重信息确定子模块,通过所述分类模块,确定每个深度强化学习模型的预设输入数据与待处理数据的相似度。
可选地,上述装置中,所述分类模块至少包括基于变分自编码器构建的分类器、基于神经网络构建的分类模型中的一种。
本申请还公开了一种深度强化学习模型的组合装置,包括:
处理器;
以及存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
执行实现如上所述的深度强化学习模型的组合方法的指令。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被执行时实现如上所述的深度强化学习模型的组合方法的步骤。
本申请技术方案提供一种深度强化学习模型的组合方案,考虑到不同的深度强化学习模型对输出数据的影响程度不相同。因此,基于不同的深度强化学习模型的权重信息,确定组合使用多个深度强化学习模型的输出结果为,这多个深度强化学习模型的输出结果的加权平均值。这种方式实现深度强化学习模型的融合,得到的输出结果更准确更高效。
附图说明
图1是本申请一示例性实施例示出的一种深度强化学习模型的组合方法的流程图。
图2是本申请一示例性实施例示出的一种深度强化学习模型的组合方法的原理示意图。
图3是本申请一示例性实施例示出的一种深度强化学习模型的组合装置的框图。
图4是本申请一示例性实施例示出的一种深度强化学习模型的组合装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
图1所示为本实施例提供的一种深度强化学习模型的组合方法的流程图。如图1所示,该方法包括如下操作:
步骤s101,确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
步骤s102,将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
步骤s103,对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
其中,不同的深度强化学习模型的权重信息包括,组合使用多个深度强化学习模型时,不同的深度强化学习模型的输出数据对目标输出结果的影响程度。例如,不同的深度强化学习模型的输出数据,在组合使用多个深度强化学习模型的最终的输出结果中所占的比重等。
可见,与相关技术中,简单直接地将多个深度强化学习模型的输出结果进行平均值计算的方式相比。本实施例技术方案考虑到组合使用多个深度强化学习模型时,不同的深度强化学习模型的输出数据对目标输出结果的影响程度可能不相同。因此,基于不同的深度强化学习模型的权重信息,确定组合使用多个深度强化学习模型的输出结果为,这多个深度强化学习模型的输出数据的加权平均值。这种方式确定的输出结果更准确更高效。
本实施例还提供一种深度强化学习模型的组合方法,该方法中,确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,包括:
确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
根据深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
本文中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关表示,该深度强化学习模型的预设输入数据与待处理数据的相似度越高,该深度强化学习模型的权重信息越大。对应的,该深度强化学习模型的预设输入数据与待处理数据的相似度越低,该深度强化学习模型的权重信息越小。其中,深度强化学习模型的权重信息可以包括权重系数。
其中,深度强化学习模型的预设输入数据与待处理数据的相似度可以包括,深度强化学习模型的预设输入数据的特征信息,与待处理数据的特征信息之间的相似度。例如,通过深度强化学习,确定游戏角色如何在学习环境中采取一系列行为,从而获得最大的累积回报时,待处理数据可以包括游戏角色的状态s。此时,可以通过一组特征信息表征状态s。状态s与深度强化学习模型的预设输入数据之间的相似度,就可以通过深度强化学习模型的预设输入数据的特征信息,与状态s包含的特征信息的对比结果来确定。例如,不同的两个深度强化学习模型中,第一个深度强化学习模型的预设输入数据的特征信息,与状态s包含的特征信息全部相同或基本相同。第二个深度强化学习模型的预设输入数据的特征信息中只有部分特征信息,与状态s包含的特征信息相同或基本相同。则第一个深度强化学习模型的预设输入数据与待处理数据的相似度高于,第二个深度强化学习模型的预设输入数据与待处理数据的相似度。
由上述描述可以看出本实施例利用深度强化学习模型的预设输入数据与待处理数据的相似度确定的权重信息,可以表示出,预设输入数据与待处理数据的相似度越高,则该深度强化学习模型的输出数据与待处理数据对应的输出数据更接近,即该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响更大。这样,可以根据每个的深度强化学习模型的权重信息,调整每个深度强化学习模型的输出数据,在组合使用多个深度强化学习模型的最终的输出结果中所占的比重大小。得到的最终的输出结果更贴近实际的输出结果。
本实施例还提供一种深度强化学习模型的组合方法,该方法中,对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,包括:
按照组合使用的每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
根据q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
其中,深度强化学习模型输出的q函数值可以包括,深度强化学习应用中的函数q(s,a)的计算值。
假设,每个深度强化学习模型对应的q函数为qi,即qi表示第i个深度强化学习模型的q函数。计算组合使用的多个深度强化学习模型q函数的加权和为
计算q函数值的加权平均值的方式,可以采用如下公式:
其中,n为组合使用的深度强化学习模型的个数。
本实施例中,n个深度强化学习模型的权重系数的总和等于n,即
可见,本实施例技术方案基于不同的深度强化学习模型的权重信息,确定组合使用多个深度强化学习模型的输出结果为,这多个深度强化学习模型的q函数值的加权平均值。这种方式确定的输出结果更准确更高效。
本实施例还提供一种深度强化学习模型的组合方法,该方法还包括:
根据组合使用的每个深度强化学习模型的训练数据,生成分类模型,所述分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度。
本文中,可以对不同的深度强化学习模型的训练数据中的历史输入数据进行采样,训练。
由分类模型对不同的深度强化学习模型的历史输入数据进行分析,以确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度。从而实现不同的深度强化学习模型的分类操作。也就是说,通过分类模型,区分出不同的深度强化学习模型的预设输入数据与同一输入数据的相似度。
本实施例还提供一种深度强化学习模型的组合方法,该方法中,分类模型至少包括基于变分自编码器构建的分类器、基于神经网络构建的分类模型中的一种。
其中,分类模型包括基于变分自编码器构建的分类器时,可以将不同的深度强化学习模型的训练输入数据进行采样,并分别训练每个深度强化学习模型对应的基于变分自编码器的鉴别网络。这样,当接收到新的输入数据时,可以根据每个深度强化学习模型对应的鉴别网络,确定当前的输入数据与深度强化学习模型的训练的输入数据的相似度。
下面以实际应用为例,说明上述深度强化学习模型的组合方法的实施过程。
本实施例以深度强化学习应用中最广泛的q-learning为例,说明深度强化学习模型的组合过程。其中,q-learning中的q函数为q(s,a)表示在特定策略下,从状态s时执行行动a后可以获得的总回报值。该过程的原理如图2所示,实时确定组合使用的多个深度强化学习模型(即为图2中的q1,q2……qn)与当前输入数据相比的分类结果(即为图2中的d1,d2……dn)。由分类结果转换为权重系数(即为图2中的α1,α2……αn)后,确定加权平均值函数
其中,多个深度强化学习模型的组合过程,包括如下操作:
步骤1,针对每个深度强化学习模型分别采集训练数据,并将采集的训练数据分别添加至缓存buffer中;
本文中,不同的深度强化学习模型采集的训练数据可以被区分;
其中,采集训练数据的方式可以包括多种。
假设,根据当前状态随机选择行动am,通过深度强化学习模型得到一组训练数据为{sm,am,sm’,rm},其中,m表示时刻m,m’表示m时刻的下一时刻,sm表示m时刻的状态,am表示m时刻的行动,sm’表示m’时刻的状态,rm即表示m时刻的回报。以此类推,将采集的训练数据添加到buffer中。
步骤2,对于每个待组合的深度强化学习模型,采集新的训练数据,并从buffer中随机采样训练数据,分别作为正、负样本的输入数据用于训练每个深度强化学习模型对应的鉴别网络,以确定同一输入数据与不同的深度强化学习模型的训练输入数据之间的相似度,并利用每个深度强化学习模型对应的鉴别网络组成分类模型。
其中,生成的分类模型可以包括多种形式的模型。
例如,可以基于变分自编码器构建分类模型。对于每个深度强化学习模型,可以使用两个并排的变分自编码器组成鉴别网络,分别输入正负样本,将变分自编码器的输出堆叠后再经过一个多层感知机得到输出结果。按照此种方式学习后的鉴别网络可以确定该深度强化学习模型的训练输入数据与当前输入数据的相似度。将每个深度强化学习模型对应的鉴别网络组合即可得到一个分类器,即属于本文所称的分类模型。
又如,可以建立基于神经网络的分类模型,即利用目标神经网络对不同的深度强化学习模型的输入数据进行训练学习,以确定不同的深度强化学习模型的训练输入数据与当前输入数据的相似度。训练学习后的分类模型也属于本文所称的分类模型。
步骤3,采集到待处理数据时,将待处理数据发送到分类模型中,得到分类结果d,将分类结果转化成深度强化学习模型的权重系数α。
其中,得到的分类结果包括,组合使用的每个深度强化学习模型与待处理数据相比的分类结果。例如,得到的分类结果包括,第一个深度强化学习模型的分类结果d1、第二个深度强化学习模型的分类结果d2……第n个深度强化学习模型的分类结果dn。本文中的分类结果可以包括深度强化学习模型的预设输入数据与待处理数据的相似度。
将分类结果转换成的深度强化学习模型的权重系数α包括,组合使用的每个深度强化学习模型的权重系数。例如,得到的分类结果包括,第一个深度强化学习模型的权重系数α1、第二个深度强化学习模型的权重系数α2……第n个深度强化学习模型的权重系数αn。
本实施例中,分类结果与权重系数之间成正相关。即分类结果中,待处理数据越接近于某个待组合的深度强化学习模型的预设输入数据,也就是,待处理数据与该深度强化学习模型的预设输入数据的相似度越高的,转换得到的权重系数越大。分类结果中,待处理数据越偏离于某个待组合的深度强化学习模型的预设输入数据的,也就是,待处理数据与该深度强化学习模型的预设输入数据的相似度越低的,转换得到的权重系数越小。
实际应用中,分类结果与权重系数之间的转换方式可以包括多种。例如,分类结果与权重系数之间成线性关系αi=μdi,或分类结果与权重系数成指数关系αi∝exp(di)。
步骤4,根据不同的深度强化学习模型的权重系数,确定组合使用的多个深度强化学习模型的q函数。
上述步骤4中,可以按照如下公式1或公式2确定q函数:
式中,n为组合使用的深度强化学习模型的总个数;
αi为第i个深度强化学习模型的权重系数;
其中,公式1中待组合使用的n个深度强化学习模型的权重系数α的总和为n;
公式2中每个深度强化学习模型的权重系数α除以n得到的值小于1,且待组合使用的n个深度强化学习模型的权重系数除以n得到的值的总和等于1;
qi为第i个深度强化学习模型的q函数(状态-动作值函数)。
本文中,深度强化学习模型的q函数(状态-动作值函数)可以包括softq-learning方法中涉及的q函数。
可见,按照上述q函数计算得到的输出结果,即为多个深度强化学习模型的输出结果的加权平均值,也就是,组合使用多个深度强化学习模型得到的最终的输出结果。
另外,上述步骤3的操作,可以在每次采集到输入数据时,将采集的输入数据发送到分类模型中,得到分类结果并转换为权重系数。即本实施例可以针对不同的输入数据,实时确定深度强化学习模型的权重系数以计算多个深度强化学习模型的输出结果的加权平均值。这样,针对不同的输入数据,得到的组合使用多个深度强化学习模型得到的输出结果更准确。
图3所示为一示例性实施例提供的一种深度强化学习模型的组合装置的结构示意图。如图3所示,该装置至少包括权重信息确定模块31、数据传输模块32和计算模块33。
其中,权重信息确定模块31,被配置为,确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
数据传输模块32,被配置为,将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多输出数据;
计算模块33,被配置为,对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
本实施例还提供一种深度强化学习模型的组合装置,该装置中,权重信息确定模块包括:
第一权重信息确定子模块,配置为,确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
第二权重信息确定子模块,配置为,根据深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
本实施例还提供一种深度强化学习模型的组合装置,该装置中,计算模块包括:
第一计算子模块,配置为,按照每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
第二计算子模块,配置为,根据q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
本实施例还提供一种深度强化学习模型的组合装置,该装置还包括:
分类模块,配置为,根据组合使用的每个深度强化学习模型的训练数据,生成分类模型,分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度;
此时,第一权重信息确定子模块,通过分类模块,确定每个深度强化学习模型的预设输入数据与待处理数据的相似度。
本实施例还提供一种深度强化学习模型的组合装置,该装置中,分类模块至少包括基于变分自编码器构建的分类器、基于神经网络构建的分类模型中的一种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于虚拟摇杆控制的装置400的框图。参照图4,装置400包括处理器401,处理器的个数可以根据需要设置为一个或者多个。装置400还包括存储器402,用于存储可由处理器401的执行的指令,例如应用程序。存储器的个数可以根据需要设置一个或者多个。其存储的应用程序可以为一个或者多个。处理器401被配置为执行指令,以执行上述虚拟摇杆控制方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器402,上述指令可由装置400的处理器401执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种深度强化学习模型的组合方法,包括:
确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,所述深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明的意图也包含这些改动和变型在内。
1.一种深度强化学习模型的组合方法,其特征在于,包括:
确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,所述深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
2.根据权利要求1所述的方法,其特征在于,所述确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,包括:
确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
根据每个深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
3.根据权利要求1或2所述的方法,其特征在于,所述对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,包括:
按照每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
根据所述q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据组合使用的每个深度强化学习模型的训练数据,生成分类模型,所述分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度。
5.一种深度强化学习模型的组合装置,其特征在于,所述装置包括:
权重信息确定模块,用于确定组合使用的多个深度强化学习模型中每个深度强化学习模型的权重信息,其中,所述深度强化学习模型的权重信息用于表征,该深度强化学习模型的输出数据对组合使用多个深度强化学习模型的输出结果的影响程度;
数据传输模块,用于将待处理数据分别传输至组合使用的多个深度强化学习模型,得到多个输出数据;
计算模块,用于对多个输出数据,按照对应的深度强化学习模型的权重信息进行加权平均值计算,计算的结果为组合使用多个深度强化学习模型的输出结果。
6.根据权利要求5所述的装置,其特征在于,所述权重信息确定模块包括:
第一权重信息确定子模块,用于确定每个深度强化学习模型的预设输入数据与待处理数据的相似度;
第二权重信息确定子模块,用于根据每个深度强化学习模型的预设输入数据与待处理数据的相似度,分别确定每个深度强化学习模型的权重信息;
其中,深度强化学习模型的权重信息,与该深度强化学习模型的预设输入数据与待处理数据的相似度成正相关。
7.根据权利要求5或6所述的装置,其特征在于,所述计算模块,包括:
第一计算子模块,用于按照每个深度强化学习模型的权重信息,计算组合使用的多个深度强化学习模型输出的q函数值的加权和;
第二计算子模块,用于根据所述q函数值的加权和,以及组合使用的深度强化学习模型的个数计算q函数值的加权平均值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
分类模块,用于根据组合使用的每个深度强化学习模型的训练数据生成分类模型,所述分类模型用于确定不同的深度强化学习模型的预设输入数据与同一输入数据的相似度;
所述第一权重信息确定子模块,通过所述分类模块,确定每个深度强化学习模型的预设输入数据与待处理数据的相似度。
9.一种深度强化学习模型的组合装置,其特征在于,包括:
处理器;
以及存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
执行实现所述权利要求1至4中任一项所述的深度强化学习模型的组合方法的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至4中任一项所述的深度强化学习模型的组合方法的步骤。
技术总结