基于神经网络的经济激励机制的设计方法和系统与流程

专利2022-06-29 62

本发明涉及机制设计技术领域，尤其涉及一种基于神经网络的经济激励机制的设计方法和系统。

背景技术：

在经济学意义上，机制设计是博弈论的一个分支学科，作为一种分支学科，经济激励机制设计通常表示为采用类工程的方法决定现实经济活动中对每个经济参与者应得经济资源进行分配的方案设计；其中，经济资源包括金钱和非金钱资源。通常，经济激励机制设计的目的在于找到一种最优的分配经济资源的规则，使得在这种规则下所有经济参与者理性地追求个体利益最大化的行为结果可以达到一些机制设计者所期望达到的目标；例如：解策略均衡、个体理性、激励相容、预算平衡、分配效率、利润最大化、社会最优、公平和/或抗合谋等目标。

现实生活中机制设计被广泛应用，尤其是互联网经济的逐渐普及的今天，很多互联网平台都在为不同目的进行经济激励机制的设计。比如，很多互联网公司的广告竞价平台中都应用有经济学家设计的经济激励机制。在此方面，也有着大量与经济激励机制相关的专利被公开，比如专利us20110071909a1《expressivebiddingonlineadvertisingauctionmechanisms》中公开了一种用于在线广告竞价的竞拍机制，以及专利20120166292a1《systemandmethodsforpricingportfolioallocationsofaddeliveriestoonlineadsusingavickrey-clarke-grovesmechanism》中公开了使用vickrey-clarke-groves机制对广告分发定价的方法。

传统上，经济激励机制通常由经济学家进行人工设计，这样进行经济激励机制设计就要求艰深的博弈论专业知识与敏锐的经济学直觉，是一个既复杂又困难的任务。然而，每当新增一个应用场景时，经济学家都要针对性地调整原有激励机制并设计新的、能够适用于新应用场景的激励机制。因为上述矛盾，使得经济场景改变后新的激励机制很难被迅速设计出来。

技术实现要素：

本发明提供一种基于神经网络的经济激励机制的设计方法和系统，旨在解决现有技术中经济激励机制的设计复杂且困难，当经济应用场景改变时新的激励机制很难被迅速设计出来的问题。

为实现上述目的，根据本发明的第一方面，本发明提出了一种基于神经网络的经济激励机制的设计方法，包括：

构建神经网络，将神经网络的神经网络映射作为经济激励机制中的社会选择函数，其中，神经网络包括输入节点和输出节点，所述神经网络映射为所述输入节点至所述输出节点的计算关系；

使用输入节点表示为经济激励机制中的可观测量和经济参与者的参与者类型中的至少一者，输出节点表示根据社会选择函数计算的资源分配结果，根据经济激励机制的优化目标配置神经网络的目标函数，其中，所述目标函数依赖于所述输出节点；

使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本；

根据目标函数，使用训练样本训练神经网络；

当所述神经网络训练完成时，将所述可观测量和/或每个经济参与者的参与者类型赋值给所述输入节点，并使用训练完成的神经网络计算得到各经济参与者的资源分配结果。

结合第一方面，在第一方面的第一种优选实现方式中，神经网络被配置为计算图的一部分；所述目标函数对应于所述计算图中的第一计算图节点；根据经济激励机制的优化目标配置神经网络的目标函数的步骤，包括：根据经济激励机制的优化目标，配置所述第一计算图节点与其所依赖的一个或多个第二计算图节点；以及配置第一计算图节点与一个或多个第二计算图节点之间的计算关系。

结合第一方面，在第一方面的第二种优选实现方式中，根据经济激励机制的优化目标配置神经网络的目标函数的步骤，包括：

将经济激励机制的优化目标分解为多个子优化目标；

配置与多个子优化目标一一对应的多个子目标函数；

将多个子优化目标函数按序组合为神经网络的目标函数。

结合第一方面，在第一方面的第三种优选实现方式中，使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本的步骤，包括：

根据输入节点中存在不确定性的可观测变量的先验分布，随机生成对应可观测变量的随机样本；和/或，

根据输入节点中存在不确定性的参与者类型变量的先验分布，随机生成对应参与者类型变量的随机样本。

结合第一方面，在第一方面的第四种优选实现方式中，使用训练样本训练神经网络的步骤，包括：

预设损失函数的加总方式，所述损失函数为使用训练样本得到的多个所述目标函数值加总计算得到的；

不断更新神经网络中的可训练参数值，直至根据所述加总方式得到的损失函数值达到最大或最小。

结合第一方面，在第一方面的第五种优选实现方式中，使用训练样本训练神经网络的步骤，包括：

划分神经网络的训练阶段，预设每个训练阶段中的第一输入节点，以及除第一输入节点外的第二输入节点；

在每个训练阶段中，固定第一输入节点的值，使用第二输入节点对应的训练样本，训练神经网络；

依次执行每个训练阶段。

结合第一方面，在第一方面的第六种优选实现方式中，输入节点包括第三输入节点和第四输入节点；使用训练样本训练神经网络的步骤，包括：

使用第三输入节点对应的训练样本，以及神经网络中可训练参数的最新值，计算得到第四输入节点的最优值；

使用第三输入节点对应的训练样本，以及第四输入节点的最优值，训练神经网络。

所述计算得到所述第四输入节点的最优值的步骤，包括：

划分所述第四输入节点的最优值的计算阶段；

预设每个所述计算阶段中、所述第四输入节点中对应张量的第一部分元素，以及所述对应张量中除所述第一部分元素外的第二部分元素；

在每个所述计算阶段中，固定所述第一部分元素的值，计算所述第二部分元素的最优值。结合第一方面，在第一方面的第七种优选实现方式中，使用训练完成的神经网络计算得到各经济参与者的资源分配结果的步骤，包括：

将可观测量的实测值和/或每个经济参与者报告的参与者类型的报告值赋给输入节点，通过神经网络得到输出节点的值；

根据输出节点的值对每个经济参与者进行资源分配。

根据本发明的第二方面，本发明还提供了一种基于神经网络的经济激励机制的设计系统，包括：

神经网络构建模块，用于构建神经网络，将神经网络的神经网络映射为经济激励机制中的社会选择函数，其中，神经网络包括输入节点和输出节点，，所述神经网络映射为输入节点至输出节点的计算关系；

目标函数配置模块，用于使用输入节点表示经济激励机制中的可观测量和参与者类型的至少一者，输出节点表示根据社会选择函数计算的资源分配结果，根据经济激励机制的优化目标配置神经网络的目标函数，其中，目标函数依赖于输出节点：

训练样本生成模块，用于使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本；

神经网络训练模块，用于根据目标函数，使用训练样本训练神经网络；

分配结果计算模块，用于当所述神经网络训练完成时，将所述可观测量和/或每个经济参与者的参与者类型赋值给所述神经网络的输入节点，使用神经网络计算得到每个经济参与者的资源分配结果。

根据本发明的第三方面，本发明还提供了一种基于神经网络的经济激励机制的设计系统，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的经济激励机制设计方法的确定程序，经济激励设计方法的确定程序被处理器执行时实现上述任一项技术方案提供的经济激励机制的设计方法的步骤。

根据本发明的第四方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质存储有经济激励机制设计的确定程序，该经济激励机制设计的确定程序被处理器执行时，实现上述任一项技术方案提供的经济激励机制的设计方法的步骤。

本申请提出的技术方案，通过构建神经网络，将神经网络映射作为经济激励机制中的社会选择函数；使用神经网络中的输入节点作为经济激励机制的可观测量和参与者类型中的至少一者，并以输出节点作为资源分配结果，来配置神经网络的目标函数，进而通过存在不确定性的随机变量的先验分布随机生成训练样本，以目标函数为导向，使用该训练样本训练神经网络，即能够快速得到各经济参与者的资源分配结果。通过构建神经网络，能够自动进行经济激励机制的设计；该设计方法不要求机制设计者具有艰深的博弈论专业知识，也不需要具有很强的专用性。该基于神经网络的经济激励机制的设计方案能够通用性地被应用于绝大多数现实经济场景中，从而自动且快速地设计出适应现实经济场景的最优经济激励机制，并通过神经网络自动计算出最优的对经济参与者的资源分配结果。本方案解决了现有技术中经济激励设计需要复杂知识和高超水平，不具有通用性，当应用场景改变时难以快速设计新的激励机制的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例提供的一种基于神经网络的经济激励机制的设计方法的流程示意图；

图2-1是本发明实施例提供的第一种神经网络的结构示意图；

图2-2是本发明实施例提供的第二种神经网络的结构示意图；

图2-3是本发明实施例提供的第三种神经网络的结构示意图；

图2-4是本发明实施例提供的第四种神经网络的结构示意图；

图2-5是本发明实施例提供的第五种神经网络的结构示意图；

图2-6是本发明实施例提供的第六种神经网络的结构示意图；

图3是图1所示实施例提供的第一种目标函数配置方法的流程示意图；

图4是图1所示实施例提供的第二种目标函数配置方法的流程示意图；

图5是图1所示实施例提供的第一种训练样本生成方法的流程示意图；

图6是图1所示实施例提供的第二种训练样本生成方法的流程示意图；

图7是图1所示实施例提供的第一种神经网络训练方法的流程示意图；

图8是图1所示实施例提供的第二种神经网络训练方法的流程示意图；

图9是图1所示实施例提供的一种资源分配结果计算方法的流程示意图；

图10是本发明实施例提供的第一种基于神经网络的经济激励机制的设计系统的结果示意图；

图11是本发明实施例提供的第二种基于神经网络的经济激励机制的设计系统的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

因为现有技术中，传统的经济激励机制设计需要高深的专业知识和敏锐的经济直觉，是复杂且困难的任务，每当新增应用场景时，都需要经济学家针对性地调整原有激励机制并设计新的，能够适用于新应用场景的激励机制，导致新的激励机制难以被迅速设计出来。

为了解决上述问题，本申请下述各实施例通过使用神经网络技术设计经济激励机制，从而快速且自动地设计出适应各种经济应用场景的最优经济激励机制。

首先，为了清楚明确地阐述本申请下述各实施例提供的基于神经网络的经济激励机制设计方案，需要对经济激励机制的相关术语进行解释说明，具体如下：

(1)、经济参与者或参与者：本发明各实施例提供的经济激励机制设计方案适用的经济环境，包括n个经济参与者，分别用i＝1，2，...，n指代。经济参与者是参与经济活动的个体，根据不同的应用场景，可以是自然人、法人、机构、或机构内的职能部门等。经济参与者会根据机制设计者设计的激励机制选择对其自身最有利的策略。

(2)、计划者：计划者是使用本发明各实施例提供的激励机制设计方案分配经济资源的个体，根据不同的应用场景，可以是自然人、法人、机构或机构内的职能部门等。机制设计者可以决定经济资源的分配结果。

(3)、资源分配结果：资源分配结果是计划者对能够控制的全部或部分经济资源的分配方式。例如，资源分配结果能够为计划者决定向每个经济参与者支付或收取的金钱。具体地，计划者可以决定线上广告位的分配；计划者可以决定每个经济参与者访问某种线上资源(比如网络视频)的访问权限。所有可能的资源分配结果的集合用x表示。某一种特定的能够实现的资源分配结果用x表示。在大多数情况下，资源分配结果是由计划者对每个经济参与者i的个体分配结果xi组成，即x＝(x1，x2，...，xn)。每个xi本身也可以是包括多种个体分配结果的向量。分配结果中向每个参与者支付的金钱记作pi和p＝(p1，p2，...，pn)。对其他非金钱经济资源的分配结果记作yi和y＝(y1，y2，...，yn)。根据这种符号，有xi＝(p1，yi)。

(4)、参与者类型：参与者类型是一个博弈论术语，具有超出其字面意义的广义的经济学含义。广义上，参与者类型可以代表一切参与者拥有的私有信息；对于这些私有信息，计划者事先(exante)并不知晓，且事后(expost)也无从验证，但是这种私有信息却能影响计划者的决策。例如，一个广告位可以为一个参与者带来多少额外收入就可以被设置为该参与者的参与者类型，因为当这个参与者是非上市公司的情况下，计划者永远无法知晓该参与者的内部财务信息。再例如，观看一个视频可以为一个参与者(例如自然人)带来多少愉悦感也是一种参与者类型，因为愉悦感无论是先验(apriori)还是后验(aposteriori)都难以被计划者以一个客观的标准观测。本申请中参与者类型用t表示。在大多数情况下，参与者类型由每个经济参与者i的参与者类型ti组成，即t＝(t1，t2，...，tn)，每个ti本身也可以是包括多个类型参数的向量，所有可能的参与者类型的集合记为t。

(5)、可观测量：可观测量是指后验可以被计划者观测或测量的变量。这些变量同样可能会影响计划者的决策。可观测量在事前可以是未知的，但是在事后是可以被计划者知晓的，这种可观测量被称为具有不确定性的可观测量。例如，下一年的gdp增长率就是一个具有不确定性的可观测量；这是因为，虽然在当前时间点无法确定下一年的gdp增长率，但是到了第二年则能够确定这个变量的实现值。再例如，在一个广告位投放广告将会带来的点击数也是具有不确定性的可观测量。此外，在一些应用场景下，世界人口总数可以被认为是不具有不确定性的可观测量，虽然这个变量总是在动态变化，但是在进行分析的时候可以将其看成一个可观测的常量。有一些变量是否可以被看成可观测量则取决于此类变量的应用场景，比如：银行柜台业务的场景中，可以认为用户的性别是可观测量；而在网络视频场景下，用户的性别则成为了用户的私有类型，作为计划者的视频发布者无从观测。可观测量用γ表示。γ可以由全局可观测量γ^global(比如上述下一年的gdp增长率)和每个经济参与者i的个体可观测量γi(比如上面提到的每个参与者的性别)组成。即γ＝(γ^globalγ，γ^individual)，其中γ^individual＝(γ1，γ2，...，γn)，i＝1，2，...，n为所有经济参与者的个体可观测量组成的向量。γ^global，(γ1，γ2，...，γn)本身依然可以是向量。可观测量的所有可能的取值集合记为γ。

(6)、报告：计划者可以要求参与者报告其全部或部分私有类型(即参与者类型)。这里的“报告”也是一个博弈论术语，具有超出其字面意义的广义经济学含义。报告泛指任何参与者使得计划者知晓或部分知晓其私有类型的途径。例如，在字面意义上，一个视频平台的运营商要求其用户填写性别和年龄等信息是一种报告手段；再例如，广义上，一个参与者对一个广告位的报价行为也是报告。此外，一个参与者拥有数据，计划者希望参与者将数据以加密的形式贡献出来用以训练机器学习模型，则参与者贡献数据的行为本身也是报告(在此场景下，计划者事前无从知晓参与者真实拥有多少数据，事后也无法知道参与者真实拥有怎样的数据。因为参与者可能仅贡献一部分数据或者贡献的是人为加入噪声的数据。这种情况下，虽然计划者可以测量参与者实际贡献的数据的质量，但是却无从知晓参与者真实拥有的并未贡献出的数据的质量)。参与者i实际报告的参与者类型记作以及参与者其他可能报告的参与者类型记作以及由于参与者的类型是参与者的私有信息，参与者可能报告的类型所有可能的取值集合也为γ。

(7)、策略：参与者i可以根据一定的规则报告其参与者类型这种报告参与者类型的规则被称为策略。例如，参与者i可以在任何情况下都报告同样的这被称为纯策略；参与者i还可以按照一定的概率报告不同的这被称为混合策略。

(8)、先验分布：计划者先验地认为参与者类型、以及具有不确定性的可观测量遵从先验的概率分布。参与者类型变量t的先验分布用δ(t)表示，可观测量的先验分布用δ(γ)表示。通常，我们可以不区分具有不确定性的可观测量和不具有不确定性的可观测量，而认为不具有不确定性的可观测量是具有不确定性的可观测量的一种特殊情形，不具有不确定性的可观测量对应的概率分布是一个delta函数。另外，我们记个体类型变量ti的先验分布为δ(ti)，并且记个体可观测量γi的先验分布为δ(γi)，全局可观测量γ的先验分布为δ(γ)。在一般情形中，上述所有先验分布都随时间动态变化，计划者可以基于新获得的信息，根据贝叶斯规则或经验规则更新上述参与者类型的先验分布δ(t)和可观测量的先验分布δ(γ)。

(9)、个体偏好：每个经济参与者对于不同的资源分配结果具有不同的偏好，即：每个经济参与者都可以比较任意两个可能的分配结果x^a和x^b，例如，认为分配结果x^a优于分配结果x^b，或者认为分配结果x^b优于分配结果x^a，或者认为两种分配结果一样好。

(10)、个体效用函数：可以用个体效用函数来描述个体偏好。参与者i的个体效用函数用ui(.)表示。个体效用函数至少是分配结果的函数，可以写成ui(x)；个体效用函数还可以是该参与者的私有类型ti的函数，记为ui(x，ti)；对于更一般的情形，个体效用函数还可以依赖于其他参与者的参与者类型以及可观测量，此时记为ui(x，t，γ)，此种个体效用函数包括了前面两种情形。所有参与者的个体效用函数组成个体效用函数向量u(x，t，γ)。在一些情形下，参与者具有拟线性效用函数，即ui(x，t，γ)＝vi(y，t，γ) pi，其中pi是对单个参与者i的金钱支付，p＝(p1，p2，...，pn)，y是对除了金钱以外其他经济资源的分配，x＝(p，y)。此时vi(y，t，γ)被称为个体价值函数。

(11)、社会度量：社会度量是对社会整体福利或者偏好的一种描述。社会度量是(x，t，γ)的函数，记为w(x，t，γ)。例如，能够用所有参与者的个体效用函数之和(也称为社会福利)作为社会度量；也能够用所有参与者的价值函数之和(也称为社会剩余)作为社会度量；还能够用对所有参与者的支付之和的相反数(也称为计划者利润)作为社会度量；此外，还可以用一个自定义的不公平函数unfairness(x，t，γ)作为社会度量。

(12)、社会选择函数：社会选择函数f(.)：t×γ→x是一个关于参与者类型和/或可观测量的函数，这个选择函数对每一组可能的取值(t，γ)，映射到一个分配结果x＝f(t，γ)。在大多数情况下，f由对每个参与者的个体分配函数fi组成，即f(.)＝(f1(.)，f2(.)，...，fn(.))，其中，xi＝fi(t，γ)是对参与者i的个体分配结果。在一些应用场景中，社会选择函数的自变量也可以不包括γ，即x＝f(t)。

(13)、机制设计：博弈论意义下的机制设计是设计最优的社会选择函数，以实现一系列优化目标。需要强调的是，机制设计是设计社会选择函数而非仅仅确定一组最优分配结果的取值。二者的区别是，给定社会选择函数f(.)则可以自然得到对应于任何一组取值(t，γ)的分配结果x，设计最优分配结果的取值仅包括对于给定的一组或多组(而非全部)(t，γ)计算其分配结果。对于两个社会选择函数f^a(.)和f^b(.)，哪怕仅存在唯一一组(t^*，γ^*)使得f^a(t^*，γ^*)≠f^b(t^*，γ^*)，那么这两个社会选择函数也是不同的。

结合上述经济激励机制的相关术语，下面详细阐述本申请各实施例提供的基于神经网络的经济激励机制的设计方案。本申请下述各经济激励机制的设计方案，使用神经网络作为社会选择函数的近似，根据先验分布的、随机产生的样本数据训练该神经网络，以得到最优参数；并使用配置有该最优参数的神经网络作为社会选择函数的近似，以计算经济资源的分配结果。具体请参见图1，图1为本发明实施例提供的一种基于神经网络的经济激励机制的设计方法的流程示意图。如图1所示，该基于神经网络的经济激励机制的设计方法包括以下步骤：

s110：构建神经网络，将神经网络的神经网络映射作为经济激励机制中的社会选择函数，其中，神经网络包括节点和边，节点包括输入节点和输出节点；边代表计算关系。神经网络映射为从输入节点至输出节点的计算关系。具体地，如图2-1至图2-6所示，神经网络可以被配制成计算图的一部分。例如，图2-1示例性地示出了根据本方法的一个实施例的计算图，神经网络2100a可以被配置成该计算图的一部分。该计算图由节点组成，节点之间的边代表节点之间的计算关系。神经网络中的节点包括输入节点、输出节点、参数节点以及隐藏层节点。例如图2-1所示神经网络2100a中，节点2101-2103为输入节点，节点2201为输出节点，节点2301-2315为隐藏层节点。每个节点都可以代表一个张量，张量可以是任意阶数的，比如零阶张量是一个标量，一阶张量是一个向量，二阶张量是一个矩阵，三阶张量可以是一个由矩阵组成的列表等；另外，张量也可以被实现为一个多维数组。一个m阶张量具有m个维度，每个维度j具有一个正整数的长度lj，一阶及以上的张量，其形状是由每个维度的长度组成的具有m个元素的元组。张量的每个维度上具有该维度的长度个数的m-1维张量。张量中包含一个或多个标量，定义张量中包含的每一个标量都称为张量的元素。本申请各实施例中，为了简明起见，在不会引起歧义的情况下，不区分节点和该节点代表的张量，且节点和该节点代表的张量均用同一数学符号表示。节点之间的计算关系是节点所代表的张量之间的计算关系，例如，对于节点in和out，b代表一阶张量，w代表二阶张量的情形，in和out之间可存在以下计算关系：out＝w×in；其中，节点out由矩阵w和向量in作矩阵乘法得到；或着存在以下计算关系：out＝w×in b，此计算关系说明节点out由矩阵w和向量in作矩阵乘法，并加上一个向量b后得到；或者存在计算关系如下：out＝σ(w×in b)，其中，σ可以是sigmoid函数或relu函数，此种计算关系说明，节点out是矩阵w和向量in作矩阵乘法并加上一个向量b得到的向量(w×in b)对应位置的元素经过函数σ变换后得到的向量；当计算图节点之间具有上述形式的计算关系时，将w称为权重，b称为偏置，函数σ称为激活函数。具有计算关系out＝σ(w×in b)的节点out也被称为一个神经元。节点in和out之间还可以具有其他类型的计算关系。例如：标量节点out是一阶张量节点in取出一个元素构成的标量；一阶张量节点out是多个标量节点in1，…，ins堆积(stack)起来的长度为s的一阶向量；多个标量节点out1，…，outs可以是长度为s的一阶张量节点in解堆(unstack)而成的s个标量。再例如：一阶张量节点out可以是两个一阶张量节点in1和in2拼接(concat)形成的一个更长的一阶张量节点，等等。在上述计算关系中，称节点out依赖于节点in，或节点in被节点out依赖。在神经网络中，不被神经网络中任何节点依赖的节点称为输出节点，不依赖于神经网络中任何节点的节点分为两类：一类是输入节点，此类节点的数值由用户处获取；另一类则是参数节点，此类节点存储有神经网络计算关系中包括的参数(例如上述参数w和b等)。参数节点包括可训练参数节点和不变参数节点；不变参数节点的值在神经网络的训练过程中保持不变，可训练参数节点的值在神经网络的训练过程中不断被更新。注意，神经网络的节点包括输出节点之间进一步由一定的计算关系组合成的目标函数，如图2-1所示，该目标函数也可以被配置为包含有神经网络的计算图中的节点obj，且输出节点被代表目标函数的节点所依赖；但是在本申请中，神经网络被确定为不包括代表目标函数的节点，输出节点被代表目标函数的节点所依赖不影响该输出节点不被所述神经网络中任何节点所依赖。例如，图2-1中，神经网络被确定为不包括代表目标函数的节点的计算图的一部分2100a；输出节点x(2201)被代表目标函数的节点obj所依赖，不影响该输出节点不被所述神经网络2100a中任何节点所依赖。

神经网络中每个节点的计算关系组成了神经网络的输出节点和输入节点之间的复合计算关系，这种复合计算关系也称为神经网络的输入节点至输出节点的神经网络映射。除了输出节点、输入节点和参数节点以外的神经网络中的其他节点被称为隐藏节点，隐藏节点存储有神经网络映射的中间计算结果。训练神经网络即是不断优化全部或部分参数节点的值，以使得神经网络映射满足一定的条件。本步骤使用神经网络映射作为前述社会选择函数f(.)：t×γ→x。也即，认为社会选择函数f(.)的计算关系与该神经网络的输出节点和输入节点之间的复合计算关系相一致。对于f(.)自变量的任意值，可以将该自变量的值赋给该神经网络的输入节点，经由神经网络前向传播得到相应的神经网络的输出节点的值，这个值即为对应于该自变量的f(.)的值。下面结合图2-1至图2-6解释根据本申请各实施例中关于配置神经网络的过程。

如图2-1所示，该神经网络配置为以下内容：该神经网络的输入节点包括代表经济环境中的可观测量的节点和/或代表参与者类型的节点。例如，在图2-1所述神经网络中，可以包括三个输入节点，分别是代表各个参与者类型的节点t(2101)、代表各个参与者的个体可观测量的节点γ^individua^l(2102)，以及代表全局可观测量的节点γ^global(2103)。注意，当各个参与者的参与者类型ti都是标量的时候，节点t(2101)是一个一维张量；当各个参与者的参与者类型ti都是向量的时候，节点t(2101)是一个二维张量。对于代表个体可观测量的节点γ^individual(2102)也是如此；同理，代表全局可观测量的节点γ^global(2103)也可以是一个标量或者一个向量。

另外，如图2-2所示，该神经网络被进一步配置为以下内容：该神经网络的输出节点代表对各个经济参与者的经济资源的分配结果。例如，在图2-1所示神经网络2100a中，将输出节点设置为代表资源分配结果x的节点2201。注意，个体分配结果xi可以是一个标量或者一个向量。具体地，当资源分配结果仅包括对各个参与者的金钱支付时，个体分配结果xi是一个标量，此时节点x(2201)是一个一维张量；当资源分配结果同时包括金钱支付和非金钱资源分配(例如，包括对各个经济参与者访问某种线上资源的访问权限)时，个体分配结果xi是一个向量，此时节点x(2201)是一个二维张量。

该神经网络被进一步配置为以下内容：该神经网络包括多个隐藏节点。隐藏节点之间例如可以根据上述计算关系out＝σ(w×in b)所连接。例如，在图2-1的神经网络中，节点2301-2315即为隐藏节点。

在一些实施例中，可以将参与者类型节点t解堆后的节点t1，t2，...，tn、个体可观测量节点γ^individual解堆后的节点γ1，γ2，...，γn或资源分配结果节点x解堆后的节点x1，x2，...，xn，分别作为神经网络的输入节点或输出节点，这并不影响本方法的实现。例如，在图2-2的神经网络2100b中，可以将节点t(2101)解堆后的节点t1，t2，...，tn(3101-3104)、节点γ^individual(2102)解堆后的节点γ1，γ2，...，γn(3201-3204)作为所述神经网络的输入节点，将原资源分配结果节点x(2201)解堆后的节点x1，x2，...，xn(3401-3404)作为所述神经网络的输出节点。

在另一些实施例中，神经网络由多个子神经网络组成，每个子神经网络代表对每个参与者的分配结果。例如，在一些实施例中，可以设置社会选择函数f(.)＝(f1(t1，γ1，γ)，f2(t2，γ2，γ)，...，fn(tn，γn，γ))，其中对参与者i的分配结果xi＝fi(ti，γi，γ)仅依赖于该参与者的参与者类型、该参与者的个体可观测量和全局可观测量。此时，可以使用输入节点为ti、γi和γ，输出节点为xi的子神经网络的神经网络映射作为fi(.)。将n个这样的子神经网络构成的复合神经网络作为所述神经网络。例如，在图2-2中，将n个这样的子神经网络3501-3503构成的复合神经网络2100b作为所述神经网络。

在一些实施例中，神经网络的输入节点中还包括代表参与者可能报告的类型的节点虽然参与者可能报告的类型所有可能的取值集合与参与者的真实类型t的所有可能的取值集合相等，均为γ，但这两个变量的意义不同，也一般不相等，因此用不同的节点指代。所述神经网络的输出节点中还包括代表与参与者可能报告的类型对应的分配结果节点以及包括代表真实类型t与参与者可能报告的类型重组后的的混合类型的节点以及该混合类型对应的分配结果节点此时的神经网络的一个示例如图2-3中的2100c所示，包括代表参与者可能报告的类型的节点代表真实类型t以及参与者可能报告的类型重组后的的混合类型的节点代表与参与者可能报告的类型对应的分配结果节点代表与参与者可能报告的类型及混合类型对应的分配结果节点在一些实施例中，优化目标中不包括激励相容约束，此时参与者可能报告的类型不一定等于其真实类型t，此时，神经网络的输入节点中还包括代表参与者实际报告类型的节点以及与该实际报告类型对应的资源分配结果的节点如图2-4所示，此时的神经网络2100d中还包括代表参与者实际报告类型的节点以及代表与该实际报告类型对应的分配结果的节点在某些实施例中，该经济激励机制的设计方法中，神经网络包含结构相同的一个或多个子神经网络。在某些实施例中，神经网络的不同节点之间共享部分参数节点。例如，在图2-2中，n个子神经网络3501-3503可以结构相同且共享同一套参数节点，以保证激励机制对于不同参与者是一样的。例如，神经网络的不同节点可被分为多个层，每一层均包括多个节点，不同层之间可以通过卷积连接，同一层的不同节点之间共享卷积核中的参数节点。再例如，在图2-4中，由于神经网络同时包括对应于参与者真实类型的资源分配结果节点x(2201)、对应于参与者可能报告的类型的资源分配结果对应于混合类型对应的资源分配结果节点与参与者实际报告类型对应的资源分配结果的节点而这四个资源分配结果节点关于输入节点的神经网络映射相同，都为f(.)，所以图2-4中由节点t和γ指向节点x的子神经网络3501、由节点和γ指向节点的子神经网络3503、由节点和γ指向节点的子神经网络3504、以及由节点和γ指向节点的子神经网络3502结构相同，它们共享同一套参数节点。

在某些情况下，神经网络包含代表人工设计的基准激励机制的一个或多个隐藏节点。这些隐藏节点是根据人工设计的基准激励机制，由神经网络的全部或部分输入节点计算得到的，且隐藏节点被神经网络的输出节点所依赖。如图2-5所示，神经网络可以包含代表人工设计的基准激励机制的一个或多个隐藏节点vcg，这些隐藏节点vcg是一个2阶张量：vcg＝(p^vcg，y^vcg)，其中金钱经济资源分配结果p^vcg和非金钱经济资源分配结果y^vcg各是一个长度为n的向量，隐藏节点vcg根据人工设计的基准激励机制(vcg机制)，由神经网络的全部或部分输入节点t、γ^individual和γ^global通过以下公式计算得到：也即，y^vcg是使得最大化的非金钱经济资源的分配结果。以及

p^vcg的第i个元素

其中，隐藏节点vcg被神经网络的输出节点所依赖，例如，在图2-5表示的实施例中，神经网络的输出节点x(3201)可以由隐藏节点vcg(3970)和神经网络中的另一个节点x^adjust(3920)求和得到，即x＝vcg x^adjust。在本实施例中，代表人工设计的基准激励机制的一个或多个隐藏节点vcg(3970)不依赖于可训练参数节点。故而，在下述神经网络训练步骤s104中，该隐藏节点vcg(3970)是不依赖于训练过程中参数的更新的。

在另一些实施例中，代表人工设计的基准激励机制的一个或多个隐藏节点也可以依赖于一个或多个可训练参数节点。此时，在后续神经网络的训练过程中，代表人工设计的基准激励机制的一个或多个隐藏节点所依赖的一个或多个可训练参数节点的值会被不断更新。例如，在图2-6中，代表人工设计的基准激励机制的隐藏节点vcg(3970)依赖于一个或多个可训练参数节点3925-3927。在后续神经网络的训练过程中，节点3925-3927的值会被不断更新。

得到上述神经网络后，对于任何一组给定的可观测量和参与者类型的具体值，可以将其赋给该神经网络的输入节点，将神经网络经由前向传播得到的输出节点的值作为对各个参与者的分配结果。

s120：使用输入节点作为经济激励机制中的可观测量和参与者类型，输出节点作为根据社会选择函数计算的资源分配结果，根据经济激励机制的优化目标配置神经网络的目标函数。该目标函数在神经网络中可以使用一个计算图节点表示。

该步骤根据神经网络的输入节点、输出节点以及机制优化目标中的一者或多者来配置神经网络的目标函数。

具体地，在一实施例中，配置神经网络的目标函数即在包含有神经网络的计算图中新建一个代表目标函数的计算图节点obj，该计算图节点obj同时依赖于该神经网络的输入节点和输出节点。例如，在图2-3中示意性地示出了根据本方法的一个实施例的包含有所述神经网络2100c的计算图，其中，代表目标函数的计算图节点obj(3600)依赖于代表参与者真实类型的节点t(3101)，代表参与者可能报告的类型的节点代表混合类型的节点代表资源分配结果的节点x(4203)、和代表各个参与者的个体可观测量的节点γ^individual(4104)以及代表全局可观测量的节点γ^global(4105)。在其他实施例中，代表目标函数的计算图节点obj还可依赖于上述节点中的部分节点或依赖于代表其他变量的节点。

参见图3，神经网络除了输入节点、输出节点和隐藏节点等各节点外还包括计算关系，图1中步骤s120：根据经济激励机制的优化目标配置神经网络的目标函数的步骤，具体包括：

s210：根据经济激励机制的优化目标，配置第一计算图节点，以及配置该第一计算图节点所依赖的一个或多个第二计算图节点。

s220：根据经济激励机制的优化目标，配置所述第一计算图节点与所述一个或多个第二计算图节点之间的计算关系。

具体地，根据经济激励机制的优化目标来配置计算图节点obj与其所依赖的节点之间的计算关系。优化目标包括：解策略均衡、个体理性、激励相容、预算平衡、分配效率、利润最大化、社会最优、公平和抗合谋中的一者或多者。每一个目标都对应于一组等式、不等式或极值目标。根据上述定义和符号，经济激励机制的优化目标能够更进一步定义如下，并且能够写出上述优化目标对应的等式、不等式或极值目标。

(1)解策略均衡：定义为存在一种参与者报告类型的策略组合，构成博弈论意义上的某种策略均衡。策略均衡是指对于任意参与者i，他选取的报告其类型的策略对于参与者i在某种意义上是最优的。根据不同博弈环境假设，策略均衡包括：占优策略均衡、纯策略纳什均衡、混合策略纳什均衡、贝叶斯纳什均衡、精炼纳什均衡和贝叶斯精炼纳什均衡等。上述具体策略均衡的定义可参见相关博弈论教材，在此不再赘述。每种策略均衡都可由一组不等式来表示。

例如，在部分实施例中，设计的优化目标为占优策略均衡，则需要存在参与者报告类型满足以下不等式：对于任意i，ti，和γ成立。

其中，是参与者按照其他任意策略报告的类型，是除了参与者i以外的个体参与者报告的类型构成的向量。

再例如，在其他实施例中，设计的优化目标为纯策略纳什均衡，则需要存在满足以下不等式：对于任意i，ti，和γ成立。

再例如，如设计的优化目标为混合策略纳什均衡，且需要存在的一个概率分布使得对于任何参与者i，以及任何关于的其他概率分布满足以下不等式：

其中，代表在一定概率分布下的期望。

其他策略均衡对应的不等式可以类似写出，在此不再赘述。

(2)个体理性：个体理性是指在选取的策略下，每个参与者的效用都大于零(或每个参与者的期望效用大于零)。

例如，对于纯策略报告个体理性条件对应的不等式是：对于任意i和γ成立。

再例如，对于混合策略选取的报告的类型对应的概率分布个体理性是选取以下优化目标，一定概率分布下的期望：对于任意i和γ成立。

(3)激励相容：激励相容是指上述解策略均衡的均衡策略是每个参与者如实报告其类型的情形。在不同实施例中，将解策略均衡中的各个不等式中的替换成真实类型t，即能够得到激励相容条件下的不等式。具体而言，对应于占优策略均衡、纯策略纳什均衡、混合策略纳什均衡、贝叶斯纳什均衡、精炼纳什均衡和贝叶斯精炼纳什均衡等，激励相容可以被进一步分为占优策略激励相容、纯策略激励相容、混合策略激励相容、贝叶斯激励相容、精炼激励相容和贝叶斯精炼激励相容等。

例如，占优策略激励相容对应的不等式为：

对于任意i，和γ成立。

其他激励相容条件对应的不等式也可以类似写出，在此不再赘述。

(4)预算平衡：预算平衡包括强预算平衡和弱预算平衡；前者是指对于所有参与者的金钱支付之和等于零，后者是指所有参与者的金钱支付之和小于等于零。

例如，强预算平衡对应如下等式：对于任意γ成立。

(5)分配效率：分配效率是指不可能在不损害其他参与者效用的情况下提升某个参与者的效用。分配效率对应于如下最大化极值目标：

即希望最大化

(6)利润最大化：利润最大化是指计划者的利润最大化。计划者的利润是对所有参与者的支付的相反数，即利润最大化对应于如下最大化极值目标：

(7)社会最优：社会最优是指对应的社会度量w(x，t，γ)最大化。在一个实施例中，社会最优对应如下最大化极值目标：

(8)公平：公平是指对应的不公平函数最小化。在一个实施例中，对应于如下最小化极值目标：

(9)抗合谋：抗合谋是指某一组参与者合谋后产生的效用之和不大于不合谋时的效用之和。在一个实施例中，对应于如下不等式：

对于{1，2，...，n}的任意子集c和任意t，γ成立。

计算图节点obj与其所依赖的节点之间的计算关系根据神经网络的目标函数得到。配置神经网络的目标函数包括对经济激励机制的优化目标中的每一个子优化目标分别配置用于该优化目标的子目标函数，并将子目标函数组合成为全局目标函数作为所述目标函数。

具体的根据经济激励机制的优化目标配置神经网络的目标函数的步骤如图4所示，该配置神经网络的目标函数的步骤包括：

s310：将经济激励机制的优化目标分解为多个子优化目标。

s320：配置与多个子优化目标一一对应的多个子目标函数。

s330：将多个子优化目标函数按序组合为神经网络的全局目标函数。

其中，关于配置与子优化目标对应的子目标函数的方法如下：

方法一：对于该优化目标对应的每一个等式，则将所述子目标函数配置为该等式左右两边表达式的差的绝对值。

方法二：对于该优化目标对应的每一个不等式，则将所述子目标函数配置为以下两个表达式中较大者：零，以及该不等式值较小一侧的表达式减去该不等式值较大一侧的表达式的差。

方法三：对于该优化目标对应的每一个最大化极值目标，则将子目标函数配置为该最大化极值目标所最大化的表达式的相反数。

方法四：对于该优化目标对应的每一个最小化极值目标，则将子目标函数配置为该最小化极值目标所最小化的表达式。

例如，在一个实施例中，选取强预算平衡作为优化目标，则该优化目标对应于等式则将该等式的左边表达式与右边表达式0的差的绝对值作为子目标函数。

再例如，在再一实施例中，选取占优策略激励相容作为优化目标，该优化目标对应于n个不等式。其中，第i个不等式为：

则计算该不等式值较小一侧的表达式减去值较大一侧的表达式的差：

与零之间的较大，也即作为子目标函数。根据神经网络领域的通用术语，该子目标函数也可以写成如下形式：

由于该优化目标对应于n个不等式，故而该优化目标也对应于n个子目标函数。

还例如，在另一实施例中，选取分配效率作为优化目标，该优化目标对应于如下最大化极值目标：

则将该最大化极值目标所最大化的表达式：的相反数作为子目标函数。

又例如，在又一个实施例中，选取公平作为优化目标，则该优化目标对应于如下最小化极值目标：

则将该最大化极值目标所最小化的表达式：作为子目标函数。

并且，如上述步骤s330所述，配置神经网络的目标函数包括将子目标函数组合成为全局目标函数，将该全局目标函数作为最终的目标函数。

例如，在一个实施例中，如果同时选取强预算平衡、占优策略激励相容、分配效率和公平作为优化目标，则可以将上述子目标函数组合成全局目标函数作为所述目标函数。

再例如，在另一个实施例中，可以线性组合上述子目标函数，将全局目标函数设置为：

其中，λ1、λ2、λ3和λ4均是超参数，代表上述四个优化目标的相对重要程度。对应于占优策略激励相容的n个子目标函数可以先使用求和组合成为子目标函数：

在此实施例中，由于优化目标中包括激励相容，所以参与者实际报告的类型应接近于其真实类型t，并且根据前述定义，x＝f(t，γ)，所以可将上述全局目标函数进一步改写为如下形式并作为所述目标函数。

对应到神经网络中，根据图2-4所示神经网络可知，可以按照上述公式配置计算图节点obj的计算关系。此时，代表该目标函数的节点obj依赖于代表分配结果的节点x(2201)、和代表参与者真实类型的节点t(2101)，代表参与者可能报告的类型的节点代表混合类型的节点代表各个参与者个体可观测量的节点γ^individual(4602)以及代表全局可观测量的节点γ^global(4603)；其中，pi是节点x(2201)的代表金钱支付的分量p的第i个元素。

在其他实施例中，还可以采用其他方法将所述子目标函数组合成全局目标函数，例如采用各个子目标函数的最大值作为全局目标函数，在此不再赘述。

如图1所示，本经济激励机制设计方法还包括：

s130：使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本。

在本步骤中，根据神经网络的输入节点中存在不确定性的随机变量的先验分布，随机产生用于神经网络训练的训练样本。因为参与者的真实类型t、参与者实际报告的类型以及参与者可能报告的类型各个参与者的个体可观测量γ^individual，全局可观测量γ^global都可能存在不确定性。例如，在一实施例中，一个输入节点是否存在不确定性取决于计划者是否事前可以确定该节点代表的变量的具体数值；在另一实施例中，根据前述定义和符号，各参与者类型的随机变量t、以及的先验分布都可以表示为δ(t)，可观测量的先验分布表示为δ(γ)。

因此，为了完整生成用于神经网络训练的训练样本，如图5所示，该步骤s130：使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本的步骤，具体包括：

s410：根据输入节点中存在不确定性的可观测变量的先验分布，随机生成对应可观测变量的随机样本。

s420：根据输入节点中存在不确定性的参与者类型变量的先验分布，随机生成对应参与者类型变量的随机样本。

例如，对于节点t代表的随机变量，可以根据先验分布δ(t)来随机产生节点t对应的训练样本；对于存在不确定性的可观测量γ，可以根据先验分布δ(γ)来随机产生节点γ^individual和节点γ^global对应的训练样本。所述随机产生训练样本可通过任意程序设计语言内置的随机数生成器实现。为明确起见，记本步骤产生的训练样本总数为k，其中第k个样本用右上标k表示，例如，关于真实类型t的第k个样本记为t^k，根据第k个样本计算的神经网络的输出节点x的值记为x^k。

如图1所示，在上述使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本的步骤之后，本实施例提供的经济激励机制设计方法还包括：

s140：根据目标函数，使用上述随机产生的训练样本训练神经网络。

具体步骤参见图6，如图6所示，该步骤s140，根据目标函数，使用随机产生的训练样本训练神经网络，具体包括：

s510：预设损失函数值的加总方式，该损失函数为使用训练样本得到的多个目标函数值加总而成。

s520：不断更新神经网络中的可训练参数值，直至上述多个目标函数值通过所述加总方式加总计算得到的损失函数值达到最大或最小。

具体地，根据随机产生的样本来训练神经网络包括不断更新神经网络中的可训练参数的值，使得根据随机产生的样本计算的所述目标函数的值根据某种加总方式得到的结果达到最大或最小。

例如，在一实施例中，上述步骤s120中设定的目标函数能够根据步骤s130中随机产生的样本计算得到多个目标函数的值，该多个目标函数的值根据平均值加总方式得到下面的损失函数loss：

不断更新神经网络中的可训练参数的值，以使得上述损失函数loss最小。

再例如：在另一实施例中，还可以通过其他方式加总得到损失函数。例如，根据随机产生的样本计算目标函数的值，通过其他方式加总计算损失函数值的方法具体如下：

可计算根据随机产生的样本所计算的目标函数的所有值中的最大者作为损失函数值，并不断更新可训练参数的值以最小化目标函数的所有值中的最大者。

为此，设定所有可训练参数的集合为par。在一实施例中，可采用梯度下降法更新所有参数的值。梯度下降法的每一步通过下述公式更新参数的值：其中，α是一个系统设定的超参数，称为学习率，例如可取值为0.01或0.001。

上述步骤s140：根据随机产生的样本训练神经网络的步骤中，可采用反向传播算法计算目标函数关于可训练参数的梯度。例如，在上述实施例中，梯度可以通过反向传播算法计算。反向传播算法在大部分关于深度学习的参考书中都有详细描述，在此不再赘述。

上述步骤s140：根据随机产生的样本来训练神经网络的步骤中，可采用无监督学习算法训练神经网络。在上述实施例中，由于训练样本是随机产生的，不涉及任何人工标注过程，故而该神经网络的训练算法是无监督学习算法。

除了梯度下降法外，本申请实施例还可以通过其他任何可用的神经网络训练算法不断更新神经网络中可训练参数的值。此类神经网络训练算法能够包括adam算法、随机梯度下降法、动量梯度下降法和小批量梯度下降法等。此类神经网络训练算法在关于神经网络的公开材料中都有详细描述，在此不再赘述。

又例如，在又一实施例中，图1所示步骤s140：根据随机产生的样本训练神经网络的方法包括：分阶段训练神经网络。

其中一种分阶段训练神经网络的步骤如图7所示，包括：

s610：划分神经网络的训练阶段，预设每个训练阶段中的第一输入节点，以及除第一输入节点外的第二输入节点。

s620：在每个训练阶段中，固定第一输入节点的值，使用第二输入节点对应的训练样本，训练神经网络。

s630：依次执行每个训练阶段。

在每个训练阶段，首先需要固定神经网络中某些第一输入节点的值，然后使用与其他第二输入节点对应的随机产生的训练样本训练神经网络。

具体地，可将神经网络的训练过程划分为两个阶段，分别为第一阶段和第二阶段。

在第一阶段中，可以先固定神经网络中某些第一输入节点t、γ^individual和节点γ^global的值，使用与节点对应的随机产生的训练样本训练神经网络。可训练参数在第一阶段达到最优值后进入第二阶段。

在第二阶段，固定神经网络中某些第一输入节点的值，使用与节点t、γ^individual和节点γ^global对应的随机产生的训练样本训练神经网络。可训练参数在第二阶段达到最优值后再次进入第一阶段。如此循环往复。

另一种分阶段训练神经网络的方法如图8所示，包括以下步骤：

第一阶段，即s710：使用第三输入节点对应的训练样本，以及神经网络中可训练参数的最新值，计算得到第四输入节点的最优值。

第二阶段，即s720：使用第三输入节点对应的训练样本，以及第四输入节点的最优值，训练神经网络。

然后交替执行上述第一阶段s710和第二阶段s720。

在第一阶段s710，根据对应于神经网络中某些第三输入节点的训练样本，以及所述神经网络的可训练参数的最新值，计算神经网络中其他第四输入节点的最优值；在第二阶段s720中，根据对应于第三输入节点的训练样本，以及所述计算的其他第四输入节点的最优值，训练所述神经网络。

例如，在一实施例中机制优化目标不包括激励相容，此时，神经网络的输入节点中包括参与者实际报告的类型对于此种情形，训练神经网络的步骤包括交替执行的第一阶段和第二阶段。在第一阶段s610中：根据对应于神经网络中某些第三输入节点t、γ^individual和γ^global的训练样本，以及根据神经网络的可训练参数的最新值得到的神经网络映射f(.)，计算神经网络中其他第四输入节点的最优值。具体地，可以计算节点的第i个个元素的最优值为：

即是在固定ti和γ时，使得最大的值。对于上述步骤s710：计算得到第四输入节点的最优值，一种分阶段计算神经网络中其他第四输入节点的最优值的步骤如下：

s711：划分计算所述第四输入节点的最优值的计算阶段，预设每个所述计算阶段中的所述第四输入节点中对应的张量中的第一部分元素，以及所述第四输入节点中对应的张量中除所述第一部分元素外的第二部分元素；

s712：在每个所述计算阶段中，固定所述第一部分元素的值，计算所述第二部分元素的最优值。

在本申请的一些实施例中，上述计算神经网络中其他第四输入节点的最优值的步骤还包括分阶段计算所述第四输入节点的最优值。此时步骤s610包括以下方法：在该方法中的每个阶段，固定第四输入节点所对应的张量中的第一部分元素的值，计算第四输入节点所对应的张量中的第二部分元素的最优值，如此循环往复。

该计算张量中元素值的方法具体如下：在计算第四输入节点的最优值时，首先根据随机产生的样本固定第四输入节点所对应的张量中的第一部分元素的值，更新第四输入节点所对应的张量中的第二部分元素t1的最优值；然后根据更新的t1的最优值以及随机产生的固定第四输入节点所对应的张量中的第一部分元素的值，更新第四输入节点所对应的张量中的第二部分元素t2的最优值，如此循环往复。在每一个阶段，张量中的一个元素的值都得以更新，逐步逼近希望计算得到的第四输入节点的最优值。在得到第四输入节点的最优值后，返回进入图8中的上述第二阶段s720，根据对应于第三输入节点t、γ^individual和γ^global的训练样本，以及计算的其他第四输入节点的最优值，训练所述神经网络。此时训练神经网络的具体方法依然可以包括梯度下降法、adam算法、随机梯度下降法、动量梯度下降法和小批量梯度下降法等，在此不再赘述。

另外，图1所示的经济激励机制的设计方法还包括以下步骤：

s150：使用训练完成的神经网络计算得到各经济参与者的资源分配结果。

本步骤可以由分配结果计算模块执行，根据训练好的神经网络计算对经济参与者的经济资源分配结果。

根据上述步骤s140得到的训练好的神经网络，对于所述输入节点的每一个具体值，都可以根据最优的参数计算出与之相对应的所述输出节点的具体值。可以根据所述输出节点的计算值确定对经济参与者的经济资源分配结果。

具体地，如图9所示，该步骤s150：使用训练完成的神经网络计算得到各经济参与者的资源分配结果的步骤包括以下步骤：

s810：将可观测量的实测值和/或每个经济参与者报告的参与者类型的报告值赋给输入节点，通过神经网络得到输出节点的值。

s820：根据输出节点的值对每个经济参与者进行资源分配。

该根据训练好的神经网络计算对经济参与者的经济资源分配结果包括将实际观测到的可观测变量的值和/或每个经济参与者实际报告的私有类型的值赋给所述神经网络的输入节点，然后神经网络前向传播得到输出节点的值，并根据输出节点的值对每个经济参与者进行经济资源分配。

结合上述图9所示的实施例，在现实中，将实际观测到的可观测变量γ^individual和γ^global的值，和/或每个经济参与者实际报告的私有类型的值(在该实施例中，由于该实施例中设置有激励相容条件，实际报告的私有类型的值也为真实类型t的值)分别赋给所述神经网络的输入节点γ^individual(3102)、γ^global(3103)和t(3701)，前向传播得到输出节点x(3201)的值，并根据输出节点x(3201)的值对每个经济参与者进行经济资源分配。

综上，本申请技术方案提供的经济激励机制的设计方法，通过构建神经网络，将神经网络映射作为经济激励机制中的社会选择函数；使用神经网络中的输入节点作为经济激励机制的可观测量和参与者类型，并以输出节点作为资源分配结果，来配置神经网络的目标函数，进而通过存在不确定性的随机变量的先验分布随机生成训练样本，以目标函数为导向，使用该训练样本训练神经网络，即能够快速得到各经济参与者的资源分配结果。通过构建神经网络，能够自动进行经济激励机制的设计；该设计方法不要求机制设计者具有艰深的博弈论专业知识，也不需要具有很强的专用性。该基于神经网络的经济激励机制的设计方案能够通用性地被应用于绝大多数现实经济场景中，从而自动且快速地设计出适应现实经济场景的最优经济激励机制，并通过神经网络自动计算出最优的对经济参与者的资源分配结果。本方案解决了现有技术中经济激励设计需要复杂知识和高超水平，不具有通用性，当应用场景改变时难以快速设计新的激励机制的问题。

另外，参见图10，图10为本发明实施例提供的一种基于神经网络的经济激励机制的设计系统的结构示意图。如图10所示，该经济激励机制的设计系统，包括：

神经网络构建模块1010，用于构建神经网络，将神经网络映射为经济激励机制中的社会选择函数，其中，神经网络包括输入节点和输出节点；

目标函数配置模块1020，用于使用输入节点作为经济激励机制中的可观测量和参与者类型中的至少一者，输出节点作为根据社会选择函数计算的资源分配结果，根据经济激励机制的优化目标配置神经网络的目标函数；

训练样本生成模块1030，用于使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本；

神经网络训练模块1040，用于根据目标函数，使用训练样本训练神经网络；

分配结果计算模块1050，用于使用训练完成的神经网络计算得到各经济参与者的资源分配结果。

另外，如图11所示，本发明实施例还提供了一种基于神经网络的经济激励机制的设计系统，包括：

存储器1004、处理器1001及存储在存储器1004上并可在处理器1001上运行的经济激励机制设计方法的确定程序，经济激励设计方法的确定程序被处理器1001执行时实现上述任一项实施例提供的经济激励机制的设计方法的步骤。

此外，本发明还要求保护一种计算机可读存储介质，该计算机可读存储介质存储有经济激励机制设计的确定程序，该经济激励机制设计的确定程序被处理器执行时，实现上述任一项实施例提供的经济激励机制的设计方法的步骤。

本发明计算机可读存储介质具体实施例与上述经济激励机制的设计方法的各实施例基本相同，在此不再详细赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

技术特征：

1.一种基于神经网络的经济激励机制的设计方法，其特征在于，包括：

构建神经网络，将所述神经网络的神经网络映射作为经济激励机制中的社会选择函数，其中，所述神经网络包括输入节点和输出节点，所述神经网络映射为所述输入节点至所述输出节点的计算关系；

使用所述输入节点表示所述经济激励机制中经济参与者的参与者类型和可观测量的至少一者，所述输出节点表示根据所述社会选择函数计算的资源分配结果，根据所述经济激励机制的优化目标配置所述神经网络的目标函数；其中，所述目标函数依赖于所述输出节点；

使用所述输入节点中存在不确定性的随机变量的先验分布，随机生成用于所述神经网络训练的训练样本；

根据所述目标函数，使用所述训练样本训练所述神经网络；

当所述神经网络训练完成时，将所述可观测量和/或每个经济参与者的参与者类型赋值给所述神经网络的输入节点，使用所述神经网络计算得到每个所述经济参与者的资源分配结果。

2.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述神经网络被配置为计算图的一部分；所述目标函数对应于所述计算图的第一计算图节点；所述根据经济激励机制的优化目标配置所述神经网络的目标函数的步骤，包括：

根据所述经济激励机制的优化目标，配置所述第一计算图节点，以及该第一计算图节点所依赖的一个或多个第二计算图节点；以及

配置所述第一计算图节点与所述一个或多个第二计算图节点之间的计算关系。

3.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述根据经济激励机制的优化目标配置神经网络的目标函数的步骤，包括：

将所述经济激励机制的优化目标分解为多个子优化目标；

配置与所述多个子优化目标一一对应的多个子目标函数；

将所述多个子优化目标函数按序组合为所述神经网络的目标函数。

4.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述使用输入节点中存在不确定性的随机变量的先验分布，随机生成用于神经网络训练的训练样本的步骤，包括：

根据所述输入节点中存在不确定性的可观测变量的先验分布，随机生成对应所述可观测变量的随机样本；和/或，

根据所述输入节点中存在不确定性的参与者类型变量的先验分布，随机生成对应所述参与者类型变量的随机样本。

5.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述使用训练样本训练神经网络的步骤，包括：

预设损失函数的加总方式，所述损失函数为使用训练样本得到的多个所述目标函数值加总计算得到；不断更新所述神经网络中的可训练参数值，直至根据所述加总方式得到的损失函数值达到最大或最小。

6.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述使用训练样本训练所述神经网络的步骤，包括：

划分所述神经网络的训练阶段，预设每个所述训练阶段中的第一输入节点，以及除所述第一输入节点外的第二输入节点；

在每个所述训练阶段中，固定所述第一输入节点的值，使用所述第二输入节点对应的训练样本，训练所述神经网络；

依次执行每个所述训练阶段。

7.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述输入节点包括第三输入节点和第四输入节点；所述使用训练样本训练所述神经网络的步骤，包括：

使用所述第三输入节点对应的训练样本，以及所述神经网络中可训练参数的最新值，计算得到所述第四输入节点的最优值；

使用所述第三输入节点对应的训练样本，以及所述第四输入节点的最优值，训练所述神经网络。

8.根据权利要求7所述的经济激励机制的设计方法，其特征在于，所述使用所述第三输入节点对应的训练样本，以及所述神经网络中可训练参数的最新值，计算得到所述第四输入节点的最优值的步骤，包括：

划分所述第四输入节点的最优值的计算阶段；

预设每个所述计算阶段中、所述第四输入节点中对应张量的第一部分元素，以及所述对应张量中除所述第一部分元素外的第二部分元素；

在每个所述计算阶段中，固定所述第一部分元素的值，计算所述第二部分元素的最优值。

9.根据权利要求1所述的经济激励机制的设计方法，其特征在于，所述使用训练完成的神经网络计算得到各经济参与者的资源分配结果的步骤，包括：

将所述可观测量的实测值和/或每个经济参与者报告的参与者类型的报告值赋给所述输入节点，通过所述神经网络得到所述输出节点的值；

根据所述输出节点的值对每个经济参与者进行资源分配。

10.一种基于神经网络的经济激励机制的设计系统，其特征在于，包括：

神经网络构建模块，用于构建神经网络，将所述神经网络的神经网络映射作为经济激励机制中的社会选择函数，其中，所述神经网络包括输入节点和输出节点，所述神经网络映射为所述输入节点至所述输出节点的计算关系；

目标函数配置模块，用于使用所述输入节点表示所述经济激励机制中的可观测量和经济参与者的参与者类型的至少一者，所述输出节点表示根据所述社会选择函数计算的资源分配结果，根据所述经济激励机制的优化目标配置所述神经网络的目标函数；其中，所述目标函数依赖于所述输出节点；

训练样本生成模块，用于使用所述输入节点中存在不确定性的随机变量的先验分布，随机生成用于所述神经网络训练的训练样本；

神经网络训练模块，用于根据所述目标函数，使用所述训练样本训练所述神经网络；

分配结果计算模块，用于当所述神经网络训练完成时，将所述可观测量和/或每个经济参与者的参与者类型赋值给所述神经网络的输入节点，使用所述神经网络计算得到每个所述经济参与者的资源分配结果。

11.一种基于神经网络的经济激励机制的设计系统，其特征在于，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的经济激励机制设计方法的确定程序，所述经济激励设计方法的确定程序被所述处理器执行时实现如权利要求1至9中任一项所述的经济激励机制的设计方法的步骤。

技术总结
本发明公开了基于神经网络的经济激励机制的设计方法和系统，所述方法包括：构建神经网络，将神经网络的神经网络映射作为经济激励机制中的社会选择函数；使用输入节点表示经济激励机制中经济参与者的参与者类型和可观测量中的至少一者，输出节点表示社会选择函数计算的资源分配结果，根据优化目标配置神经网络的目标函数；使用输入节点中随机变量的先验分布，随机生成用于神经网络训练的训练样本；根据目标函数使用训练样本训练神经网络；将可观测量和/或参与者类型赋值给神经网络的输入节点，使用神经网络得到每个经济参与者的资源分配结果。本发明的技术方案能解决现有技术中当经济应用场景改变时，新的激励机制难以被迅速设计出的问题。

技术研发人员：丛明舒;瞿中明;黄艺茁
受保护的技术使用者：深圳逻辑汇科技有限公司
技术研发日：2019.12.11
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52686.html

专利

最新回复(0)