文摘

随着物联网的发展(物联网),传感器网络可以带来大量有价值的数据。除了被利用在当地的物联网应用,数据也可以交易的边缘服务器连接。作为一个有效的资源分配机制,双拍卖已广泛应用在股票和期货市场,也可以应用于传感器网络中的数据资源分配。目前,通常存在多个边缘服务器运行双重拍卖相互竞争来吸引用户数据(买家)和生产商(卖方)。因此,每个边缘服务器上的双重拍卖市场运行需要有效的机制来提高分配效率。具体来说,定价策略的双向拍卖中起着重要的作用影响交易商的利润,因此,将会影响到交易员的市场选择和投标策略,进而影响双向拍卖市场的竞争结果。此外,交易员的交易策略也会影响市场的定价策略。因此,我们需要分析双向拍卖市场的定价策略和交易员的交易策略。具体来说,我们使用深强化学习算法结合平均场理论来解决这个问题,一个巨大的状态和行动空间。对于交易策略,我们使用独立的参数化深度Q-Network (I-PDQN)算法结合平均场理论计算的纳什均衡策略。 We then compare it with the fictitious play (FP) algorithm. The experimental results show that the computation speed of I-PDQN algorithm is significantly faster than that of FP algorithm. For pricing strategies, the double auction markets will dynamically adjust the pricing strategy according to traders’ trading strategies. This is a sequential decision-making process involving multiple agents. Therefore, we model it as a Markov game. We adopt Multiagent Deep Deterministic Policy Gradient (MADDPG) algorithm to analyze the Nash equilibrium pricing strategies. The experimental results show that the MADDPG algorithm solves the problem faster than the FP algorithm.

1。介绍

随着物联网的发展(物联网),智能终端嵌入式与大量的传感器,如相机、GPS,陀螺仪是在日常生活中越来越常见1),收集大量数据(2]。除了利用当地的智能物联网应用程序,这些有价值的数据可以被交易的连接边缘服务器,这一方面可以提供计算资源的智能手机应用程序,另一方面,为交易提供了一个市场机制之间的数据数据用户(称为买家)和数据生成器(称为卖家)3]。例如,交通信息可以收集从智能手机到边缘服务器,可以卖给一些导航优化路线规划申请。在这种情况下,双向拍卖,拍卖机制中有多个买家和卖家(以下称为交易员)在市场上可用于交易数据之间的数据用户(买家)和数据生成器(卖家)的边缘服务器。在该机制中,买家和卖家可以在任何时候收购交易期间,和市场将匹配买家与卖家提交投标在指定的时间。这种机制允许交易员在任何时间进入市场和贸易同时多个商品。由于其分配效率高,双拍卖已经广泛用于解决现实世界的资源分配,如在股票市场(4),排放交易市场(5),频谱拍卖市场(6),云计算资源分配市场(7),传感器网络资源配置市场(3]。在这样的市场,交易员和双重拍卖市场需要采用有效的交易策略和市场机制8]。

在现实世界中,可能存在大量的交易员边缘服务器上的贸易数据。此外,可能存在多个边缘服务器运行双向拍卖市场。这时,交易员需要决定哪些复式拍卖参与以及如何选择复式拍卖市场,而复式拍卖市场需要有效的机制来提高分配效率吸引更多的交易员。自定价策略可以确定的价格交易商将贸易,它会显著影响到交易员的利润。与此同时,交易策略(即。,how to choose the market and bidding) will in turn affect the market’s pricing strategies, thereby affecting the market allocation efficiency. Therefore, we need to analyze the trading strategies of traders and pricing strategies of double auctions in the environment with multiple competing edge servers running double auction markets.

在双拍卖,市场和交易员都是自私自利的代理和他们的策略是互相影响。博弈理论被广泛用于分析的战略互动利己主义的代理人,纳什均衡的概念是一个重要的解决方案。因此,我们将分析纳什均衡的交易策略和定价策略在这竞争的环境。具体地说,这个问题涉及到大量的商人,这可能连续竞价空间和私人偏好。虽然广义FP算法可以解决类似的问题,很难解决纳什均衡在可行的时候有大量的交易员。在本文中,我们将分析纳什均衡的交易策略和定价策略基于强化学习和平均场理论。纳什均衡的交易策略,我们结合独立参数化深度Q-Network (I-PDQN)算法,它适用于解决问题的混合操作,与平均场理论(9,10)解决纳什均衡的交易策略。实验结果表明,该算法可以显著高于FP算法解决问题。纳什均衡定价策略,我们采用多重代理深决定性策略梯度(MADDPG)算法。我们还发现,该算法得到的纳什均衡定价策略是一样的FP算法的解决方案,和MADDPG算法可以解决这个问题的速度比FP算法。实验结果还可以为设计提供有用的见解实际交易策略和定价策略在现实世界中。

本文的其余部分的结构如下。节2,我们介绍相关工作。节3介绍的基本设置双重拍卖市场。节4,我们分析了纳什均衡交易策略基于I-PDQN算法和平均场理论。节5,我们使用MADDPG算法解决纳什均衡定价策略。最后,我们总结论文部分6

存在大量的关于数据采集工作11- - - - - -14]。具体来说,Sangoleye等人研究了从SIoT节点数据采集问题后techno-economics-based方法通过利用契约理论。钟等人提出了一个试验台,包括对身体传感器和一个Android移动设备获取数据,然后使用人类的活动LSTM网络认识到人类行为。Ho等人提出了一个框架,使用无人机(UAV)收集数据,并使用粒子群优化(PSO)的方法找到最优拓扑,以减少能源消耗,误比特率(BER),和无人机旅行时间。Maksymova等人研究了激光雷达传感器数据采集和压缩为汽车应用。

也存在很多关于数据交易工作,如(15- - - - - -17]。具体地说,田等人提出了一个交易市场机制考虑隐私泄漏物联网数据在一对多交易场景(18]。他们进一步提出了一种多对多的数据交易策略,重新定义现有机制的一些不合理的假设(19]。玉等人提出了一个交易市场模式移动手机用户之间的数据,考虑到数据的要求和需求的不确定性20.]。回族等人提出了一种传感的公用事业服务体系通过考虑数据提供者和数据服务提供商与车辆传感器网络数据定价策略(21]。Niyato等人提出了一个数据市场模型对物联网数据(22]。Al-Fagih等人提出了一个考虑定价模型对公共传感数据的数据延迟,服务,质量和信任因素(23]。此外,双向拍卖中,作为高效的资源配置机制,已广泛应用于数据交易市场。例如,娇等人设计了一个基于拍卖的两倍数据市场模式和定价机制来最大化利润(24]。陈等人使用双向拍卖交易传感器数据(25]。太阳等人边缘服务器用作双拍卖市场解决计算资源不足的问题(26]。蔡等人提出了一个真实的数据双向拍卖机制交易市场对三大挑战,包括多元化的市场偏好,消费者复杂的利益冲突关系的数据,和双方的战略行为27]。

交易策略和定价策略中扮演重要角色的双重拍卖市场,因此,存在大量的工作大约在双重拍卖交易策略和定价策略。交易策略,戈德等人提出了“零情报”(子)首次交易策略28]。交易员只能随机选择投标,投标是均匀分布的。布朗和冯提出了虚拟游戏算法(简称FP算法)29日),每个交易员估计其他交易员的FP信仰历史报价,在此基础上计算当前最好的回应策略。但是原来的算法只能解决游戏的完整信息,所以拉比诺维奇等人提出了一个广义FP算法分析不完全信息博弈的连续式(30.),但这个广义算法只适用于单边拍卖。施等人在此基础上作出了改进分析不完全信息博弈问题双重拍卖(下31日]。第一次Schvartzman和Wellman结合实证博弈论与强化学习的q学习算法分析最优交易策略的双向拍卖市场的交易员(32),但该算法只适用于小和离散空间的招标行为。Chowdhury等人提出了一个交易策略使用蒙特卡洛树搜索(mct) [33]。然而,该算法适用于离散招标集和无法处理招标的问题连续类型和操作空间。Bredin Parkes设计一个框架的真实招标在双重拍卖市场34]。

此外,还存在一些作品分析市场定价策略在竞争的环境中与多个拍卖市场的两倍。米勒和妞妞实验分析了交易员的市场选择策略在竞争的市场交易环境35]。蔡等人分析了影响不同的自适应策略的交易策略和自己的收入在市场竞争环境中36]。施等人认为两种不同的定价策略,分析了如何调整自己的定价策略来吸引交易员在两个相互竞争的市场37),然后考虑四种典型的类型的收费定价策略,分析了纳什均衡市场竞争环境中选择38]。

从上面的工作关于数据的交易策略,我们可以发现,存在一些作品与连续交易类型和行动空间下不完整的信息,最上面的工作只考虑少数交易员在分析纳什均衡的解决方案。关于市场定价策略,尽管存在一些考虑到竞争环境下工作,这些工作并没有考虑市场应该如何调整定价策略的不完全信息博弈下大量的交易员。在本文中,我们将分析传感器数据的纳什均衡的交易策略和市场定价策略的双边缘服务器上运行拍卖市场在竞争环境中与大量的交易员。

3所示。基本设置

在本节中,我们将介绍的基本设置交易员和双向拍卖市场边缘服务器上运行。我们将描述的基本设置交易员和介绍如何计算交易者的预期利润。然后我们介绍双拍卖的定价策略,描述了如何计算双拍卖市场的配置效率。

3.1。交易者的基本设置

在这篇文章中,交易员由数据买家和卖家。的买家来标示 ,和卖家的集合表示为 所有市场的集合来表示 每个交易员都有一个类型和类型的卖方愿意出售的最低价格。买方类型显示的最高价格买方愿意购买一个项目,和卖方的类型是最低的价格,卖方愿意出售项目。实际上表明交易员的偏好类型项目。一个买家和一个卖家的类型是表示 ,分别是私人信息,也就是说,每个特定的买方或卖方的类型是未知的。然而,所有买家和卖家都假定的类型是常识,和先验知识的累积分布函数 ,分别认为是可微的,概率密度函数 ,分别。我们假设一个小成本 会发生当交易者进入市场(例如,在线交易的时间)。因此,当买方类型太低或卖方的类型是太高,他们选择不进入市场。在这一过程中,买家出价低的行为提供,不进入市场,和卖家出价高的行为提供了可以区分,而不是进入市场。接下来,我们描述交易员如何选择一个市场,市场报价。我们买家的作用定义为一个元组 因此买方市场选择和选择市场的投标被视为交易策略。请注意, 意味着买方出价 在市场 , 意味着买方不进入任何市场。同样,我们使用 代表卖方的行动。

3.1.1。交易者的期望效用

在本节中,我们介绍如何计算交易者的预期效用。接下来,我们介绍如何计算卖方的期望效用。同样,买方期望效用也可以以同样的方式。卖方的期望效用是由它的类型 ,它的行动 ,及其对其他买家和卖家的行为信念 , ,我们定义 作为一个元组 ,在哪里 代表了 最小的卖方市场投标行动 特别是,卖家采取不同措施的数量和元组表示 在哪里 代表卖方的数量选择行动 现在,卖方的立场决定如下。我们使用 代表其他卖家的数量低于投标 在市场 ,它可以计算

同样,扣除卖方本身,我们使用 代表卖家的数量有相同的报价作为卖方,它可以作为计算

现在,任何位置 可以是卖方投标行动 ,这是表示位置 ,在哪里 是所有可能的设置位置。所以任何的概率 在一组

现在,卖方可以计算的预期值 在哪里 代表卖方是否能在市场上交易。 在哪里 代表的总数买家的出价 在市场上或更少。

考虑到所有 在市场上,卖方的期望值

买方预期值的推导过程是相同的。

然后,我们得到的方程计算预期的卖方付款,按预期和期望效用可以计算付款-期望值。我们可以确定均衡价格范围 和价格 根据平衡 定价策略。然后,卖方支付投标

现在卖方投标的期望效用

买方期望效用的推导过程是相似的。

现在在市场上拍卖阶段 ,假设卖方的交易策略 ,卖方立即奖励

卖方的累计奖励 在哪里 是强化学习的折扣因素,表明未来回报的重要性的程度。买家的推导过程是相同的。

3.2。市场环境

我们现在介绍基本的定价策略设置双重拍卖。

3.2.1之上。平衡 定价策略

在本文中,假设所有市场采用平衡 定价策略,市场的定价参数 因此,它是市场的定价参数规定 和的竞争定价策略 市场是

处于平衡状态k定价、均衡价格范围 平衡匹配后,交易者成功匹配(匹配的卖方要价不超过买方出价)可以在任何价格贸易均衡价格范围内。因此,成功匹配的买家和卖家的集合,可以交易 ,和的集合竞价 根据上述条件,均衡价格区间必须间隔的子区间 ,选择。 ,这是记录为 平衡状态下k定价,所有交易员在同一价格和贸易 交易价格是 显然,当 较大,卖方市场的偏见,否则,买方的偏见。

3.2.2。分配效率

现在我们介绍如何计算市场的配置效率。配置效率是最重要的指标之一,测量性能的双重拍卖。实际利润的分配效率比所有买家和卖家通过市场获得最大利润理论上时提交他们的类型的报价,这是 在哪里 是实际的交易由交易员的集合, 买家在交易的类型吗 , 卖方在交易的类型吗 , 是交易的交易价格 , 是当交易员提交他们的交易类型设置为他们的报价,然后呢 是交易的交易价格 当交易者提交类型报价。

3.2.3。市场回报

摘要竞争双重拍卖市场打算采用一种有效的分配效率最大化定价策略以吸引交易员。因此,我们以市场配置效率为市场回报。

在每个阶段 ,每个市场发布其定价行动。交易商然后选择市场参与,根据交易策略。当所有交易员参与投标,每个市场匹配买家与卖家根据均衡匹配策略根据方程(12),市场的直接奖励表示如下:

市场的累计奖励

4所示。纳什均衡交易策略

当交易者选择边缘服务器市场参与投标,他们的策略是互相影响。因此,我们需要获得纳什均衡的交易策略。本文所有的交易商利用强化学习提高他们的交易策略,直到所有交易员聚集。这时,交易商已达到纳什均衡策略。应该注意的是,虽然学习的过程重复,我们研究的游戏本质上是一个射击游戏。一个射击游戏意味着所有参与者只有一轮游戏。在这个重复的学习过程,代理会选择行动在当前状态根据先前观察到的信息状态和获得利润,同时进入下一个状态。这个过程是一个连续的决策过程。因此,我们和使用它作为一个马尔可夫决策过程模型深度强化学习算法解决纳什均衡策略。我们使用I-PDQN(独立参数化深度q-network)算法分析交易员的纳什均衡交易策略和评估它对FP算法(40]的计算速度和收敛性结果。

我们假设有两个相互竞争的边缘服务器双向拍卖市场。当市场的数量大于2,我们的方法仍然是适用的。在每个阶段,交易员需要选择一个市场和报价。因此,交易策略包括两个部分,选择一个市场,那里的行动空间离散,投标,行动空间是连续的。因此,整个交易行动与连续和离散混合行动行动。此外,这个问题涉及到大量的交易者。因此,我们打算解决大量的交易者的交易策略问题与混合行动基于I-PDQN算法和平均场理论。

4.1。I-PDQN算法

正如我们在上面所讨论的,P-DQN算法(41)适用于混合行动空间的一个代理。然后这个算法扩展到环境与多个合作代理(42]。然而,双向拍卖市场的交易员不合作,因此,我们扩展到环境与多个非合作的代理,叫I-PDQN算法。在下面,我们首先简要介绍P-DQN算法,然后介绍I-PDQN算法。

P-DQN算法可以处理混合行动空间的问题。这个想法是为了更新离散行动战略和持续的行动策略,分别结合DQN算法(43)和DDPG算法(44]。P-DQN算法,首先,低级参数相关高层离散选择行为,然后,可以最大化的离散连续混合行动对行动值计算函数。更具体地说,离散连续混合行动空间 可以被定义为 在哪里 是一组离散的动作,然后呢 是所有离散行为 相应的连续操作。因此,一个确定性的函数可以定义映射每个离散状态和行动 到相应的连续参数 在哪里 是确定的政策网络的重量。一个离散的动作值函数 进一步定义映射状态 和所有混合行动的实际价值。 是离散的重量行动价值网络。P-DQN更新离散行动政策网络参数通过以下损失函数: 的表达式 在哪里 混合后的下一个状态的行动吗 。连续参数部分的政策更新是通过修正参数 并尽量减少损失函数 :

因此,动作值函数 主要扮演两个角色。首先,它输出所有离散的贪婪策略行动(符合DQN),其次,它提供了一个连续的政策更新参数的梯度。

引入P-DQN算法后,我们现在推出I-PDQN算法对多个非合作代理。I-PDQN是一个较低的算法时间和空间消耗。具体来说,I-PDQN空间的复杂性 在每一轮。在哪里 重放内存的大小,重放内存清除每一轮,这意味着我们的算法不占用太多的内存空间。注意,很难得到一个精确值的时间复杂度深的强化学习。然而,在我们的实验中,我们可以得到收敛的结果在一个合理的时间。详细,该算法需要竞争的市场定价参数,买家和卖家的数量和招标空间作为输入,最后输出纳什均衡的交易策略。因为每个交易员打算最大化自己的利润,它独立学习最好的交易策略。因此,I-PDQN算法采用自主学习模式,和每个交易员都有一个独立P-DQN学习算法(45,46]。因为这个游戏需要大量的商人,我们平均场理论引入I-PDQN算法,来描述市场的状态。算法的详细算法所示1

输入:市场定价参数 ,数量的买家 ,数量的卖家 ,交易员竞价空间
输出:纳什均衡的交易者的交易策略
1初始化:对于每个交易员 ,初始化勘探参数 ,批量大小 ,均匀分布 ,和随机初始化网络权重 , ,和初始状态
2交易者的损失函数是不收敛
3每个交易员 ,计算连续参数 对应于所有离散行动根据当前状态;
4选择行动 根据以下规则
5
6当前阶段的招标时间结束时,每个交易员获得其立即返回 和国家 下一阶段的市场规则;
7对每个交易员 ,的元组 存储在回放记忆 ;
8策略培训:
9每个交易员 需要 样本重复记忆 并计算出 根据方程:
10
11个随机梯度计算 根据方程(17)和(19),并更新重量根据方程:
12
4.2。实验分析

实验是在系统上运行配置英特尔(R) (TM)核心i7 - 8700 CPU、12 CPU核心,7 GB GPU内存,CUDA 10.2版本,Ubuntu 16.04.6 LTS 4.15.0-45遗传GNU / Linux。

4.2.1。准备参数设置

我们现在实验分析纳什均衡的交易策略。在实验分析,我们认为50 50买家和卖家。对于每个交易员的混合作用,集表示为离散行动 ,在哪里 离散行动的总数,连续行为参数对应于每个离散行动 在选择动作阶段,每个交易员首先生成相对应的连续参数离散行为根据观察到的状态。设置为探索概率 ,和探测概率的增加将逐渐减少训练迭代。离散选择的行动,交易员随机选择一个均匀分布的离散动作 的概率 为探索。[0 3)均匀分布用于随机离散的探索行动。交易员随机选择一个数字(0 3)均匀分布。如果是在[0,1],这意味着选择离散行动是0,他们不进入市场;如果(1、2)意味着离散行动的选择是1,选择市场1进入;如果(2,3)意味着离散行动的选择是2,选择市场2进入。有六个州在每个阶段的市场,和具体参数表解释道1。重播的记忆 每个交易员 ,样本的大小 在批处理,选择更新的比率 ,和贴现因子

4.2.2。实验结果

我们选择两个典型的定价策略 进行分析。这是最常见的策略在经济市场。这两个市场相互竞争。I-PDQN算法训练的纳什均衡交易策略得到市场交易员将进入和多少收购处于平衡状态。

1显示了交易员的市场选择的变化与组合定价策略的迭代过程 市场的定价策略1在哪里吗 和市场的定价策略2 在这个时候,市场1完全偏向于买家,而市场2完全偏向于卖方。我们可以看到在图1(一)通过培训,卖方2类型小于0.5将逐渐进入市场。这是因为市场2完全偏向卖家,因此,市场2将吸引卖家参与。然而,由于卖家0.5类型不能在竞争中获胜,他们会选择去第一市场为了成功交易。买家在图的分析1 (b)是一样的卖方市场选择策略的分析。在图1 (b)1,市场最终将吸引买家超过0.5型和卖家型大于0.5,而市场2将吸引交易员与较小的类型。这表明通过持续学习,买家和卖家会选择一个市场,有利于自己的市场或可以交易成功。

2显示了交易员的纳什均衡的收敛结果交易策略与定价策略的竞争环境 。注意训练算法的过程1只能输出特定类型的平衡动作。基于这些平衡操作对应于交易者类型,我们进一步利用神经网络适合最后的交易策略,这是一个从交易者类型映射到行动。结果表明,在平衡态,交易员如何选择市场,参与市场。我们也可以发现两个市场可以吸引商人,和市场能够共存。根据交易员的市场选择,可以看出交易员1大类型进入市场,同时使用更小的类型将进入市场交易员2。在市场1,因为它是完全偏向于买家,买家愿意出价接近它们的类型,即投标如实,虽然卖家想隐藏他们的出价更多。在市场2,卖家愿意出价接近他们的真实类型,因为市场2完全偏向卖家。卖家会如实以改善匹配概率。从图2外,我们还发现,当买家的类型小于0.12和卖方大于0.88的类型,他们会选择不进入市场,因为固定成本(如时间成本)进入市场。

竞争市场的定价策略 ,结果表明,在相同的定价策略,交易员最终将收敛于只有一个市场,市场是融合是随机的,投标策略的交易者都是类似于在一个单一市场中。这是因为当两个相互竞争的市场都是一样的,交易商将选择更多参与者进入的市场,以提高匹配的概率。这将导致只有一个市场才能生存。

4.3。实验评价对《外交政策》

解决连续私人游戏类型的另一种方法是使用广义FP算法。因此,我们将评估算法对FP算法。在这个评估中,我们仍然认为,有两个相互竞争的市场,和市场定价策略 。我们还假设有50 50买家和卖家。我们使用这两种算法训练交易员的交易策略,分别获得最后的纳什均衡的交易策略。实验重复50次。在每个实验中,I-PDQN算法将初始化类型的交易者在[0,1]随机均匀分布。FP算法的类型的交易员和初始FP信仰也随机初始化。

3显示交易商的平均利润当纳什均衡时进入不同市场交易策略是通过不同的算法。可以看出,上述两种算法得到的结果几乎是一样的,这可以证明I-PDQN算法可以实现纳什均衡策略与FP算法相同。

我们也评估这两个算法的计算速度。我们计算的迭代次数和每次迭代的计算时间。平均和标准偏差计算结果如表所示2

结果表明,尽管I-PDQN算法具有更多的迭代收敛于平衡时,单个迭代计算时间的FP I-PDQN算法的5.031倍,因此,FP算法的总平均时间的4.6745倍I-PDQN算法。因此,我们可以看到,使用I-PDQN算法可以计算交易员的纳什均衡交易策略更快。原因是,交易员使用I-PDQN算法不断与环境交互和其他人,他们可以获得更多的经验元组来训练自己的政策网络,因此,他们需要更多的迭代。然而,该算法只需要计算自己的混合行为根据当前所观察到的状态,因此,它需要更少的时间。在FP算法中,交易员需要计算当前最好的回应策略对FP信仰每次迭代和更新他们的FP信仰。所有交易员将重复这个过程直到收敛。因此,交易员的增多,在每个迭代FP算法的计算时间会增加,导致增加的总收敛时间。

5。竞争定价策略

纳什均衡分析交易策略后,我们现在分析双拍卖市场的定价策略纳什均衡。具体来说,我们将使用MADDPG算法设计竞争定价策略和评估它对FP算法的计算速度和收敛结果。

在竞争环境中,双向拍卖市场将实时调整定价策略以吸引交易员和获得更高的配置效率。凭直觉,定价策略和交易员的纳什均衡策略相互影响,因此,这是一个共同市场和交易员之间的学习过程,如图所示4。在第一阶段,市场选择定价策略基于观察的状态。在第二阶段中,交易商选择市场和提交投标根据纳什均衡交易策略。然后计算竞争市场配置效率根据当前的交易者行为,然后进一步更新定价策略以提高分配效率。重复这个过程达到平衡态。在这一刻,我们可以获得纳什均衡定价策略和纳什均衡交易策略在这种定价策略。

5.1。MADDPG算法

在上面的描述,共同学习的过程也是一个连续的决策过程,它涉及到两个相互竞争的市场。这可以被看作是马尔可夫的游戏。因此,我们使用可替换主体深决定性策略梯度算法(48纳什均衡定价策略进行了分析。

集中的训练和分散执行MADDPG算法。此外,每一块的经验重复包含的信息在当前阶段的代理。每个代理了多种策略,同时使用策略的总体效果优化。的空间复杂性MADDPG取决于重播内存的大小 ,通常不超过市场交易员的数量,是吗 ,在哪里 MDP元组的大小, 是重放内存的大小。I-PDQN一样,重复记忆是每一轮的清除。的时间复杂度,还不能准确地计算。然而,它可以确保收敛策略是在合理的时间计算。现在,我们将简要介绍MADDPG。我们使用 代表的策略的参数 代理和 代表的策略 代理。代理的累积期望的奖励 ,和确定的策略 ,梯度是 在哪里 是一个价值函数为每个代理。集中的关键,通过最小化更新以下损失函数: 的方程

是目标网络, 是参数 延迟更新的目标策略,和其他代理的策略可以通过拟合近似。可以看出,关键可以使用全球信息,和演员只使用本地观测信息。如果我们知道所有代理的行为,即使每个代理的策略是不断更新的,环境是稳定的。MADDPG算法设计竞争定价策略算法所示2,两个市场的定价参数空间作为输入和输出的纳什均衡市场定价策略。

输入:持续的行动空间 的市场
输出:均衡定价策略 的市场
1初始化演员:初始化网络 和关键网络 ,分别和初始化相应的参数 初始化目标网络 对应于上述两个网络和参数 ,初始化回放记忆
2随机初始化分布N行动勘查;
3初始各自的市场状态 ,并设置迭代周期
4交易者的损失函数是不收敛
5选择动作:
6市场选择行为 根据 ,分别
7版本定价行动 ,然后交易员调整他的平衡交易策略(I-PDQN算法)在定价,然后市场计算奖励 和新状态
8元组存储 在回放记忆
9策略培训:
10 (更新两个市场的战略网络,分别)
11个随机样本r从回放记忆元组 和计算
更新12关键网络问通过最小化的损失函数方程(21)
13个演员网络 更新样品的梯度战略最大化通过方程(20.)
14更新目标网络参数 通过方程
15结束
16结束
5.2。定价策略的实验分析

我们现在通过实验分析了纳什均衡定价策略。实验设置在I-PDQN是一样的。每个市场都是一个tuple,表示为 ,在哪里 买家和卖家的数量进入市场, 买卖双方的平均出价, 是交易的数量。定价参数空间 两个市场都在[0,1]和重放内存大小 最初的价格行动的一代,我们使用正态分布 噪音的探索。每次训练样本的数量 ,演员网络的学习速率 ,关键网络的学习速率 ,更新目标网络参数的因素 ,和贴现因子

5.2.1。实验结果

在这个实验中,两个市场获得纳什均衡定价策略通过持续培训。图5显示了行为选择迭代过程中的竞争市场的趋势。这表明市场1选择更高的定价参数的初始阶段,最后稳定在 市场2,因为市场1的高定价策略吸引了大量的卖家一开始,市场2也试图设置一个更高的定价参数,也就是 ,但不能超出市场1。在此期间,市场的行动选择2出了较大的波动,然后逐渐选择较低的定价参数,最后稳定在 实际上,我们已经尝试很多实验。结果表明,两个相互竞争的市场最终会稳定 ,在均衡状态,市场的定价参数1 2是和市场 反之亦然,这是有关市场网络参数初始化。这意味着市场将有利于一类商人,买家或卖家。在这种情况下,两个市场能够共存。这进一步表明,在一个高度竞争的环境中,很难吸引所有交易员的市场。

5.3。实验评价对《外交政策》

现在,我们评估我们的算法对FP算法的计算速度和分配效率。相同的参数部分4.2。每个实验重复10次,然后我们计算的平均结果。

平衡下 定价策略,实验结果表明,该算法收敛,最终定价策略的两个算法是稳定的 ,在那里,市场定价参数采用的是相关的初始参数或初始FP的信念。这表明MADDGP算法最终将得到同样的结果FP算法。

此外,我们研究不同算法的收敛速度,当他们达到纳什均衡。结果如图所示6。可以看出,当定价策略收敛,FP算法的平均计算时间的1.2倍MADDPG算法。这意味着,我们的算法可以达到平衡的速度比FP。

6。结论

在本文中,我们分析传感器数据的纳什均衡交易策略与大量的交易员在竞争的环境中与多个边缘服务器运行双向拍卖市场。我们采用深I-PDQN强化学习算法结合平均场理论来解决纳什均衡的交易策略。实验分析,算法的纳什均衡结果是一致的与FP算法和计算速度明显快于FP算法。然后,我们分析的边缘服务器双向拍卖定价有效地在竞争环境中。我们使用MADDPG计算纳什均衡定价策略。实验结果表明,这种算法的纳什均衡定价策略是一致的FP算法,计算速度是快于FP算法。本文的分析可以为设计提供一些有用的见解实际交易策略和定价策略在竞争的环境中与多个边缘服务器传感器数据。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

本文是由人类和社会科学教育部青年研究基金(批准号19 yjc790111),教育部的哲学和社会科学Post-Foundation(批准号18 jhq060)、深圳基础研究项目(批准号JCYJ20190809175613332)。