杂志上的传感器

在这一页上

文摘介绍相关工作结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

基于物联网的无线传感器

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID9651117| https://doi.org/10.1155/2021/9651117

交易和定价的传感器数据与双向拍卖市场竞争的边缘服务器

Bing史,^1、2 Zhaoxiang歌,¹ 和健桥徐 ³

学术编辑器: Guolong史

收到了 2021年11月06

修改后的 2021年12月10

接受 2021年12月13日

发表 2021年12月31日

文摘

随着物联网的发展(物联网),传感器网络可以带来大量有价值的数据。除了被利用在当地的物联网应用,数据也可以交易的边缘服务器连接。作为一个有效的资源分配机制,双拍卖已广泛应用在股票和期货市场,也可以应用于传感器网络中的数据资源分配。目前,通常存在多个边缘服务器运行双重拍卖相互竞争来吸引用户数据(买家)和生产商(卖方)。因此,每个边缘服务器上的双重拍卖市场运行需要有效的机制来提高分配效率。具体来说,定价策略的双向拍卖中起着重要的作用影响交易商的利润,因此,将会影响到交易员的市场选择和投标策略,进而影响双向拍卖市场的竞争结果。此外,交易员的交易策略也会影响市场的定价策略。因此,我们需要分析双向拍卖市场的定价策略和交易员的交易策略。具体来说,我们使用深强化学习算法结合平均场理论来解决这个问题,一个巨大的状态和行动空间。对于交易策略,我们使用独立的参数化深度Q-Network (I-PDQN)算法结合平均场理论计算的纳什均衡策略。 We then compare it with the fictitious play (FP) algorithm. The experimental results show that the computation speed of I-PDQN algorithm is significantly faster than that of FP algorithm. For pricing strategies, the double auction markets will dynamically adjust the pricing strategy according to traders’ trading strategies. This is a sequential decision-making process involving multiple agents. Therefore, we model it as a Markov game. We adopt Multiagent Deep Deterministic Policy Gradient (MADDPG) algorithm to analyze the Nash equilibrium pricing strategies. The experimental results show that the MADDPG algorithm solves the problem faster than the FP algorithm.

1。介绍

随着物联网的发展(物联网),智能终端嵌入式与大量的传感器,如相机、GPS,陀螺仪是在日常生活中越来越常见1),收集大量数据(2]。除了利用当地的智能物联网应用程序,这些有价值的数据可以被交易的连接边缘服务器,这一方面可以提供计算资源的智能手机应用程序,另一方面,为交易提供了一个市场机制之间的数据数据用户(称为买家)和数据生成器(称为卖家)3]。例如,交通信息可以收集从智能手机到边缘服务器,可以卖给一些导航优化路线规划申请。在这种情况下,双向拍卖,拍卖机制中有多个买家和卖家(以下称为交易员)在市场上可用于交易数据之间的数据用户(买家)和数据生成器(卖家)的边缘服务器。在该机制中,买家和卖家可以在任何时候收购交易期间,和市场将匹配买家与卖家提交投标在指定的时间。这种机制允许交易员在任何时间进入市场和贸易同时多个商品。由于其分配效率高,双拍卖已经广泛用于解决现实世界的资源分配,如在股票市场(4),排放交易市场(5),频谱拍卖市场(6),云计算资源分配市场(7),传感器网络资源配置市场(3]。在这样的市场,交易员和双重拍卖市场需要采用有效的交易策略和市场机制8]。

在现实世界中,可能存在大量的交易员边缘服务器上的贸易数据。此外,可能存在多个边缘服务器运行双向拍卖市场。这时,交易员需要决定哪些复式拍卖参与以及如何选择复式拍卖市场,而复式拍卖市场需要有效的机制来提高分配效率吸引更多的交易员。自定价策略可以确定的价格交易商将贸易,它会显著影响到交易员的利润。与此同时,交易策略(即。,how to choose the market and bidding) will in turn affect the market’s pricing strategies, thereby affecting the market allocation efficiency. Therefore, we need to analyze the trading strategies of traders and pricing strategies of double auctions in the environment with multiple competing edge servers running double auction markets.

在双拍卖,市场和交易员都是自私自利的代理和他们的策略是互相影响。博弈理论被广泛用于分析的战略互动利己主义的代理人,纳什均衡的概念是一个重要的解决方案。因此,我们将分析纳什均衡的交易策略和定价策略在这竞争的环境。具体地说,这个问题涉及到大量的商人,这可能连续竞价空间和私人偏好。虽然广义FP算法可以解决类似的问题,很难解决纳什均衡在可行的时候有大量的交易员。在本文中,我们将分析纳什均衡的交易策略和定价策略基于强化学习和平均场理论。纳什均衡的交易策略,我们结合独立参数化深度Q-Network (I-PDQN)算法,它适用于解决问题的混合操作,与平均场理论(9,10)解决纳什均衡的交易策略。实验结果表明,该算法可以显著高于FP算法解决问题。纳什均衡定价策略,我们采用多重代理深决定性策略梯度(MADDPG)算法。我们还发现,该算法得到的纳什均衡定价策略是一样的FP算法的解决方案,和MADDPG算法可以解决这个问题的速度比FP算法。实验结果还可以为设计提供有用的见解实际交易策略和定价策略在现实世界中。

本文的其余部分的结构如下。节2,我们介绍相关工作。节3介绍的基本设置双重拍卖市场。节4,我们分析了纳什均衡交易策略基于I-PDQN算法和平均场理论。节5,我们使用MADDPG算法解决纳什均衡定价策略。最后,我们总结论文部分6。

存在大量的关于数据采集工作11- - - - - -14]。具体来说,Sangoleye等人研究了从SIoT节点数据采集问题后techno-economics-based方法通过利用契约理论。钟等人提出了一个试验台,包括对身体传感器和一个Android移动设备获取数据,然后使用人类的活动LSTM网络认识到人类行为。Ho等人提出了一个框架,使用无人机(UAV)收集数据,并使用粒子群优化(PSO)的方法找到最优拓扑,以减少能源消耗,误比特率(BER),和无人机旅行时间。Maksymova等人研究了激光雷达传感器数据采集和压缩为汽车应用。

也存在很多关于数据交易工作,如(15- - - - - -17]。具体地说,田等人提出了一个交易市场机制考虑隐私泄漏物联网数据在一对多交易场景(18]。他们进一步提出了一种多对多的数据交易策略,重新定义现有机制的一些不合理的假设(19]。玉等人提出了一个交易市场模式移动手机用户之间的数据,考虑到数据的要求和需求的不确定性20.]。回族等人提出了一种传感的公用事业服务体系通过考虑数据提供者和数据服务提供商与车辆传感器网络数据定价策略(21]。Niyato等人提出了一个数据市场模型对物联网数据(22]。Al-Fagih等人提出了一个考虑定价模型对公共传感数据的数据延迟,服务,质量和信任因素(23]。此外,双向拍卖中,作为高效的资源配置机制,已广泛应用于数据交易市场。例如,娇等人设计了一个基于拍卖的两倍数据市场模式和定价机制来最大化利润(24]。陈等人使用双向拍卖交易传感器数据(25]。太阳等人边缘服务器用作双拍卖市场解决计算资源不足的问题(26]。蔡等人提出了一个真实的数据双向拍卖机制交易市场对三大挑战,包括多元化的市场偏好,消费者复杂的利益冲突关系的数据,和双方的战略行为27]。

交易策略和定价策略中扮演重要角色的双重拍卖市场,因此,存在大量的工作大约在双重拍卖交易策略和定价策略。交易策略,戈德等人提出了“零情报”(子)首次交易策略28]。交易员只能随机选择投标,投标是均匀分布的。布朗和冯提出了虚拟游戏算法(简称FP算法)29日),每个交易员估计其他交易员的FP信仰历史报价,在此基础上计算当前最好的回应策略。但是原来的算法只能解决游戏的完整信息,所以拉比诺维奇等人提出了一个广义FP算法分析不完全信息博弈的连续式(30.),但这个广义算法只适用于单边拍卖。施等人在此基础上作出了改进分析不完全信息博弈问题双重拍卖(下31日]。第一次Schvartzman和Wellman结合实证博弈论与强化学习的q学习算法分析最优交易策略的双向拍卖市场的交易员(32),但该算法只适用于小和离散空间的招标行为。Chowdhury等人提出了一个交易策略使用蒙特卡洛树搜索(mct) [33]。然而,该算法适用于离散招标集和无法处理招标的问题连续类型和操作空间。Bredin Parkes设计一个框架的真实招标在双重拍卖市场34]。

此外,还存在一些作品分析市场定价策略在竞争的环境中与多个拍卖市场的两倍。米勒和妞妞实验分析了交易员的市场选择策略在竞争的市场交易环境35]。蔡等人分析了影响不同的自适应策略的交易策略和自己的收入在市场竞争环境中36]。施等人认为两种不同的定价策略,分析了如何调整自己的定价策略来吸引交易员在两个相互竞争的市场37),然后考虑四种典型的类型的收费定价策略,分析了纳什均衡市场竞争环境中选择38]。

从上面的工作关于数据的交易策略,我们可以发现,存在一些作品与连续交易类型和行动空间下不完整的信息,最上面的工作只考虑少数交易员在分析纳什均衡的解决方案。关于市场定价策略,尽管存在一些考虑到竞争环境下工作,这些工作并没有考虑市场应该如何调整定价策略的不完全信息博弈下大量的交易员。在本文中,我们将分析传感器数据的纳什均衡的交易策略和市场定价策略的双边缘服务器上运行拍卖市场在竞争环境中与大量的交易员。

3所示。基本设置

在本节中,我们将介绍的基本设置交易员和双向拍卖市场边缘服务器上运行。我们将描述的基本设置交易员和介绍如何计算交易者的预期利润。然后我们介绍双拍卖的定价策略,描述了如何计算双拍卖市场的配置效率。

3.1。交易者的基本设置

在这篇文章中,交易员由数据买家和卖家。的买家来标示 ,和卖家的集合表示为。所有市场的集合来表示。每个交易员都有一个类型和类型的卖方愿意出售的最低价格。买方类型显示的最高价格买方愿意购买一个项目,和卖方的类型是最低的价格,卖方愿意出售项目。实际上表明交易员的偏好类型项目。一个买家和一个卖家的类型是表示和 ,分别是私人信息,也就是说,每个特定的买方或卖方的类型是未知的。然而,所有买家和卖家都假定的类型是常识,和先验知识的累积分布函数和 ,分别认为是可微的,概率密度函数和 ,分别。我们假设一个小成本会发生当交易者进入市场(例如,在线交易的时间)。因此,当买方类型太低或卖方的类型是太高,他们选择不进入市场。在这一过程中,买家出价低的行为提供,不进入市场,和卖家出价高的行为提供了可以区分,而不是进入市场。接下来,我们描述交易员如何选择一个市场,市场报价。我们买家的作用定义为一个元组因此买方市场选择和选择市场的投标被视为交易策略。请注意, 意味着买方出价在市场 ,和意味着买方不进入任何市场。同样,我们使用代表卖方的行动。

3.1.1。交易者的期望效用

在本节中,我们介绍如何计算交易者的预期效用。接下来,我们介绍如何计算卖方的期望效用。同样,买方期望效用也可以以同样的方式。卖方的期望效用是由它的类型 ,它的行动 ,及其对其他买家和卖家的行为信念 , ,我们定义作为一个元组 ,在哪里代表了最小的卖方市场投标行动。特别是,卖家采取不同措施的数量和元组表示在哪里代表卖方的数量选择行动。现在,卖方的立场决定如下。我们使用代表其他卖家的数量低于投标在市场 ,它可以计算

同样,扣除卖方本身,我们使用代表卖家的数量有相同的报价作为卖方,它可以作为计算

现在,任何位置来可以是卖方投标行动 ,这是表示位置 ,在哪里是所有可能的设置位置。所以任何的概率在一组是

现在,卖方可以计算的预期值在哪里代表卖方是否能在市场上交易。在哪里代表的总数买家的出价在市场上或更少。

考虑到所有在市场上米,卖方的期望值

买方预期值的推导过程是相同的。

然后,我们得到的方程计算预期的卖方付款,按预期和期望效用可以计算付款-期望值。我们可以确定均衡价格范围和价格根据平衡定价策略。然后,卖方支付投标是

现在卖方投标的期望效用是

买方期望效用的推导过程是相似的。

现在在市场上拍卖阶段 ,假设卖方的交易策略 ,卖方立即奖励

卖方的累计奖励在哪里是强化学习的折扣因素,表明未来回报的重要性的程度。买家的推导过程是相同的。

3.2。市场环境

我们现在介绍基本的定价策略设置双重拍卖。

3.2.1之上。平衡定价策略

在本文中,假设所有市场采用平衡定价策略,市场的定价参数。因此,它是市场的定价参数规定是和的竞争定价策略市场是。

处于平衡状态k定价、均衡价格范围。平衡匹配后,交易者成功匹配(匹配的卖方要价不超过买方出价)可以在任何价格贸易均衡价格范围内。因此,成功匹配的买家和卖家的集合,可以交易 ,和的集合竞价。根据上述条件,均衡价格区间必须间隔的子区间 ,选择。 ,这是记录为。平衡状态下k定价,所有交易员在同一价格和贸易。交易价格是。显然,当较大,卖方市场的偏见,否则,买方的偏见。

3.2.2。分配效率

现在我们介绍如何计算市场的配置效率。配置效率是最重要的指标之一,测量性能的双重拍卖。实际利润的分配效率比所有买家和卖家通过市场获得最大利润理论上时提交他们的类型的报价,这是在哪里是实际的交易由交易员的集合,买家在交易的类型吗 , 卖方在交易的类型吗 , 是交易的交易价格 , 是当交易员提交他们的交易类型设置为他们的报价,然后呢是交易的交易价格当交易者提交类型报价。

3.2.3。市场回报

摘要竞争双重拍卖市场打算采用一种有效的分配效率最大化定价策略以吸引交易员。因此,我们以市场配置效率为市场回报。

在每个阶段 ,每个市场发布其定价行动。交易商然后选择市场参与,根据交易策略。当所有交易员参与投标,每个市场匹配买家与卖家根据均衡匹配策略根据方程(12),市场的直接奖励表示如下:

市场的累计奖励

4所示。纳什均衡交易策略

当交易者选择边缘服务器市场参与投标,他们的策略是互相影响。因此,我们需要获得纳什均衡的交易策略。本文所有的交易商利用强化学习提高他们的交易策略,直到所有交易员聚集。这时,交易商已达到纳什均衡策略。应该注意的是,虽然学习的过程重复,我们研究的游戏本质上是一个射击游戏。一个射击游戏意味着所有参与者只有一轮游戏。在这个重复的学习过程,代理会选择行动在当前状态根据先前观察到的信息状态和获得利润,同时进入下一个状态。这个过程是一个连续的决策过程。因此,我们和使用它作为一个马尔可夫决策过程模型深度强化学习算法解决纳什均衡策略。我们使用I-PDQN(独立参数化深度q-network)算法分析交易员的纳什均衡交易策略和评估它对FP算法(40]的计算速度和收敛性结果。

我们假设有两个相互竞争的边缘服务器双向拍卖市场。当市场的数量大于2,我们的方法仍然是适用的。在每个阶段,交易员需要选择一个市场和报价。因此,交易策略包括两个部分,选择一个市场,那里的行动空间离散,投标,行动空间是连续的。因此,整个交易行动与连续和离散混合行动行动。此外,这个问题涉及到大量的交易者。因此,我们打算解决大量的交易者的交易策略问题与混合行动基于I-PDQN算法和平均场理论。

4.1。I-PDQN算法

正如我们在上面所讨论的,P-DQN算法(41)适用于混合行动空间的一个代理。然后这个算法扩展到环境与多个合作代理(42]。然而,双向拍卖市场的交易员不合作,因此,我们扩展到环境与多个非合作的代理,叫I-PDQN算法。在下面,我们首先简要介绍P-DQN算法,然后介绍I-PDQN算法。

P-DQN算法可以处理混合行动空间的问题。这个想法是为了更新离散行动战略和持续的行动策略,分别结合DQN算法(43)和DDPG算法(44]。P-DQN算法,首先,低级参数相关高层离散选择行为,然后,可以最大化的离散连续混合行动对行动值计算函数。更具体地说,离散连续混合行动空间可以被定义为在哪里是一组离散的动作,然后呢是所有离散行为相应的连续操作。因此,一个确定性的函数可以定义映射每个离散状态和行动到相应的连续参数在哪里是确定的政策网络的重量。一个离散的动作值函数进一步定义映射状态和所有混合行动的实际价值。是离散的重量行动价值网络。P-DQN更新离散行动政策网络参数通过以下损失函数: 的表达式是在哪里混合后的下一个状态的行动吗。连续参数部分的政策更新是通过修正参数并尽量减少损失函数 :

因此,动作值函数主要扮演两个角色。首先,它输出所有离散的贪婪策略行动(符合DQN),其次,它提供了一个连续的政策更新参数的梯度。

引入P-DQN算法后,我们现在推出I-PDQN算法对多个非合作代理。I-PDQN是一个较低的算法时间和空间消耗。具体来说,I-PDQN空间的复杂性在每一轮。在哪里重放内存的大小,重放内存清除每一轮,这意味着我们的算法不占用太多的内存空间。注意,很难得到一个精确值的时间复杂度深的强化学习。然而,在我们的实验中,我们可以得到收敛的结果在一个合理的时间。详细,该算法需要竞争的市场定价参数,买家和卖家的数量和招标空间作为输入,最后输出纳什均衡的交易策略。因为每个交易员打算最大化自己的利润,它独立学习最好的交易策略。因此,I-PDQN算法采用自主学习模式,和每个交易员都有一个独立P-DQN学习算法(45,46]。因为这个游戏需要大量的商人,我们平均场理论引入I-PDQN算法,来描述市场的状态。算法的详细算法所示1。

输入:市场定价参数和 ,数量的买家 ,数量的卖家 ,交易员竞价空间
输出:纳什均衡的交易者的交易策略
1初始化:对于每个交易员 ,初始化勘探参数 ,批量大小 ,均匀分布 ,和随机初始化网络权重和 ,和 ,和初始状态
2而交易者的损失函数是不收敛做
3每个交易员 ,计算连续参数对应于所有离散行动根据当前状态;
4选择行动根据以下规则
5
6当前阶段的招标时间结束时,每个交易员获得其立即返回和国家下一阶段的市场规则;
7对每个交易员 ,的元组存储在回放记忆 ;
8策略培训:
9每个交易员需要样本重复记忆并计算出根据方程:
10
11个随机梯度计算和根据方程(17)和(19),并更新重量根据方程:
12和

4.2。实验分析

实验是在系统上运行配置英特尔(R) (TM)核心i7 - 8700 CPU、12 CPU核心,7 GB GPU内存,CUDA 10.2版本,Ubuntu 16.04.6 LTS 4.15.0-45遗传GNU / Linux。

4.2.1。准备参数设置

我们现在实验分析纳什均衡的交易策略。在实验分析,我们认为50 50买家和卖家。对于每个交易员的混合作用,集表示为离散行动 ,在哪里离散行动的总数,连续行为参数对应于每个离散行动。在选择动作阶段,每个交易员首先生成相对应的连续参数离散行为根据观察到的状态。设置为探索概率 ,和探测概率的增加将逐渐减少训练迭代。离散选择的行动,交易员随机选择一个均匀分布的离散动作的概率为探索。[0 3)均匀分布用于随机离散的探索行动。交易员随机选择一个数字(0 3)均匀分布。如果是在[0,1],这意味着选择离散行动是0,他们不进入市场;如果(1、2)意味着离散行动的选择是1,选择市场1进入;如果(2,3)意味着离散行动的选择是2,选择市场2进入。有六个州在每个阶段的市场,和具体参数表解释道1。重播的记忆每个交易员 ,样本的大小在批处理,选择更新的比率和是和 ,和贴现因子是。

4.2.2。实验结果

我们选择两个典型的定价策略和进行分析。这是最常见的策略在经济市场。这两个市场相互竞争。I-PDQN算法训练的纳什均衡交易策略得到市场交易员将进入和多少收购处于平衡状态。

图1显示了交易员的市场选择的变化与组合定价策略的迭代过程市场的定价策略1在哪里吗和市场的定价策略2 。在这个时候,市场1完全偏向于买家,而市场2完全偏向于卖方。我们可以看到在图1(一)通过培训,卖方2类型小于0.5将逐渐进入市场。这是因为市场2完全偏向卖家,因此,市场2将吸引卖家参与。然而,由于卖家0.5类型不能在竞争中获胜,他们会选择去第一市场为了成功交易。买家在图的分析1 (b)是一样的卖方市场选择策略的分析。在图1 (b)1,市场最终将吸引买家超过0.5型和卖家型大于0.5,而市场2将吸引交易员与较小的类型。这表明通过持续学习,买家和卖家会选择一个市场,有利于自己的市场或可以交易成功。

(一)市场分配比的卖家

(b)市场分布比例的买家

图2显示了交易员的纳什均衡的收敛结果交易策略与定价策略的竞争环境。注意训练算法的过程1只能输出特定类型的平衡动作。基于这些平衡操作对应于交易者类型,我们进一步利用神经网络适合最后的交易策略,这是一个从交易者类型映射到行动。结果表明,在平衡态,交易员如何选择市场,参与市场。我们也可以发现两个市场可以吸引商人,和市场能够共存。根据交易员的市场选择,可以看出交易员1大类型进入市场,同时使用更小的类型将进入市场交易员2。在市场1,因为它是完全偏向于买家,买家愿意出价接近它们的类型,即投标如实,虽然卖家想隐藏他们的出价更多。在市场2,卖家愿意出价接近他们的真实类型,因为市场2完全偏向卖家。卖家会如实以改善匹配概率。从图2外,我们还发现,当买家的类型小于0.12和卖方大于0.88的类型,他们会选择不进入市场,因为固定成本(如时间成本)进入市场。

竞争市场的定价策略 ,结果表明,在相同的定价策略,交易员最终将收敛于只有一个市场,市场是融合是随机的,投标策略的交易者都是类似于在一个单一市场中。这是因为当两个相互竞争的市场都是一样的,交易商将选择更多参与者进入的市场,以提高匹配的概率。这将导致只有一个市场才能生存。

4.3。实验评价对《外交政策》

解决连续私人游戏类型的另一种方法是使用广义FP算法。因此,我们将评估算法对FP算法。在这个评估中,我们仍然认为,有两个相互竞争的市场,和市场定价策略。我们还假设有50 50买家和卖家。我们使用这两种算法训练交易员的交易策略,分别获得最后的纳什均衡的交易策略。实验重复50次。在每个实验中,I-PDQN算法将初始化类型的交易者在[0,1]随机均匀分布。FP算法的类型的交易员和初始FP信仰也随机初始化。

图3显示交易商的平均利润当纳什均衡时进入不同市场交易策略是通过不同的算法。可以看出,上述两种算法得到的结果几乎是一样的,这可以证明I-PDQN算法可以实现纳什均衡策略与FP算法相同。

(一)平均利润的卖家

(b)平均利润的买家

我们也评估这两个算法的计算速度。我们计算的迭代次数和每次迭代的计算时间。平均和标准偏差计算结果如表所示2。

结果表明,尽管I-PDQN算法具有更多的迭代收敛于平衡时,单个迭代计算时间的FP I-PDQN算法的5.031倍,因此,FP算法的总平均时间的4.6745倍I-PDQN算法。因此,我们可以看到,使用I-PDQN算法可以计算交易员的纳什均衡交易策略更快。原因是,交易员使用I-PDQN算法不断与环境交互和其他人,他们可以获得更多的经验元组来训练自己的政策网络,因此,他们需要更多的迭代。然而,该算法只需要计算自己的混合行为根据当前所观察到的状态,因此,它需要更少的时间。在FP算法中,交易员需要计算当前最好的回应策略对FP信仰每次迭代和更新他们的FP信仰。所有交易员将重复这个过程直到收敛。因此,交易员的增多,在每个迭代FP算法的计算时间会增加,导致增加的总收敛时间。

5。竞争定价策略

纳什均衡分析交易策略后,我们现在分析双拍卖市场的定价策略纳什均衡。具体来说,我们将使用MADDPG算法设计竞争定价策略和评估它对FP算法的计算速度和收敛结果。

在竞争环境中,双向拍卖市场将实时调整定价策略以吸引交易员和获得更高的配置效率。凭直觉,定价策略和交易员的纳什均衡策略相互影响,因此,这是一个共同市场和交易员之间的学习过程,如图所示4。在第一阶段,市场选择定价策略基于观察的状态。在第二阶段中,交易商选择市场和提交投标根据纳什均衡交易策略。然后计算竞争市场配置效率根据当前的交易者行为,然后进一步更新定价策略以提高分配效率。重复这个过程达到平衡态。在这一刻,我们可以获得纳什均衡定价策略和纳什均衡交易策略在这种定价策略。

5.1。MADDPG算法

在上面的描述,共同学习的过程也是一个连续的决策过程,它涉及到两个相互竞争的市场。这可以被看作是马尔可夫的游戏。因此,我们使用可替换主体深决定性策略梯度算法(48纳什均衡定价策略进行了分析。

集中的训练和分散执行MADDPG算法。此外,每一块的经验重复包含的信息在当前阶段的代理。每个代理了多种策略,同时使用策略的总体效果优化。的空间复杂性MADDPG取决于重播内存的大小 ,通常不超过市场交易员的数量,是吗 ,在哪里MDP元组的大小,是重放内存的大小。I-PDQN一样,重复记忆是每一轮的清除。的时间复杂度,还不能准确地计算。然而,它可以确保收敛策略是在合理的时间计算。现在,我们将简要介绍MADDPG。我们使用代表的策略的参数代理和代表的策略代理。代理的累积期望的奖励是 ,和确定的策略 ,梯度是在哪里是一个价值函数为每个代理。集中的关键,通过最小化更新以下损失函数: 的方程是

是目标网络,是参数延迟更新的目标策略,和其他代理的策略可以通过拟合近似。可以看出,关键可以使用全球信息,和演员只使用本地观测信息。如果我们知道所有代理的行为,即使每个代理的策略是不断更新的,环境是稳定的。MADDPG算法设计竞争定价策略算法所示2,两个市场的定价参数空间作为输入和输出的纳什均衡市场定价策略。

输入:持续的行动空间和的市场
输出:均衡定价策略和的市场和
1初始化演员:初始化网络和关键网络的和 ,分别和初始化相应的参数和初始化目标网络和对应于上述两个网络和参数和 ,初始化回放记忆
2随机初始化分布N行动勘查;
3初始各自的市场状态和 ,并设置迭代周期
4而交易者的损失函数是不收敛做
5选择动作:
6市场选择行为和根据 ,分别
7版本定价行动 ,然后交易员调整他的平衡交易策略(I-PDQN算法)在定价,然后市场计算奖励和新状态
8元组存储在回放记忆
9策略培训:
10为 (更新两个市场的战略网络,分别)做
11个随机样本r从回放记忆元组和计算
更新12关键网络问通过最小化的损失函数方程(21)
13个演员网络更新样品的梯度战略最大化通过方程(20.)
14更新目标网络参数和通过方程
15结束
16结束

5.2。定价策略的实验分析

我们现在通过实验分析了纳什均衡定价策略。实验设置在I-PDQN是一样的。每个市场都是一个tuple,表示为 ,在哪里和买家和卖家的数量进入市场,和买卖双方的平均出价,是交易的数量。定价参数空间和两个市场都在[0,1]和重放内存大小。最初的价格行动的一代,我们使用正态分布噪音的探索。每次训练样本的数量 ,演员网络的学习速率 ,关键网络的学习速率 ,更新目标网络参数的因素 ,和贴现因子。

5.2.1。实验结果

在这个实验中,两个市场获得纳什均衡定价策略通过持续培训。图5显示了行为选择迭代过程中的竞争市场的趋势。这表明市场1选择更高的定价参数的初始阶段,最后稳定在。市场2,因为市场1的高定价策略吸引了大量的卖家一开始,市场2也试图设置一个更高的定价参数,也就是 ,但不能超出市场1。在此期间,市场的行动选择2出了较大的波动,然后逐渐选择较低的定价参数,最后稳定在。实际上,我们已经尝试很多实验。结果表明,两个相互竞争的市场最终会稳定和 ,在均衡状态,市场的定价参数1 2是和市场反之亦然,这是有关市场网络参数初始化。这意味着市场将有利于一类商人,买家或卖家。在这种情况下,两个市场能够共存。这进一步表明,在一个高度竞争的环境中,很难吸引所有交易员的市场。

5.3。实验评价对《外交政策》

现在,我们评估我们的算法对FP算法的计算速度和分配效率。相同的参数部分4.2。每个实验重复10次,然后我们计算的平均结果。

平衡下定价策略,实验结果表明,该算法收敛,最终定价策略的两个算法是稳定的和 ,在那里,市场定价参数采用的是相关的初始参数或初始FP的信念。这表明MADDGP算法最终将得到同样的结果FP算法。

此外,我们研究不同算法的收敛速度,当他们达到纳什均衡。结果如图所示6。可以看出,当定价策略收敛,FP算法的平均计算时间的1.2倍MADDPG算法。这意味着,我们的算法可以达到平衡的速度比FP。

6。结论

在本文中,我们分析传感器数据的纳什均衡交易策略与大量的交易员在竞争的环境中与多个边缘服务器运行双向拍卖市场。我们采用深I-PDQN强化学习算法结合平均场理论来解决纳什均衡的交易策略。实验分析,算法的纳什均衡结果是一致的与FP算法和计算速度明显快于FP算法。然后,我们分析的边缘服务器双向拍卖定价有效地在竞争环境中。我们使用MADDPG计算纳什均衡定价策略。实验结果表明,这种算法的纳什均衡定价策略是一致的FP算法,计算速度是快于FP算法。本文的分析可以为设计提供一些有用的见解实际交易策略和定价策略在竞争的环境中与多个边缘服务器传感器数据。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

本文是由人类和社会科学教育部青年研究基金(批准号19 yjc790111),教育部的哲学和社会科学Post-Foundation(批准号18 jhq060)、深圳基础研究项目(批准号JCYJ20190809175613332)。

引用

z . k .徐h·l·张x z Yu和李振国周,”组合双基于拍卖的检索任务的分配在物联网中,“杂志在通信,36卷,不。12,47页,2015年。
视图: 谷歌学术搜索
n . j .林w . Yu, x, h . Zhang和w·赵”在物联网的一项调查显示:架构、实现技术,安全和隐私,和应用程序,”IEEE物联网,4卷,不。5,1125 - 1142年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
p . Chavali和a . Nehorai”管理综合传感器网络使用价格理论”,IEEE信号处理,60卷,不。9日,第4887 - 4874页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
谢和x, x, j·马”价格收敛概率下双向拍卖。”计算经济学,54卷,不。3、1113 - 1155年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
p . Khezr和中情局MacKenzie委托拍卖。”环境经济与管理杂志》上卷。87年,42-51,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j . f . Hu b . Chen, m·李·李和m .锅”MastDP:匹配基于双向拍卖频谱交易机制与微分隐私,”2019年IEEE全球通信会议Waikoloa,页1 - 6,嗨,美国,2019年。
视图: 谷歌学术搜索
d·库马尔·g·Baranwal、z Raza和d . p . Vidyarthi“双向拍卖机制的系统研究云计算,“系统和软件杂志》上卷,125年,第255 - 234页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
王x和m . p . Wellman,“欺骗限制订单:一个基于代理模型,”车间在31日AAAI会议上人工智能,页651 - 659年,旧金山,加利福尼亚,美国,2017年。
视图: 谷歌学术搜索
a . Bensoussan j . Frehse, p .山药,是场游戏,是字段类型控制理论[M]施普林格,2013年。
j . Lasry和p .狮子”,意思是场游戏”,日本数学杂志,卷2,不。1,第260 - 229页,2007。
视图: 出版商的网站 | 谷歌学术搜索
f . Sangoleye: Irtija, e·e·Tsiropoulou”社会物联网的数据采集基于契约理论,”IEEE国际会议交流QC,页1 - 6,蒙特利尔,加拿大,2021。
视图: 谷歌学术搜索
钟,j . Lim k . j .能剧g . Kim和h,在“传感器数据采集和多通道传感器融合人类活动识别使用深度学习,”传感器,19卷,不。7,1716年,页2019。
视图: 出版商的网站 | 谷歌学术搜索
d . t . Ho,依Grøtli, p . b . Sujit t·a·约翰森和j·b·苏萨”优化无线传感器网络、无人机数据采集”智能和机器人系统杂志》上,卷78,不。1,第179 - 159页,2015。
视图: 出版商的网站 | 谷歌学术搜索
Maksymova, c·威尔和n . Druml”回顾汽车应用,激光雷达传感器数据采集和压缩”多学科研究所数字出版程序,卷2,不。13,852页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
妞妞,z郑、f·吴x高,和g·陈,“诚信交易数据:整合真实性和隐私保护数据市场”IEEE 33数据工程国际会议圣地亚哥,页223 - 226,美国2017年。
视图: 谷歌学术搜索
陈曹x, y,和k·j·r·刘“迭代数据交易,拍卖机制”IEEE国际会议音响、演讲和信号处理新奥尔良,页5850 - 5854年,洛杉矶,美国,2017年。
视图: 谷歌学术搜索
焦y, p . Wang d . Niyato m . a . Alsheikh和美国风,“利润最大化拍卖和数据管理大数据市场”2017年IEEE无线通信和网络会议(WCNC)旧金山,页1 - 6、钙、美国,2017年。
视图: 谷歌学术搜索
w·l·田j . Li Li b·拉梅什和z Cai,“优化基于在线数据交易市场的机制。”IEEE物联网》第六卷,没有。5,7800 - 7810年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
j .毛l .田j . Zhang g .段和c·王,“多对多的数据交易算法基于双向拍卖理论,“Procedia计算机科学卷,174年,第209 - 200页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . Yu m·h·张j .黄和h诉穷,“移动数据交易:行为经济学分析和算法设计”IEEE在选定地区通讯》杂志上,35卷,不。4、994 - 1005年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
苏y, z, s .郭“效用计算方案提供基础数据传感物联网服务,“IEEE新兴主题计算,7卷,不。2、337 - 348年,2019页。
视图: 谷歌学术搜索
d . Niyato m·a . Alsheikh p . Wang d . i . Kim和z汉,“市场模型和最优定价方案,大数据和物联网(物联网)”IEEE国际会议交流,页1 - 6、吉隆坡、马来西亚,2016年。
视图: 谷歌学术搜索
A . e . al-Fagih f . m . al-Turjman w·m·Alsalih和h . s .,“定价公开为异构物联网传感框架架构,”IEEE新兴主题计算,1卷,不。1,第147 - 133页,2013。
视图: 出版商的网站 | 谷歌学术搜索
焦y, s, p . Wang和d . Niyato“利润最大化为数据分析和数据管理服务机制,“IEEE物联网,5卷,不。3、2001 - 2014年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
c·陈和y王,“SPARC: strategy-proof移动参与式传感、双向拍卖”国际会议上云计算和大数据福州,页133 - 140年,中国,2013。
视图: 谷歌学术搜索
刘w .太阳,y, h·张,“双基于拍卖的资源分配在工业物联网移动边计算,”IEEE工业信息,14卷,不。10日,4692 - 4701年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
h . Cai y朱、j·李和j . Yu”双向拍卖数据交易市场的偏好和利益冲突,”电脑杂志,卷62,不。10日,1490 - 1504年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
d·k·戈德和美国破”,与zero-intelligence交易商市场:市场的配置效率部分代替个人理性,”政治经济学杂志,卷101,不。1,第137 - 119页,1993。
视图: 出版商的网站 | 谷歌学术搜索
g·w·布朗和n . j .冯”游戏由微分方程的解决方案。”对游戏理论的贡献,27卷,不。4、73 - 79年,1950页。
视图: 谷歌学术搜索
z拉比诺维奇,大肠gerd, m . Polukarov和n·r·詹宁斯“全面虚构为连续的匿名球员,踢球”21国际联合会议上人工智能,页245 - 250,美国加州帕萨迪纳市2009年。
视图: 谷歌学术搜索
b, e·h·盖德,p . Vytelingum和n·r·詹宁斯“双向拍卖市场竞争的均衡分析使用虚构的游戏,”19世纪欧洲会议上人工智能《里斯本条约》,页575 - 580年,2010年葡萄牙。
视图: 谷歌学术搜索
l . j . Schvartzman m . p . Wellman,“强CDA策略通过实证博弈论的分析和强化学习,”第八届国际会议上自治代理和可替换主体Systems-Volume 1,页249 - 256,布达佩斯,匈牙利,2009。
视图: 谷歌学术搜索
m . m . Chowdhury c . Kiekintveld t . c的儿子,和w .杨紫琼,“投标策略周期双拍卖使用蒙特卡洛树搜索”第17届国际会议上自治代理和多重代理系统,页1897 - 1899,斯德哥尔摩,瑞典,2018年。
视图: 谷歌学术搜索
j . Bredin和特区Parkes模型真实的在线拍卖两倍,”21不确定性人工智能大会多伦多,安大略省,加拿大,2012。
视图: 谷歌学术搜索
t·米勒和j .妞妞”评估战略选择之间的竞争激烈的市场,”电子商务研究与应用,11卷,不。1、5、2012页。
视图: 出版商的网站 | 谷歌学术搜索
k . Cai、j .妞妞和美国帕森斯”之间的竞争的经济影响双向拍卖市场,”Agent-Mediated电子商务和贸易代理设计与分析,88年,页2010。
视图: 谷歌学术搜索
史,y黄、美国熊和e·h·盖德”设置双向拍卖市场的有效定价政策,”环太平洋地区人工智能国际会议,页457 - 471,普吉岛,泰国,2016年。
视图: 谷歌学术搜索
b·史和李x”充电策略的博弈论分析双向拍卖市场竞争,”多代理系统和协议的技术,第115 - 100页,2020年。
视图: 谷歌学术搜索
陈和c·泰”交易限制,价格动态和双向拍卖市场的配置效率:基于基于主体的建模和模拟分析,“复杂系统的进展》第六卷,没有。3、283 - 302年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
j .海因里希·m·Lanctot, d .银,“虚构的self-play扩展形式游戏,”国际会议上机器学习里尔,页805 - 813年,法国,2015年。
视图: 谷歌学术搜索
j .熊问:王,杨z . et al .,“参数化深度q-networks学习:强化学习与离散连续混合行动空间,”2018年,https://arxiv.org/abs/1810.06394。
视图: 谷歌学术搜索
h .傅h . Tang j ., z, y . Chen和c粉丝,“多智能体强化学习离散连续混合行动空间深处,”21国际联合会议上人工智能,页2329 - 2335,美国加州帕萨迪纳市2019年。
视图: 谷歌学术搜索
诉Mnih k . Kavukcuoglu d银et al .,“人类控制通过强化学习,”自然,卷518,不。7540年,第533 - 529页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
a t p . Lillicrap j·j·亨特,Pritzel et al .,“连续控制与强化学习,”学习国际会议上表示2016年,波多黎各圣胡安。
视图: 谷歌学术搜索
a . Majumdar p Benavidez, m .卷”多智能探索强化学习更快更可靠的深q学习收敛的,”2018年世界自动化大会(WAC)佤邦,页1 - 6,史蒂文森,美国,2018年。
视图: 谷歌学术搜索
多智能体强化学习:m . Tan“独立与合作代理,”学报第十届国际会议上机器学习阿默斯特,页330 - 337年,妈,美国,1993年。
视图: 谷歌学术搜索
美国理查德·g·安德鲁,强化学习:介绍麻省理工学院出版社,伦敦,2018年。
r·劳y吴,他玛,p . Abbeel j·哈布和Mordatch,“多代理actor-critic对于混合cooperative-competitive环境,”先进的神经信息处理系统,第6390 - 6379页,2017年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

349年

下载

425年

引用