文摘
智能车辆提供各种服务;仍有巨大的挑战来执行一些家中应用程序。边缘计算可以为智能车辆提供足够的计算资源,因为它会复杂的服务基站(BS)计算节点。计算节点服务的选择之前,有必要明确车辆的资源需求,用户移动,移动核心网络的情况;他们将会影响用户的质量的经验(体验质量)。最大限度地体验质量,我们使用可替换主体强化学习来构建一个智能卸载系统;我们把这一目标分成两次优化问题;它们包括全球代理节点调度和独立的探索。我们应用改进Kuhn-Munkres(公里)算法节点调度和充分利用现有优势计算节点;与此同时,我们引导智能车辆闲置计算节点的潜在领域; it can encourage their autonomous exploration. Finally, we make some performance evaluations to illustrate the effectiveness of our constructed system on the simulated dataset.
1。介绍
智能汽车的快速发展,基于人工智能的车载网络吸引了广泛关注;它的广泛应用促使世界各地的研究人员开发更多的应用程序,但仍有一个问题计算密集型服务车辆;作为一个有前途的解决方案,移动边缘计算(MEC)允许用户上传服务,边缘计算服务器(e . g。,offloading), which can reduce the computing load of the terminal, just like roadside unit (RSU), building cloud, and other entities with computing [1]。缓存和网络通信能力可以成为MEC平台;他们不仅可以减少通信延迟也减轻中央BS的工作负载。
然而,传统方法的性能2,3在车载网络将大幅下跌;迫在眉睫的是建立一个有效的MEC智能卸载的解决方案。近年来,机器学习主要用于密集型计算任务,比如导航和自动驾驶,除了MEC;很难建立一个合适的模型,因为许多车辆参与卸载系统。深入强化学习(DRL)使用代理作为互动学习策略从环境中实体。DRL已经应用MEC卸载系统(4),主要用于任务调度和资源分配和研究DRL-based网络和缓存5,6]。
我们专注于用户体验质量和利润之间的权衡的服务器(7];我们需要安排相应的智能车辆边缘计算节点;这个过程类似于现代出租车网络订单调度(8- - - - - -10];他们提供乘客需求和出租车的信息运动寻找最合适的配对;一些car-hailing服务提供明显改善了传统出租车系统而言,减少出租车巡航时间和等待时间(10,11];因此,在线car-hailing是一个生动的场景8,12- - - - - -14),可以迁移到边缘计算。徐et al。15]介绍了强化学习算法有远见,为服务器可以获得更好的利润,更好的为用户服务,但有一个限制,每个服务器与用户在一个有限的距离,将会把用户处于闲置状态;如果这种状态是可以避免的,我们可以获得更好的。出于这个原因,我们认为我们的目标是可替换主体系统的决策问题,即使用古典深决定性策略实现梯度(DDPG) [16在强化学习。
此外,我们引入一个中央系统优化公里(17];用户和服务器之间的匹配算法性能更好。分别确定用户的位置,和其他用户无法得到任何信息从一开始;我们设计一个通信模块指的是(18];然后,他们可以共享信息有利于下一个决定。
本文的其余部分组织如下。我们提供简要概述的背景和相关工作的部分2节中,我们将介绍系统架构3,部分4描述了改进和算法描述,部分5解释了实验细节和结果,最后,在部分6,我们总结所有的工作。
2。相关的工作
提出了一种可替换主体强化学习算法与全局调度和它适用于对边缘计算智能卸载的场景。以下内容介绍了一些相关的研究和可替换主体决策算法的应用。
提出了一种方法(19)为计算找到最优拍卖资源区块链网络的边缘计算;它使用一个匿名化价格单调变换函数。在网络,减少重复内容缓存DRL方法在智能城市设计(20.];代理系统中收集来自MEC的状态服务器和学会选择最优行动得到最好的政策资源的安排。Qi et al。21构建一个智能卸载系统车辆边缘计算利用深度强化学习;它的通信和计算有限马尔可夫链状态建模,任务调度和资源分配。战略制定的联合优化问题,最大化用户的体验质量。
经典的调度算法,如贪婪的方法,广泛应用于大型企业,如发现最近的司机服务客户(22),或者使用一个先入先出队列策略23];尽管他们很容易调度,它只在短期内获得不错的利润;时空序列不匹配长期供需关系的操作,这将导致一些次优的结果(15]。之后,这个调度过程改进通过中央系统通过出租车GPS轨迹和蛮力方法最好的路径建议(24,25),考虑是否司机主动找到热点提供调度策略11),同时关注客户等待时间最小化总调度多个计程车,允许交换他们的预订任务(9),考虑到整体更加全球化的好处和有远见的方法(26]。这些方法已经付诸实践,发现有价值的影响。
车载网络被划分为若干个区域,每个区域有一个BS与丰富的计算资源,和b可以扮演中央系统。我们指的是工作15]在全球调度,构造一组偏好函数,并计算相应的不同的代理在每个时间片的全局视图。该地区平均偏好函数有利于制定奖励和惩罚的过程在随后的可替换主体决策算法。我们采用了公里为了匹配算法,广泛应用的调度,网络通信,系统架构等。27),通常用于最低重量匹配(28];然而,它也可以通过设置负样本权重之和最大化(29日]。在这个模型中,我们使用公里算法,利用偏好函数,作为度量节点调度策略。
强化学习目标包括学习可替换主体单一的稳定剂和适应性行为从其他代理30.,31日]。可以提高适应性确保性能当其他代理改变他们的政策32]。一些目标可以扩展到动态的游戏,要求所有国家逐步满足条件的动态博弈。在这种情况下,目标是基于阶段策略而不是全球战略和预期收益而不是奖励18]。可替换主体系统各领域都进行了广泛的研究,如机器人技术团队、资源管理、分布式控制、游戏、电子商务(33),和几个泥灰岩讨论算法,表明这些算法解决时差RL与博弈论相结合(34,35]。对于静态游戏中生成的动态环境(36),阿里巴巴也使用的系统环境中multiscenario电子商务系统优先推荐产品感兴趣的客户,获得系统的最大利益37,38]。
一般来说,可替换主体强化学习问题研究是复杂和计算量。然而,这个模型添加了许多理想化的限制和排除无关因素变量,如数据传输速率和传输延迟。简化模型有利于实现我们的强化学习算法。
3所示。总体架构
城市中的车辆网络可以分为几个区域根据街道或其他标准;每个区都有一个中心b丰富的计算资源,如图1。我们主要分析这些领域之一;限制配有MEC服务器和他们的信号覆盖;因此,智能车辆只能上传服务在一定范围的限制。对于没有RSU附近,车辆可以直接上传其服务b,但在这个模型中,我们只考虑车辆和限制之间的匹配关系,因为我们的目标是计划计算节点。
在这里,我们介绍了模型设计和匹配算法最初战略优势;他们是我们工作的基础,但优势算法不能覆盖一些特殊情况。灵感来自[6),我们提出了我们的架构去改善它。
3.1。模型设计和匹配策略
如果我们简化强化学习模型,智能汽车可以被视为一个独立的代理;其移动策略可以抽象为一个马尔可夫决策过程(MDP)。
这里指的玩具例子中使用的模型(18];我们没有设定一个更实际的车辆运动和增加网格的大小;因为实际的模型会考虑太多细节,很难复制一个合理的模型和应用我们的算法;该算法相比在18)是训练有素的玩具例子;然后,它被应用于更复杂的模拟环境;我们也训练通过一个简单的模型和验证算法的优势。我们建立一个仿真模型(图2)对应于每个时空的状态;它可以显示的运动策略在每个州都有代理。
匹配策略使用的偏好值之间的重量我和RSUj的价值函数,计算未来的车辆状态(RSU当其服务卸载j完成)-价值函数的车辆当前状态;我们称这个公式的重量的计算的偏好(17];叫它作为一个优势功能:
我们的第二个目标是最大化车辆的体验质量,同时保证网络运营商的利润(即。,限制)。网络运营商的无线接入网络和移动核心网络;整体获利完成服务的传输数据量的影响和能源消耗的计算在现实中,这是没有参与我们的模型;为了简单起见,我们使用一些随机分布设置在每个RSU代替某些利润;在这里,我们使用来表示。
通过(偏好函数可以生成相应的价值1)来确定每辆车和RSU之间的最佳匹配;匹配规则 在哪里 取决于配对关系。如果RSUj是与车辆我,然后一个1,我礼物这个时间段的无与伦比的车辆,和意味着这些限制可以分配。在RSU分配阶段,车辆不匹配的限制将被视为如果他们等待进入下一个时间段。其最终效果如图3。
此外,RSU只能被派往一个车辆在2网格(如图4),它可以减少造成的损失的利润部分分配,也便于及时响应更多的车辆。
然而,在这个模型中有一个特殊情况。如果没有有效的RSU在该地区的分布限制太稀疏,中央系统不会分配RSU任何车辆。这导致闲置状态,但实际的车辆可以探索寻求一些限制,有更强的信号源。
3.2。模块和Intermodule连接
我们设计一个整体架构基于15]避免空闲状态;分析领域在未来有更多的限制和引导车辆路线在空闲状态;他们可以提前急于潜在偏好高的地区;这种方式会导致高的用户体验质量和最终利润。架构的分析将引用历史记忆和战略从不同的代理。
确保网络终于可以稳定收敛的参数,我们的目标网络模块根据DDPG构造算法。的损失函数值网络两个值之间的差距缩小网络模块和软更新目标价值网络的参数。相同的更新方法也适用于目标的参数更新政策网络。
他等。6)强化学习应用到multiscene电子商务推荐系统(39),每一个场景都被认为是一个代理;不同的场景是由各自的战略安排代理;其中心系统是一个评论家评估整体场景的利润。我们的模型需要调整的驱动路径不同的代理获得更好的整体利润;这一点非常类似于我们的模型。
灵感来自[6),我们与DDPG actor-critic介绍给我们的架构;一个名叫MARDDPG的算法(可替换主体复发性深确定性策略梯度),提出了参考图5。
有三个重要模块设计多个代理的合作,全球评论家模块,分别独立代理和通信机制。
3.2.1之上。演员模块
每个代理组中的模块调用是一个单独的演员模块接受当地的观察如位置和共享信息从之前的时刻,选择一个动作。车辆的行为是一个有限集的离散动作:,,,,,我们定义的行为变量的概率偏好不同的行为在那一刻:
因此,每一个行为都是维向量;这个向量最终会选择相应的行为概率最高的偏好作为未来行为的代理。
灵感来自DDPG-related工作,确定战略的一个方法是用来代替一个随机的策略。的每个代理对应的函数 ,的参数是 ,和功能状态映射到一个行为。在时间t根据代理决定其行为网络: 在哪里 代表了近似全局状态;的行为取决于两个消息和当前的观测 。
确切地说,这里的每个代理对应车辆空闲状态的预测,以及期间的车辆服务仍在计算将不被考虑;每个代理我将根据其战略每一次的行为选择,然后立即奖励 从环境中获得的。毕竟代理的观察和奖励是积累,状态改变更新到 。
3.2.2。评论模块
多个代理的目的是为了实现全球最大利润。我们通过一个全球评论家行为价值函数 评估整体利润;每个代理执行的本地行为后获得当地的观察。
评论家网络设计以适应行为价值函数,用于评估整体行为的影响对未来预期采取行动的时候。因为所有代理共享信息,我们使用一个全局评估函数
每一个代表每个代理的评估行为在全球国家的评论家网络,最终需要总结形成总评估代理。actor-critic网络代理内部的细节图所示6。
当地观察对应于一个三维向量,向量的五维记忆信息作为输入使用之前的时刻,和五维运动向量作为输入,输出,结合当地观察最后批评网络输出一维评价向量,中间隐藏层都是由5个神经元。
3.2.3。通信机制
在我们的通信机制基于long-short-time记忆网络(LSTM),我们将设置LSTM (18];作者应用multiscenario排名的任务,不同的场景中被视为一个代理,LSTM编码所有当地的观察和操作的所有代理到一个消息向量,和代理之间的消息将被发送。我们将所有观察结果和行为的代理输入相同的同时通信模块;它将生成一个消息向量记忆当前时刻的全球信息。向量的演员模块将被发送到不同的代理在下次一起,形成一个新的输入他们的观测信息,合作的作用。的消息更新的通信模块,记下观察吗和行为不同的代理在同一时间。
由于这种机制,每个代理的决定不仅基于其状态和先前的行为,还取决于其他代理的状态和行为。这种通信机制使代理能够近似全局环境的状态,让他们更多的全球和长期决策。然后, 所有的代理在每一刻都存储在播放内存区域和传播全球评论家批评模块。在线行为价值函数 评估行为的影响当每个代理接受消息和当地政府 。
4所示。改进和算法描述
4.1。优化的偏好函数
偏好函数(1)只是作为匹配的重量。我们将计算平均偏好值从一个地区改善偏好函数;它反映了有效的限制的出现概率。更大的值意味着这个地区将会有更多的服务,可以产生更高的整体利润;该系统将推荐汽车急于提前这个地区。这种行为的建议将会减少车辆的数量在空闲状态;即使没有有效的限制,匹配策略不能执行;代理将积极寻求限制。改善偏好的公式如下: 在哪里限制的数量,已经完成的服务一定距离内的代理商吗我;基于偏好函数(1)。后来,我们称之为随着密度的偏好。
重放缓冲存储数据( )从每一集在每个时间步长;政策网络随机提取样本数据从缓冲在训练阶段,因此过去消息代理可以选择富有远见的行动与其他代理、观察、和奖励;这种方式可以删除相关性的观察序列和数据分布的变化。值函数在目标网络计算的和立即返回 。 代表了奖励和惩罚值;他们是通过代理之间的交互和环境;我们将它定义为未来潜在的代理综合收益;无论是高或不完全取决于偏好函数的平均值;定义如下:
这个新领域的偏好密度低于原来的,和一个点球−1的值分配给阻碍了该地区的勘探年代t;同样,如果不改变偏好密度,减少不必要的勘探的代理,这是比探索偏好密度低的情况下,我们赋值为0,即既不鼓励也不抑制;最终,探索高密度区域是我们所期望的目标的奖励价值1。
4.2。车辆调度的优化匹配
4.2.1。准备问题描述
traditional-KM算法适合两偶图的精确匹配。因为我们的模型只分配在一定的范围内,有可能不匹配现有的由两部分构成的图表(精确匹配:两偶图的情况下左边的节点可以匹配正确的节点一个接一个),例如,有一个单独的区域重叠现象(如图7)。如果只有这RSU超过请求范围的车辆,它不能被匹配;traditional-KM算法已被修改,因为我们不知道最坏的情况下的下限一个(我,j在强化学习);我们不能简单地将负重量设置为0;我们需要一个相当大的负重量识别配对的情况RSU无法匹配的车辆;在极端情况下,RSU负重量不能丢弃;否则,将会影响用户的满意度。
负重量出现新的问题,双方匹配的数量是不一致的;算法根据古典公里,少数的节点优先匹配,以确保它们可以匹配,但是在实际的匹配过程中,如果考虑到相当大的负重量匹配,对更新会浪费大量的时间;我们需要尽可能地避免它,但它还是会让某些情况下(图8):负重量的边缘(停止响应)图中省略了。当有情况如图8,车辆之间的匹配和2更好,但在traditional-KM算法,因为车辆不能在短时间内找到一个新的匹配,一个循环陷入了长时间的计算。
将会有一个更合适的匹配;节点具有更高的整体搭配权重将被排除在现有的匹配情况。这需要我们进一步优化现有的匹配策略。
我们介绍失败者的概念;我们称之为loser-KM算法。一旦形势图8出现时,车辆将立即取消,然后所有的车辆节点将收集的消除 ;失败者我将有一次机会去挑战车辆已经匹配RSU谁j。如果是大,相应的限制将收集在主节点集 ,最后,攻击的过程将使用古典公里算法。loser-KM算法可以用来处理由两部分构成的图,需要考虑负重量匹配,还有一些无法对抗的条件。看算法1获取详细信息。
|
||||||||||||||||||||||||||||||||||||||||||||||||
4.3。可替换主体复发深决定性策略算法
通过计算区域偏好函数,代理我选择一个动作的行为决策基于其近似全局状态年代t;它移动到一个新的领域;中央系统使用loser-KM匹配算法来确定一组调度策略。既然地区优先考虑了历史信息,它鼓励汽车去的地方RSU可能需要服务提前;反应率和总利润有所改善。
然后,我们定义了网络更新规则;我们试图最小化之间的差异计算在线行为价值和旧值问网络;相应地,由于DDPG网络的特点,在目标的价值问网络的价值在过去的培训。因为目标网络的存在,重量是延迟的更新;它让培训更收敛和网络更稳定。我们将损失函数的设置在6]。
所示的详细过程的算法2。
|
||||||||||||||||||||||||||||||||||||||||||||
5。实验
我们设计实验探讨以下问题:(1)如何反映改进公里算法的作用和提高匹配的性能?(2)MARDDPG之前有关方法,但使一些变化;它如何与他人比较时应用于相同的模拟环境中,与我们的实验指标?
要回答(1),我们比较性能平均利润的传统之间的匹配算法和改进的公里。(2),我们的结果表明,两个传统和MARDDPG RSU相同和不同数量的汽车,它是用来比较不同算法和突出的性能在不同的稀疏程度的代理。使用不同的度量是指每一个算法的性能,很难在有限的时间完成这个匹配的问题,很明显,每个算法都有其局限性和优点。
5.1。实现细节
来验证算法的可靠性,我们设计了整个调度过程执行9×9的网格,20-time步骤,统一的有限时间和小空间能有效减少外部噪音的干扰,如跨区域和cross-day信息传输;我们简化车辆的行为,每辆车只能留在一次性点,或做一个水平/垂直移动。
设置调度距离为2时,车辆只能上传服务RSU不超过这个距离范围。如果RSU没有要求任何车辆在很长一段时间里,它将被取消,取消时间设置为一个范围从0到5的截断高斯函数;其平均是2.5,标准差是2。
RSU一代模型还模拟了早上高峰上下班的交通模式和居民区的情况;RSU位置使用双组分混合高斯函数来生成x -和y设在网格中的坐标和截断成整数。车辆的初始位置和限制是由离散均匀分布函数生成的。
5.2。改进的性能匹配
我们的算法是与距离优先级算法相比,利润优先级贪婪算法和算法的优势。每个算法都使用原公里版本和loser-KM版本匹配这些限制,我们可以观察到现有算法的影响因素;偶图,distance-first算法是基于的重量限制和车辆之间的距离;利润优先的重量是基于最高利润的计算服务,和算法结合两种偏好匹配策略;我们称之为优势算法的名字来自优势函数和MARDDPG。
我们使用平均利润,即利润RSU获得的每辆车作为度量的改进策略算法,因为传统公里优势算法使用偏好函数作为重量,相比之下,我们的匹配算法改进的公里,已成为MARDDPG的适应;需要地区偏好的重量,这意味着一旦车辆到达区域更高的偏好值,获得的利润会更高,这样平均利润会更高,因为它注重长期回报算法相比的优势。
如图9,每个酒吧代表平均20个独立实验的内容。在这里,我们统一的比率限制车辆,100:25,实验环境。我们没有清单的距离算法,因为它是不相关的匹配策略。使用loser-KM算法,平均利润高于traditional-KM算法,这也是由于loser-KM基于传统算法的原理;改善性能的变化根据实际问题的负重量未知的下限;因此,loser-KM算法用于RSU分配过程造成一定的性能提升。
之后,我们使用四个策略相比,四个指标(平均利润,整体利润,皮卡距离,和反应速率)的情况下100限制汽车的数量是25,50或75年,分别与十个独立的实验。
我们比较平均利润在图的性能10;当限制到车辆的比例最低,平均利润往往是高;因为完成服务的总体数量相对较小,平均利润将下降,然后缓慢上升的比例增加。距离算法的性能在平均利润并不突出,当车辆密度增加;它的性能也集会,因为车辆之间的距离,在这种情况下限制不是很长;RSU可以快速完成计算服务;然后,去下一个。贪婪算法具有最佳性能的平均利润由于利益驱动,但它有减少的比例100:50;我们认为这是由一个极端的情况下,驾驶距离太长。利用算法的平均利润将落后MARDDPG在某些情况下,但实验表明,性能优势和MARDDPG几乎相同的平均利润; although we think MARDDPG takes regional preference into account in a period, vehicles will rush to the RSU with high information transmission. Our time step which is only 20 is relatively short. When RSU receives the service from one vehicle, it will finish it without interference; they cannot respond to a new service; therefore, this improvement is weakened.
图11显示整体利润的比较;这措施的程度不同的比赛。我们可以发现它没有定期与平均利润的关系。距离算法的总体性能不突出,因为它的重量是独立的偏好函数。贪婪算法执行一般的整体利润;虽然喜欢更高的平均利润,不考虑时间的性能,这使得它无法获得足够的利润在一个有限的时间片,导致性能下降。算法的优点是更倾向于将限制与更好的整体利润;随着比例上升,其整体利润几乎是等于我们的算法。MARDDPG将积极寻求限制,因为它考虑了空闲状态;这将有一个相当大的改进,当比率很低。 As the ratio increases, a large number of RSUs can enter the effective matching distance of vehicles, which reduces the probability of idle state.
我们展示传感器距离图的结果12;传感器的距离代表车辆移动的总距离;它能反映探索的活动区域。照射距离算法因为其重量是基于较短的距离。贪婪算法的性能和优势也考虑;随着比例的增加,性能不会有很大变化,因为这不会产生额外的移动行为。MARDDPG有“坏的”小距离,因为它将积极打破空闲状态和急于潜力区。它可以真正证明比例增加。您可以看到距离大大增加在现实世界中,并且它可以担任路线推荐因为车辆还可以依靠经验急于限制股更及时的地区。
直到最后一个周期,我们评估的反应率限制的数量(响应/反应的总数),如图13;作为体验质量的感觉,也可以间接反映了服务的数量。距离算法具有良好的响应速度,它重视距离,和车辆可以迅速冲到近限制;然后,从车辆限制开始计算服务。贪婪算法是不擅长的反应,因为利润越高,计算时间越长,越* RSU不能回应,导致较低的反应率。利用算法是基于整体利润的重量;它平衡时间和距离之间的权衡;它还执行异常的响应率。MARDDPG减少车辆保持空闲状态的时间,并鼓励他们积极寻求更多潜在的自由的限制,所以它可以立即响应。随着比例的增加,这种优势日益显现; if one area is lacking free RSUs, it will guide vehicles to go to other areas.
5.3。结果比较和分析
贪婪算法是最有利可图的,因为它是利益驱动;然而,它也导致反应率较低。行驶距离算法有最小距离和提高其响应速度相对于贪婪算法因为RSU可以反应在时间之前完成服务。利用算法具有良好的性能,但是可能会有情况代理可能是空的,所以它是处于不利地位的反应率和平均利润。
MARDDPG使车辆能够积极探索基于保留偏好匹配算法的优点,在奖励函数的定义;车辆被鼓励去高特惠区中央调度系统,它更有可能遇到自由限制;其反应率和利润实现更好的性能;相应地,这种探索也会导致更多的每辆车的距离,所以它可以作为推荐的路径而不是信号源向导当MEC服务器是稀疏的实际应用中参考。限制车辆减少的比例,似乎性能并不大。
RSU密度高时,RSU覆盖率接近整个地区,和探索能力将不再影响。也有一些情况下,反应率和总利润不高,因为高利润传输需要运输很长一段时间,和RSU无法回答其他车辆在运输阶段。当仿真模型的运行到达时间T将总结,结果统计。上传服务未完成,因为有限时间内将影响的相关数据。
这些数据统一上述各种算法的性能在不同的指标;它帮助我们进一步分析实验从一般的角度。我们可以发现MARDDPG成本相对较大的距离。的整体利润变成平的增加比率。我们可以找到使用loser-KM和偏好函数的好处之前总利润的比例100:75,因为系统考虑了未来的利润。的比例100:50是一种理想的环境;它已经改善了总利润60%,大约100%的反应率的比率相比100:25。我们还可以看到,该地区比较偏好与其他算法比被利益驱动,它考虑的因素的平均回报和响应速度。所有服务器的总利润和总反应率间接相关的个人利润作为指标的权衡;他们可以体现一种算法的鲁棒性和远见的限制存在相当远离汽车。
6。结论和未来的工作
在这篇文章中,我们可替换主体强化学习算法引入到代理勘探和结合起来使用loser-KM算法在匹配。根据传统算法的比较,我们可以发现它可以表现得更好,满足高响应率和总利润优化的要求。如数据所示,该算法更适合中等密度,它可能导致很长一段路在预测的基础上,所以最好是用稀疏限制应用到推荐系统;在密度大的地区,其优点是不明显的。这些比较的相关算法都是通过自己,和被引用的论文中提到的细节尽可能恢复。在每个试验中,每个系列使用相同的数据集比较算法生成的限制生成模型,但也有一些极端情况下的实验,因为存在理论与现实之间的差距。
我们将努力把这种强化学习算法作为决策模型在更远处田野和克服缺陷;有关算法的性质,其预测是一个试验和错误,导致更多的距离。这些可能成为我们未来工作的重点。
数据可用性
业绩评估说明我们的模拟数据集上构造系统的有效性。数据用于支持本研究的发现文章中是可用的。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持部分由中国国家自然科学基金批准号61772575,部分原因是由中国国家重点研发项目批准号2017 yfb1402101,在民族大学独立研究项目的一部分。