文摘
疾病可以产生巨大的影响人类的生活质量。人类一直在寻求找到策略来避免疾病危及生命或影响人类的生活质量。有效利用可用资源对人类来控制不同的疾病一直是至关重要的。最近研究人员更感兴趣的发现基于ai的解决方案来控制人口的疾病由于深度学习的压倒性的人气。有许多监督技术一直用于疾病的诊断。然而,基于监管解决方案的主要问题是数据的可用性,这是不可能或不完整。例如,我们没有足够的数据,显示了人类的不同状态和不同国家的环境,以及所有不同的人类采取行动或病毒最终导致疾病,最终需要人类的生活。因此,有必要找到基于无监督的解决方案或一些技术不依赖于底层的数据集。在本文中,我们探讨了强化学习方法。我们已经尝试不同的强化学习算法来研究不同解决方案的模拟人类疾病的预防。 We have explored different techniques for controlling the transmission of diseases and its effects on health in the human population simulated in an environment. Our algorithms have found out policies that are best for the human population to protect themselves from the transmission and infection of malaria. The paper concludes that deep learning-based algorithms such as Deep Deterministic Policy Gradient (DDPG) have outperformed traditional algorithms such as Q-Learning or SARSA.
1。介绍
不同类型的疾病,如疟疾、流感、登革热、和艾滋病毒产生巨大影响人类的生活质量(1- - - - - -3]。如果我们只考虑疟疾,那么根据世界卫生组织的报告,大约有32亿人感染疟疾。根据他们的报告,在2016年和2017年,有217和2.19亿疟疾病例报道,近年来显示疟疾病例的增加(4]。因此,有效利用资源,控制疟疾是至关重要的。杀虫剂处理过的蚊帐预防疟疾的主要方法是(5因为有一种蚊子叫疟蚊;9点后它咬。当蚊子集在网上,它死了由于杀虫剂,这扰乱了生殖周期。除了蚊帐外,其它疟疾预防政策包括室内残留喷洒(IRS) (6],杀幼虫剂[7在身体的水,和疟疾疫苗接种(8- - - - - -11]。
机器学习算法应用于不同的领域,取得了巨大的进展12)在医疗行业尤其受到机器学习(13- - - - - -15在过去的几年里。这些机器学习算法关注疾病的诊断(16)或预测未来的结果(17),但不是探索疾病的治疗18]。这是一个非常重要的步骤来诊断疾病,被认为是治疗疾病的重要一步,和机器学习技术可以支持医疗专家治疗在某种程度上,但这是一个具有挑战性的问题找到最好的政策来治疗病人医学专家(19]。最近,流行是通过强化学习(RL) [20.在视频游戏(21- - - - - -23),好的和坏的行为是学习代理通过与环境的相互作用和环境的响应。在视频游戏的背景下,RL表现很好,但有限的进展在实际像卫生保健领域。在视频游戏如AlphaGo和星际争霸,代理起大量的环境中的行为和学习的最佳政策。然而,在卫生保健的背景下,它被认为是不道德的使用人类训练RL算法和更不用说,这一过程将是昂贵的,需要数年时间才能完成。我们不能观察到发生的一切一个人的身体。我们可以测量血压,温度,和其他一些在不同的时间间隔测量,这些测量不代表完整的病人的状态。同样,收集到的数据在卫生保健对患者可能存在一个时间和为别人可能不存在。例如,胸部x光检查,用于治疗肺炎的24)之前收集一个人感染人治愈后,但RL模型必须知道所有的估计状态病人经过。这是非常具有挑战性的卫生保健,有许多不明真相的病人在所有时间的步骤。
奖励在RL函数是最重要的一个功能,它是具有挑战性的,在许多实际应用程序找到一个好的奖励函数。在卫生保健,是更具挑战性搜索之间保持平衡短期的成功的奖励功能和整体长期的改善。例如,在脓毒症(25),改善血压在不同时间的时间可能不成功导致整体改善。同样,只有一个高回报的最后一集(即。,年代urvived or died) demonstrates that a long route is followed without different intermediary rewards [26,27]。也很难知道哪些行动导致奖励和行动导致罚款。所有主要的突破是有可能通过使用模拟数据在深RL =很多实际年28]。当数据是通过模拟器生成的,它不是一个问题,但在医疗保险的情况下,不可能产生模拟数据用于治疗不同的疾病。一般来说,数据是非常稀缺的开始培训监督学习,和存在的数据注释用于监督学习的努力。此外,医院不愿意共享数据的患者主要是因为隐私的原因。所有这些事实进一步做深RL卫生保健具有挑战性的应用。
通过自然、卫生保健数据不稳定和动态(29日]。例如,患者的症状可能存储在不同的时间间隔,也许不同的记录存储不同的病人。随着时间的推移,治疗的目标也可能改变。在文学,不同的研究30.- - - - - -32)是专注于降低总体死亡率。当一个人的条件得到改善,重点转移到一个不同的目标如病毒在人体的持续时间。同样,病毒或感染可能变化更加迅速和发展在不同的动力学(33- - - - - -35)最可能不是在训练数据用于监督或semisupervised学习算法。在医疗诊断决策本质上是连续的(36,37]。这意味着病人访问医疗中心治疗一种疾病。根据以往的经验,医生决定治疗。之后,当病人返回相同的医生,以前建议的治疗医生决定病人的当前状态,还可以帮助医生决定需要采取的下一个。现有最先进的人工智能策略应对疾病治疗(38,39),自然顺序的决策被忽略40]。这些人工智能系统的基础上做出决定病人的现状。医疗的连续特性可以有效地塑造成马尔可夫决策过程(MDP) [41- - - - - -44通过RL)和更好的解决。RL算法不仅考虑治疗的瞬时的结果也是长远利益的病人(45]。
的干预行动,以避免疟疾本文系统地探索。本文演示了一个实际的例子,强化学习,模拟人类在哪里训练学习避免疟疾的有效技术。在文献中,人工智能技术用于预测、诊断和医疗计划,但本文通过模拟一个环境采用不同的方法和使用模拟人类使用不同的强化学习技术来避免疟疾。综合干预措施是控制疟疾的传播和学习探索避免疟疾的技术。
本文的组织结构如下:相关作品部分中解释2。避免疟疾的问题和强化学习的方法第三节。实验执行,他们的研究结果进行了分析第四节。给出论文的结束语第五节。
2。相关工作
最近的机器学习和大数据的发展动机不同领域的研究人员用这些算法问题。生物医学和卫生保健人员越来越受益于这些算法在疾病早期识别中,社区服务,和病人护理。在[46),机器学习和MapReduce算法用于有效地预测在disease-frequent社会中不同的疾病。本文展示了达到94.8%的准确率和收敛速度快于CNN(基于卷积神经网络)算法。同样,深度学习和大数据技术已经用于(47]预测传染病。作者结合深层神经网络(款)和长期短期记忆(LSTM)和评估性能和自回归综合移动平均(ARIMA)在不同疾病的预测在未来一个星期。和ARIMA相比取得了更好的效果。自动诊断疟疾使我们能够提供可靠性在卫生保健服务领域的资源是有限的。机器学习技术已经试图调查疟疾检测自动化的过程。在[48),使用CNN疟疾进行分类。同样,在49],CNN已经被用于检测疟疾分类和展示了有前途的准确性。深入强化学习(DRL)最近取得了非凡的成功,尤其是在雅达利等复杂的游戏,,国际象棋。这些成就主要是有可能的,因为强大的函数近似的帮助下款。DRL被证明是一种有效的方法在医学背景。RL的多个应用程序的上下文中被发现药。例如,RL方法已经被用于开发策略的治疗癫痫(50)和肺癌(51]。作者使用的脓毒症数据集的一个子集MIMIC-III数据集(25]。一个动作空间组成的升压和静脉流体被选中。不同数量的每种药物分为四个箱子。双深Q-Network用于评估。沙发得分用于测量器官衰竭是用于奖励函数。u曲用于评估。剂量的死亡率作为函数的政策处方和随后的政策,实际上是。
在[19DRL用于开发一个框架,预测最优策略使用医学数据处理动态的治疗方法。纸已经声称他们的RL模型更加灵活和自适应高维动作和状态空间比其他RL的基础方法。现实世界复杂性的框架模型帮助医生和病人做一个个性化的决定在治疗选择和疾病进展。的框架结合监督学习和DRL用款。数据集来自数据库的国际骨髓移植研究中心(CIBMTR)注册表。框架已经证明有前途的准确性预测人类医生的决定,同时计算一个高回报的函数。在[52),一个RL系统开发,帮助糖尿病患者参加不同的体育活动。消息发送给患者做个性化的病人,结果显示,参与者接收消息的RL算法增加了身体活动和行走速度。与递归神经网络监督RL (SRL-RNN)相结合的框架做出不同的治疗建议王等人在53]。他们MIMIC-3数据集上进行的实验结果表明,基于RL的框架可以降低估计死亡率,同时提供有前途的准确性与医生的处方。在[54),作者描述了一个新颖的技术,可以找到最优政策,可以使用RL治疗化疗患者。作者用q学习,行动的空间,一种机制是用来量化剂量对于一个给定的时期,一个代理可以选择。剂量是启动的周期与频率由一个专家。每个周期结束时,过渡状态进行比较。平均减少肿瘤直径决定奖励函数。模拟临床试验用于算法的评价。
在[55),作者采用了不同的方法,使用了RL技术鼓励健康的习惯,而不是寻找直接治疗。在[56),作者关注败血症和RL,但采取一种不同的方法,使用了RL技术来控制血糖。在[57),作者都集中在反事实的推理和域敌对的神经网络。这是一个复杂的问题解决不确定情况下的决策问题。卫生保健从业者面临的问题挑战的约束下,有限的数据驱动的决策工具。在[58],作者已经解决了的问题找到一个最佳的疟疾政策作为一个随机multiarmed土匪问题,开发了三个以代理人为基础的策略探索的空间政策。高斯过程回归应用于每个代理的发现,压缩和随机模拟的结果疟疾的传播在固定人口。生成的政策模拟与人类直接引用该领域的专家。在[59),作者已经暴露的微妙与评估RL算法在卫生保健。重点是观测的设定,RL算法提出了治疗政策和评估基于历史数据。在一项调查60]讨论了强化学习的不同的应用程序在卫生保健。本文提供了一个系统的理论基础的理解,方法和技术,挑战,和新见解新兴方向。上下文意识层次RL计划(61年)已经被证明可以显著改善症状检查比传统系统的精度,同时减少调查的数量。另一项研究中,引入了RL的基本概念和如何有效地用于卫生保健RL在(62年]。
政策使用强化学习算法用于疟疾控制的解释(63年,64年]。作者应用遗传算法(65年),贝叶斯优化(66年),q学习序列打破搜索最优政策几年。他们的实验证明q学习算法的最佳性能。基于代理模型的系统回顾了疟疾传播的(67年]。本文涵盖了一系列广泛的主题涵盖了疟疾的传播频谱和干预。机器学习算法对不同疾病的预测研究(68年]。作者使用决策树和MapReduce算法和声称达到94.8%的准确率。机器学习算法被用来自动诊断疟疾(69年]。深卷积神经网络用于分类。作者在70年]讨论了安全应用人工智能相关的领域深入强化学习应用于自动移动机器人的控制。调查与疟疾感染相关的风险识别瓶颈在不同的消灭疟疾技术讨论(71年]。其他相关研究可以发现在72年- - - - - -74年]。
3所示。方法
强化学习(RL) [75年]是一种机器学习方法监督和非监督学习下降,代理通过与环境的交互学习的地方。代理执行某些操作和接收来自环境的反馈。这个反馈是消极或积极的形式奖励和决定的顺序好或坏行为在特定情况下适用。因此,代理可以有效地执行其操作没有任何人类的干预。换句话说,RL是一种学习方法,一个代理学习一系列的行动,最终增加报酬函数。代理决定哪些行动是最合适的,收益率最高奖励。可能一个动作可能不会给一个积极的直接的奖励,但长期奖励也被认为是。在现实生活中,我们有两个组件,也就是说,代理和环境如图1。代理代表RL算法的类型,和环境代表了什么行动回报奖励。建立了环境通过发送一个状态的时间t作为年代t∈年代,在那里年代是集的表示可能状态的代理。代理时所采取的行动t是由一个t∈一个(年代t),一个(年代t)是一组的表示可能采取行动的状态年代t。收到的奖励是通过执行行动表示为Rt+ 1∈R,在那里R的奖励。一个时间步后,下一个状态年代t+ 1将被发送到代理的环境还有奖励Rt+ 1。这个奖励将最终帮助代理增加其知识用于评估其最后的动作。发送和接收的过程奖励作为结果由代理将继续,直到环境向代理发送过去或终端状态。
除了代理和环境中,有四个组件在RL环境:(i)政策,(ii)奖励,(iii)值函数,(iv)环境的模型。(1)政策。策略定义了一个代理的行为/反应时间的在一个特定的实例。有时,一个策略可以被描述为一个简单的函数或一个查找表,一个策略可能涉及大量的计算,例如,搜索过程。这项政策被认为是RL代理的核心部分,因为它可以描述的反应剂。这项政策可能会随机,以确定每一个行动的可能性。为代表的政策πt,在那里πt(一个|年代)的概率一个t=一个如果年代t=年代(2)奖励。奖励的信号表明RL的目标问题。由于代理人的行动,环境返回一个数字,称为一个奖励,在每一个时间步。代理的目的是让大部分的总回报。因此,奖励信号识别是好还是坏。奖励信号决定要采取行动。如果一个动作返回一个低回报,那么政策将改变来选择另一个操作在一个类似的情况。所以一般来说,奖励信号是随机函数的状态和行动。(3)值函数。奖励的信号识别是什么擅长当前时间,当一个值函数描述了从长远来看是有利的。在几乎所有的RL算法,被认为是最重要的组件是有效估计的值的方法。更准确地说,早期的状态调整的当前值更接近的值后的状态。这可以通过移动之前状态的价值向一小部分的值后的状态。让年代表示移动前的状态年代是代理环境变动后的状态;然后,更新的估计价值年代,表示 ,可以写成方程所示(1),α′小幅正分数被称为步长参数,影响学习的速度。 被称为目标和时间差异是无偏估计 。在方程(1),r代表奖励和γ代表了贴现因子。这个更新规则是时间不同学习方法的一个例子,这么叫是因为它的变化是基于不同, ,也就是说,估计在两个不同时期的区别: (4)模型。一个模型可以推断行为的环境。假设一个国家和行动;然后,可能模型决定了合成下一个状态和奖励。使用模型和规划的方法来解决RL问题被称为基于模型的方法。那些明确trail-and-error学习者被称为模范自由的技术方法。
让我们假设有有限的状态和奖励。让我们考虑一个可能的环境响应时间t+ 1的行动时间t。这实际上反应取决于之前发生的一切。完整的概率分布的动态系统可以定义方程(2),为所有r、年代和所有可能的值所表示的动作在过去的动作,状态,和奖励,也就是说,年代t,一个t,Rt。然而,由于马尔可夫链的属性,我们可以代表环境的反应t+ 1只取决于状态和行动时间t。环境的动力学方程可以被定义为给定的(3),为所有r,年代′,年代t,一个t。它意味着一个国家或一个环境有一个马尔可夫链的财产当且仅当方程(2)和(3)是相等的。RL的马尔可夫链的性质是非常重要的,因为决策和值是当前状态的函数。这些决策和值可以有效和携带更多的信息时,状态表示有足够的信息:
RL的任务满足马尔可夫链的属性的名称的马尔可夫决策过程(MDP)。鉴于状态年代和行动 ,下一个状态的概率的计算s′随着奖励r是表示在方程(4)。回报的期望值政府行动对计算给出了方程(5)。预期回报state-action-next-state给出方程(6):
价值函数,这是一个国家或政府行动对的函数,是用来估计一个代理的性能在一个给定的状态。这种性能计算的未来回报收集。用状态值Vπ(年代给定一个政策π和国家和计算方程所示(7),Eπ(。)表示变量的期望当一个代理遵循政策π在时间步t。同样,一个国家的行动价值年代后的政策π由问π(年代)在方程(8),问π行为价值的函数吗π政策是:
RL问题是通过寻找解决策略,帮助代理收集执行模拟最大可能的回报。一个给定的政策π被视为一个更好的政策或等于另一个政策π′,它的期望π大于或等于的期望π′状态。换句话说,π≥π′当且仅当≥∀年代∈年代。最优政策的政策被认为是好的或等于所有可能的政策。由最优政策π∗。共享同一个州值函数最优政策V∗和定义为V∗(年代)= maxVπ(年代)∀∈年代。他们也分享相同的最优行为价值函数,由问∗定义为问∗(年代,)= max问π(年代,)∀∈年代和一个∈(年代)。
基于模型的RL意味着给定的动态的仿真环境。该模型学习从当前状态的概率年代0,采取行动下一个状态和结束年代1。鉴于转移概率的学习,代理可以确定概率进入状态在当前状态和行动。然而,基于模型的算法是不实际的,因为状态空间和动作空间成长。另一方面,模范自由算法依靠试错来更新其知识。因此,空间不需要存储所有的状态和行为。在本文中,我们使用的是模范自由算法。RL分类算法都是基于对政策和off-policy。当价值是基于当前的行动一个来自当前的政策,它被称为在政策。当一个动作一个∗获得从一个不同的政策,那么它被称为off-policy。
3.1。q学习的
一个著名的算法在RL q学习由沃特金斯(76年]。其收敛性的证明是由Jaakkola [77年]。q学习的是一个简单的技术,它可以计算最优行动价值没有中介的参与评估的成本和使用模式78年]。这个算法是模范自由和被认为是off-policy算法,这是来自贝尔曼方程见方程(9),期望是由E和贴现因子是由λ表示。这个更新方程算法所示110号线。学习速率是由α表示。下一个状态的问值确定下一步行动而不是使用当前的政策。算法的总体目标是最大化核反应能量:
|
3.2。撒尔沙
一个类似的q学习算法是撒尔沙(79年,80年]。在q学习的情况下,贪婪的政策,但在撒尔沙在政策之后。撒尔沙学习核反应能量通过使用当前政策执行操作。算法2撒尔沙的显示算法。当前政策是用来进行选择的行为。
|
3.3。深决定性策略梯度
actor-critic架构称为深决定性策略梯度(DDPG) [81年,82年]。的参数x调政策由演员在方程(10)。计算的错误,使用时间差异政策行动被评论家评价是在方程(11)。政策决定所表现出的演员 。经验的想法回放和独立的目标网络,利用深问网络(DQN) [83年)是由DDPG使用。算法3显示了DDPG的算法。
|
4所示。仿真和讨论
在本节中,我们提出算法中解释的结果第三节获得在一个模拟的人口,看看哪算法表现更好的防止人类疾病。评价,我们需要一个环境,我们有不同的州,行动,和代理(人口的代表)寻找最好的策略来避免疾病,如疟疾、流感和艾滋病。在本节中,结果显示疟疾回避,但类似的环境有足够的信息可以用于避免其他类型的疾病,如流感、艾滋病毒和登革热。一个人类的环境、蚊子和其他因素影响的传播疟疾病毒传播到人类图所示2。左边的框包含因素有关人类和右边的框包含与蚊子有关的因素。不同的因素可以影响疾病在箭头所示连接人类与蚊子的盒子。环境因素和干预措施是显示在顶部和底部的箱子对人类和蚊子。
IBM非洲研究团队已经采取措施控制疟疾通过开发一个世界级的环境中分发蚊帐和驱虫剂。他们的目标是开发一个定制代理,将有助于确定最好的奖励政策基于仿真环境。我们的工作利用强化学习的环境由IBM开发的非洲研究竞争hexagon-ml (https://compete.hexagon-ml.com/practice/rl_competition/38/),一个代理学习最好的政策控制的疾病,也就是说,疟疾。环境提供了疟疾和不同研究人员随机传输模型可以评估不同的疟疾控制干预措施的影响。在环境中,代理人可能探索最优的政策来控制疟疾的传播病毒。图代表环境由Hexagon-ML寻找最好的策略避免疟疾是在图3。环境包含了五年。每年都是一个状态。在每一个州,我们采取不同的行动ITN的形式和国税局。
州被表示为年代∈{1,2,3,4,5},其中每个数显示的数量。我们正在努力解决的问题一次性政策建议的模拟干预期5年。不同地区的主要控制方法是长效蚊帐的质量分布,与拟除虫菊酯国税局,疟疾的迅速和有效的治疗。行动,由一个(年代的形式),执行ITN国税局,ITN的值和国税局无限实数在0和1之间。
代理培训强化学习算法将探索一个政策空间由前两个组件,也就是说,蚊帐和国税局,直接干预策略。及时和有效的治疗是由环境参数和影响的回报。第一个组件。ITN,是网的发展,定义人口覆盖率(一个英国独立电视台∈(0,1)。第二个组件是使用季节性喷涂,它定义了这个干预(人口覆盖率的比例一个国税局∈(0,1)。季节性喷涂通过交替执行干预每年4月和6月之间在不同的地区。政策决定是框架的方式模拟人口由一个特定的干预;政策的空间设计一个我∈一个= (一个英国独立电视台,一个国税局]。
医疗机构应该能够探索所有可能的行为适当人群疟疾干预措施。这些政策包括一个混合的动作,就像蚊帐的分布,国税局,杀幼虫剂在水里,并为控制疟疾疫苗接种。可能的政策空间的控制疟疾是不完整的和低效的医疗专家探讨没有足够的决策支持系统。环境模拟处理的分布模拟人群的干预措施。代理负责的复杂操作的、有针对性的干预措施,这是以前没有报告。尽管行为空间是有限的(即。,finite number of people in the simulation environment) the space size grows exponentially as more interventions are added. The computation time of simulation will also grow linearly with the number of populations. Therefore, a complex exploration of the entire action space becomes impossible as complexity goes to a real-world equivalent simulation.
代理在学习过程中学习不同的奖励。学习的想法是收集尽可能多的奖励过程中执行实验。这些奖励是无限的,通常为代表Rπ∈(−∞,+∞)为代表的政策π。每一个政策与奖励为代表Rθ(ai)和是一个随机参数化仿真显示为θ产生随机分布参数的模拟环境。
100集的执行环境,收集和奖励。一集由连续5年。收集的奖励在图演示了不同的算法4。随机选择算法在没有学习100集在图给出4(一)。随机政策学习,每次完成一集,环境开始与不同的随机随机状态和不同的政策尝试去从一个状态到另一个收集奖励。在该算法中,没有涉及到学习,执行这个实验只显示基线与其他算法进行比较。在图所示的q学习算法4 (b)。随机搜索算法相比,该算法显示改进代理通过q学习的学习机制来收集奖励的学习过程。撒尔沙算法,奖励的结果如图4 (c)。撒尔沙培训代理用于看政策以避免疟疾在模拟人类环境和展示了改进简单的q学习算法。一个更复杂的算法称为DDPG用于环境收集奖励,并显示在图结果4 (d)。该算法显示了改进相比其他三种算法和证明深度学习方法可以收集在强化学习算法更好的结果。
(一)
(b)
(c)
(d)
我们已经结合本文算法训练的结果在图5。在随机搜索过程中,没有学习,所以奖励不是最大化。但是在其他如q学习算法,撒尔沙,DDPG,有学习,因此最大化奖励。整个收集的奖励不同的算法结合在一个图(图5 (b))。收集的最大奖励DDPG因为复杂算法用于奖励的集合。这三种算法的比较如表所示1。这个比较演示了操作环境中获得的最好的政策,以避免疟疾和收集的相关奖励表现最好的策略。这个表表明DDPG已经超过传统的学习算法。
(一)
(b)
5。结论
因为人类文明的发展,人类一直在寻求从不同的角度提高生活的质量。我们正在寻找最舒适的住宿、快速和安全运输、清洁和健康的食物,舒适的衣服,和许多其他的东西。但由于环境变化和不同的人采取行动,有可能不同的病毒进入人类的身体和影响人类的生活质量。例如,疟疾、流感、艾滋病毒和登革热是一些疾病,不仅影响一个人,也会影响整个人口,病毒从一个人传播到另一个人。随着时间的推移,人类学会了不同的方法来治疗这些疾病。有医生处方药物治疗疾病,因此在控制疾病。但问题是,医生的决策需要大量的知识和经验,能够有效地治愈疾病。我们认为这是可能的,人的努力是最小化,和一些基于ai解决方案探讨。不同的基于ai解决方案也被研究人员探索,监督学习的形式,如安,资讯,支持向量机。然而,这些监督学习的问题是,在现有数据模型训练做出类似决定当一个类似的数据作为测试。 There is a huge gap to further generalize the solution. Therefore, unsupervised learning algorithms and reinforcement learning are becoming popular. In this paper, we have explored reinforcement learning-based algorithms, where an agent interacts with the environment to get feedback and improves its state of knowledge. We have experimented with three different algorithms in reinforcement learning. These algorithms are Q-Learning, SARSA, and DDPG. All these algorithms perform better than random search, as there is learning involved. Q-Learning and SARSA are based on traditional methods of reinforcement learning. However, because of the popularity of deep learning, researchers are interested in introducing deep learning in reinforcement learning. DDPG is a deep learning-based algorithm. Our experiments have demonstrated that deep learning-based algorithms are the most suitable algorithm for such type of complex environment, where human, their actions, environments, and their feedback play a very important role.
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这个项目是由院长以来科研(域),阿卜杜拉国王大学,吉达,在批准号df - 458 - 156 - 1441。因此,作者欣然承认域的技术和财政支持。