科学的规划

在这一页上

文摘介绍相关工作讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

医疗科学大数据管理和分析编程

研究文章|开放获取

体积2020年| 文章的ID7627290| https://doi.org/10.1155/2020/7627290

最优政策学习疾病预防使用强化学习

Zahid阿拉姆汗,¹ Zhengyong冯,¹ m . iran Uddin ,² 努尔桅杆,² 赛义德·阿里爱迪沙 ,^3、4 默罕默德Imtiaz,⁵ 马哈茂德•艾哈迈德Al-Khasawneh ,⁴ 和Marwan马哈茂德 ⁶

学术编辑器: Shaukat阿里

收到了 2020年2月18日

接受 2020年10月01

发表 2020年11月28日

文摘

疾病可以产生巨大的影响人类的生活质量。人类一直在寻求找到策略来避免疾病危及生命或影响人类的生活质量。有效利用可用资源对人类来控制不同的疾病一直是至关重要的。最近研究人员更感兴趣的发现基于ai的解决方案来控制人口的疾病由于深度学习的压倒性的人气。有许多监督技术一直用于疾病的诊断。然而,基于监管解决方案的主要问题是数据的可用性,这是不可能或不完整。例如,我们没有足够的数据,显示了人类的不同状态和不同国家的环境,以及所有不同的人类采取行动或病毒最终导致疾病,最终需要人类的生活。因此,有必要找到基于无监督的解决方案或一些技术不依赖于底层的数据集。在本文中,我们探讨了强化学习方法。我们已经尝试不同的强化学习算法来研究不同解决方案的模拟人类疾病的预防。 We have explored different techniques for controlling the transmission of diseases and its effects on health in the human population simulated in an environment. Our algorithms have found out policies that are best for the human population to protect themselves from the transmission and infection of malaria. The paper concludes that deep learning-based algorithms such as Deep Deterministic Policy Gradient (DDPG) have outperformed traditional algorithms such as Q-Learning or SARSA.

1。介绍

不同类型的疾病,如疟疾、流感、登革热、和艾滋病毒产生巨大影响人类的生活质量(1- - - - - -3]。如果我们只考虑疟疾,那么根据世界卫生组织的报告,大约有32亿人感染疟疾。根据他们的报告,在2016年和2017年,有217和2.19亿疟疾病例报道,近年来显示疟疾病例的增加(4]。因此,有效利用资源,控制疟疾是至关重要的。杀虫剂处理过的蚊帐预防疟疾的主要方法是(5因为有一种蚊子叫疟蚊;9点后它咬。当蚊子集在网上,它死了由于杀虫剂,这扰乱了生殖周期。除了蚊帐外,其它疟疾预防政策包括室内残留喷洒(IRS) (6],杀幼虫剂[7在身体的水,和疟疾疫苗接种(8- - - - - -11]。

机器学习算法应用于不同的领域,取得了巨大的进展12)在医疗行业尤其受到机器学习(13- - - - - -15在过去的几年里。这些机器学习算法关注疾病的诊断(16)或预测未来的结果(17),但不是探索疾病的治疗18]。这是一个非常重要的步骤来诊断疾病,被认为是治疗疾病的重要一步,和机器学习技术可以支持医疗专家治疗在某种程度上,但这是一个具有挑战性的问题找到最好的政策来治疗病人医学专家(19]。最近,流行是通过强化学习(RL) [20.在视频游戏(21- - - - - -23),好的和坏的行为是学习代理通过与环境的相互作用和环境的响应。在视频游戏的背景下,RL表现很好,但有限的进展在实际像卫生保健领域。在视频游戏如AlphaGo和星际争霸,代理起大量的环境中的行为和学习的最佳政策。然而,在卫生保健的背景下,它被认为是不道德的使用人类训练RL算法和更不用说,这一过程将是昂贵的,需要数年时间才能完成。我们不能观察到发生的一切一个人的身体。我们可以测量血压,温度,和其他一些在不同的时间间隔测量,这些测量不代表完整的病人的状态。同样,收集到的数据在卫生保健对患者可能存在一个时间和为别人可能不存在。例如,胸部x光检查,用于治疗肺炎的24)之前收集一个人感染人治愈后,但RL模型必须知道所有的估计状态病人经过。这是非常具有挑战性的卫生保健,有许多不明真相的病人在所有时间的步骤。

奖励在RL函数是最重要的一个功能,它是具有挑战性的,在许多实际应用程序找到一个好的奖励函数。在卫生保健,是更具挑战性搜索之间保持平衡短期的成功的奖励功能和整体长期的改善。例如,在脓毒症(25),改善血压在不同时间的时间可能不成功导致整体改善。同样,只有一个高回报的最后一集(即。,年代urvived or died) demonstrates that a long route is followed without different intermediary rewards [26,27]。也很难知道哪些行动导致奖励和行动导致罚款。所有主要的突破是有可能通过使用模拟数据在深RL =很多实际年28]。当数据是通过模拟器生成的,它不是一个问题,但在医疗保险的情况下,不可能产生模拟数据用于治疗不同的疾病。一般来说,数据是非常稀缺的开始培训监督学习,和存在的数据注释用于监督学习的努力。此外,医院不愿意共享数据的患者主要是因为隐私的原因。所有这些事实进一步做深RL卫生保健具有挑战性的应用。

通过自然、卫生保健数据不稳定和动态(29日]。例如,患者的症状可能存储在不同的时间间隔,也许不同的记录存储不同的病人。随着时间的推移,治疗的目标也可能改变。在文学,不同的研究30.- - - - - -32)是专注于降低总体死亡率。当一个人的条件得到改善,重点转移到一个不同的目标如病毒在人体的持续时间。同样,病毒或感染可能变化更加迅速和发展在不同的动力学(33- - - - - -35)最可能不是在训练数据用于监督或semisupervised学习算法。在医疗诊断决策本质上是连续的(36,37]。这意味着病人访问医疗中心治疗一种疾病。根据以往的经验,医生决定治疗。之后,当病人返回相同的医生,以前建议的治疗医生决定病人的当前状态,还可以帮助医生决定需要采取的下一个。现有最先进的人工智能策略应对疾病治疗(38,39),自然顺序的决策被忽略40]。这些人工智能系统的基础上做出决定病人的现状。医疗的连续特性可以有效地塑造成马尔可夫决策过程(MDP) [41- - - - - -44通过RL)和更好的解决。RL算法不仅考虑治疗的瞬时的结果也是长远利益的病人(45]。

的干预行动,以避免疟疾本文系统地探索。本文演示了一个实际的例子,强化学习,模拟人类在哪里训练学习避免疟疾的有效技术。在文献中,人工智能技术用于预测、诊断和医疗计划,但本文通过模拟一个环境采用不同的方法和使用模拟人类使用不同的强化学习技术来避免疟疾。综合干预措施是控制疟疾的传播和学习探索避免疟疾的技术。

本文的组织结构如下:相关作品部分中解释2。避免疟疾的问题和强化学习的方法第三节。实验执行,他们的研究结果进行了分析第四节。给出论文的结束语第五节。

最近的机器学习和大数据的发展动机不同领域的研究人员用这些算法问题。生物医学和卫生保健人员越来越受益于这些算法在疾病早期识别中,社区服务,和病人护理。在[46),机器学习和MapReduce算法用于有效地预测在disease-frequent社会中不同的疾病。本文展示了达到94.8%的准确率和收敛速度快于CNN(基于卷积神经网络)算法。同样,深度学习和大数据技术已经用于(47]预测传染病。作者结合深层神经网络(款)和长期短期记忆(LSTM)和评估性能和自回归综合移动平均(ARIMA)在不同疾病的预测在未来一个星期。和ARIMA相比取得了更好的效果。自动诊断疟疾使我们能够提供可靠性在卫生保健服务领域的资源是有限的。机器学习技术已经试图调查疟疾检测自动化的过程。在[48),使用CNN疟疾进行分类。同样,在49],CNN已经被用于检测疟疾分类和展示了有前途的准确性。深入强化学习(DRL)最近取得了非凡的成功,尤其是在雅达利等复杂的游戏,,国际象棋。这些成就主要是有可能的,因为强大的函数近似的帮助下款。DRL被证明是一种有效的方法在医学背景。RL的多个应用程序的上下文中被发现药。例如,RL方法已经被用于开发策略的治疗癫痫(50)和肺癌(51]。作者使用的脓毒症数据集的一个子集MIMIC-III数据集(25]。一个动作空间组成的升压和静脉流体被选中。不同数量的每种药物分为四个箱子。双深Q-Network用于评估。沙发得分用于测量器官衰竭是用于奖励函数。u曲用于评估。剂量的死亡率作为函数的政策处方和随后的政策,实际上是。

在[19DRL用于开发一个框架,预测最优策略使用医学数据处理动态的治疗方法。纸已经声称他们的RL模型更加灵活和自适应高维动作和状态空间比其他RL的基础方法。现实世界复杂性的框架模型帮助医生和病人做一个个性化的决定在治疗选择和疾病进展。的框架结合监督学习和DRL用款。数据集来自数据库的国际骨髓移植研究中心(CIBMTR)注册表。框架已经证明有前途的准确性预测人类医生的决定,同时计算一个高回报的函数。在[52),一个RL系统开发,帮助糖尿病患者参加不同的体育活动。消息发送给患者做个性化的病人,结果显示,参与者接收消息的RL算法增加了身体活动和行走速度。与递归神经网络监督RL (SRL-RNN)相结合的框架做出不同的治疗建议王等人在53]。他们MIMIC-3数据集上进行的实验结果表明,基于RL的框架可以降低估计死亡率,同时提供有前途的准确性与医生的处方。在[54),作者描述了一个新颖的技术,可以找到最优政策,可以使用RL治疗化疗患者。作者用q学习,行动的空间,一种机制是用来量化剂量对于一个给定的时期,一个代理可以选择。剂量是启动的周期与频率由一个专家。每个周期结束时,过渡状态进行比较。平均减少肿瘤直径决定奖励函数。模拟临床试验用于算法的评价。

在[55),作者采用了不同的方法,使用了RL技术鼓励健康的习惯,而不是寻找直接治疗。在[56),作者关注败血症和RL,但采取一种不同的方法,使用了RL技术来控制血糖。在[57),作者都集中在反事实的推理和域敌对的神经网络。这是一个复杂的问题解决不确定情况下的决策问题。卫生保健从业者面临的问题挑战的约束下,有限的数据驱动的决策工具。在[58],作者已经解决了的问题找到一个最佳的疟疾政策作为一个随机multiarmed土匪问题,开发了三个以代理人为基础的策略探索的空间政策。高斯过程回归应用于每个代理的发现,压缩和随机模拟的结果疟疾的传播在固定人口。生成的政策模拟与人类直接引用该领域的专家。在[59),作者已经暴露的微妙与评估RL算法在卫生保健。重点是观测的设定,RL算法提出了治疗政策和评估基于历史数据。在一项调查60]讨论了强化学习的不同的应用程序在卫生保健。本文提供了一个系统的理论基础的理解,方法和技术,挑战,和新见解新兴方向。上下文意识层次RL计划(61年)已经被证明可以显著改善症状检查比传统系统的精度,同时减少调查的数量。另一项研究中,引入了RL的基本概念和如何有效地用于卫生保健RL在(62年]。

政策使用强化学习算法用于疟疾控制的解释(63年,64年]。作者应用遗传算法(65年),贝叶斯优化(66年),q学习序列打破搜索最优政策几年。他们的实验证明q学习算法的最佳性能。基于代理模型的系统回顾了疟疾传播的(67年]。本文涵盖了一系列广泛的主题涵盖了疟疾的传播频谱和干预。机器学习算法对不同疾病的预测研究(68年]。作者使用决策树和MapReduce算法和声称达到94.8%的准确率。机器学习算法被用来自动诊断疟疾(69年]。深卷积神经网络用于分类。作者在70年]讨论了安全应用人工智能相关的领域深入强化学习应用于自动移动机器人的控制。调查与疟疾感染相关的风险识别瓶颈在不同的消灭疟疾技术讨论(71年]。其他相关研究可以发现在72年- - - - - -74年]。

3所示。方法

强化学习(RL) [75年]是一种机器学习方法监督和非监督学习下降,代理通过与环境的交互学习的地方。代理执行某些操作和接收来自环境的反馈。这个反馈是消极或积极的形式奖励和决定的顺序好或坏行为在特定情况下适用。因此,代理可以有效地执行其操作没有任何人类的干预。换句话说,RL是一种学习方法,一个代理学习一系列的行动,最终增加报酬函数。代理决定哪些行动是最合适的,收益率最高奖励。可能一个动作可能不会给一个积极的直接的奖励,但长期奖励也被认为是。在现实生活中,我们有两个组件,也就是说,代理和环境如图1。代理代表RL算法的类型,和环境代表了什么行动回报奖励。建立了环境通过发送一个状态的时间t作为年代_t∈年代,在那里年代是集的表示可能状态的代理。代理时所采取的行动t是由一个_t∈一个(年代_t),一个(年代_t)是一组的表示可能采取行动的状态年代_t。收到的奖励是通过执行行动表示为R_{t+ 1}∈R,在那里R的奖励。一个时间步后,下一个状态年代_{t+ 1}将被发送到代理的环境还有奖励R_{t+ 1}。这个奖励将最终帮助代理增加其知识用于评估其最后的动作。发送和接收的过程奖励作为结果由代理将继续,直到环境向代理发送过去或终端状态。

除了代理和环境中,有四个组件在RL环境:(i)政策,(ii)奖励,(iii)值函数,(iv)环境的模型。(1)政策。策略定义了一个代理的行为/反应时间的在一个特定的实例。有时,一个策略可以被描述为一个简单的函数或一个查找表,一个策略可能涉及大量的计算,例如,搜索过程。这项政策被认为是RL代理的核心部分,因为它可以描述的反应剂。这项政策可能会随机,以确定每一个行动的可能性。为代表的政策π_t,在那里π_t(一个|年代)的概率一个_t=一个如果年代_t=年代(2)奖励。奖励的信号表明RL的目标问题。由于代理人的行动,环境返回一个数字,称为一个奖励,在每一个时间步。代理的目的是让大部分的总回报。因此,奖励信号识别是好还是坏。奖励信号决定要采取行动。如果一个动作返回一个低回报,那么政策将改变来选择另一个操作在一个类似的情况。所以一般来说,奖励信号是随机函数的状态和行动。(3)值函数。奖励的信号识别是什么擅长当前时间,当一个值函数描述了从长远来看是有利的。在几乎所有的RL算法,被认为是最重要的组件是有效估计的值的方法。更准确地说,早期的状态调整的当前值更接近的值后的状态。这可以通过移动之前状态的价值向一小部分的值后的状态。让年代表示移动前的状态年代是代理环境变动后的状态;然后,更新的估计价值年代,表示 ,可以写成方程所示(1),α′小幅正分数被称为步长参数,影响学习的速度。被称为目标和时间差异是无偏估计。在方程(1),r代表奖励和γ代表了贴现因子。这个更新规则是时间不同学习方法的一个例子,这么叫是因为它的变化是基于不同, ,也就是说,估计在两个不同时期的区别: (4)模型。一个模型可以推断行为的环境。假设一个国家和行动;然后,可能模型决定了合成下一个状态和奖励。使用模型和规划的方法来解决RL问题被称为基于模型的方法。那些明确trail-and-error学习者被称为模范自由的技术方法。

让我们假设有有限的状态和奖励。让我们考虑一个可能的环境响应时间t+ 1的行动时间t。这实际上反应取决于之前发生的一切。完整的概率分布的动态系统可以定义方程(2),为所有r、年代和所有可能的值所表示的动作在过去的动作,状态,和奖励,也就是说,年代_t,一个_t,R_t。然而,由于马尔可夫链的属性,我们可以代表环境的反应t+ 1只取决于状态和行动时间t。环境的动力学方程可以被定义为给定的(3),为所有r,年代′,年代_t,一个_t。它意味着一个国家或一个环境有一个马尔可夫链的财产当且仅当方程(2)和(3)是相等的。RL的马尔可夫链的性质是非常重要的,因为决策和值是当前状态的函数。这些决策和值可以有效和携带更多的信息时,状态表示有足够的信息:

RL的任务满足马尔可夫链的属性的名称的马尔可夫决策过程(MDP)。鉴于状态年代和行动 ,下一个状态的概率的计算s′随着奖励r是表示在方程(4)。回报的期望值政府行动对计算给出了方程(5)。预期回报state-action-next-state给出方程(6):

价值函数,这是一个国家或政府行动对的函数,是用来估计一个代理的性能在一个给定的状态。这种性能计算的未来回报收集。用状态值V_π(年代给定一个政策π和国家和计算方程所示(7),E_π(。)表示变量的期望当一个代理遵循政策π在时间步t。同样,一个国家的行动价值年代后的政策π由问_π(年代)在方程(8),问_π行为价值的函数吗π政策是:

RL问题是通过寻找解决策略,帮助代理收集执行模拟最大可能的回报。一个给定的政策π被视为一个更好的政策或等于另一个政策π′,它的期望π大于或等于的期望π′状态。换句话说,π≥π′当且仅当≥∀年代∈年代。最优政策的政策被认为是好的或等于所有可能的政策。由最优政策π^∗。共享同一个州值函数最优政策V^∗和定义为V^∗(年代)= maxV_π(年代)∀∈年代。他们也分享相同的最优行为价值函数,由问^∗定义为问^∗(年代,)= max问_π(年代,)∀∈年代和一个∈(年代)。

基于模型的RL意味着给定的动态的仿真环境。该模型学习从当前状态的概率年代₀,采取行动下一个状态和结束年代₁。鉴于转移概率的学习,代理可以确定概率进入状态在当前状态和行动。然而,基于模型的算法是不实际的,因为状态空间和动作空间成长。另一方面,模范自由算法依靠试错来更新其知识。因此,空间不需要存储所有的状态和行为。在本文中,我们使用的是模范自由算法。RL分类算法都是基于对政策和off-policy。当价值是基于当前的行动一个来自当前的政策,它被称为在政策。当一个动作一个^∗获得从一个不同的政策,那么它被称为off-policy。

3.1。q学习的

一个著名的算法在RL q学习由沃特金斯(76年]。其收敛性的证明是由Jaakkola [77年]。q学习的是一个简单的技术,它可以计算最优行动价值没有中介的参与评估的成本和使用模式78年]。这个算法是模范自由和被认为是off-policy算法,这是来自贝尔曼方程见方程(9),期望是由E和贴现因子是由λ表示。这个更新方程算法所示110号线。学习速率是由α表示。下一个状态的问值确定下一步行动而不是使用当前的政策。算法的总体目标是最大化核反应能量:

	输入:
	状态:年代= 1,…,n
	行动:一个= 1,…,n
	奖励:R:年代×一个⟶R转换:T:年代×一个⟶年代
	α∈[0,1]γ∈[0,1]
	随机初始化问(年代,一个)∀年代∈年代,一个∈一个(年代)
	而每一集做
	初始化年代∈年代
	选择一个从年代的基础上探索策略(如。ε贪婪)
	而每一步的插曲
	/ /重复直到年代是终端
	计算π的基础上问和策略的探索(如。π(年代)= argmax_一个问(年代,一个))
	一个⟵π(年代)
	r⟵R(年代,一个)
	年代⟵T(年代,一个)
	问(年代^′,一个−)⟵(1α)。问(年代,一个)+α(r+问(年代^′,一个^′)]
	年代⟵年代

3.2。撒尔沙

一个类似的q学习算法是撒尔沙(79年,80年]。在q学习的情况下,贪婪的政策,但在撒尔沙在政策之后。撒尔沙学习核反应能量通过使用当前政策执行操作。算法2撒尔沙的显示算法。当前政策是用来进行选择的行为。

	输入:
	状态:年代= 1,…,n
	行动:一个= 1,…,n
	奖励:R:年代×一个⟶R
	转换:T:年代×一个⟶年代
	α∈[0,1]γ∈[0,1]
	λ∈[0,1]这展示了时间差异之间的权衡和蒙特卡罗方法。
	随机初始化问(年代,一个)∀年代∈年代,一个∈一个(年代)
	而每一集做
	随机初始化年代∈年代
	初始化e为0
	随机选择(年代,一个)∈年代×一个
	虽然每一步的插曲
	/ /重复直到年代是终端
	r⟵R(年代,一个)
	s′⟵T(年代,一个)
	计算π基于问(如使用勘探战略。ε贪婪)
	一个′⟵π(年代′)
	e(年代,一个)⟵e(年代,一个)+ 1
	δ⟵r+γ。问(年代′,一个′)−问(年代,一个)
	为(年代′,一个′)∈年代×一个做
	问(年代′,一个′)⟵问(s′一个′)+α。δ。e(年代′,一个′)
	e(s′一个′⟵γ。λ。e(s′一个′))
	年代⟵s′
	一个⟵一个′

3.3。深决定性策略梯度

actor-critic架构称为深决定性策略梯度(DDPG) [81年,82年]。的参数x调政策由演员在方程(10)。计算的错误,使用时间差异政策行动被评论家评价是在方程(11)。政策决定所表现出的演员。经验的想法回放和独立的目标网络,利用深问网络(DQN) [83年)是由DDPG使用。算法3显示了DDPG的算法。

(1)	随机初始化网络评论家与重量
(2)	随机初始化的演员与重量
(3)	初始化目标网络与重量
(4)	初始化目标网络与重量
(5)	初始化重播缓冲
(6)	而对每一集做
(7)	随机初始化为探索
(8)	得到初始观察状态
(9)	而每一步的情节做
	/ /重复直到年代是终端
(10)	部分行动按照现行政策和勘探策略
(11)	执行动作和监控奖励和新状态
(12)	商店在
(13)	一个随机选择的样本minibatch过渡从
(14)
(15)
	/ /更新规则评论家把损失减小到最低限度
(16)
	/ /更新规则演员策略使用采样策略梯度
(17)
	/ /更新规则对目标网络
(18)

4所示。仿真和讨论

在本节中,我们提出算法中解释的结果第三节获得在一个模拟的人口,看看哪算法表现更好的防止人类疾病。评价,我们需要一个环境,我们有不同的州,行动,和代理(人口的代表)寻找最好的策略来避免疾病,如疟疾、流感和艾滋病。在本节中,结果显示疟疾回避,但类似的环境有足够的信息可以用于避免其他类型的疾病,如流感、艾滋病毒和登革热。一个人类的环境、蚊子和其他因素影响的传播疟疾病毒传播到人类图所示2。左边的框包含因素有关人类和右边的框包含与蚊子有关的因素。不同的因素可以影响疾病在箭头所示连接人类与蚊子的盒子。环境因素和干预措施是显示在顶部和底部的箱子对人类和蚊子。

IBM非洲研究团队已经采取措施控制疟疾通过开发一个世界级的环境中分发蚊帐和驱虫剂。他们的目标是开发一个定制代理,将有助于确定最好的奖励政策基于仿真环境。我们的工作利用强化学习的环境由IBM开发的非洲研究竞争hexagon-ml (https://compete.hexagon-ml.com/practice/rl_competition/38/),一个代理学习最好的政策控制的疾病,也就是说,疟疾。环境提供了疟疾和不同研究人员随机传输模型可以评估不同的疟疾控制干预措施的影响。在环境中,代理人可能探索最优的政策来控制疟疾的传播病毒。图代表环境由Hexagon-ML寻找最好的策略避免疟疾是在图3。环境包含了五年。每年都是一个状态。在每一个州,我们采取不同的行动ITN的形式和国税局。

州被表示为年代∈{1,2,3,4,5},其中每个数显示的数量。我们正在努力解决的问题一次性政策建议的模拟干预期5年。不同地区的主要控制方法是长效蚊帐的质量分布,与拟除虫菊酯国税局,疟疾的迅速和有效的治疗。行动,由一个(年代的形式),执行ITN国税局,ITN的值和国税局无限实数在0和1之间。

代理培训强化学习算法将探索一个政策空间由前两个组件,也就是说,蚊帐和国税局,直接干预策略。及时和有效的治疗是由环境参数和影响的回报。第一个组件。ITN,是网的发展,定义人口覆盖率(一个_{英国独立电视台}∈(0,1)。第二个组件是使用季节性喷涂,它定义了这个干预(人口覆盖率的比例一个_国税局∈(0,1)。季节性喷涂通过交替执行干预每年4月和6月之间在不同的地区。政策决定是框架的方式模拟人口由一个特定的干预;政策的空间设计一个_我∈一个= (一个_{英国独立电视台},一个_国税局]。

医疗机构应该能够探索所有可能的行为适当人群疟疾干预措施。这些政策包括一个混合的动作,就像蚊帐的分布,国税局,杀幼虫剂在水里,并为控制疟疾疫苗接种。可能的政策空间的控制疟疾是不完整的和低效的医疗专家探讨没有足够的决策支持系统。环境模拟处理的分布模拟人群的干预措施。代理负责的复杂操作的、有针对性的干预措施,这是以前没有报告。尽管行为空间是有限的(即。,finite number of people in the simulation environment) the space size grows exponentially as more interventions are added. The computation time of simulation will also grow linearly with the number of populations. Therefore, a complex exploration of the entire action space becomes impossible as complexity goes to a real-world equivalent simulation.

代理在学习过程中学习不同的奖励。学习的想法是收集尽可能多的奖励过程中执行实验。这些奖励是无限的,通常为代表R_π∈(−∞,+∞)为代表的政策π。每一个政策与奖励为代表R_θ(ai)和是一个随机参数化仿真显示为θ产生随机分布参数的模拟环境。

100集的执行环境,收集和奖励。一集由连续5年。收集的奖励在图演示了不同的算法4。随机选择算法在没有学习100集在图给出4(一)。随机政策学习,每次完成一集,环境开始与不同的随机随机状态和不同的政策尝试去从一个状态到另一个收集奖励。在该算法中,没有涉及到学习,执行这个实验只显示基线与其他算法进行比较。在图所示的q学习算法4 (b)。随机搜索算法相比,该算法显示改进代理通过q学习的学习机制来收集奖励的学习过程。撒尔沙算法,奖励的结果如图4 (c)。撒尔沙培训代理用于看政策以避免疟疾在模拟人类环境和展示了改进简单的q学习算法。一个更复杂的算法称为DDPG用于环境收集奖励,并显示在图结果4 (d)。该算法显示了改进相比其他三种算法和证明深度学习方法可以收集在强化学习算法更好的结果。

(一)

(b)

(c)

(d)

我们已经结合本文算法训练的结果在图5。在随机搜索过程中,没有学习,所以奖励不是最大化。但是在其他如q学习算法,撒尔沙,DDPG,有学习,因此最大化奖励。整个收集的奖励不同的算法结合在一个图(图5 (b))。收集的最大奖励DDPG因为复杂算法用于奖励的集合。这三种算法的比较如表所示1。这个比较演示了操作环境中获得的最好的政策,以避免疟疾和收集的相关奖励表现最好的策略。这个表表明DDPG已经超过传统的学习算法。

(一)

(b)

5。结论

因为人类文明的发展,人类一直在寻求从不同的角度提高生活的质量。我们正在寻找最舒适的住宿、快速和安全运输、清洁和健康的食物,舒适的衣服,和许多其他的东西。但由于环境变化和不同的人采取行动,有可能不同的病毒进入人类的身体和影响人类的生活质量。例如,疟疾、流感、艾滋病毒和登革热是一些疾病,不仅影响一个人,也会影响整个人口,病毒从一个人传播到另一个人。随着时间的推移,人类学会了不同的方法来治疗这些疾病。有医生处方药物治疗疾病,因此在控制疾病。但问题是,医生的决策需要大量的知识和经验,能够有效地治愈疾病。我们认为这是可能的,人的努力是最小化,和一些基于ai解决方案探讨。不同的基于ai解决方案也被研究人员探索,监督学习的形式,如安,资讯,支持向量机。然而,这些监督学习的问题是,在现有数据模型训练做出类似决定当一个类似的数据作为测试。 There is a huge gap to further generalize the solution. Therefore, unsupervised learning algorithms and reinforcement learning are becoming popular. In this paper, we have explored reinforcement learning-based algorithms, where an agent interacts with the environment to get feedback and improves its state of knowledge. We have experimented with three different algorithms in reinforcement learning. These algorithms are Q-Learning, SARSA, and DDPG. All these algorithms perform better than random search, as there is learning involved. Q-Learning and SARSA are based on traditional methods of reinforcement learning. However, because of the popularity of deep learning, researchers are interested in introducing deep learning in reinforcement learning. DDPG is a deep learning-based algorithm. Our experiments have demonstrated that deep learning-based algorithms are the most suitable algorithm for such type of complex environment, where human, their actions, environments, and their feedback play a very important role.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这个项目是由院长以来科研(域),阿卜杜拉国王大学,吉达,在批准号df - 458 - 156 - 1441。因此,作者欣然承认域的技术和财政支持。

引用

答:保龄球,”疾病对生活质量的影响:一项调查的发现的家庭在英国,”流行病学和社区卫生杂志》上,50卷,第155 - 149页,1996年。
视图: 谷歌学术搜索
c·l·林和i . j .兰黛,慢性病对健康相关的生活质量的影响(HRQOL)的中国患者在初级保健,“家庭医疗,17卷,第166 - 159页,2000年。
视图: 谷歌学术搜索
r . Somrongthong d . Hongthong s Wongchalee, n . Wongtongkam“慢性疾病和生活行为的影响生活质量在年长的泰国人,”生物医学研究的国际卷,2016年,页1 - 7,2016。
视图: 出版商的网站 | 谷歌学术搜索
b·托特“创新方法利用寄主植物代谢物在疟疾控制,”害虫管理科学,卷75,不。9日,第2345 - 2341页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
f . Binka和p . Akweongo使用药浸蚊帐预防疟疾:潜力实现年发展目标,“当前分子医学》第六卷,第267 - 261页,2006年。
视图: 谷歌学术搜索
比比Tukei、a . Beke和h . Lamadrid-Figueroa”评估室内残留喷洒的效果(IRS)对疟疾发病率在乌干达北部:之前和之后的一项研究中,“《疟疾杂志》上,16卷,不。1,2017。
视图: 出版商的网站 | 谷歌学术搜索
y . a . Derua e . j . Kweka w . n . Kisinza a . k . Githeko和f·w·Mosha”细菌杀幼虫剂用于疟疾病媒控制在撒哈拉以南非洲地区:回顾它们的有效性和操作可行性,”寄生虫和向量,12卷,不。1,2019。
视图: 出版商的网站 | 谷歌学术搜索
t . l . i疾病,疟疾疫苗接种:一个重要的里程碑,”《柳叶刀传染病,19卷,p。559年,2019年。
视图: 谷歌学术搜索
s . j . Draper b . k .麻袋,c . r . et al .,王“疟疾疫苗:最新进展和新视野,”细胞宿主和微生物,24卷,43-56,2018页。
视图: 谷歌学术搜索
贝格m .法蒂玛,a, i Uddin,“可靠和节能MAC病人在医院监控机制,“国际期刊《先进的计算机科学和应用程序,9卷,不。10日,2018年。
视图: 出版商的网站 | 谷歌学术搜索
贝格Uddin, A, A .阿里”的受控环境模型处理智能手机上瘾,”国际期刊《先进的计算机科学和应用程序,9卷,不。9日,2018年。
视图: 出版商的网站 | 谷歌学术搜索
j·施密特,m . r . g .品牌美国实现和m·a·l·品牌”的最新进展和应用机器学习在固态材料科学,”NPJ计算材料,5卷,不。1,2019。
视图: 出版商的网站 | 谷歌学术搜索
刘贤Ngiam i w·豪尔,“大数据和机器学习算法对卫生保健交付,”柳叶刀肿瘤学,20卷,不。5 p . e262 2019。
视图: 出版商的网站 | 谷歌学术搜索
大肠Loh,”医学和机器人的兴起:定性评估健康的人工智能的最新进展”BMJ领袖,卷2,不。2,59 - 63年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
f .江,江y, h .智et al .,“人工智能医疗:过去、现在和未来,“中风和血管性神经学,卷2,不。4、230 - 243年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
o·弗伦泽、d . Inkpen和t . Tran”“机器学习方法对于识别疾病治疗关系简而言之文本,“IEEE工程知识和数据,23卷,第814 - 801页,2011年。
视图: 谷歌学术搜索
刘x l .西班牙A美国甘蓝et al .,“比较深度学习表现和卫生保健专业人员从医学成像检测疾病:系统回顾和荟萃分析,“《柳叶刀》杂志上的数字医疗,1卷,不。6,pp. e271-e297, 2019年。
视图: 出版商的网站 | 谷歌学术搜索
s .赛义德·m·Al-Boni m . n .汗et al .,“机器学习的评估检测环境肠病和腹腔疾病的孩子,”《美国医学会杂志》网络开放,卷2,不。6篇文章ID e195822 2019。
视图: 出版商的网站 | 谷歌学术搜索
y, b·洛根:刘,z, j . Tang和y王”“深强化学习动态治疗政权医疗注册表数据,”学报2017年IEEE国际会议上医疗信息学(阿)美国犹他,城市公园,2017年8月。
视图: 谷歌学术搜索
诉法郎̧ois-Lavet p·亨德森,r .伊斯兰教,m·g . Bellemare和j . Pineau介绍深Reinforce-Ment学习,2018,http://arxiv.org/abs//1811.12560。
y郑,强化学习和视频游戏,硕士论文,谢菲尔德大学,谢菲尔德,英国,2019年。
Szita,强化学习在游戏中在m .水坝,m . van Otterlo (eds)强化学习、适应、学习、和优化,12卷,施普林格,柏林,德国,2012年,https://doi.org/10.1007/978 - 3 - 642 - 27645 - 3 - _17。
r·r·Torrado p . Bontrager j . Togelius j . Liu和d . Perez-Liebana“深度一般游戏AI,强化学习”第14届IEEE会议程序计算智能和游戏,2018年是到岸价2018年8月,荷兰马斯特里赫特。
视图: 谷歌学术搜索
b . a . Kwambana-Adams e . k .穆赫兰e . k .穆赫兰和c . Satzke“最先进的肺炎球菌领域:学报第11届国际研讨会肺炎双球菌和肺炎球菌疾病(ISPPD-11)”肺炎,12卷,不。1,2020。
视图: 出版商的网站 | 谷歌学术搜索
a·拉·m·科莫罗夫斯基,s·辛格,“基于模型的强化学习对脓毒症治疗,”2018年,http://arxiv.org/abs//1811.09602。
视图: 谷歌学术搜索
c·p·詹森和w·d·格雷,“什么,多少奖励基于强化学习模型的认知,“认知科学,36卷,不。2、333 - 358年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
即Uddin,“高级模拟微线程并发操作的许多核心架构,”GSTF杂志上计算,4卷,不。3,21页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
k .容易引起m . p . Deisenroth m . Brundage和a . a . Bharath深强化学习:一个简单的调查,“IEEE信号处理杂志,34卷,不。6,26-38,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m . Hengge和伦纳德,因素模型对非平稳系列:美国月度GDP的估算IHEID工作文件13 - 2017,经济学部分,研究生国际问题研究所,2017年。
h·伯内特,a . Earley a . a . Voors et al .,“三十年的证据在药物治疗慢性心力衰竭的疗效与射血分数下降,”循环:心力衰竭,10卷,2017年。
视图: 谷歌学术搜索
r . p .战马和k . s . chan在心力衰竭药物治疗”,BMJ,卷316,不。7131年,第568 - 567页,1998年2月。
视图: 出版商的网站 | 谷歌学术搜索
即Uddin,“One-IPC高级模拟微线程许多核心架构,”国际期刊的高性能计算应用程序没有,卷。31日。2、152 - 162年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
s·d·w·弗罗斯特,b . r . Magalis, s . l . Kosakovsky池塘,“中性理论和快速发展的病毒病原体,”分子生物学与进化,35卷,不。6,1348 - 1354年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
r·g·韦伯斯特和e·a·Govorkova流感持续挑战。”纽约科学院上,卷1323,不。1,第139 - 115页,2014。
视图: 出版商的网站 | 谷歌学术搜索
达菲,“为什么RNA病毒变异率这么高?”公共科学图书馆生物学,16卷,不。8篇文章ID e3000003 2018。
视图: 出版商的网站 | 谷歌学术搜索
d . j . Hockstra和s·d·米勒“顺序游戏和医疗诊断,”计算机和生物医学研究,9卷,不。3、205 - 215年,1976页。
视图: 出版商的网站 | 谷歌学术搜索
d·豪斯曼c . Zulian大肠医学会,l . Zimmerli”追踪医生的决策过程和决策过程的矩阵,”BMC医学信息学和决策,16卷,不。1,2016。
视图: 出版商的网站 | 谷歌学术搜索
m . Uddin y . Wang和m . Woodbury-Smith”人工智能精密医学在神经发育障碍,”NPJ数字医学,卷2,不。1,2019。
视图: 出版商的网站 | 谷歌学术搜索
a . s . Ahuja”人工智能在医学上的影响对未来医生的角色,”PeerJ文章ID e7702卷。7日,2019年。
视图: 出版商的网站 | 谷歌学术搜索
d . Zois“序贯决策医疗物联网:实时健康监测、治疗和interven——,”《2016年IEEE第三世界物联网论坛(WF-IoT)页24-29莱斯顿,弗吉尼亚州,美国,2016年12月。
视图: 谷歌学术搜索
o . Alagoz h .许,a . Schaefer和m·罗伯茨”“马尔可夫决策过程:序贯决策的工具mak - - -荷兰国际集团(ing)在不确定性下,“医疗决策,”一个国际期刊的社会医疗决策,30卷,第483 - 474页,2010年。
视图: 谷歌学术搜索
c·c·班尼特和k·豪泽”,人工智能模拟临床决策框架:一个马尔可夫决策过程的方法,”人工智能在医学上卷,57号1,9-19,2013页。
视图: 出版商的网站 | 谷歌学术搜索
s . a . a .沙Uddin, f·阿齐兹,艾哈迈德,m . a . Al-Khasawneh和m·拉夫”一个增强深层神经网络预测工作场所旷工,”复杂性卷,2020篇文章ID 5843932, 12页,2020。
视图: 出版商的网站 | 谷歌学术搜索
麻省理工学院Uddin, n .扎f·阿齐兹et al .,“使用深层神经网络预测未来的恐怖活动,“复杂性卷,2020篇文章ID 1373087, 16页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
美国Parisi D . Tateo m . Hensel c D 'Eramo, j .彼得斯和j . Pajarinen”长期探访价值深入探索在稀疏奖励强化学习,”2020年,http://arxiv.org/abs//2001.00119。
视图: 谷歌学术搜索
m·陈,y, Hwang k, l . Wang和l .王”疾病预测通过机器学习从医疗社区,大数据”IEEE访问5卷,第8879 - 8869页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
Chae s, s . Kwon d·李,“预测传染病使用深度学习和大数据,”国际环境研究和公共卫生杂志》上,15卷,不。8,1596年,页2018。
视图: 出版商的网站 | 谷歌学术搜索
江董y, z,沈h和w·d·潘”分类精度的疟疾感染细胞使用深卷积神经网络基于解压图像”美国东南部2017年会议美国NC,页1 - 6,夏洛特,2017。
视图: 谷歌学术搜索
拉,s . k . Antani m . Poostchi et al .,“Pre-trained卷积神经网络作为特征提取器对改善疟疾寄生虫检测薄血涂片图像,”PeerJ》第六卷,文章ID e4568, 2018。
视图: 出版商的网站 | 谷歌学术搜索
j . Pineau a . Guez r·文森特·g . Panuccio和m . Avoli”通过自适应神经刺激治疗癫痫:强化学习方法,“国际期刊的神经系统,19卷,不。4、227 - 240年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
y赵,曾庆红d, m·a . Socinski和m . r . Kosorok”强化学习策略在nonsmall细胞肺癌临床试验,”生物识别技术卷,67年,第1433 - 1422页,2011年。
视图: 谷歌学术搜索
e . Yom-Tov g . Feraru m . Kozdoba s Mannor m . Tennenholtz和业务,“鼓励糖尿病患者的体力活动:干预使用强化学习系统,”医学网络研究杂志》上,19卷,不。10 p . e338 2017。
视图: 出版商的网站 | 谷歌学术搜索
w . l . Wang, x,他和h .咋”监督强化学习和动态递归神经网络处理建议,”《24日ACM SIGKDD国际会议上知识发现与数据挖掘、知识发现(KDD) 18,页2447 - 2456,纽约,纽约,美国,2018年。
视图: 谷歌学术搜索
g . Yauney和p .沙”,分类精度的疟疾感染细胞使用深卷积神经网络基于解压imagesreinforcement学习action-derived奖励化疗药物剂量和临床试验选择,”机器学习程序第三医疗会议,页161 - 226,帕洛阿尔托,加州,美国,2018年8月。
视图: 谷歌学术搜索
业务,g . Feraru m . Kozdoba s Mannor m . Tennenholtz和e . Yom-Tov”强化学习系统,鼓励体育活动在糖尿病患者中,“2016年,http://arxiv.org/abs//1605.04070。
视图: 谷歌学术搜索
W.-H。翁,m高,z,燕,p .医学信息学,表示和强化学习Person-Alized脓毒血症患者的血糖控制,2017年。
o .每股,w . r . Zame和m . van der夏尔“学习最优政策的观测数据,”2018年,http://arxiv.org/abs//1802.08679。
视图: 谷歌学术搜索
o .弯曲,美国雷米,s·罗伯茨和a . Walcott-Bryant小说勘探技术(网)疟疾政策干预,2017,https://arxiv.org/abs/1712.00428。
o·戈特斯曼,f·约翰逊,j·迈耶et al .,评估健康状况观察设置强化学习算法,2018,https://arxiv.org/abs/1805.12298。
c . Yu, j·刘,s . Nemati强化学习医疗:一项调查,2019,https://arxiv.org/abs/1908.08796。
H.-C。花王,K.-F。唐,e . y . Chang“环境敏感症状疾病诊断检查使用分层强化学习,”三十二AAAI学报》关于人工智能的会议美国新奥尔良,LO, 2018年2月。
视图: 谷歌学术搜索
琼森,“深度强化学习在医学上,“肾脏疾病5卷,在18到22岁,2018页。
视图: 谷歌学术搜索
v . b .阮b·m·卡里姆b . l . Vu j . Schlö水獭,和m . Granitzer政策学习控制疟疾,2019,https://arxiv.org/abs/1910.08926。
m·陈,y, Hwang k, l . Wang和l .王”疾病预测通过机器学习从医疗社区,大数据”IEEE访问5卷,第8879 - 8869页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
k . f .男人,k . s . Tang和邝,“遗传算法:概念和应用程序在工程设计中,“IEEE工业电子产品,43卷,不。5日,第534 - 519页,1996年10月。
视图: 出版商的网站 | 谷歌学术搜索
j .杖鱼h . Larochelle, r·p·亚当斯“实用机器学习贝叶斯优化算法,”学报》第25届国际会议上神经信息处理系统,页2951 - 2959,纽约,纽约,美国,2012年。
视图: 谷歌学术搜索
n . r .史密斯,j . m .说,m . Gambhir et al .,“疟疾传播的基于代理模型:系统回顾,“《疟疾杂志》上,17卷,2018年。
视图: 出版商的网站 | 谷歌学术搜索
s . Vinitha s Sweetlin h . m . Vinusha和s . Sajini”疾病预测使用机器学习/大数据,”SSRN电子杂志, 2018年。
视图: 出版商的网站 | 谷歌学术搜索
江董y, z,沈h和w·d·潘”分类精度的疟疾感染细胞使用深卷积神经网络基于解压图像”诉讼o SoutheastCon 2017美国NC,页1 - 6,夏洛特,2017。
视图: 出版商的网站 | 谷歌学术搜索
t .和心y山田,“深强化学习应用于秋天的风险预防协助自主移动机器人在医院里,“大数据和认知计算,卷2,不。2,p。13日,2018年6月。
视图: 出版商的网站 | 谷歌学术搜索
g . Tiburce s Laurentine h . n . Ngum i c . Etso和c N.-D。Hugues”调查与持久性相关的风险因素的疟疾obang山谷,西北地区,喀麦隆、”公共卫生和流行病学杂志》上,10卷,不。10日,380 - 386年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
戈尔。刘和F.-P。一个”,图像分类算法基于深learning-kernel功能”,科学的规划文章ID 7607612卷,2020年,页1 - 14,2020。
视图: 出版商的网站 | 谷歌学术搜索
e·托提m .藓类f . Guareschi f . Leporati和m . Piastra“深复发性神经网络边缘监测个人风险和预警的情况下,“科学的规划文章ID 9135196卷,2019年,页1 - 10,2019。
视图: 出版商的网站 | 谷歌学术搜索
b·拉姆赞•i s Bajwa:贾米尔et al .,”一个智能推荐系统的数据分析使用机器学习,”科学的规划卷,2019篇文章ID 5941096, 1, 2019页。
视图: 出版商的网站 | 谷歌学术搜索
r·s·萨顿和a·g·Barto强化学习:介绍布拉德福德的书,剑桥,妈,美国,2018年。
c·沃特金斯从延迟奖励学习剑桥,剑桥大学博士论文,1989年。
t . Jaakkola麻省理工学院约旦和s·辛格“收敛的随机迭代动态规划算法——rithms”学报第六届国际会议上神经信息处理系统(少量的93)旧金山,页703 - 710年,CA,美国,1993年。
视图: 谷歌学术搜索
c·h·c·里贝罗强化学习技术的教程这种翡大学安阿伯市,美国,1999年。
k·d·赵h . Wang邵,y朱,“深强化学习与经验基于撒尔沙回放,”计算情报学报2016年IEEE研讨会系列(1)2016年,页1 - 6,雅典,希腊。
视图: 出版商的网站 | 谷歌学术搜索
Z.-x。徐,曹l, c .西凉兵马,C.-x。李,杨绍明。关铭张,j .赖“深度强化学习撒尔沙和q学习:一个混合的方法,”IEICE交易信息和系统E101卷,第2322 - 2315页,2018年。
视图: 谷歌学术搜索
g .杨f·张,c .锣,s .张”应用程序的决定性策略梯度算法energy-aimed时间表延期问题,“能量,12卷,不。18,3461年,页2019。
视图: 出版商的网站 | 谷歌学术搜索
陈c .秋胡y, y, b .曾“深决定性策略梯度(DDPG)的能量收集无线通讯,”IEEE物联网》第六卷,没有。5,8577 - 8588年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
谢y . j .粉丝,z . Wang, z,“深q学习的理论分析,”2020年,http://arxiv.org/abs//1901.00137。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2061年

下载

1100年

引用