强化学习在Neurocritical和神经外科护理:原理和可能的应用

文摘

动态决策至关重要手术病人的临床护理。强化学习(RL)算法计算方法找到序列在多个次优选择最优决策。本文旨在介绍RL的基本概念,包括三个基本组成部分:国家、行动和奖励。大多数医学研究使用强化学习方法训练在一个固定的观测数据集。本文还回顾了现有实际应用的文献利用强化学习方法,它可以进一步分为统计计算RL RL研究研究。审查提出了几个潜在方面强化学习可以应用在neurocritical和神经外科护理。这些包括序贯治疗策略的颅内肿瘤和创伤性脑损伤,术中内镜运动控制。强化学习的一些局限性是表征的基本组件,积极性违反,验证方法。

1。介绍

动态决策至关重要手术病人的临床护理。通常很难确定治疗剂量精确或决定是否启动或停止治疗在特定的情况下(例如,液体治疗患者的电解质紊乱或术后抗凝)。医生经常多次顺序决定根据他们的医疗经验。未满足临床需要属于我们是否可以开发一个顺序的临床决策支持系统(动态治疗方案(DTR)),以更好地帮助医生,这样它可以改善患者的结果。DTR包含一系列的决策规则,每个阶段的干预,一个建议如何个性化治疗病人基于进化和协变量的历史。例如,在创伤性脑损伤患者的情况下(创伤性脑损伤)和颅内高血压(图1(一)),我们应该运用集中钠吗?病人应该放在机械通气后吗?病人应该镇静缓解气道阻力吗?如何治疗病人,所以他们尽可能好的结果?

(一)

(b)

大部分的比较效益研究比较两种治疗方法在单个计算找到更好的治疗和潜在的修改。在多个阶段(图序贯治疗1 (b)),最近的统计和计算科学的发展提供了机会来确定最优的策略。

强化学习(RL)算法发现序列最优决策在多个次优选择,可以解决上面的问题(1]。强化学习被认为是第三种类型的机器学习算法除了监督学习和无监督学习,都有自己的挑战和方法。强化学习融入医疗,必须首先理解算法是如何工作的。本文旨在介绍基本概念以及强化学习的利弊。我们也回顾了现有的文献强化学习,并提出了一些潜在的实际应用方面,它可以应用于neurocritical和神经外科护理。

2。RL的原则

在计算机科学中,RL的经典问题是应用水平部队(左或右)购物车,可以向左或向右移动一个轨道上保持杆铰接的汽车掉最初的垂直位置。电脑给购物车的力量开始实验。如果杆铰接,计算机得到了奖励(例如,+ 1)。如果发生故障,电脑重新启动一个新的事件。通过反复实验,计算机学习如何实现最终目标(2]。整个过程RL算法。

一些统一的概念介绍了场景:国家、行动和奖励(图2)。国家(S)是一个病人是在一个特定的时间点,包括生命体征、实验室测试中,身体检查,颅内压力,人口,药物的剂量。行动(A)是治疗医生,或病人接受在那个时间点,例如,集中钠或机械通风。奖励(R)的反应病人的反应行动。战略是通过时间顺序动作的组合,例如,医生如何治疗一个病人在整个住院时间。环境是病人的外部系统交互(即我们的医学知识)。

然后,我们定义DTR作为治疗的预测函数,当前状态,并把它转换成行动。强化学习的终极目标是找到最优DTR(最好的治疗组合在病人的轨迹)最大化的回报所有执行的操作(例如,颅内压力在正常范围内,人物1 (b))。

在前面的计算机,计算机可以反复玩游戏和更新算法参数根据实时的结果(2]。在大多数医疗实践,我们不能等到我们观察前面的病人的疗效来决定下一个病人的治疗,除了我们所做的一种适应性试验。大部分的强化学习的研究在医学领域被称为批处理强化学习或离线强化学习,在一个固定的数据集都是可用的,和一个实时环境并不容易。

3所示。使用RL算法研究

强化学习的研究可以进一步分为统计计算RL RL研究研究。使用统计RL的原因和计算RL分类文学这两个子组使用不同的评估方法和应用于不同类型的数据集。

3.1。统计RL

统计RL研究扩展了普通单程比较两种治疗分为两个阶段,这是第一次研究和实现再分析连续多个赋值的随机试验(聪明)3]。智能包括初始随机化患者可能的治疗选择,其次是rerandomizing病人在每个后续阶段其他治疗选择阶段。研究利用智能设计的例子(或其前体)包括干预有效性的临床抗精神病药物试验中心(CATIE)阿尔茨海默病(4),测序治疗替代缓解抑郁(标准)试验5),2段试验旨在减少情绪和neurovegetative症状患者恶性黑色素瘤(6),几个试验评估免疫抑制剂(检查站7),和动态监测策略基于CD4细胞计数(8]。在非随机观察性研究,穆迪等人扩展这种方法观测数据在母乳喂养研究调查母乳喂养习惯对语言认知能力的影响(9]。陈等人也用RL方法观测数据找到华法林治疗的最佳剂量。他们发现剂量应该增加如果患者细胞色素P450酶抑制剂(10]。统计RL研究通常是通过线性拟合的结果模型以递归的方式解决。最近开发了一些其他方法,如逆概率加权估计量和增强逆概率加权估计量(11,12]。

3.2。计算RL

计算RL处理问题在更高的维度,这意味着多个治疗方案在多个阶段(13,14]。Martin-Guerrero等人RL学习策略用于红细胞生成素处方维持患者血红蛋白目标范围内,提出了一个基于RL优化方法促红细胞生成素治疗血液透析患者(15,16]。Parbhoo RL等人提出了一个算法来分配最合适的治疗艾滋病毒的病人。他们发现该算法在5年内积累长期奖励最高(17]。刘等人提出了一个深刻的强化学习框架,以防止移植物抗宿主病(18]。RL研究发表的最近的科莫罗夫斯基等人,他们预测最佳液体治疗和血管加压的用法在脓毒症患者中,在一个独立的验证数据库(19]。其他的研究也表明,计算RL优化可用于治疗。Nemati等人提出了一个临床序贯决策框架调整个性化的华法林剂量稳定血栓形成质次(20.]。Ribba等人推荐个性化的政权的药物剂量(21]。朱等人开发了一种双q学习递归神经网络扩张的闭环血糖控制在1型糖尿病22]。最近,通用电气等人递归神经网络集成的强化学习和探索公共卫生干预策略(23]。在动态规划计算RL需要大量的数据,因此不适合有限的随机试验样品。(24,25]

4所示。提出了神经外科和Neurocritical保健的方方面面

有效的化疗剂量政策和自动辐射适应协议颅内恶性肿瘤手术切除后可以得到解决,利用强化学习。同样,良性肿瘤患者,如生长激素分泌垂体腺瘤,最佳的序列治疗,包括药物治疗、辐射和手术,是未知的。

布雷特等人提出的方法,RL propofol-induced催眠麻醉期间实践管理最优控制(13)在麻醉过程中有可能被应用在神经外科。此外,研究人员开发手术机器人利用强化学习,包括创建一个结肠内窥镜机器人,可以调整其运动(26)和腹壁腹腔镜手术(手势识别算法27]。所有这些研究表明强化学习是一种有效的方法来解决控制问题与环境交互,获取最优控制政策。类似的想法可以应用在transventricular neuroendscope手术和底减压手术。

关于病人整个治疗过程的一种方式,最新的两篇论文还提出使用RL设计整形外科的临床支持工具和肠道手术(胃26,28]。同样,在neurocritical保健、强化学习也可以应用来确定最佳的手术后的管理,例如,精确的流体量是必不可少的电解质电解质失调术后患者管理。此外,治疗创伤性脑损伤的整个轨迹可以通过强化学习建模框架,如图3。算法与环境互动电子健康记录(数据)来表示状态(疾病敏度)、行为(治疗),和最终目标(如生存)。该算法适用于一个病人出现创伤性脑损伤和估计的临床效用观察,颅内压监测或颅骨切开术。过程识别最好的治疗方法在每个阶段最可能实现的终极目标。

5。强化学习的局限性

尽管强化学习承诺解决动态治疗问题,一些局限性阻碍了广泛的临床研究申请这个特殊的算法。

将强化学习应用于医疗的第一步的问题是医疗数据收集和预处理准确。大多数现有的工作定义美国原始的生理,病理,人口信息。我们应该记住,无边无际的或未被注意的状态也可能影响临床决策,例如,外科医生的偏好。此外,如何分类处理连续的陈述,例如,注入体积,需要进一步讨论。奖励可能是强化学习过程的核心。有时候,很容易定义奖励中间状态和最终状态,例如,印度卢比在华法林调整或在最优糖尿病控制血糖。在大多数医疗设置,结果治疗不能自然生成和明确表示,例如,病毒载量的奖励是定义为一个函数,CD4 +计数,艾滋病毒的突变研究[17]。定义的奖励是一个复杂的生命体征和插管状态的函数在一个插管断奶研究[20.]。

像任何其他的推理研究,违反积极性(接受每个治疗的条件概率大于0)是一个主要限制在训练中强化学习算法。例如,在严重低钠血症患者,治疗方案包括“没有行动,”“生理盐水,”和“集中钠3%,”和医生总是与集中钠治疗这些患者。一般来说,我们知道我们不能做“不采取行动”或“生理盐水”选项,因为它毫无意义。然而,一些患者仍然没有改善血清钠尽管最佳医疗管理人类的临床医生。自强化学习算法可以避免剂量患者或代理不同临床医生在严重的情况下为了避免被惩罚,强化学习算法可能会选择“不采取行动”或“生理盐水”选项在这种情况下。俄梅珥等人也提到了在他们的指导方针,强化学习算法的质量取决于病人的历史提出的数量和实际治疗政策达成一致(29日]。

必须估计学习政策如何执行在回顾性数据测试真实临床环境。在强化学习文学是基于当前验证的内部数据集(算法获得)或外部数据集(一个独立的数据集)19]。验证的基本思想是比较总奖励强化学习算法和生成的总回报与实际治疗。与其他板/视频游戏,在临床环境中,医生不能也不允许大量的场景上演学习最优政策。进一步验证算法的算法下的政策需要随机化患者与治疗在临床医生的政策。

6。结论

总之,强化学习算法是一种新兴的方法找到最优的治疗方案在临床决策。提出了神经外科和neurocritical应用包括序贯治疗颅内肿瘤和创伤性脑损伤。未来的方面还包括术中运动控制。强化学习的局限性保证计算科学家和医生的进一步合作。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

NQ设计研究。YL和丫起草文章。所有作者最终批准提交的版本。刘英和Nidan俏了同样的工作。

确认

本研究支持格兰特17 yf1426700从上海中国科学技术委员会和国家自然科学基金82073640。

引用

z代表AME张和写大数据的临床试验协作小组,“强化学习临床医学:一个方法来优化动态治疗方案随着时间的推移,“《转化医学,7卷,不。14,345年,页2019。视图:出版商的网站|谷歌学术搜索
r·s·萨顿和a·g·Barto强化学习:介绍美国马剑桥,麻省理工学院出版社,2018年。
p . w . Lavori和r·道森“适应性在慢性疾病治疗策略,”年度回顾医学卷,59号1,第453 - 443页,2008。视图:出版商的网站|谷歌学术搜索
t . s . Stroup j . p . McEvoy m . s .斯沃茨et al .,”美国国家精神卫生研究所临床抗精神病药物试验的干预有效性中心(CATIE)项目:精神分裂症试验设计和协议的发展,“精神分裂症的公告卷,29号1,15-31,2003页。视图:出版商的网站|谷歌学术搜索
b . n . Gaynes d .狱长m . h . Trivedi s . r . Wisniewski m .蚕豆和a·j·拉什,“明星教我们吗?结果从一个大规模、实用,抑郁症患者的临床试验,”精神病学服务,60卷,不。11日,第1445 - 1439页,2009年。视图:出版商的网站|谷歌学术搜索
s . f . Auyeung问:长,e . b .摆架子et al .,“顺序multiple-assignment随机试验设计的神经行为治疗转移性恶性黑色素瘤患者接受高剂量α干扰素治疗,”临床试验》第六卷,没有。5,480 - 490年,2009页。视图:出版商的网站|谷歌学术搜索
k . m . Kidwell m . a . Postow和k . s . Panageas”顺序,多个任务,随机试验设计在immuno-oncology研究中,“临床癌症研究,24卷,不。4、730 - 736年,2018页。视图:出版商的网站|谷歌学术搜索
d·福特,j·m·罗宾斯m·l·彼得森et al .,“不同的CD4细胞计数监控和切换策略的影响对死亡率在非洲艾滋病毒感染的成年人抗逆转录病毒疗法:边际结构模型,应用动态”美国流行病学杂志》,卷182,不。7,633 - 643年,2015页。视图:出版商的网站|谷歌学术搜索
Chakraborty和e·穆迪统计方法为动态的治疗方法:强化学习,因果推论,个性化医疗施普林格,纽约,纽约,美国,2013年。视图:出版商的网站
d . g . Chen曾庆红,和m . r . Kosorok“个性化的剂量使用结果加权学习发现,”美国统计协会杂志》上卷,111年,第1521 - 1509页,2016年。视图:出版商的网站|谷歌学术搜索
研究。曹国伟Tran, a Tsodikov, k . m . Kidwell”联合建模和多个比较最好的数据从一个聪明的生存结果,“生物统计学,2020年。视图:出版商的网站|谷歌学术搜索
j . a .船夫和d . m . Vock”估计因果效应器官移植的治疗方法,”生物识别技术,卷74,不。4、1407 - 1416年,2018页。视图:出版商的网站|谷歌学术搜索
b·l·摩尔a . g . Doufas和l . d . Pyeatt”强化学习:小说的最优控制方法propofol-induced催眠,“麻醉与镇痛,卷112,不。2、360 - 367年,2011页。视图:出版商的网站|谷歌学术搜索
诉Mnih k . Kavukcuoglu d银et al .,“人类控制通过强化学习,”自然,卷518,不。7540年,第533 - 529页,2015年。视图:出版商的网站|谷歌学术搜索
j·d·Martin-Guerrero f·戈麦斯,e . Soria-Olivas,的j。施密德胡贝尔表示m . Climente-Marti和n . v . Jimenez-Torres”的强化学习方法有个性的红细胞生成素剂量在血液透析患者中,“专家系统与应用程序,36卷,不。6,9737 - 9742年,2009页。视图:出版商的网站|谷歌学术搜索
p . Escandell-Montero m . Chermisi j . m . Martinez-Martinez et al .,“优化贫血治疗血液透析患者通过强化学习,”人工智能在医学上,卷62,不。1,47-60,2014页。视图:出版商的网站|谷歌学术搜索
s . Parbhoo j . Bogojeska m . Zazzi诉罗斯,和f . Doshi-Velez”结合内核和基于模型的学习艾滋病的治疗选择,”AMIA峰会转化科学程序卷,2017年,第248 - 239页,2017年。视图:谷歌学术搜索
y, b·洛根:刘,z, j . Tang和y王,“深强化学习动态治疗政权医疗注册表数据,”2017年IEEE国际会议上医疗信息学(阿)公园城市,页380 - 385,但是,美国,2018年。视图:出版商的网站|谷歌学术搜索
m·科莫罗夫斯基·l·a·切利o .巴达维a·c·戈登和a . a .费萨尔“人工智能的临床医生学习最佳治疗策略对脓毒症重症监护,”自然医学,24卷,不。11日,第1720 - 1716页,2018年。视图:出版商的网站|谷歌学术搜索
s . Nemati m . m . Ghassemi和g·d·克利福德“最佳用药剂量从理想临床例子:深强化学习方法,”IEEE 2016年第38届国际会议在医学和生物工程协会(EMBC)奥兰多,页2978 - 2981,美国2016年。视图:出版商的网站|谷歌学术搜索
b . Ribba s Dudal t .沐浴,r·w·派克”Model-informed人工智能:强化学习精密计量、”临床药理学和治疗,卷107,不。4、853 - 857年,2020页。视图:出版商的网站|谷歌学术搜索
李k, t·朱,p .写到,p .乔治奥“基底在1型糖尿病血糖控制使用深强化学习:一个在网上验证,”IEEE生物医学和卫生信息学杂志》上,p . 2020。视图:出版商的网站|谷歌学术搜索
t . j . Loftus a·c·Filiberto y李et al .,“决策分析,强化学习在手术决策。”手术,卷168,不。2、253 - 266年,2020页。视图:出版商的网站|谷歌学术搜索
g . c . Yu任,y盾”Supervised-actor-critic强化学习的智能机械通风和镇静剂量在重症监护病房,“BMC医学信息学和决策,85卷。20日,p。124年,2020年。视图:出版商的网站|谷歌学术搜索
j . Futoma m·a·马苏德,f . Doshi-Velez“识别不同,有效治疗急性低血压SODA-RL:安全优化各种精确的强化学习,”AMIA峰会转化科学程序,第190 - 181页,2020年。视图:谷歌学术搜索
g .它起码m . Shikanai g . Ukawa et al .,“结肠内窥镜机器人的发展,调整其运动通过强化学习,”国际计算机辅助放射学杂志和手术,5卷,不。4、317 - 325年,2010页。视图:出版商的网站|谷歌学术搜索
h . s . Majd f·法拉利,k . Gubbala r . g .钟楼和r . Tozzi”最新进展和技术在妇科肿瘤手术,”当前产科和妇科的意见,27卷,不。4、291 - 296年,2015页。视图:出版商的网站|谷歌学术搜索
梁x, x, s .阴et al .,“人工智能在整形手术:应用和挑战,”美容整形外科,2020年。视图:出版商的网站|谷歌学术搜索
o·戈特斯曼,f·约翰逊·m·科莫罗夫斯基et al .,“在医疗、强化学习指南”自然医学,25卷,不。1、16 - 2019页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

计算智能的医疗保健

文摘