1型糖尿病是一种慢性疾病,特点是过度增加血糖水平,因为胰腺不产生胰岛素激素由于自身免疫性破坏胰腺β细胞。高血糖可导致急性和慢性并发症和最终导致失败的各种器官。
直到今天,有许多挑战在1型糖尿病患者血糖的控制。其中一个是葡萄糖动力学过程是复杂的,非线性的,只有大约知道(
利用控制理论,各种研究进行设计一个控制系统对1型糖尿病患者。例如,马等。
在糖尿病,血糖的控制需要行动,是在特定的实例一整天的胰岛素剂量或食物的摄入量。的行为是基于当前可观察状态的病人(如血糖测量和心率)。多少计算的操作的有效性测量血糖值与健康水平。在RL,代理让决定基于环境的当前状态。算法的任务是最大化累积奖励函数或累计成本函数最小化。基于这些相似之处人类之间的决策过程和RL代理,RL可能人造胰腺系统发展的关键。
在处理餐扰动时,葡萄糖摄取的造型是规范以及设计一个控制器抗干扰性的第一步(
一个挑战的控制血糖是缺乏实时测量技术。的发展连续葡萄糖测量传感器,可以测量血糖水平和提供给控制器在分钟的间隔。然而,血糖值通常不是足以描述系统的状态控制的目的。因此,一个观察者需要估计状态空间中的其他变量的测量血糖。摘要卡尔曼滤波器被选为目的,因为它可以提供一个状态变量的最优估计,当系统受到过程和测量噪声(
Vrabie et al。
我们研究的目的是设计一种算法在1型糖尿病患者控制血糖的胰岛素浓度的变化。血液葡萄糖代谢是一个动态系统的血糖变化随着时间的推移食物摄取等许多因素的结果,胰岛素剂量,体育活动,和压力水平。RL的学习过程是基于决策代理及其之间的交互环境,这将导致一个最优的行动策略,结果在理想的状态
状态向量的实例<我nline-formula>
在时间的实例<我nline-formula>
控制设计的目的,血糖模型(附录)分为三个子:这顿饭(<我talic> G我talic>餐年代ub>)、胰岛素(<我talic> G我talic>ins年代ub>)和葡萄糖动力学(<我talic> G我talic>葡萄糖年代ub>)。控制器有三个主要组件:演员,评论家和前馈算法。演员是用来估计行为价值函数,评论家的任务是获得最优基础胰岛素,和前馈算法提出丸胰岛素概要文件用于扰动补偿(进食)。卡尔曼滤波的目的是估计不可测的状态的病人。
当病人在禁食条件下,控制器只需要改变基底的胰岛素水平通过演员和评论家。基于当前状态<我nline-formula>
每次动作后,病人变换到一个新的国家,与前面的行动相关联的成本可以计算使用方程( 行为价值函数依赖于当前状态和下一个行动。结果表明,操作值函数满足下面的递归方程(贝尔曼方程) 由于状态空间和动作空间是无限的,本文使用函数近似的估计<我talic>
问我talic>函数。在这种情况下,<我talic>
问我talic>函数近似为二次函数的向量<我nline-formula>
克罗内克操作,近似<我talic>
问我talic>函数可以表示为一个基函数的线性组合<我nline-formula>
用<我nline-formula>
内核通过分解矩阵<我nline-formula>
当前的政策与行动最小化改进<我talic>
问我talic>函数<我nline-formula>
,基础胰岛素的更新
当病人消耗食物,除了基础胰岛素,控制器计算和丸适用于补偿的崛起血糖结果的碳水化合物的食物。前馈算法首先预测血糖水平会上升多少,然后表明丸概要文件来对抗这顿饭的影响。的开始时间计算的剂量也根据膳食摄入量模型算法。
因为膳食摄入量模型(方程(
描述和的值<我nline-formula>
为了弥补这顿饭,开环系统的增益<我nline-formula>
这顿饭补偿丸<我talic>
年代我talic>域可以从前馈计算传递函数:
因此,前馈行动变成了下面的动态系统的输出,可以轻松地使用任何解决常微分方程解算器:
间隙胰岛素活动以来,大量的葡萄糖在隔间1和2在实现期间不能直接测量,卡尔曼滤波器是用来提供一个估计状态变量的血糖水平。的离散版本1型糖尿病系统可以写成以下形式:
基于离散模型,卡尔曼滤波器实现通过以下方程:
通过假设噪声方差<我nline-formula>
首先,pretraining算法进行的1型糖尿病模型的场景,病人病情空腹(不进食)。pretraining仿真的目的是获得一个初始估计行为价值函数的算法。学习过程是由多次重复实验(集)。每一集开始的初始血糖90 mg / dL, 30分钟后结束。算法的目的是搜索和探索行为,可以驱动的血糖目标水平80 mg / dL。
通过使用行为价值函数的初始估计,然后控制器测试在日常场景与食物的摄入量。提出了强化学习之间的比较是前馈控制器(RLFF),最优RL (ORL)控制器
为了了解不同食物类型的影响控制系统,两套模拟对食物进行慢速和快速葡萄糖吸收率,同时包含一个类似数量的碳水化合物。吸收率在模拟的特征参数<我nline-formula>
接下来,提出了控制器的性能评估的不确定性下餐信息。两种情况的不确定性被认为:不确定赵估计情况和不确定meal-recording时间。曹不确定估计,估计赵信息提供给控制器被假定为一个正态分布的标准偏差46%正确的碳水化合物值如图
pretraining后不得食场景中,<我talic>
问我talic>函数估计如下:
最初的基础从最初获得的政策<我talic>
问我talic>函数和方程(
的初始估计<我talic> 问我talic>函数和初始基底政策被用于后续的测试模拟控制算法。
在与正确的套餐信息,仿真RLFF的血糖反应,ORL和PID数字所示
数据
控制器显示其能力降低血糖的量的增加在我们的模拟。它的数据中可以看到
在不确定性中,碳水化合物计算创造了更多的影响比用餐时间记录血糖的变化,尤其是在缓慢吸收食物。用餐时间记录的不确定性也可能导致更大的下颚突出的血糖低于预期的水平,可以看到图
提出了基于强化学习的血糖控制和前馈算法1型糖尿病。控制器控制患者的血糖水平使用基底和丸胰岛素。提出了控制器的仿真结果,最佳的强化学习,和PID控制器在1型糖尿病模型表明,该算法是最有效的算法。基底的更新可以稳定血糖,丸可以减少葡萄糖脱靶,防止低血糖。比较血糖的变化在不同的不确定性提供了理解碳水化合物估计的准确性和meal-recording时间如何影响闭环反应。结果表明,该控制算法能够保持健康的血糖水平虽然不确定性造成血糖反应的变化。
摘要insulin-glucose过程作为主体在我们的模拟。以下描述的模型方程(
强化学习
强化学习与前馈算法
最佳的强化学习
Proportional-integral-derivative
线性定常
碳水化合物。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
研究由金融支持TromsøForskningsstiftelse。这篇文章出版费用由外的出版基金的资助,北极挪威大学。