1型糖尿病的血糖控制与前馈算法利用强化学习

文摘

背景。1型糖尿病是一种由于缺乏胰岛素的激素,从而导致过度增加血糖水平。葡萄糖动力学过程难以控制由于其复杂和非线性性质和状态变量,是很难衡量的。方法。本文提出了一个方法来自动计算基底和丸对于1型糖尿病患者使用胰岛素剂量强化学习与前馈控制器。算法的目的是保持血糖的稳定,直接弥补食物摄取等外部事件。它的性能评估血糖使用仿真模型。使用控制器显示的卡尔曼滤波器来估计不可测的状态变量。结果。比较模拟提出了控制器之间最佳的强化学习和proportional-integral-derivative控制器表明,该方法具有最佳的性能在调节血糖的波动。该控制器还改善了血糖反应和预防低血糖状态。模拟不同不确定条件下的控制系统提供的见解如何碳水化合物计算的不准确和用餐时间报告影响控制系统的性能。结论。提出的控制器是一种有效的工具,减少血糖上升的量和应对外部的影响知道事件如膳食摄入量和血糖维持在一个健康的水平下的不确定性。

1。介绍

1型糖尿病是一种慢性疾病,特点是过度增加血糖水平,因为胰腺不产生胰岛素激素由于自身免疫性破坏胰腺β细胞。高血糖可导致急性和慢性并发症和最终导致失败的各种器官。

直到今天,有许多挑战在1型糖尿病患者血糖的控制。其中一个是葡萄糖动力学过程是复杂的,非线性的,只有大约知道(1]。也有许多外部已知和未知因素影响血糖水平如食物摄入量,体育活动,压力,和激素的变化。一般来说,很难预测和量化这些因素和干扰。

利用控制理论,各种研究进行设计一个控制系统对1型糖尿病患者。例如,马等。2),派生的一种改进proportional-integral-derivative血糖控制的控制器。乌特et al。3]提出了一种外源性胰岛素输注Mamdani类型模糊控制策略。模型预测控制也被广泛用于1型糖尿病和人工胰腺发展(4,5]。最近,结合人工智能和机器学习的发展,强化学习(RL)已经成为数据驱动的方法来控制未知非线性系统(6,7),作为一个长期的慢性疾病的管理工具(8,9]。RL的最大优势与其他方法相比,该算法只取决于与系统的交互,不需要代表环境的模型。这尤其让RL适合1型糖尿病由于insulin-kinetic动力学的建模过程是复杂的,需要侵入性测量病人或必须通过一个大型的数据集。因此,通过使用RL作为控制算法,可以绕过造型过程,使算法不容易建模误差。

在糖尿病,血糖的控制需要行动,是在特定的实例一整天的胰岛素剂量或食物的摄入量。的行为是基于当前可观察状态的病人(如血糖测量和心率)。多少计算的操作的有效性测量血糖值与健康水平。在RL,代理让决定基于环境的当前状态。算法的任务是最大化累积奖励函数或累计成本函数最小化。基于这些相似之处人类之间的决策过程和RL代理,RL可能人造胰腺系统发展的关键。

在处理餐扰动时,葡萄糖摄取的造型是规范以及设计一个控制器抗干扰性的第一步(10]。前馈控制是被证明是一种有效的工具来提高抗干扰性能(11,12]。在控制系统理论中,前馈是术语,描述一个控制器,利用获得的信号,当有一个(大)偏离模型。反馈控制相比,只有采取行动后,输出已经远离选点,前馈结构更为主动,因为它使用扰动模型提出的时间和大小控制行动。此外,建立一个餐扰动模型更简单,需要较少的数据比寻找insulin-glucose动力学来适应。基于该模型,必要的更改在胰岛素动作可以计算补偿碳水化合物对血糖水平的影响。

一个挑战的控制血糖是缺乏实时测量技术。的发展连续葡萄糖测量传感器,可以测量血糖水平和提供给控制器在分钟的间隔。然而,血糖值通常不是足以描述系统的状态控制的目的。因此,一个观察者需要估计状态空间中的其他变量的测量血糖。摘要卡尔曼滤波器被选为目的,因为它可以提供一个状态变量的最优估计,当系统受到过程和测量噪声(13,14]。

Vrabie et al。15)建立方法获得最优自适应控制算法对未知动态系统数学模型,利用强化学习。在此基础上,非政府组织等。16)提出了强化学习算法更新在1型糖尿病患者基础利率。本文完成了框架的血糖控制与基底和丸胰岛素剂量。框架包括强化学习算法,前馈控制器补偿食物摄取和卡尔曼滤波器估计不可测的状态变量控制过程中。本文还进行了模拟不完全信息来评估下提出控制器的鲁棒性。

2。方法

2.1。问题公式化

我们研究的目的是设计一种算法在1型糖尿病患者控制血糖的胰岛素浓度的变化。血液葡萄糖代谢是一个动态系统的血糖变化随着时间的推移食物摄取等许多因素的结果,胰岛素剂量,体育活动,和压力水平。RL的学习过程是基于决策代理及其之间的交互环境,这将导致一个最优的行动策略,结果在理想的状态17]。1型糖尿病的RL框架包括以下要素:(我)状态向量的实例包括病人的状态: 在哪里和测量所需的血糖水平,分别是间质胰岛素的活动(在附录中定义)。(2)控制变量(胰岛素的行动) ,这是总胰岛素的一部分吗(基底的组合和丸胰岛素(图1)): 在哪里和在时间的实例是基底和丸吗 ,分别。(3)收到一个时间步后成本结果的行动。本文计算出的成本是二次函数如下: 在哪里和。矩阵中的每个元素和的值表明成本函数的加权因素。元素的第一行和第一列价值最高,对应的权重差异测量血糖和规定的健康价值。因为我们的终极目标是减少这种差异,这个测量的因素应该有最大的价值成本函数。第二行第二列的元素对应的权重间隙胰岛素活性。的价值表示动作的权重因子(基底更新)。最小化代价函数,因此,变得最小化的问题之间的差异测量血糖和期望值,间质胰岛素活动,基础胰岛素的变化。

在时间的实例 ,一个序列的观测 , , , 和。在此基础上观察,代理接收病人的状态信息并选择一个胰岛素的行动。身体对这种行动和转换到一个新的状态。这决定了行动的成本。

控制设计的目的,血糖模型(附录)分为三个子:这顿饭(G_餐)、胰岛素(G_ins)和葡萄糖动力学(G_葡萄糖)。控制器有三个主要组件:演员,评论家和前馈算法。演员是用来估计行为价值函数,评论家的任务是获得最优基础胰岛素,和前馈算法提出丸胰岛素概要文件用于扰动补偿(进食)。卡尔曼滤波的目的是估计不可测的状态的病人。

2.2。基底更新由演员和评论家

当病人在禁食条件下,控制器只需要改变基底的胰岛素水平通过演员和评论家。基于当前状态 ,演员提出了一种胰岛素的行动通过政策。更新后的基底率是获得如下:

每次动作后,病人变换到一个新的国家,与前面的行动相关联的成本可以计算使用方程(3)。行为价值函数(问函数)的行动被定义为成本的积累,当控制器采取行动在时间的实例然后继续下面的政策 : 在哪里(与 )是折扣因素表明未来成本的加权操作值函数。

行为价值函数依赖于当前状态和下一个行动。结果表明,操作值函数满足下面的递归方程(贝尔曼方程)15,17]:

由于状态空间和动作空间是无限的,本文使用函数近似的估计问函数。在这种情况下,问函数近似为二次函数的向量和 : 对称正定矩阵在哪里被称为内核矩阵,包含了需要估计的参数。向量向量的总和吗和 :

克罗内克操作,近似问函数可以表示为一个基函数的线性组合 : 在哪里是矢量,它包含的元素和克罗内克积。

用在方程(6)和使用策略迭代法与最小二乘算法(15),向量的元素可以被估计。矩阵可以得到吗使用张量积变换。

内核通过分解矩阵成更小的矩阵 , , ,和 ,的近似问函数可以写成:

当前的政策与行动最小化改进问函数。这可以通过第一次的偏导数问函数,然后解决。最优解之后可以获得如下(15]:

,基础胰岛素的更新在哪里是平衡基础血浆胰岛素浓度。

2.3。丸由前馈算法更新

当病人消耗食物,除了基础胰岛素,控制器计算和丸适用于补偿的崛起血糖结果的碳水化合物的食物。前馈算法首先预测血糖水平会上升多少,然后表明丸概要文件来对抗这顿饭的影响。的开始时间计算的剂量也根据膳食摄入量模型算法。

因为膳食摄入量模型(方程(. 1)和(a .))和胰岛素模型(方程(各)线性定常(LTI)模型,他们可以从状态空间方程为传递函数如下: 在哪里

描述和的值 , ,和如表所示1和2。膳食摄入量的传递函数血糖水平可以计算为


的名字	描述	价值

	葡萄糖的有效性	0.2分钟⁻¹
	胰岛素敏感性	0.028分钟⁻¹
	胰岛素的间隙	10⁻⁴最小值⁻¹
	碳水化合物的生物利用度	0.8分钟⁻¹
	葡萄糖吸收常数	10分钟
	等离子体体积	2730克
	平衡基础血浆胰岛素浓度	7.326μ国际单位/毫升


的名字	描述	单位

	赵的摄入量	更易/分钟
	室1中葡萄糖的量	更易
	量的葡萄糖室2	更易
	血浆葡萄糖浓度	更易与l
	间质胰岛素的活动	最小值⁻¹
	血浆胰岛素浓度	μ国际单位/毫升

为了弥补这顿饭,开环系统的增益必须尽可能小。因此,前馈传递函数被选中,这样 ,导致

这顿饭补偿丸年代域可以从前馈计算传递函数:

因此,前馈行动变成了下面的动态系统的输出,可以轻松地使用任何解决常微分方程解算器:

2.4。1型糖尿病系统卡尔曼滤波器

间隙胰岛素活动以来,大量的葡萄糖在隔间1和2在实现期间不能直接测量,卡尔曼滤波器是用来提供一个估计状态变量的血糖水平。的离散版本1型糖尿病系统可以写成以下形式: 在哪里 , ,和矩阵 , , 线性化模型的系数矩阵: 矩阵是噪声的输入矩阵: ,输出值是测量血糖偏离预期的水平,是胰岛素输入噪声,是血糖测量噪声与零均值高斯分布。的差异和假设如下:

基于离散模型,卡尔曼滤波器实现通过以下方程: 在哪里表示的估计基于测量可用的时间。的增益稳态卡尔曼滤波器增益,可以计算吗在哪里是相应的代数黎卡提微分方程的解决方案(13,14,18]:

通过假设噪声方差 ,卡尔曼滤波增益计算从方程(23),

2.5。仿真设置

首先,pretraining算法进行的1型糖尿病模型的场景,病人病情空腹(不进食)。pretraining仿真的目的是获得一个初始估计行为价值函数的算法。学习过程是由多次重复实验(集)。每一集开始的初始血糖90 mg / dL, 30分钟后结束。算法的目的是搜索和探索行为,可以驱动的血糖目标水平80 mg / dL。

通过使用行为价值函数的初始估计,然后控制器测试在日常场景与食物的摄入量。提出了强化学习之间的比较是前馈控制器(RLFF),最优RL (ORL)控制器15),proportional-integral-derivative控制器(PID)。ORL设计相同的参数和pretrained RLFF一样的场景。PID控制器增益选择,并产生一种类似血糖稳定时间RLFF: 在哪里

为了了解不同食物类型的影响控制系统,两套模拟对食物进行慢速和快速葡萄糖吸收率,同时包含一个类似数量的碳水化合物。吸收率在模拟的特征参数从模型,对应于缓慢的吸收速度和食物对应于食物和一个快速的吸收速率。碳水化合物的量(CHO)每顿饭可以在图中找到2。

接下来,提出了控制器的性能评估的不确定性下餐信息。两种情况的不确定性被认为:不确定赵估计情况和不确定meal-recording时间。曹不确定估计,估计赵信息提供给控制器被假定为一个正态分布的标准偏差46%正确的碳水化合物值如图2。所使用的标准偏差值基于成人平均估计和营养师的计算机评估(19]。meal-recording时间不确定,估计吃饭起始时间被认为是正态分布的标准偏差的两分钟真正的起始时间。这个标准偏差值是随机选择的,因为系统研究用餐时间记录的准确性对1型糖尿病患者不能被发现。每种情况下,多个相同的闭环系统的仿真进行了相应的随机变量。结果的平均值和标准偏差为血糖反应在每个时间点计算和分析。

3所示。结果

pretraining后不得食场景中,问函数估计如下:

最初的基础从最初获得的政策问函数和方程(12):

的初始估计问函数和初始基底政策被用于后续的测试模拟控制算法。

在与正确的套餐信息,仿真RLFF的血糖反应,ORL和PID数字所示3和4。胰岛素浓度过程中也可以发现在数字5和6。与减缓吸收食物,血糖的波动幅度约±30 mg / dL从所需的值(图三个控制器3)。然而,快速吸收葡萄糖的饭菜,血糖水平的量的波动范围在±40 mg / dL的RLFF相比±60 mg / dL和ORL和波动幅度明显小于±80 mg / dL的PID(图4)。

数据7和8显示血糖变化在晚餐时间不确定,曹计数。上下界在阴影区域表示平均血糖值为每个实例+和-标准差。不确定餐信息下,上界一直小于40 mg / dL从所需的血糖值快速葡萄糖吸收食物和15 mg / dL减缓葡萄糖吸收的食物。下界小于15 mg / dL期望值的快速葡萄糖吸收食物和5 mg / dL减缓葡萄糖吸收的食物。

4所示。讨论

控制器显示其能力降低血糖的量的增加在我们的模拟。它的数据中可以看到3和4三个控制器能够稳定血糖。然而,当使用RLFF,添加丸使胰岛素反应快得多,当血糖水平的变化,从而降低葡萄糖的量增加约30%的峰值相比ORL和50%的PID快速被吸收的情况。也可以看到低于血糖(血糖最低之间的距离和所需的血糖值)的PID控制器比这大得多的RLFF和ORL。RLFF有最小的葡萄糖中低于三个控制器。低血糖值(低血糖症)可以为1型糖尿病患者是非常危险的。因此,仿真结果表明使用RLFF的优势在改善病人的安全。一般来说,与前馈算法,该算法是一种有效的工具来对付外部事件,如膳食摄入量的影响。

在不确定性中,碳水化合物计算创造了更多的影响比用餐时间记录血糖的变化,尤其是在缓慢吸收食物。用餐时间记录的不确定性也可能导致更大的下颚突出的血糖低于预期的水平,可以看到图7。与先前的模拟相同的趋势,后血糖的波动幅度缓慢吸收食物的波动幅度小于快速葡萄糖吸收的食物。一般来说,控制算法保持健康的血糖水平虽然不确定性影响的变化反应。然而,准确计算碳水化合物和正确的用餐时间记录方法仍然是重要的血糖控制的目的完全是为了避免低血糖的概率。

5。结论

提出了基于强化学习的血糖控制和前馈算法1型糖尿病。控制器控制患者的血糖水平使用基底和丸胰岛素。提出了控制器的仿真结果,最佳的强化学习,和PID控制器在1型糖尿病模型表明,该算法是最有效的算法。基底的更新可以稳定血糖,丸可以减少葡萄糖脱靶,防止低血糖。比较血糖的变化在不同的不确定性提供了理解碳水化合物估计的准确性和meal-recording时间如何影响闭环反应。结果表明,该控制算法能够保持健康的血糖水平虽然不确定性造成血糖反应的变化。

附录

血糖模型

摘要insulin-glucose过程作为主体在我们的模拟。以下描述的模型方程(20.- - - - - -23]: 变量描述和参数值在表吗1和2。在这个模型中,输入是曹摄入的量D和胰岛素浓度。模型的输出是血糖浓度。假定的血糖控制使用胰岛素泵,而且没有延迟注射胰岛素和血浆胰岛素浓度。

缩写

RL:	强化学习
RLFF:	强化学习与前馈算法
ORL:	最佳的强化学习
PID:	Proportional-integral-derivative
LTI:	线性定常
赵:	碳水化合物。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

研究由金融支持TromsøForskningsstiftelse。这篇文章出版费用由外的出版基金的资助,北极挪威大学。

引用

问:小王,p . Molenaar美国严厉的et al .,“个性化的状态空间建模1型糖尿病的葡萄糖动态使用连续监测血糖,胰岛素剂量,和膳食摄入量,”糖尿病科学和技术杂志》上,8卷,不。2、331 - 345年,2014页。视图:出版商的网站|谷歌学术搜索
g .马尔凯蒂·m·巴罗洛葡萄酒l·约万诺维奇h . Zisser和d . e . Seborg,“一种改进的PID为1型糖尿病的切换控制策略,”IEEE生物医学工程,55卷,不。3、857 - 865年,2008页。视图:出版商的网站|谷歌学术搜索
美国乌k . Danisman即Sacu,和m . Alci”闭环控制血糖水平的1型糖尿病患者:一项模拟研究,”学报电气与电子工程国际会议(ELECO)囊,页371 - 375年,土耳其,2013年11月。视图:谷歌学术搜索
d . Boiroux a . k . Duun-Henriksen s施密特et al .,“一夜之间在1型糖尿病患者血糖控制,”生物医学信号处理和控制39卷,第512 - 503页,2018年。视图:出版商的网站|谷歌学术搜索
h·李和b . w . Bequette”,基于模型预测控制的闭环人工胰腺:人性化识别和自动餐扰动拒绝,“生物医学信号处理和控制,4卷,不。4、347 - 354年,2009页。视图:出版商的网站|谷歌学术搜索
m·k·博特l .狄更斯k Reichel et al .,“强化学习算法的使用人工胰腺的迎接挑战,”医疗器械的专家审查,10卷,不。5,661 - 673年,2014页。视图:出版商的网站|谷歌学术搜索
m·德波拉·l·o·阿维拉,e·c·马丁内斯”控制血糖变异性在使用强化学习和高斯过程的不确定性,”应用软计算,35卷,第332 - 310页,2015年。视图:出版商的网站|谷歌学术搜索
c·j·c·h·沃特金斯和p·达扬Technical note: q学习”强化学习卷,292页55 - 68,激飞美国,波士顿,MA,美国,1992。视图:出版商的网站|谷歌学术搜索
j . Pineau m·g . Bellemare a . j ., a . Ghizaru和s . a .墨菲“构建以证据为基础的治疗策略利用计算机科学的方法,”药物和酒精依赖,卷88,不。S2, S52-S60, 2007页。视图:出版商的网站|谷歌学术搜索
k . Lunze t·辛格·m·沃尔特·m·d·Brendel和s·莱昂纳特,”1型糖尿病患者血糖控制算法:方法论的审查,”生物医学信号处理和控制,8卷,不。2、107 - 119年,2013页。视图:出版商的网站|谷歌学术搜索
s . p . Bhattacharyyta抗干扰性在线性系统中,“国际系统科学杂志》上,5卷,不。7,633 - 637年,1974页。视图:出版商的网站|谷歌学术搜索
h·钟、l . Pao和r . de Callafon”抑制扰动的前馈控制:模式匹配和其他方法,”学报》24日中国控制与决策会议(CCDC)太原,页3528 - 3533年,中国,2012年5月。视图:谷歌学术搜索
f·刘易斯,最优估计约翰·威利& Sons Inc .霍博肯,新泽西,美国,1986年。
g·f·富兰克林,j·d·鲍威尔和m . l .工人动态系统的数字控制美国,addison - wesley,波士顿,MA,第二版,1990年版。
d . Vrabie k . g . Vamvoudakis f·l·刘易斯,最优自适应控制和微分游戏通过强化学习的原则卷。81年,工程和技术的机构,伦敦,英国,2012年第1版,。
p·d .非政府组织,s, a . Holubova j . Muzik f . Godtliebsen,“强化学习最优控制为一型糖尿病,”学报2018年IEEE磨床生物医学与卫生信息学国际会议(BHI)拉斯维加斯,页333 - 336年,NV,美国,2018年3月。视图:谷歌学术搜索
r·萨顿和a . Barto强化学习:介绍美国马剑桥,麻省理工学院出版社,1998年版,1日。
MathWorks,MATLAB优化工具箱:用户指南(r2018a)MathWorks纳蒂克,妈,美国,2018年。
a . s . Brazeau h . Mircescu k·德斯贾丁斯et al .,“碳水化合物计算准确性和血糖变异性与1型糖尿病成年人,”糖尿病的研究和临床实践,卷99,不。1,19号,2013页。视图:出版商的网站|谷歌学术搜索
r·n·伯格曼y z考虑,c·r·鲍登和c . Cobelli“胰岛素敏感性的定量评估,”美国生理内分泌和代谢》期刊上,卷236,不。6,E667页,1979年。视图:出版商的网站|谷歌学术搜索
r . Hovorka诉Canonico l . j . Chassin et al .,“非线性模型预测控制的葡萄糖浓度在1型糖尿病患者,”生理测量,25卷,不。4、905 - 920年,2004页。视图:出版商的网站|谷歌学术搜索
m . e . Wilinska l . j . Chassin h·c·夏勒l . Schaupp t·r·Pieber和r . Hovorka”在1型糖尿病胰岛素动力学:连续和丸交付的快速行动胰岛素,”IEEE生物医学工程,52卷,不。1、3 - 12,2005页。视图:出版商的网站|谷歌学术搜索
a . Mosching强化学习方法在1型糖尿病血糖调节洛桑联邦理工,2016年瑞士洛桑。

计算和数学方法在医学

数学建模和模型最优决策在卫生保健

文摘