gydF4y2Ba我们描述尺度空间方法可以用于定量分析2型糖尿病患者的血糖浓度。血糖值记录由患者自愿在周岁作为一个自我管理的过程的一部分,在录音的时间和频率是由病人决定。这使得一个独特的数据集的程度,不过有一个很大的变化记录的可靠性。尺度空间和频率空间技术适合于揭示不均匀采样数据的重要特征,和有用的识别与医学有关的特性同时使用患者作为他们的自我管理过程的一部分,并为医生提供有用的信息。
<年代p一个ncl一个年代年代="end-abs">
1。介绍
2gydF4y2Ba型糖尿病已成为一个主要的健康问题在西方世界在过去的十年里,在生活方式和饮食被认为是最重要的因素的发生率上升。2型糖尿病是一种复杂的疾病,其特征是遗传和环境两方面的因素。糖尿病会影响全球大约2.2亿人,大约90%的病例是2型糖尿病(<一个href=”#B1">1一个>]。因为这些病人需要相当大的医疗照顾,他们构成一个重大的社会成本,多努力做给他们提供工具,可以帮助病人管理和监控他们的疾病和鼓励改变生活方式。因此,存在大量的自助工具旨在赋予病人。
gydF4y2Ba这样一个工具是一个基于移动电话应用程序开发的一个集成的传感器网络,挪威中心综合护理和远程医疗的<我>很少联系我>应用程序(<一个href=”#B2">2一个>,3一个>]。构成用户界面的软件是运行在手机,使无线和步数和血糖数据的自动记录,除了功能为用户输入饮食信息。这个工具的目的是帮助患者在糖尿病自我管理的过程,和所有数据输入是自动完成的。因此可以零星记录信息,但是这种方法显示产生高度的参与在很长一段时间,这样生成的数据集是独一无二的记录时间的程度。患者通常测量血糖浓度(BGC)大约每天一次的自我管理过程,而下<我>很少联系我>应用这些值会自动转移到手机通过蓝牙适配器的时候测量。在本文中,我们将只关注BGC一步报告的值,而不考虑值计数器或饮食登记系统。为各种不同的技术和个人原因,有些病人没有记录BGC完整的时期,我们将只考虑那些详细记录他们BGC可靠。
gydF4y2Ba尺度空间方法在过去的十年里出现的一组统计技术探索功能,和各种尺度的二维数据,在时域和频域空间(<一个href=”#B4">4一个>- - - - - -<一个href=”#B6">6一个>]。问的基本问题是,在一个复杂的信号特性是“真的”而不是仅仅是工件或“噪声的特性。”在我们的例子中,BGC值不正确的噪声由于每个数据点反映了真实BGC误差可以忽略不计,但离群值记录在短时间尺度上没有解释力,我们注定要搜索功能,出现在一些规模比典型的间隔。时间序列或密度估计,可以尝试用一系列的带宽,光滑和为每个带宽计算间隔测试意义重要的衍生品或曲率。可以说是最常见的这种方法被称为筛选器(重要的零交点衍生品)<一个href=”#B4">4一个>),开发了几个类似的工具。这些工具的用处是很大的,但基本上仍未知统计外的社会。
gydF4y2Ba尺度空间方法也被应用于频率空间和贝叶斯框架内,尽管只有均匀采样数据集(<一个href=”#B6">6一个>]。自从BGC非常不均匀采样值,即使是“最好”的患者,这种技术目前没有提供这些数据。
gydF4y2Ba我们应用筛选器方法12例使用收集的数据集<我>很少联系我>应用程序的一个。被采样的数据非常不均仍然使他们适合筛选器方法,并允许我们探索周期的研究频率高于奈奎斯特频率的最小二乘符合正弦曲线。
gydF4y2Ba完整的数据集包含12个病人总期间从2008年9月16日到2009年11月25日,共435天。每天没有病人记录BGC,有些记录了一段时间了。一个病人记录BGC至少每天一次连续373天,而四个不到两周连续最长的时期。
gydF4y2Ba本文的组织结构如下;节<一个href=”#sec2">2一个>我们将简要解释的筛选器方法的框架内进一步分析所得。节<一个href=”#sec3">3一个>我们探索功能,治疗时,也出现了完整的数据集,而在部分<一个href=”#sec4">4一个>我们将分析分解成单独的病人。部分<一个href=”#sec5">5一个>包含在频率空间分析,我们的结论部分<一个href=”#sec6">6一个>。
2。筛选器方法gydF4y2Ba我们包括筛选器方案的简要概述在这一节中,可以找到更全面的治疗(<一个href=”#B4">4一个>,7一个>),而一些扩展和理论存在的理由<一个href=”#B5">5一个>,6一个>等),和几个扩展贝叶斯版本在二维散点图称为B-SiZer [<一个href=”#B8">8一个>在这个框架)已经开发出来。调查直方图的值时,典型的方法是与高斯平滑内核,可以提炼出重要的功能(<一个href=”#B9">9一个>]。然而,这种方法严重依赖于带宽的选择,,很难知道哪些特性很重要。指定一系列的技术存在一个最优数据驱动的带宽,如最小二乘交叉验证(LSCV)算法(<一个href=”#B12">10一个>)或Sheather-Jones算法(<一个href=”#B13">11一个>]。后者,我们用来突出一些值,试图最小化平均平方误差的直接插件机制集成。例如,,(<一个href=”#B9">9一个>]。
gydF4y2Ba然而,这是真的,可能会出现重大的结构在不同的尺度,可能再次消失在不同尺度的重要特性。这是早期实现图像处理,视觉这一事实本身就是一个多尺度已经被用于开发应用程序的计算机视觉<一个href=”#B14">12一个>]。后,严格的统计框架称为筛选器的开发,在每一个相关的规模是追究重大梯度(或曲率),情节和这项研究的结果发表在一个典型的筛选器,这是一个数据的尺度空间表示,重大的改变在给定的规模和位置,或时间,用不同的颜色表示。因此快速评估的数据是可能的,即使是在非常复杂的数据集,和重要的功能可以立即识别和进一步研究。因此可以快速找到重要的数据集的特点,和一个可以使用这些工具假设一代。
gydF4y2Ba我们把时间尺度空间,每个位置用一次<年代vghe我ght=”9。125”我d="M1" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
和规模或带宽<年代vghe我ght=”10。95" id="M2" style="vertical-align:-0.1254pt;width:9.1374998px;" version="1.1" viewbox="0 0 9.1374998 10.95" width="9.1374998" xmlns="http://www.w3.org/2000/svg">
ℎ
。有时考虑值记录<年代vghe我ght=”13。0125”我d="M3" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
,<年代vghe我ght=”12。8875" id="M4" style="vertical-align:-1.76814pt;width:92.474998px;" version="1.1" viewbox="0 0 92.474998 12.8875" width="92.474998" xmlns="http://www.w3.org/2000/svg">
=
1
,
2
,
…
,
,我们有一个平滑的密度估计(<一个href=”#B9">9一个>]
在哪里<年代vghe我ght=”14。7125” id="M6" style="vertical-align:-3.22282pt;width:34.275002px;" version="1.1" viewbox="0 0 34.275002 14.7125" width="34.275002" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
等核密度高斯内核,<年代p一个ncl一个年代年代=”equation" id="EEq2">
其他内核可以被认为,尽管这不是怀疑这些将揭示多新的信息。事实上,高斯核密度已成为事实上的标准部分是因为它的高斯核的独特之处在于,它有一个单调减少的零交叉导数与增加带宽平滑(<一个href=”#B10">13一个>,14一个>]。这意味着尺度空间单调的特征。由于这些原因,我们使用高斯内核只在下面。
gydF4y2Ba寻找“真正的”潜在的曲线<年代vghe我ght=”13。6125” id="M8" style="vertical-align:-2.34499pt;width:24.1px;" version="1.1" viewbox="0 0 24.1 13.6125" width="24.1" xmlns="http://www.w3.org/2000/svg">
(
)
或其衍生物<年代vghe我ght=”15。5625” id="M9" style="vertical-align:-2.34499pt;width:30.3125px;" version="1.1" viewbox="0 0 30.3125 15.5625" width="30.3125" xmlns="http://www.w3.org/2000/svg">
(
)
被丢弃在文献中,自估计量<年代vghe我ght=”21。612499" id="M10" style="vertical-align:-3.22282pt;width:32.912498px;" version="1.1" viewbox="0 0 32.912498 21.612499" width="32.912498" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
为<年代vghe我ght=”15。5625” id="M11" style="vertical-align:-2.34499pt;width:30.3125px;" version="1.1" viewbox="0 0 30.3125 15.5625" width="30.3125" xmlns="http://www.w3.org/2000/svg">
(
)
是有偏见的。因此,我们计算规模,而空间版本<年代vghe我ght=”22。9625" id="M12" style="vertical-align:-4.30869pt;width:103.1625px;" version="1.1" viewbox="0 0 103.1625 22.9625" width="103.1625" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
=
E
(
ℎ
(
)
]
,在那里<年代vghe我ght=”21。612499" id="M13" style="vertical-align:-3.22282pt;width:32.912498px;" version="1.1" viewbox="0 0 32.912498 21.612499" width="32.912498" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
是一个无偏估计量<年代vghe我ght=”18。012501” id="M14" style="vertical-align:-4.30869pt;width:31.0375px;" version="1.1" viewbox="0 0 31.0375 18.012501" width="31.0375" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
在每一个时间<年代vghe我ght=”9。125”我d="M15" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
和规模<年代vghe我ght=”10。95" id="M16" style="vertical-align:-0.1254pt;width:9.1374998px;" version="1.1" viewbox="0 0 9.1374998 10.95" width="9.1374998" xmlns="http://www.w3.org/2000/svg">
ℎ
。因此,我们可以假设<年代p一个ncl一个年代年代=”equation" id="eq1">
和调查的所有值<年代vghe我ght=”10。95" id="M18" style="vertical-align:-0.1254pt;width:9.1374998px;" version="1.1" viewbox="0 0 9.1374998 10.95" width="9.1374998" xmlns="http://www.w3.org/2000/svg">
ℎ
而不是试图寻找一个最优的,我们能找到一个置信区间<年代vghe我ght=”21。612499" id="M19" style="vertical-align:-3.22282pt;width:32.912498px;" version="1.1" viewbox="0 0 32.912498 21.612499" width="32.912498" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
每一点在尺度空间中从零,并确定是否有显著差异。
gydF4y2Ba所以对于每一个点<年代vghe我ght=”13。5625” id="M20" style="vertical-align:-2.21957pt;width:30.950001px;" version="1.1" viewbox="0 0 30.950001 13.5625" width="30.950001" xmlns="http://www.w3.org/2000/svg">
(
,
ℎ
)
在尺度空间中,我们希望测试这个假说<年代p一个ncl一个年代年代=”equation" id="eq2">
基于无偏估计量<年代vghe我ght=”21。612499" id="M22" style="vertical-align:-3.22282pt;width:32.912498px;" version="1.1" viewbox="0 0 32.912498 21.612499" width="32.912498" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
的<年代vghe我ght=”18。012501” id="M23" style="vertical-align:-4.30869pt;width:31.0375px;" version="1.1" viewbox="0 0 31.0375 18.012501" width="31.0375" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
。因此,我们计算的置信区间<年代vghe我ght=”18。012501” id="M24" style="vertical-align:-4.30869pt;width:31.0375px;" version="1.1" viewbox="0 0 31.0375 18.012501" width="31.0375" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
,<年代p一个ncl一个年代年代=”equation" id="EEq3">
在哪里<年代vghe我ght=”9。875" id="M26" style="vertical-align:-2.29482pt;width:7.9124999px;" version="1.1" viewbox="0 0 7.9124999 9.875" width="7.9124999" xmlns="http://www.w3.org/2000/svg">
下面讨论的分位数,观察差异<年代vghe我ght=”24。9125” id="M27" style="vertical-align:-3.22282pt;width:172.825px;" version="1.1" viewbox="0 0 172.825 24.9125" width="172.825" xmlns="http://www.w3.org/2000/svg">
V
一个
r
ℎ
(
)
(
=
(
年代
D
(
ℎ
(
)
]
]
2
)
是<年代p一个ncl一个年代年代=”equation" id="EEq4">
与<年代vghe我ght=”10。325" id="M29" style="vertical-align:-0.0pt;width:14.8375px;" version="1.1" viewbox="0 0 14.8375 10.325" width="14.8375" xmlns="http://www.w3.org/2000/svg">
样品的数量<年代vghe我ght=”23。174999" id="M30" style="vertical-align:-4.49678pt;width:34.275002px;" version="1.1" viewbox="0 0 34.275002 23.174999" width="34.275002" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
样本均值的吗<年代vghe我ght=”18。012501” id="M31" style="vertical-align:-4.37755pt;width:34.275002px;" version="1.1" viewbox="0 0 34.275002 18.012501" width="34.275002" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
。
gydF4y2Ba这种治疗是有效的,如果正常的近似是有效的,也就是说,如果<年代vghe我ght=”21。612499" id="M32" style="vertical-align:-3.22282pt;width:187.33749px;" version="1.1" viewbox="0 0 187.33749 21.612499" width="187.33749" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
∼
(
(
)
,
V
一个
r
(
ℎ
(
)
]
)
约。有效样本大小(ESS)被定义为<年代p一个ncl一个年代年代=”equation" id="EEq5">
和正常的近似当且仅当被认为是有效的<年代vghe我ght=”13。6375" id="M34" style="vertical-align:-2.21957pt;width:85.087502px;" version="1.1" viewbox="0 0 85.087502 13.6375" width="85.087502" xmlns="http://www.w3.org/2000/svg">
E
年代
年代
(
,
ℎ
)
≥
5
。其他地区在尺度空间中被认为是不确定的,看到<一个href=”#B4">4一个>为更多的细节。
gydF4y2Ba分位数的<年代vghe我ght=”9。875" id="M35" style="vertical-align:-2.29482pt;width:7.9124999px;" version="1.1" viewbox="0 0 7.9124999 9.875" width="7.9124999" xmlns="http://www.w3.org/2000/svg">
必须小心使用正确的多个测试(<一个href=”#B4">4一个>]。最直接的方法是假设<年代vghe我ght=”7。1374998" id="M36" style="vertical-align:-0.10033pt;width:11.225px;" version="1.1" viewbox="0 0 11.225 7.1374998" width="11.225" xmlns="http://www.w3.org/2000/svg">
这样分位数变成了独立测试<年代p一个ncl一个年代年代=”equation" id="eq3">
在哪里<年代vghe我ght=”7。1750002" id="M38" style="vertical-align:-0.1254pt;width:8.9375px;" version="1.1" viewbox="0 0 8.9375 7.1750002" width="8.9375" xmlns="http://www.w3.org/2000/svg">
信心水平和吗<年代vghe我ght=”13。45”我d="M39" style="vertical-align:-2.21957pt;width:31.049999px;" version="1.1" viewbox="0 0 31.049999 13.45" width="31.049999" xmlns="http://www.w3.org/2000/svg">
Φ
(
)
累积正态高斯分布。我们使用<年代vghe我ght=”11。1” id="M40" style="vertical-align:-0.17555pt;width:55.674999px;" version="1.1" viewbox="0 0 55.674999 11.1" width="55.674999" xmlns="http://www.w3.org/2000/svg">
=
0
。
0
5
在。数量<年代vghe我ght=”13。5625” id="M41" style="vertical-align:-2.21957pt;width:61.137501px;" version="1.1" viewbox="0 0 61.137501 13.5625" width="61.137501" xmlns="http://www.w3.org/2000/svg">
=
(
ℎ
)
独立的测试是近似的<年代p一个ncl一个年代年代=”equation" id="eq4">
这个近似可以改进利用极值理论中描述(<一个href=”#B15">15一个>),这是用于分析在当前的纸。其他方法来纠正存在多个测试,用于文学,如引导(<一个href=”#B4">4一个>]或错误发现率(罗斯福)<一个href=”#B16">16一个>],但结果通常非常类似发现的估计数量的独立测试,计算简单,我们在下面使用这种技术。
gydF4y2Ba因此,如果我们到达的置信区间包含零,我们认为没有明显的梯度,否则标签点作为重要的积极或消极的相应的梯度。给出的数据通常是作为一个家庭情节与缓和各种带宽一起筛选器图,表示每个点在尺度空间中根据假设检验的结果,或一个不同的名称为这些地区的有效样本量太小了。
gydF4y2Ba这里我们有考虑过我们一组的情况的观察<年代vghe我ght=”13。0125”我d="M43" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
并希望评估一个潜在的分布<年代vghe我ght=”13。6125” id="M44" style="vertical-align:-2.34499pt;width:24.1px;" version="1.1" viewbox="0 0 24.1 13.6125" width="24.1" xmlns="http://www.w3.org/2000/svg">
(
)
。同样的方法可以应用于回归问题,如部分<一个href=”#sec4">4一个>。在这种情况下,有一组观测<年代vghe我ght=”11。025” id="M45" style="vertical-align:-3.2316pt;width:11.9px;" version="1.1" viewbox="0 0 11.9 11.025" width="11.9" xmlns="http://www.w3.org/2000/svg">
在给定的时间<年代vghe我ght=”13。0125”我d="M46" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
,我们希望在这些变化如何找到任何重要的结构。非参数回归包括使用一个内核和带宽(或范围)<年代vghe我ght=”10。95" id="M47" style="vertical-align:-0.1254pt;width:9.1374998px;" version="1.1" viewbox="0 0 9.1374998 10.95" width="9.1374998" xmlns="http://www.w3.org/2000/svg">
ℎ
和计算曲线的估计在给定的时间<年代vghe我ght=”9。125”我d="M48" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
只使用那些接近的数据点<年代vghe我ght=”9。125”我d="M49" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
,亲密是定义的内核<年代vghe我ght=”14。7125” id="M50" style="vertical-align:-3.22282pt;width:34.275002px;" version="1.1" viewbox="0 0 34.275002 14.7125" width="34.275002" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
。我们使用局部线性光滑<年代p一个ncl一个年代年代=”equation" id="EEq6">
作为条件回归函数的估计<年代vghe我ght=”14。9375" id="M52" style="vertical-align:-3.2316pt;width:121.2625px;" version="1.1" viewbox="0 0 121.2625 14.9375" width="121.2625" xmlns="http://www.w3.org/2000/svg">
(
)
=
E
(
∣
=
)
。使用衍生品<年代vghe我ght=”21。612499" id="M53" style="vertical-align:-3.22282pt;width:32.912498px;" version="1.1" viewbox="0 0 32.912498 21.612499" width="32.912498" xmlns="http://www.w3.org/2000/svg">
ℎ
(
)
相同的框架,直方图平滑可以应用于构建尺度空间映射意义的时间序列。在这两种情况下产生的意义地图被称为筛选器地图,但我们将谨慎地指出当我们使用密度估计或内核回归。
3所示。聚合数据gydF4y2Ba考虑到所有的病人,我们分析了多久他们记录了胰岛素,在一天的时间和总体趋势。在本节中,我们只关注的时间记录,而不是实际BGC价值。图<一个href=”http年代://www.newsama.com/journals/cmmm/2011/672039/fig1/" target="_blank">1一个>显示所有BGC阅读由病人分布在24小时。这是由高斯平滑内核与带宽被返回的数据驱动的带宽Sheather-Jones算法(<一个href=”#B13">11一个>导致带宽的51分钟。我们假定圆形统计避免午夜边缘不连续,尽管使用高斯分布而不是更合适但复杂·冯·米塞斯分配带宽远小于时期以来,这种·冯·米塞斯和高斯分布几乎相同。有时,鉴于读数<年代vghe我ght=”13。0125”我d="M54" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
,<年代vghe我ght=”10。8625" id="M55" style="vertical-align:-0.13794pt;width:66.574997px;" version="1.1" viewbox="0 0 66.574997 10.8625" width="66.574997" xmlns="http://www.w3.org/2000/svg">
=
1
⋯
,光滑<年代p一个ncl一个年代年代=”equation" id="EEq7">
在哪里<年代vghe我ght=”10。8” id="M57" style="vertical-align:-0.0pt;width:54.849998px;" version="1.1" viewbox="0 0 54.849998 10.8" width="54.849998" xmlns="http://www.w3.org/2000/svg">
=
2
4
h
常数是正常化<年代p一个ncl一个年代年代=”equation" id="eq5">
是标准的误差函数。这占了边缘效应,确保连续分布在午夜。自相关带宽,通过建设问题,远低于,<年代vghe我ght=”11。2” id="M59" style="vertical-align:-0.32603pt;width:44.037498px;" version="1.1" viewbox="0 0 44.037498 11.2" width="44.037498" xmlns="http://www.w3.org/2000/svg">
ℎ
≪
从术语的贡献<年代vghe我ght=”11。0625" id="M60" style="vertical-align:-0.30096pt;width:39.237499px;" version="1.1" viewbox="0 0 39.237499 11.0625" width="39.237499" xmlns="http://www.w3.org/2000/svg">
>
1
将是微不足道的。因此,我们使用<年代vghe我ght=”10。6875" id="M61" style="vertical-align:-0.0pt;width:39.237499px;" version="1.1" viewbox="0 0 39.237499 10.6875" width="39.237499" xmlns="http://www.w3.org/2000/svg">
=
1
,比如求和<年代vghe我ght=”10。7375" id="M62" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
只延伸到邻近的节点(<年代vghe我ght=”12。8875" id="M63" style="vertical-align:-1.76814pt;width:75.162498px;" version="1.1" viewbox="0 0 75.162498 12.8875" width="75.162498" xmlns="http://www.w3.org/2000/svg">
=
−
1
,
0
,
1
),只考虑<年代vghe我ght=”11。175" id="M64" style="vertical-align:-0.30096pt;width:77.650002px;" version="1.1" viewbox="0 0 77.650002 11.175" width="77.650002" xmlns="http://www.w3.org/2000/svg">
0
<
<
2
4
h
。有一个明显的峰值在上午7时左右,之后快速下降,在稳步下降。这反映了大多数患者需要一个BGC阅读在早上按医疗建议。一些测量完成了一天的人数稳步下降,直到午夜。