计算和数学方法在医学

在这一页上

文摘介绍讨论和结论附录的利益冲突确认补充材料引用版权相关文章

特殊的问题

预测模型基于统计学习生物医学

把这个特殊的问题

研究文章|开放获取

体积2017年| 文章的ID5271091| https://doi.org/10.1155/2017/5271091

非参数群的鉴定和购物车:模拟和应用研究

阿明奥特 ¹ 和亚历山大Hapfelmeier ¹

学术编辑器: 奥拉夫Gefeller用蒙太奇

收到了 2017年1月25日

接受 2017年04月02

发表 2017年5月22日

文摘

两种非参数方法的识别子组与杰出的结果值是描述和比较在一个模拟研究和临床数据的应用程序。病人规则归纳方法(的)在给定的搜索盒子形状区域数据超过最小尺寸和平均的结果。这是实现通过迭代相结合的剥落和粘贴步骤,小分数的数据被删除或添加到当前的盒子。作为一种替代方法,分类和回归树(CART)预测模型执行顺序数据的二元分裂产生子集可以被解释为异构的子组的结果。拘谨的和车比较模拟研究调查他们的优点和缺点在不同数据设置,考虑到不同的性能的措施。拘谨的表现优越等相当复杂的设置的一些观察,一个较小的信噪比,和多个群。在简单情况下购物车显示最佳的性能。这两种方法的实际应用说明使用一组临床资料。对于这个应用程序,这两种方法都产生类似的结果,但更多的用户参与的变得明显。整洁的用户可以灵活调整,而车,虽然容易实现,是静态的。

1。介绍

子群识别,特别是在高维数据的情况下,是一个常见的问题。目的是找到整个数据集的子集定义为协变量中利益分配的结果不同于其他地区。特别是在医学领域,有许多可能的应用方法,解决这一问题。例如,在个性化医疗的背景下,子群识别感兴趣的可以如果治疗效果提高或降低协变量定义的组患者基线(cf。1,2])或者它可能是希望找到子组患者高死亡率的风险(cf。3])。除了应用在医学上,还有其他字段的方法是有用的,如工业过程控制(cf。4])。

病人规则归纳方法(的)和分类回归树(CART)是子群的两个流行的非参数方法识别。他们使用本文中描述的两种不同的策略。整洁的不太常用,更详细地解释。制定了研究问题作为一个优化问题,一些目标函数最大化或最小化。一个简单的解决方案就是找到特定的值或地区为一组变量(共)条件的另一个变量(结果)极端值。这种方式,一个试图识别子组在整个数据集的结果(或其他标准)是高或低。相比之下,车提供了一个实证描述的条件分布的结果,因为它将数据分为不相交的子集。这些子集可能感兴趣的描述子组集中研究问题。拘谨的,车的性能评估小组识别,他们比较在不同的数据设置仿真研究和临床数据的应用程序。相应的R规范给出了补充附录c g在网上补充材料https://doi.org/10.1155/2017/5271091。

2。病人规则归纳方法(的)

拘谨的模型包括框定义子集(子组)和极端的结果值。盒子是由上下阈值连续协变量和协变量的子集水平的分类。主要的特点是他们的“目标”和“支持”,前者是盒内的目标函数计算的结果,后者描述观测躺在盒子里面的比例。后来在这一节中,将这两个值之间总是会有取舍的。结合两种算法称为“剥”和“粘贴”是用来适应模型在迭代方法(cf。5,6])。

2.1。剥

的主要成分的是所谓的自上而下的剥落。这种迭代算法从一个大盒子,其中包含的所有观测数据集。在每个剥一步,小分数(小格子)删除(去皮)从当前框的边缘,一次一个。所有这些可能的小格子的最大化目标函数在盒子里剩下的观察选择删除。如果目标是最小化目标函数,该算法行为结果相乘后以同样的方式与价值一开始,以便最小化问题转化为一个最大化的问题。

对于大多数应用程序来说,算术平均目标函数是一个有用的选择: 在这里,盒子里是观测的数量: 这结果迭代步骤后小格子是选择删除所有可能的小格子的类这样

在这种情况下只有连续的协变量,一组可能的小格子由如下: 与在哪里描述了分位数的观测变量它躺在当前箱子吗。

因此,观察以下分位数以上()分位数和剥落可以被视为一个metaparameter能够影响结果。通常选择一个小值(0.05 - -0.1),介绍了“耐心”算法。应该足够小,一个潜在的次优步骤没有太多影响结果,但也不能太小,否则盒子会强烈依赖于随机变化的数据。

剥落的过程反复进行,直到支持当前的盒子低于某个阈值,这样在哪里表示的指标函数返回值1,如果条件在括号中是真实的和0。

最低支持是另一个metaparameter需要由用户决定。这个参数的选择取决于分析目的,但它不应该选择太小,因为非常小的盒子有强烈依赖于数据的随机噪声。这样的结果将是对小数据集的变化非常敏感,容易过度拟合。

例1。剥离算法的一个简单的例子和箱子的顺序如图1。这里我们有一个二进制的结果协变量和两个指标和这是抽样从−10和10之间均匀分布。盒子有一个明显的结果是更频繁;因此结局的编码(0/1)远高于其余的数据。改善外观,选择在这个例子非常高吗。
在左边面板上部,只有最初的盒子包含所有数据点和四个候选框剥落的第一步。第二个和第三个图说明前两个步骤的算法和两个小格子和去皮的箱子。第四个节目持续到算法的结果的是达到了,所以至少包含所有的观察。这也清楚地看到,小格子与每一步都变得更小,因为- - -分位数只提到的数据都包含在当前的盒子。在这种情况下,最后一个盒子确定是

2.1.1。轨迹

剥落的图形演示步骤是由所谓的轨迹。土地价值目标函数需要支持在每个迭代步骤对应的框。用户可以判断一个盒子是“最优”从这个结局之间的权衡和盒子的支持。

潜在的轨迹图的例子1绘制在图2(黑点)。这里可以观察到的是,始于一个盒子有一个去皮的支持1和一盒的意味着什么。随着它的继续,支持减少和目标在大多数情况下增加。在当前的例子中,最小的支持是精心挑选一个点超出这盒子意味着得不到更大更多,这样它就不会建议继续脱皮。当然,在实践中,它不是那么简单,但是轨迹仍然可以帮助用户选择一盒符合特定要求的属性。

2.1.2。多个剥

轨迹可以是不稳定的,因为它取决于metaparameters等和随机噪声的数据。不同的值会导致不同的轨迹,表明小格子可能主导相互的支持和结局。一个盒子据说是由另一个箱子吗如果或

有两种选择来执行多个剥落。首先,不同值可以使用,第二,拘谨的可以应用于引导的样本数据,叫做“碰撞”(cf。7,8])。一般来说,最好的结果可以实现与两个选项的组合。在这一战略中,有两个metaparameters和,前者被引导样本的数量,后者被一个向量描述序列不同的剥落的分数。参数必须由用户决定现在必须处理之间的权衡计算结果的努力和善良。

例2。添加多个轨迹图的例子2(彩色点)。相同的数据被用作在图1。metaparameters设置和因此,对于不同的分数,剥皮应用一旦10倍的原始数据和样品在不同的引导。删除所有主导框后不会被选为最后一个盒子,得到一个清晰的图(红点)只有相关的盒子。再次,轨迹有一个明显的峰值约为。主导多个轨迹的盒子了小蓝点。

2.2。粘贴

所谓的自底向上的粘贴主要是剥落的补充策略。一盒由开始脱皮,这顺序算法扩大盒子再次超越其边界。这种方式,支持增加和目标函数也可能增加。都认为是有益的是为了找到足够的子组大小与平均增加的结果。这种改进的粘贴是可能的,因为在脱皮的步骤,决定边界条件只是局部最优,前面的剥落的步骤。该算法在随后的剥离步骤不向前看。因此,添加剂粘贴过程试图纠正这个缺点为了方法是全局最优的解决方案。

在粘贴,小格子的候选人加入当前的一个等价定义剥落。另一个metaparameter定义了小格子包含观测的比例。这个值可以不同值用于剥皮。最大化目标函数最终选择的盒子。粘贴将继续,直到目标函数对数据在箱子里又减少(cf。5])。另外,粘贴后可以继续一些步骤可能克服局部最小值下降。

2.3。覆盖

如果一个人试图确定几个子组,称为“覆盖”的策略。观察包含在一个盒子从数据集中删除,使呆板的寻找另一个在剩余的部分。继续这个过程,直到一些停止达到标准;例如,目标函数值或值和盒子不超过某个阈值的支持。除了这些标准,也可以定义一个最大数量的盒子。这是有用的在这种情况下,当用户知道他想寻找多少子组。

最终的输出是一组框可以合并到更大的区域有用的,如果给定的情况。如果盒子是用来预测的序列,它可以被视为一种“决策列表”(cf。9])。在这种情况下,预测新观察总是第一个盒子的盒子的意思是它属于列表。

例3。一个简单的例子覆盖图在图3。这里的数据在图类似1现在显然是两个地区的差异意味着增加的结果。在这种情况下,箱子的最低目标0.9至少支持0.01的要求:被设置为和被设置为。

2.4。用户参与

一个重要因素,不应被低估的是用户应用程序的参与。有许多可能性影响的方法,因此,最终结果。其中一个是metaparameters的定义和(和)。另一个是决定一个盒子是由用户通过查看(多个)轨迹。后者可能是大小或先验知识的指导下寻求的目标子集。此外,用户可以决定粘贴步骤,例如,选择。盒子的数量被发现在数据也由用户决定。

任何和值可能会导致一个结果,最适合申请人的要求。在这个意义上,他们不能作为优化调优参数,可以找到一个“最佳”的解决方案。因此,有人建议在5)应用的α值并使用交叉验证来避免过度拟合问题。

强劲的用户参与的一个优势是,它支持深思熟虑的决策和导致的结果,满足用户的需求。此外,用户需要让自己熟悉情况给定的数据和算法的中间结果,可以提供进一步的信息。一个明显的缺点是需要有合理的先验知识。太多的用户参与的风险也会增加过度拟合的算法给定的数据。

3所示。分类和回归树(CART)

车追求的目标相似的拘谨的;也就是说,它还定义了数据子集,但使用不同的策略。车是一种机器学习方法适合预测模型给定数据,递归地将数据分为两个不相交的部分通过最小化在每个部分结果的异质性。这种异质性量化一些杂质。算法的基本步骤可以被描述为一个简短的伪代码中完成(10]:(1)从根节点开始(整个数据集)。(2)协变量对所有,找到了分裂减少杂质之和的两个子节点,选择分裂在所有使最低和。(3)停止,如果达到给定的停止准则;否则,为每个子节点运行步骤2。

分类树用于名义上扩展的结果,不同的值。在这里,杂质指标是基尼指数。回归树适合定量结果。的杂质测量残差平方和。

由此产生的决策树模型可以说明了。相应的应用研究图的例子8。输出类似于呆板的,因为它定义子集,这解释了树子群的受欢迎程度识别。实现购物车的功能rpart ()在R包rpart(cf。11])。

4所示。比较拘谨和购物车

4.1。模拟研究

以下4.4.1。研究设计

下面的仿真研究与替代方法表现比较拘谨的车对识别子组的性能。在本节中,这些研究描述的基本结构和可能的因素能够影响结果。一些因素可能会被修改模拟运行之间的观测的数量(),协变量的数量(),协变量的扩展,协变量的协方差(协方差矩阵),结果的规模,存在的子组,子组的复杂性,子组的位置,和信噪比(效果比随机变化)。

在这项研究中,不同数量的模拟观测()采样和这些观察六个定量的输入变量从均匀分布生成: 在这个场景中,独立于彼此,这意味着没有协方差结构。

框,如图4是由和只有。定量的结果,这应该被重新分配和外框内,是由一个正态分布的随机样本,所以与如图4,使用一个或两个盒子有不同的大小。如果有他们两个,他们也同样大小的无重叠,而相同应用于。他们的支持需要的值,,,,,,分别。探索盒子上的立场的影响结果,情况都附带一个/两个框(es)躺在协变量的分布。的价值就越高选择,更大的子群的影响通过一个常数随机噪声在组(在这里,)。所以决定在这种情况下的信噪比。所有的模拟执行序列中的每个模拟重复250次。

4.1.2。评估标准

衡量一个算法的能力来识别给定的子组,相似的两个分类的标准是必要的。,可以量化预测的美好,由其中一个算法,通过比较真实的模拟数据的分类。这可以通过交叉表如表1。主要关心的是有多少观察正确分配(TP、TN)相比不正确(FN和FP)分配。

两个标准,解决这一问题的敏感性和特异性。这些可以计算如下: 敏感,这也被称为真阳性,描述积极观察的比例(即。,属于真正的子群)正确识别算法的子群的一部分。特异性、真阴性率描述了负面的比例观察正确归类为不属于一个组。两种测量范围从0到1,他们仅仅是有用的,如果他们被认为是在一起。

相关标准,结合敏感性和特异性是Youden J统计(cf。12),可以计算的这同样统计权重敏感性和特异性和归一化,这样需要值0,平均而言,如果分类算法是完全随机的。它不依赖于支持预测子群的大小。本例中的值1是如果两个分类是完全相同的。因此,Youden J的统计是一个合适的标准比较预测分类之间的协议和真正的分类。

敏感性和特异性的估计可能会有偏见,如果在训练数据上执行。据,测试数据组成的另一个10000年观测是来自相同的数据生成过程,为了获得足够精度的无偏估计(13]。

应该指出的是,上述统计都是常用的诊断测试评估。然而,他们的上下文中适当可以应用子组的识别,完成,例如,在14]。

4.1.3。设置的应用功能

在这项研究中,三个不同的子组的识别方法进行了比较,其中两个是变化的。

节中描述2.4,用户参与的戏剧这意味着它是不可能的一个重要组成部分来指定应用程序的一般规则的。因为这个原因,两种不同的方法之后,第一个反映用户参与,对于支持大小是最优的。这意味着用户知道真正的子组大小,在大多数情况下这是一个过于乐观的场景。仔细调查轨迹至少可以帮助近似最优的结果。总之,这个算法寻找一个或两个盒子通过最大化盒子意味着所有盒子大小至少拥有真正的支持。

第二个拘谨的变化是寻求最大的盒子可能的支持对于一个给定的最小框的意思。因为真正的盒子的意思范围从0到3,有些情况下包括模拟用户低估或高估了真正的盒子的意思。这种方法应该代表,而“坏”或天真的用户参与,因为用户总是坚持同样的假设独立的现状(总体的意思是,轨迹,等等)。

这两种方法将代表可能的用户参与的极端。在现实中,结果可能介于两者之间。被设置为每一次。引导抽样不执行限制所需的计算工作,由于我们的经验,更重要的是几个过程值来代替。在这两种情况下,箱子的最大数量由拘谨的真子组的实际数量限制。

第三种方法是一个版本的车。的R函数rpart ()从包rpart(cf。11])是用于实现购物车。因为使用的结果是连续的,回归树。当有一个或两个真正的子组,最高的叶子或最高的双扉意味着结果确定(s)估计的子群。公平的比较,因为盒子发现的最大数量的限制,树的最大深度车也是有限的。这阻止它们成为不必要的复杂。因此,树的最大深度(对应函数参数maxdepth)根据需要设置为4和8的一个或两个真正的子集,分别。在盒子躺在利润的情况下,该参数被设置为2或4。

第二个版本的车也被实现,树的最大深度不是有限的大幅值为30。这棵树被安装后,修剪,以减少其旨在预测误差。这个过程的目的是模仿申请者通常做什么。

最低支持beta_min被设置为第二的版本(拘谨的),因为一片叶子的默认大小rpart ()至少7观察。在第一个版本(拘谨的(选择。)),beta_min已经由实际支持大小决定的。

4.1.4。结果

一个真正的小组。图5情节的观察值的敏感性、特异性和Youden J统计(14每个方法的效果对于不同大小的支持对于一个真正的子群和总体样本的大小。相应的四分位范围的250只运行误差线(虚线)。

小集中子群所有方法的特异性很高。这很容易实现在这种情况下,即使对于算法检测没有子群,小姐,这是真正的子群。因此,应该专注于结果的敏感性。为每个方法,除了车(修剪),中值灵敏度增加而上升的效应大小。整洁的选择。)得益于正确的先验知识关于子群的实际尺寸和性能最好。为整洁的()是在一个类似的水平。类似的结果在敏感观察和有一个重要的区别是它车显示了性能优越,除了小尺度效应。整洁的(),有一个明显的减少的特异性。后者的趋势可以解释这种方法选择太大的子组如果真子群有实际意味着大于一个搜索。整洁的(选择。),小的特异性略低。原因是输入参数的压力下,被迫选择一个小组至少有真正支持的大小。所有方法显示出更好的性能为子躺在输入空间的边缘的。在这种情况下,两个车比呆板的方法似乎表现得更好。

表2列出运行的子群的比例是预测的方法。整洁的选择。)和购物车(maxdepth)的组合大小和真正的支持在100%的情况下,找到一个小组。即使事实上没有子群,也就是说,总是,这两种方法预测。因此,显示的方法在这种情况下,假阳性率100%。至少在整洁的选择。),这个结果并不令人惊讶,因为没有约束关于箱子的意思是,这使得算法总能找到子群与指定大小的支持。只有呆板的方法()和购物车(修剪)并不总是预测子组,这就是为什么他们误判率低,没有子群()。真子群变得越大,越频繁的方法检测子组的急剧增加。与结果的灵敏度(cf方法。图5),我们可以得出结论,虽然方法(几乎)总是找一些,直到增加效应大小,这些发现显示一些一致性真正的子群。

到目前为止,与一个真正的子群和案例观测提出了。结果和是相似的,因此附件所示一个。一般来说,所有方法预测子组比低的观察,购物车显示最强的改进。

两个真实的子组。从最低样本量(),观察到的中位数和四分位范围相应的敏感性,特异性,Youden J统计见图6。运行的比例预测子组也列在表中2。

独立的影响的大小和增加支持真正的盒子,拘谨的选择。)再次得益于正确的盒子大小规格寻找和总是表现最好的方法在灵敏度方面,如果子组不躺在边上。整洁的()只能赶上高值的影响大小,也就是说,当其规范关于搜索的效果变得正确,。车的性能随尺寸增加支持。这一缺陷可能是由于众所周知的事实,该算法往往无法找到一个有用的第一次分裂chessboard-like“异或”问题(cf。15])。切换子组的位置对输入空间的边缘使两车版本明显改善。指特异性,所有方法显示很好的表现,同时可以观察的下降值(选择。)和拘谨的(分别)和高尺度效应较低。类似的结果增加样本大小的和附录中给出了B。车再次显示了最明显的改进,在这里。

4.2。应用临床数据

在本节中,拘谨和车的应用说明使用真实数据的例子。数据集PimaIndiansDiabetes2已经从R包mlbench(cf。16])。它包含768观察从个人测试“积极的”或“负面”糖尿病。数据是最低21岁和女性的皮马印第安人传统。从768名妇女268例(35%)阳性,500(65%)测试呈阴性反应。除了结果变量,数据集包含8协变量量化:怀孕了(怀孕),葡萄糖(血浆葡萄糖浓度(以葡萄糖耐量试验)),压力(舒张压(毫米汞柱)),肱三头肌(肱三头肌皮肤褶皱厚度(mm)),胰岛素(2小时血清胰岛素(μU /毫升)),质量(身体质量指数),血统(糖尿病血统函数),年龄(年龄在岁)。

分析的目的是确定协变量之间可能存在的相关性和积极的测试结果的出现可以解决通过寻找子组与糖尿病的比例很多情况下。

有一些缺失值分析方法需要处理。他们中的大多数可以在变量肱三头肌和胰岛素绝对频率(相对)227(30%)和374年(49%)。所有768年观察,只有392(51%)完成情况下,吸引着完整的案例分析的合理性问题。

数据见图7成对协变量的散点图。这个数字给人的第一印象如何分布及其两两相关性的变量。例如,似乎有一个很强烈的正相关性肱三头肌和质量连同其他一些中、弱相关性。结果也可以派生关系,指向潜在候选人分裂准则。似乎女性高葡萄糖和质量(BMI)值更容易患有糖尿病。

一个分类树(cf部分3)是适合使用的数据的功能rpart ()默认设置。这棵树被修剪根据1-SE规则(cf。17])。生成的决策树如图8。缺失值处理车通过代理内部分裂(cf。18])。建议从图7的变量葡萄糖和质量可以把数据也证实了这棵树,这些变量也用于分割规则。年龄在这个模型也有预测价值。

自的目标是找到一个亚组与糖尿病的比例很多情况下,最高的叶子结局可以看作是这群车。所以车定义的高危人群,这也可以被看作是一个盒子包含92个(12%)的观察,平均的结果和被定义为

整洁的应用一旦使用奇异没有引导和脱皮一旦使用多个剥落引导样品和向量。它也可以处理缺失值的协变量如果应用所显示弗里德曼和费舍尔(5]。在这种情况下,所有缺失的值在一个协变量被当作一个类别,所以在每个剥落和粘贴步骤整个类别可以去皮或粘贴从目前的盒子。这种方式,该算法倾向于使用代理变量而不是变量与许多缺失值。如果显示缺失值的类别用于框定义,这表明失踪的数据可能不是完全随机的。

轨迹如图9,多个剥落为主箱子被移除。多个剥奇异似乎只提供小的改进版本。轨迹都很光滑,这样他们不显示一个明确的选择框。用户需要一个深思熟虑的决定基于主题特定的知识。这种灵活性是一个可取的属性拘谨的,很少用其他方法。

例如,如果目标是寻找一群积极测试至少80%的女性的比例和最大支持(通过使用多个轨迹),由此产生的盒子可视为一个被定义为高危人群

再次,变量葡萄糖,质量(BMI)年龄购物车中,也发挥了重要作用模型,使用。此外,该变量肱三头肌和胰岛素进一步定义框限制。关于BMI,缺失值排除在盒子里。这可能表明一个值的概率之间的关系失踪,结果。

通过这个简单的框定义,数据可以分为一个小组与结局非常高()包含140 ()观察和一组包含其余的观察与一个相对较小的意思是()。覆盖的过程,可以寻求更多的盒子。这将导致识别的三个箱子的意思,,包含37个(5%)、29日(4%),分别和29例(4%)。剩余的533观察糖尿病检测呈阳性的比例约为。

5。整洁的生存数据的扩展

如前所述,最初的拘谨的算法只能处理量化和二进制编码(0/1)的结果。一个有用的扩展,特别是在医学领域,使呆板的处理审查生存的结果。在这种情况下,每一个观测提供了生存时间和一个指示器1如果事件发生在以价值如果观察是审查和0。建议延长的是使用故障率为最大化的目标函数。

时间常数的假设下的风险,子组可以寻求不同的生存与这个目标函数。

应用实例。为了说明拘谨的审查生存数据的应用程序,数据集“白厅1”(19使用了)。从未来,横断面队列研究的17260名男性英国公务员在伦敦工作。本研究的目的是检查一些基线变量的影响在死亡的风险由于冠心病(CHD)。因此,死于冠心病的时间测量参与者作为审查的生存时间。另外,以下变量测量:香烟(每日香烟消费),地图(平均动脉压),年龄(年龄(年)),ht(身高(厘米)),wt(重量(公斤)),胆固醇(胆固醇(更易/ L)),jobgrade(工作成绩(名义))。

发现死于冠心病的风险高的子组,拘谨的应用与故障率目标函数通过使用多个剥落,,。自不主导盒多个轨迹形成一个平滑的曲线,用户几乎可以选择每一个盒子的。所以盒子中定义一个变量的比例可以解释为包含该变量的概率定义子群,如果用户选择随机的盒子。

在这个数据的例子中,我们得到降低变量的边界年龄,地图,胆固醇,香烟在99%,80%,31%,和17%的相关的盒子,这表明这些变量的增加与增加冠心病的风险。这个结果是类似于报告的一个20.](p。142),作者用分段多项式与逻辑回归模型10年存活率,他们得出结论,在年龄的增加,香烟消费、胆固醇、体重和平均动脉压与增加患冠心病和高度的相反。

6。讨论和结论

整洁的,节中描述2是一个非常灵活的工具,识别数据显示区域的增加或减少的结果值。除了呆板的,还有其他的方法追求同样的目标不同的策略,如购物车。

在仿真研究中,两种方法的优点和缺点。拘谨的似乎是更好的选择在一些相当复杂的数据设置小的子组,一些观察,和小尺度效应。在所有其他情况下,车是一个有竞争力的替代和显示优势相当简单的设置。这个微分行为很难给出一个普遍规则的方法应该是首选,尤其是在复杂的问题通常是未知的申请人。

整洁的用户参与高(见部分2.4),它可以强烈影响的美好结果。Misspecification子群的性质,即意味着结果和尺寸,可以大大降低性能。这也明显在仿真研究中,两个不同版本的呆板的应用模拟不同的代理用户。这两个版本在某些情况下(特别是在简单的数据设置)不同。这一事实强调了用户之间亲密互动的重要性和拘谨的算法,例如,通过查看轨迹获得一个合适的结果。

一个真实数据的例子展示了这两种方法可以申请小组识别。在这里,两种方法相似的结果。一遍,用户可以灵活调整的有关他们的需求,而车,虽然使用简单,是静态的。

r映射实现。本文中描述的所有的特性和一些更多的实现R包整洁的可在GitHub (https://github.com/ao90/PRIM)和手动记录功能。包包含额外的函数图形描述的诊断和其他功能(5]。

附录

答:进一步仿真结果与一个真正的子群

参见图10和11和表3和4。

b .进一步仿真结果有两个真正的子组

参见图12和13和表5和6。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的德国慕尼黑技术大学研究基金会(DFG)和在开放获取出版资助项目。作者对她的帮助非常感谢Lynne Stecher校对的手稿。

补充材料

附录C: R-code创建的数据手稿。

附录D: R-code申请4.1节的模拟。

附录E: R-code插图的4.1节的仿真结果。

附录F: R-code糖尿病数据的4.2节的例子。

附录G: R-code白厅数据的第五节的例子。

补充材料

引用

j·c·福斯特,j·m·泰勒和s . j . Ruberg“子群识别从随机临床试验数据,”医学统计,30卷,不。24日,第2880 - 2867页,2011年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
j·c·福斯特子群识别从随机临床试验数据和变量选择[博士。论文),密歇根大学,2013。
南宁,a . Abu-Hanna和e·德容,”应用的(病人规则归纳方法)和逻辑回归很老年ICU患者选择高风险的子组,“国际医学信息学杂志》上,卷77,不。4、272 - 279年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
D.-S。夸克,K.-J。金,M.-S。李,“多级拘谨的:病人规则归纳方法优化多级制造过程,”国际期刊的生产研究,48卷,不。12日,第3473 - 3461页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
j·h·弗里德曼和n。费舍尔,“撞狩猎在高维数据,”统计和计算,9卷,不。2、123 - 143年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
w . Polonik和z王”的分析,“杂志的多变量分析,卷101,不。3、525 - 540年,2010页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
r . Tibshirani和k .骑士”模式搜索和推理的“引导”、“技术。代表,多伦多大学,1995。
视图: 谷歌学术搜索
b·埃夫隆和r . j . Tibshirani介绍以引导57的卷专著的统计数据和应用概率美国,纽约,纽约,1993年。
视图: 出版商的网站 | MathSciNet
r·l·莱维斯特“学习决策列表”机器学习,卷2,不。3、229 - 246年,1987页。
视图: 出版商的网站 | 谷歌学术搜索
W.-Y。Loh,“分类和回归树”,威利跨学科评论:数据挖掘和知识发现,1卷,不。1、5、2011页。
视图: 出版商的网站 | 谷歌学术搜索
t . Therneau b•阿特金森和b·里普利,“递归分区和回归树,”http://CRAN.R-project.org/package=rpart。
视图: 谷歌学术搜索
w . j . Youden“指数评级的诊断测试,”癌症,3卷,不。1、32 - 35,1950页。
视图: 出版商的网站 | 谷歌学术搜索
t . Hothorn f . Leisch a Zeileis, k . Hornik“基准实验的设计与分析”,计算和图形统计杂志》上,14卷,不。3、675 - 699年,2005页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
I.-G。庄和学术界。小君,“灵活病人规则归纳方法优化过程中的变量离散型,”专家系统与应用程序,34卷,不。4、3014 - 3020年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
t . Grubinger a Zeileis, K.-P。菲佛,“evtree:进化学习全局最优的分类和回归树R,”杂志的统计软件,卷61,不。1、1至29,2014页。
视图: 谷歌学术搜索
f . Leisch Dimitriado, e u,“机器学习基准问题。”http://CRAN.R-project.org/package=mlbench。
视图: 谷歌学术搜索
l . Breiman j·h·弗里德曼,r . a . Olshen和c . j .石头,分类和回归树,1984年沃兹沃思。
t . m . Therneau e·j·阿特金森et al .,介绍递归分区使用Rpart例程,1997年梅奥诊所。
p·罗伊斯顿、g . Ambler和w·Sauerbrei”使用分段多项式模型连续在流行病学、风险变量”国际流行病学杂志,28卷,不。5,964 - 974年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
p·罗伊斯顿和w·Sauerbrei多变量模型:一个务实的方法基于分段多项式回归分析建模连续变量约翰•威利& Sons 2008。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1755年

下载

1112年

引用