文摘

学习疾病严重程度评分自动从收集的测量可能援助质量的医疗和科学的理解。已经采取了一些措施在这个方向上和机器学习算法从数据中提取评分功能。考虑到快速增长的数量和多样性的数据测量和存储,大量的信息成为学习算法的一个挑战。在这项工作中,我们研究的方向问题,测量变量的维数很大。学习程度得分在这种情况下带来的问题相关的测量功能。我们已经提出了一个新颖的方法通过结合现有配方的可取的属性,与选择的准确性和特别是在学习得分函数的鲁棒性。该配方具有非光滑的点球,诱发稀疏。解决这个问题是解决双重光滑,并允许一个有效的优化配方。该方法可以作为有效的和可靠的工具得分函数学习和生物标志物的发现,证明通过识别一组稳定的基因相关流感症状的严重程度,丰富了相关的几种流程。

1。介绍

疾病和其他健康问题需要持续的监控和评估对象的状态。病情的严重程度需要量化,这样它可以用来指导医疗决定,允许适当的和及时的干预措施。疾病严重程度评分函数通常用来量化一个病人的病情。然而,疾病严重程度和健康通常很难量化。因为从本质上说,他们是潜在的概念而不是直接访问或可观测。在一个缺乏健康的直接测量,一个条件的严重程度估计基于可观测的一些代理变量值,希望相关的丰富信息,感兴趣的条件。在临床实践中,通常跟踪变量包括温度、心率、血压,和响应性,等等无数可能的其他变量。严重程度评分随后使用一些启发式规则从这些可观测的数量计算。突出的例子这样的规则是沙发(1分数为脓毒症,或更一般的ICU评分系统(比如APACHE II (2]。相关变量和相关的启发式规则都是建立在一个共识的专家机构和相关机构根据经验和当前条件的理解。这一过程是冗长而乏味的,往往导致大量粗评分规则和一套nonoptimal相关的可观察到的变量。

尽管利用数据一直是这个过程的一部分,最近承认,它可能是改善/补充利用机器学习的方法可以自动提取规则和相关变量直接从数据。已经有许多方法自动学习的严重程度得分/规则数据。一种方法是使用离散类标签用于构建分类器,随后使用的概率样本属于某个类严重程度的量化指标(3]。另一个监督学习方法是严重程度评分函数回归的方式(4从严重程度高度相关的一些代理流不受欢迎的结果。一个缺点是它已经需要一个好的候选人得分函数。一个额外的问题是,它可能是敏感审查由于治疗,严重的国家并不承认,因为治疗阻止不受欢迎的结果发生。提到的一些缺点在最近的一个方法解决5,6)是基于一个聪明的观察,比较两种情况下根据严重程度比直接容易评估量化具体情况的严重性。它是建立在现有的信息检索任务的工作学习得分函数(7]。然而,即使这种方法可能在某些情况下是不恰当的,因为它学习程度分数作为所有测量变量的函数,这将影响其性能当有无关的特性或功能的数量远远高于样品的数量(8]。从本质上讲,特性无关的严重程度甚至会出现在小的测量变量,在高通量测量基因表达,这可能是一个更大的障碍。

在本文中,我们提出一个解决问题的方法的学习疾病严重程度评分存在无关或高维测量。我们现有的努力的基础上同时执行功能选择最相关的严重程度得分学习。特别是,我们介绍 制定规范的SVM(排名7]随着时间平滑约束(6]。有吸引力的正则化的属性 规范已经承认和利用的统计学习方法介绍[以来9]。稀疏程度分数学习部队的提议制定(大部分)的权重特性完全为零,因此有效地执行特征选择通过学习稀疏线性评分函数。这部小说严重程度得分目标函数是凸和非光滑,它排除了直接使用方便基于优化工具如梯度方法。因此,在这项工作中,我们也提供问题的再形成成双,是光滑的,允许高效的优化。除了学习的严重程度评分数据,评估严重程度的一个重要工具,方法也可以用来发现最相关的变量/疾病严重度表型特征。这些发现可能会进一步用于显示小说(测试)假设因果关系导致疾病表现和激发新的治疗方法。

本文的其余部分的结构如下:方法首先介绍相关工作和继续新配方和推导的解决方案。始于评价结果直观合成例子稀疏程度得分在nonsparse框架的优点是显而易见的。结果继续评估H3N2病毒感染反应的基因表达数据集。该方法的有效性和鲁棒性优于反对多个替代方法。结果与基因本体群体分析总结发现最有用的基因子集的得分函数。

2。方法

2.1。之前和相关工作

所介绍,首次提出严重程度评分的一些学习方法是监督方法解决分类或回归的任务和解决方案提供了一种方法来计算严重程度评分。

例如,在[4阿尔茨海默氏症严重程度,以认知得分来衡量,是建模为(时间)多任务回归使用稀疏集团套索融合方法。的方法是更关注疾病的进展,因此多任务制定。然而,当我们感兴趣的主要是严重程度得分映射从单个时间点的测量,我们提出更有影响力的祖先,套索模型(9]:

在这里, 是列向量 鉴于数字分数,联系在一起 尺寸测量矩阵 , 表示形式的解决方案 维列权向量。我们将使用这个模型的基线进行比较,因为它是一个主要的生物标志物的选择(10),甚至统计学习。

另一种方法使用sparsity-inducing 规范结合古典损失函数学习疾病严重程度评分函数(3]。他们提议使用 正规化的逻辑回归模型(等),模型异常的严重程度评分的头骨在颅缝早闭的情况下:

这种稀疏逻辑回归公式是另一个相关的模型,因为它还导致一个稀疏向量的特征权重 基本上回归类和严重程度之间的决策边界可能用作严重性映射函数的分数。在(2), 是一个二进制标签吗 行数据矩阵

概述之前,这些形式的监督,严重程度评分函数的估计(或类)严重程度可能难以获得需要为了用于自动训练严重程度评分。另一方面,获得双比较是一项容易的任务。开创性的工作学习比较的评分函数标签提出了(7]。在工作中,排名SVM配方(见(3)开发从点击率学到更好的文档检索数据。这个伟大的见解来自注意到自动点击链接相比有更大的排名没有点击的。和这样的数据比用户提供更丰富的排名。

由比较下令对吗 ,在那里 排名高于 对应于测量矩阵的行 ,分别。最近学习的方法是采用脓毒症疾病严重程度评分(5]。在它(见(4)),得分函数的约束应该逐渐发展了,因此添加一个时间平滑项。此外,非光滑铰链损失( )被替换为其光滑近似,Huber损失( ),获得的制定(线性)疾病严重程度评分学习(DSSL)框架:

时间平滑项(4)惩罚高比率的变化程度在连续时间的步骤 一个主题 所有连续对受试者用 和常量 hyperparameters决定各自的成本损失。

以不同的方式DSSL采用框架和扩展。提出了一种多任务DSSL (11),利用矩阵范数正规化多个不同的任务。非线性DSSL框架的版本,以及其解决方案形式的梯度提高了回归树,也提出了(6]。不过,提到DSSL密度方法在某种意义上,他们操作所有的变量(在一个线性版本的情况下,所有系数是典型的非零)。该方法在11)是基于贵近端梯度优化算法,这使得它不适合高维问题。实用的方法(6]给出了一个应用程序与适度小数量的不同的临床信息,重要器官,和实验室分析变量和不清楚的方法将执行情况与高维数据中常见的高通量的技术,比如遗传基因组、表观遗传,蛋白质组学,等等。

然而,高通量数据也是一个非常丰富的有用的生物标记物,可用于诊断和预后的目的,以及获取洞察因果关系12]。因此我们提出一个方法,能够学习一门(暂时平稳)得分函数从比较数据同时执行的选择最相关的变量(重要)。

2.2。提出了模型公式

稀疏学习的疾病严重程度评分(SLDSS)配方,我们结合有吸引力的属性(前面提到的方法和术语),排名SVM(见(3))(7),时间平滑约束(见(4))(6),而 规范从稀疏的方法(见(1)和(2))(3,9]:

事实上,由于该模型实施 规范的特征向量 ,它就像弹性净正规化(13),一个优势实现高稳定对随机抽样的14]。

解决方案 的优化目标中定义(5)作为一个稀疏线性函数 可能应用于测量新病人,获得一个标量值的严重程度可能会比之前评估的情况下,通知进一步行动。稀疏的向量 也可以作为一个指标的特性是最具影响力的两两比较。制定包含两个非光滑, 和铰链损失,因此它不是直接使用现成的梯度方法可以解决的。DSSL配方,(nondifferentiable)铰链损失近似两次可微的Huber损失,从而使优化准则可以使用二阶梯度方法(例如,牛顿和拟牛顿)。为了提供一个有效的解决方案提出了非光滑目标,我们将解决光滑的双重问题,而不是依靠光滑近似或非光滑优化工具。

首先我们重写(5)到一个更合适的形式,我们将稍后提供光滑的对偶问题。我们总为单一数据测量矩阵的差异 ,在哪里 是一套的成对比较 同样,我们测量和时间差异率表示为矩阵 ,排在哪里 是一组连续测量的对吗 我们总 规范和时间平滑术语(从本质上说,他们是权重优化参数的平方)成一个加权二次项 ,在那里 , 维单位矩阵。前两个条件,加权二次范数和铰链损失,类似于众所周知的SVM判别函数,我们将在其“软”的形式重写额外松弛变量 及其相关的约束。额外的“哑变量” 介绍了 术语,琐碎的约束 。现在的方程改写SLDSS读取

现在我们把这个不等式和等式约束问题的拉格朗日对偶。约束是搬到准则函数作为刑法条款由拉格朗日因子加权 , , 的方程SLDSS对偶问题

考虑到优化标准是凸可行(斯莱特的条件是15)、强对偶性允许转换最大化和最小化的顺序(7),并且最小化在原始变量可以安全地执行。现在我们根据原始变量分析表达式 , , 并找到他们每个人的最小化条件。

双重配方是二次函数的参数 我们可以找到其最佳形式作为新自由参数的函数中引入双(通过将其梯度为零):

同样,松弛变量的表达式 双变量的线性组合,它是最小的方向梯度时等同于零向量,给出了最优条件的形式一个等式约束:

产生的等式约束 结合不等式 可以减少到一个约束 ,删除 从进一步考虑。

在最小化虚拟变量 ,我们使用凸(Fenchel)共轭函数的表达式15),获得最优条件在无穷范数不等式约束的双变量:

当最优(最小化)条件(见(8),(9)和(10在双重配方)取代(7),就

在否定(11),把它变成最小化问题简化表达式后,最终问题公式化

原非光滑问题变成了光滑的对偶问题,可以解决其两套参数 由于强大的二元性,解决双是解决原来的问题,和最优权向量 可以检索双堵塞的解决方案后, ,到(8)。

类似的双重配方,只是没有虚变量 和相关乘数 ,可用于DSSL确切的铰链的损失,而不是最初提议DSSL使用Huber损失近似(6]。

2.3。优化算法

可微的双重的12),事实上,有箱约束的二次优化问题:

(有现成的工具来解决这个问题13),我们利用内置的Matlab quadprog解算器,它被实现为一个投影与有效集方法。

3所示。结果

3.1。严重程度评分对合成数据特征

拟议的框架的初步评估,我们与属性,生成一个合成的例子激励的方法。如果大量的变量测量,许多预计将无关的严重程度的评估。

我们定义的严重程度评分的线性组合强度启动后的第一个10特性的一组100人。此外,我们设置系数有不同的大小,预计贡献不同变量的不同层次(图1(一))。其余九十特性不会影响严重程度得分;他们是不相关的,只有引入不确定性问题。用于培训目的,价值观的特性从一个均匀分布的随机抽样10虚拟对象与10个不同的测量。严重程度评分与体重相关的基于线性函数描述图1。比较标签(双)生成所有可能的对的第一个元素(样本)更高的严重程度得分比第二个元素。这个需求之间的巨大差距的严重程度对服务模拟的情况医生可以声称,高的信心,一个病人在比另一个更严重的情况。这样生成的训练数据是利用稀疏的摩门教,DSSL(密度)和DSSL模型训练的 相关的特性,我们叫理想DSSL表1

所有的模型进行了测试比较对从一个额外的50个测试对象10测量。测试数据生成同样的协议作为训练的解释,除了阈值所需的分数差别是几次低,为了看看学习函数推广更微妙的差异情况。

预测性能测量“准确性”(15),总分数的正确命令的例子,这意味着一个线性函数分配更高的分数第一个组件的一对。表中给出的结果1表明,学习一个密集的权向量损害模型的预测精度,在学习稀疏向量,使用SLDSS,接近理想模型的准确性,通过学习相关特性已知的疾病严重程度评分。图1显示了学会了严重性的权重函数,它可能是看到密集的测试精度降低的原因DSSL方法(图1 (c)),因为它指定非零权重(设计)完全无关的特性。

3.2。特征尺寸分析

我们探索的数量无关的特征如何影响模型的性能。这次我们取样100例(10每个时间步样品),10000的特性,只有前10为真正的得分。我们不同特性的数量从10(所有特征信息)10000指数逐渐增加(10;30;100;300;1000;3000;10000]。结果呈现在图2信息显示,当所有特性(10的10)DSSL比SLDSS略好。然而,只要无关的特性,比DSSL SLDSS方法变得更加准确。随着越来越多的无关紧要的维度,这两种方法的性能降低,然而SLDSS速度较慢。

3.3。样本容量分析

我们也调查了训练样本的数量如何影响排名的预测性能的方法。我们生成另一个合成组100例(每10个样本)。所有样本有100个功能,第一批10相关地面真理得分。从这些生成的例子,我们建造357355比较对培训。我们不同的样本数量对,通过随机抽样从10到300000年指数进步增量(10;30;100;300;1000;3000; 10,000; 30,000; 100,000; 300,000]. From the results on holdout testing set, presented in Figure3,可以看出,准确性与训练对的数量增加,比DSSL SLDSS总是更准确。的理想DSSL总是训练只有10相关特性,一直是最准确的。

3.4。甲型流感病毒的严重程度评分

为了进一步评估建议的方法,我们应用它来学习H3N2流感症状的严重程度。利用数据集(http://people.ee.duke.edu/ ~ lcarin / reproduce.html)包含暂时收集基因表达的测量人体感染H3N2病毒(16]。收集的样本在多个场合期间(大约每8小时)病毒接种后的一个星期在主题。同时,他们的症状的严重程度是跟踪(约一天两次)和临床评估使用修改后的杰克逊分数(17]。当测量时间点并不完全与严重程度得分估计,估计是最近的暂时与基因表达载体。高维度的测量(12032个基因),暂时收集样本,和相关的严重程度得分估计,这个数据集是适合测试提出的严重程度得分学习框架。除了直接的评估严重性分数,可用于回归,数据样本也伴随着类标签“症状”和“无症状”[18基于修改的值),杰克逊的分数。我们的比较对生成过程遵循的指导方针提出了(6]。理想情况下,一个专家会出现双和评估哪一个看起来更强烈(对感兴趣的属性),根据目视检查,临床报告,或任意方便的来源。替代方法是使用现有的评分系统来生成比较对,对于这个应用程序,我们利用杰克逊得分。我们生成的第三个标签类型通过提取所有可能对样本的第一个组件与一个得分明显比第二个大。在我们的实验中,通过设置一个阈值定义的“实质”是为测试5培训和1。

在描述数据集包含267个样本(17个学科,约16每时间样本),相比我们有4种方法的预测性能:(1)稀疏学习疾病的严重程度评分(SLDSS)比较对(2)学习“密集”疾病严重程度评分(DSSL)比较对(3)套索回归直接的严重程度评分值(4) 正规化的逻辑回归拟合二元分类标签上症状的严重程度。

所有枚举方法导致的功能权重向量可以用作得分函数。除了DSSL导致一个密集的权重向量,所有其他方法通常只有少量的非零权重,而所有其他人都等于零。

我们提到的方法相比在一个10倍交叉验证过程(所有样品属于一个主题都是在培训或所有测试折叠),结果如表所示2

在实验中,nonsparse方法(DSSL)最低精度,它提供了证据表明,稀疏方法是有益的。套索是最准确的,因为它直接访问地面真值(潜在的分数),而其他的方法只有部分信息的访问。逻辑回归只有信息如果分数大于某个阈值,而DSSL SLDSS只知道,对列表的元素在一个给定的一对有更高的分数。,另一方面,限制了套索情况得分函数的应用程序已经存在,从而减少学习它从数据的必要性。在学习的方法间接信息的潜在价值分数(比较双和严重性类),我们SLDSS是最准确的。

3.5。鲁棒性选择的功能

我们也有兴趣使用SLDSS特征选择条件发现最相关的变量。因此,我们执行额外的分析对所选择的特征的鲁棒性(稳定性)。鲁棒性选择特性的特征选择算法是一个非常重要的方面,相对忽视了直到最近19]。各领域旨在找到合适的变量的子集,允许可靠的预测,有候选人搜索越多,越难找到合适的子集。特征选择方法发挥着至关重要的作用,但当数据的维数远高于样品的数量,一直找到高质量的解决方案的期望降低(20.]。另一方面, 正则化模型更少要求样本量相对于旋转不变的模型( 正则化模型、支持向量机、人工神经网络、和DSSL样本复杂性的增长至少数量的线性无关的特征),随着他们的样本量要求维度的对数(无关紧要的)特性(21),所以他们都是一个有吸引力的工具,这样的任务。

鲁棒性是一个量化的指标不同的训练集如何影响算法的关联到特定的特性和提出(有不同的措施22]。在这里我们使用了常见的三个:(1)皮尔森系数(见(16)),该措施权重向量之间的相关性 学会在不同的数据(子)集和告诉大小重量的稳定性。在权向量作为线性函数时,它还告诉学习函数的稳定性如何。 (2)斯皮尔曼ρ指标(见(17)),它衡量的订单(排名) 权重的 不同的训练集之间大小保存。是很重要的,例如,在密集的方法,特点是选为一些高级特性,根据权重的大小。 (3)Jaccard指数(见(18)),衡量两个离散集之间的重叠 非零的特性 ,归一化与他们联盟( 基数操作符)。Jaccard指数是最相关的测量提到的(三)关于选择稳定的特性,作为研究框架选择功能的一组离散的非零特征。

所有四个严重程度评分一致性/学习方法评估基于三种稳定鲁棒性措施(见(16)- (18)),通过一个10倍交叉验证过程H3N2数据。稀疏的水平与自由参数调优(稀疏方法),产生的平均数量(超过10倍)的非零特征大约100 12032种可能(SLDSS ;套索 ; LogReg ),结果呈现在图4和总结在表3。DSSL密度的方法,与他人相比,根据Jaccard指数,通过只有前100功能最大的大小根据每个单独折叠。结果表明,这里提出SLDSS方法是最稳定的一个根据三种措施。这意味着学习最稳定的严重程度得分函数(根据皮尔逊相关性),以及最稳定的非零特征(根据Jaccard指数)。这个证据表明SLDSS是找到最可靠的信号数据,所有的测试方法。然而,没有保证选定的一组特性是免费的假阳性,正如前面是理论上得出LASSO-like方法选择真正的特性的超集(23]。

3.6。基因本体论群体分析

进一步检查SLDSS方法的适当性作为生物标志物的发现工具,我们进行基因本体传播的分析来评估一组特性的相关性从流感中提取数据。在鲁棒性分析部分,我们发现超过三分之二(0.6916)的非零特征,平均而言,不同的折叠之间共享数据。事实上,50个基因在所有的非零折叠,所以我们这组基因并提交了黑豹的群体分析(24在线工具。

我们分析了50的列表选择基因表中给出4,而所有的12032个基因数据集。有些12032个基因重复,一些符号没有认识到数据库(注释版本和发布日期:本体数据库,发布2016-03-25)导致50选择基因的比较与参考的10792个基因列表使用豹群体测试(2016-03-21)发布Bonferroni调整。Bonferroni调整(25)是一个简单和常见的多个测试方法修正意义价值指标。它也承认,可能本质上保守,尤其是当多个测试并不是独立的。在多个基因本体过程测试,这可能是极端保守的,因为后代的过程是完全依赖于他们的父母。然而,即使过于保守的调整,许多过程是发现统计上明显的过多的截断值为0.05 价值。明显的过多的生物过程(列在表中5)几乎完全相关免疫反应和病毒宿主的身体反应。这是一致的数据集是关于对病毒感染的反应,表明发现的一组功能确实是相关的研究过程。

4所示。结论

我们评估了多种学习方法的严重程度得分高维的应用程序。我们的研究结果的效用,甚至需要通过稀疏学习技术降低了问题的维数。结合现有解决方案的优点是有利于配方的性能提出了研究。了解疾病严重程度评分函数的鲁棒性,以及特征选择的方法,比较了非常良好的替代品。进行基因本体群体分析支持SLDSS相关性的基因识别的方法。额外的研究可以进一步描述选择基因和他们参与的过程,为了进一步了解因果关系突显出流感感染。这些都是越来越多的证据表明,我们的方法可以作为一个发现工具对疾病严重程度评分和相关信息变量,这可能会进一步激发新奇的假设。在本文中,我们提出的方法是适合学习的严重程度得分相对较少的高维情况下。需要更有效的优化工具应用的病例数还大,因为在这样的应用程序数量二次的比较样本的数量可以是一个挑战。

缩写

沙发: 连续的器官衰竭评估
加护病房: 重症监护室
APACHE: 急性生理和慢性健康评估
支持向量机: 支持向量机
套索: 至少绝对收缩和选择算子
SLDSS: 稀疏线性疾病严重程度评分
DSSL: 疾病严重程度评分学习。

信息披露

资助机构没有参与设计、收集、分析或解释本研究的,和任何意见,结果,结论,或建议用这种材料是作者的,不一定反映美国国防部高级研究计划局的观点,ARO或美国政府。

的利益冲突

作者宣称没有利益冲突有关这篇文章的出版。

作者的贡献

伊凡斯托伊科维奇博士开发和实现,计算方法并进行了实验,通过Zoran Obradovic监督。伊凡斯托伊科维奇及其Zoran Obradovic讨论和分析结果和写的手稿。所有作者阅读和批准最终的手稿。

确认

作者要感谢亚历山大Obradovic校对和编辑语言的手稿。这种材料是基于工作部分由美国国防高级研究计划局(DARPA)和陆军研究办公室(ARO)号合同下。w911nf - 16 c - 0050和部分由美国国防部高级研究计划局批准号66001-11-1-4183由SSC太平洋格兰特协商。