二十年前,计算和数学方法在医学杂志上推出之前的标题下理论医学杂志》上。在那些年在上个世纪结束时,机器学习技术及其潜在的理解结合统计建模方法尚处于起步阶段。现代术语“统计学习”这种融合方法从不同的科学领域可能已经在科学文献中找到(请参阅Vapnik [1,2]),但它的意思有点不同于今天。著名的教科书由Hastie et al。3)在当前的意义一词的流行被发表在2001年的第一版。近年来,大量的研究一直致力于探索这种先进的统计方法和机器学习技术的结合。这种方法提供了许多实用的优势,尤其是数据的情况经常遇到在现代生物医学研究的特点是大量的潜在特性或变量。在这种情况下,主要的目的往往是为了获得稀疏和解释性模型,可以有效地推广。通过统计学习方法,可判断的预测规则导致准确预测未来的或看不见的观察可以推导出潜在的高维数据。
这个特刊致力于发展研究领域之间的交叉路口不同的科学分支。它吸引了广泛的方法论的贡献对于不同类型的算法和生物医学领域的应用。十六岁的提交,由国际专家严格的评估,九进入这个问题。编译的文件在这个特殊的问题由一个评论纸和8个原始研究的文章。
在他们的评论题为“更新统计促进生物医学”a娃等人给最近的事态发展地区的概述统计增强算法。这样做,他们更新和扩大早期的评论这特定的统计学习领域研究[4- - - - - -6]。第一次,最近的方法学研究增强功能的应用程序数据和增强技术在先进生存造型了。现代生物医学的应用这种类型的统计学习也勾勒出概述不仅最近方法学的改进,而且实际的实现促进生物医学研究回答的问题。
本文题为“多准则方法找到预测和稀疏模型与稳定的高维数据的特征选择”A Bommert等人提出一种基于多个重要标准选择模型:预测模型的精度以及稀疏和稳定性。模型稳定,作者调查,分析和仿真研究,各种稳定措施,得出结论,皮尔逊相关性有最好的属性。在另一个仿真研究与随机森林等各种学习方法,支持向量机,套索回归,并促进结合各种预选滤波器方法的特性,他们调查帕累托方面,并得出结论,可以发现模型与一个稳定的选择只有少数特性无损耗的预测精度。
篇题为“纠正分类器对样本选择偏差在两阶段病例对照研究”通过n . Krautenbacher等人旨在改善模型基于分层数据的结果。它给一个非常详细的解释的一般问题产生的选择偏差时针对捕捉更多的信息通过使用一个更高比例的罕见结果和现有方法的全面总结。此外,提出了两种新颖的方法时比最先进的方法被用于随机森林环境和执行同样用于逻辑回归的时候。
这篇题为“多个基因组数据源的集成在一个贝叶斯Cox模型变量选择和预测”的t . Treppmann等人是唯一的贝叶斯贡献的特殊问题。作者整合不同来源的信息来提高性能和预测变量选择在高维的背景下生存分析的能力。为了实现他们的目标,他们把李等人的方法7)和乔治·麦卡洛克的吉布斯采样器(8]。基本上,后者方法允许variable-specific处罚lasso-type方法前。在生物医学应用,作者使用拷贝数变异的信息数据以改进模型基于基因表达式。
在他们的论文题为“Pathway-Based内核增加分析的全基因组关联研究”美国弗里德里希等人描述一个框架将基因通路,即基因交互作用网络,在预测模型分析的全基因组关联研究(GWAS)。该方法与特定的基于学习者适应增加的方法。作者表明,他们的方法识别重要遗传因素而逃避问题的多个测试。随着遗传相互作用网络可以从生物学的角度解释,这种方法有助于理解生物过程参与疾病的易感性。此外,它使新患者的临床结果的预测,从而构成了一个强大的工具在GWAS的分析数据。
这篇文章题为“探索与基于模型的稀疏和快变量选择增加“通过j·托马斯等人提出了一个全新的概念来选择最优统计增加算法的迭代次数。这种所谓的停止迭代是这类算法的主要优化参数,代表了古典方差和偏差之间的权衡。选择通常是基于重采样过程关注预测风险,因此在预测精度。作者提出关注算法的变量选择属性:他们将额外noninformative探针(影子变量)为每个候选人变量和停止算法一旦第一个探测器被选中。这种新方法大大快于重采样,因为该模型仅安装一次没有额外的调优。在大规模模拟,作者表明,他们的方法会导致假阳性稀疏的模型与低于传统方法确定停止迭代。
的焦点篇题为“非参数群的鉴定和购物车:模拟及应用研究”由A .奥特和A . Hapfelmeier位于传统的机器学习技术。分类和回归树(CART)介绍了30多年前由Breiman et al。9),已经进入标准的方法来识别同质组在高维数据的情况下。病人规则归纳方法(的),已发展为同一目的在生物医学应用中基于计算的想法弗里德曼和费舍尔(10),吸引了一些利益,但在实践中经常使用。奥特和Hapfelmeier比较两种策略通过详尽的仿真研究。特别是,他们展示的场景的优于车。手稿也覆盖应用程序使用的临床数据集两种方法产生相似的结果。然而,作者还车展示在他们的应用程序,虽然容易实现,是一个静态的技术,而整洁的用户可以灵活调整。
在他们的论文题为“IPF-LASSO:综合l1惩罚与惩罚因素回归预测基于A.-L Multi-Omics数据”。Boulesteix等人关注的问题集高维分子、遗传或其他“组学”来自不同数据源的数据或方法与临床变量为一个预测模型。他们适应古典套索(导致通常非常相似的解决方案统计增强方法;看到Hepp et al。11)通过引入不同l1处罚形式,以解释他们不同的重要性。通过说明了方法的应用的发展生存预测模型的癌症患者根据临床变量,微阵列基因表达式和体细胞拷贝数变化。
在他们的有趣的面向应用的篇题为“Dysphonic声音模式分析帕金森病的患者使用最低年级之间的概率风险特征选择和装袋集成学习方法”y吴等人比较不同的机器学习方法在他们歧视表现语音模式数据来自帕金森氏症患者和健康对照组。他们小说的贡献在于提出一种新的特征选择方法从声音模式随后由机器学习算法进行处理。结果表明优势的分类性能的方法称为“组内的风险概率法”比传统的竞争对手。
确认
我们表达我们的感谢所有作者的信息贡献和评论家的支持和建设性的批评可能使这个特殊的问题。第一和第三作者在这篇社论是由德意志Forschungsgemeinschaft (DFG) (http://www.dfg.de,批准号SCHM 2966/1-2)。支持跨学科中心的临床研究(IZKF) Friedrich-Alexander大学埃项目没有通过。安德烈亚斯·迈尔J49(批准)和项目没有。伊丽莎白Waldmann J61(批准)也感激地承认。
奥拉夫Gefeller用蒙太奇
本杰明Hofner
安德烈亚斯·迈尔
伊丽莎白Waldmann