复杂性

PDF
复杂性/2018年/文章
特殊的问题

复杂的医学信息

把这个特殊的问题

研究文章|开放获取

体积 2018年 |文章的ID 8651930 | https://doi.org/10.1155/2018/8651930

Evangelia i Zacharaki托马斯•Papastergiou Vasileios Megalooikonomou, 高阶张量分解的多实例分类医学数据”,复杂性, 卷。2018年, 文章的ID8651930, 13 页面, 2018年 https://doi.org/10.1155/2018/8651930

高阶张量分解的多实例分类医学数据

学术编辑器:Panayiotis Vlamos
收到了 01 2018年6月
接受 2018年8月30日
发表 2018年12月06

文摘

多维数据,发生在各种各样的应用程序在临床诊断和医疗保健自然可以用多维数组(即表示。张量)。张量分解提供有价值的和强大的工具,发现潜在的概念可以有效处理缺失值和噪声。我们提出一个无缝的,应用独立特征提取和多实例(MI)分类方法,代表原始多维数据可能不完整,通过学习一门高阶词典。演示了该方法的有效性在两个应用场景:(i)预测虚弱的老年人使用多传感器记录和(2)乳腺癌分类基于组织病理学图像。该方法优于或与最先进的多实例学习分类器突出其潜在的计算机辅助诊断和医疗支持。

1。介绍

如今,数据往往是大体积和multiparametric在自然界中,特别是在临床诊断和医疗保健。应用程序提供大规模多维数据是巨大的。一些例子包括监测患者通过多传感器技术(1,2),非侵入性损伤检测和诊断用高光谱采样(3),基于组织微阵列数据的癌症诊断(4,5)、颜色(皮肤损伤使用histology-stained显微图像分割4,5为癫痫检测[],EEG信号的分类6),或为阿尔茨海默氏症分析7]。主要的挑战是从高维数据中提取区别的特性,保留他们的多维结构,同时interdimensions的交互模型。传统的矩阵表示技术被压扁他们一个矩阵表示高维数据多次遭受诅咒的维度,提出了限制许多二维方法。这样的代表数据以更自然的方式通过多维数组(又名张量)和使用复杂的高阶技术,如张量分解,我们可以同时捕捉多个交互和耦合和发现潜在的概念出现在数据8]。Tensor-based技术已经应用于信号处理和机器学习领域的各种任务(9]在盲多用户目前多路访问(CDMA)通信,盲源分离,协作filtering-based推荐系统,高斯混合参数估计,主题建模,或者,主要与我们的工作相关,多重线性区别的子空间学习(10,11),和其他很多。一个广泛的概述潜在的张量理论和上述应用程序,我们指的是广泛的回顾文献[9]。张量分解最近也被应用于图像恢复的图像补丁(分组12)或图像压缩与重建(13,14)通过删除冗余同时在空间和谱域。与多通道信号或图像数据编码通常受益于张量分解由于其结构特性,3 d几何网格的编码,而依靠传统技术,如图像傅里叶变换(15]。大多数应用程序中的一个常见的方面是在高阶稀疏结构的开发。概述一些基本技术,利用稀疏低秩的复苏高阶张量,其次是相关的应用程序,提供了在16]。

分析当前生物医学数据的第二个挑战是在学习阶段,遵循数据表示的阶段。标准监督学习意味着每个示例用于训练分类模型,表示为特征向量和助理类标签。然而,在许多实际的应用程序,数据往往是复杂的,包含不同的概念,因此很难模型每个示例作为一个特征向量:例如,医学图像描绘不同的组织类型,生物跟踪不同的活动,或分子构象不同的化学性质。在这些情况下,一个更有效的表示,保留了尽可能多的信息,包括一组特征向量(表示为实例),如图像的补丁,时间窗的生物,或一个分子的构象,每一个覆盖整个物体的不同方面。这样表示出现的挑战是缺乏完善的注释为每个特征向量,称为多实例学习(MIL)。此外,一些特征向量描述观察可以提供没有或有时甚至误导性的信息对象的类(例如,并不是所有的细胞都是恶性与恶性肿瘤组织病理学图像)。

除了继承的挑战高阶结构和多元背景下,数据偏袒或不完全性强加一个额外的负担。缺失的数据出现在现实生活中由于各种原因包括故障数据采集过程(例如,临时故障的脑电图电极(17]),昂贵的实验阻碍所有样本的注释,或者由于噪声或工件去除。在监督学习范式,缺失值必须从数据中删除或估算统计方法(18推理之前)。另一个有趣的方法在分类数据缺失值是基于低秩的假设数据(19,20.(即),存在原型。,components) and all the samples can be reconstructed by a mixture of them. For example in [19),分类问题被视为一个矩阵完成问题通过最小化,而在(20.),分类是使用没有任何矩阵的低秩假设执行完成的步骤。对高维的设置,dissimilarity-based分类提出了(21),缺失值估计通过高阶分解,然后分类是数据上执行完成。

这项工作的目的是定义一个广义tensor-based多实例学习框架(称为TensMIL)分析高阶,可能不完整的数据,避免预定义的或手工特征的提取。我们的方法是制定一个多步最小化问题所有参数,内部和外部,由监督学习。为了说明TensMIL的广泛适用性,我们评估它在两个不同的场景中使用生物医学图像和多通道生物多实例的分类,分别比较它和其他先进的技术。为了把方法放入MIL上下文和从其他方法更好地欣赏其差异,我们首先提供一个小概述MIL,然后进行相关工作的更多细节和TensMIL的贡献。

多实例学习问题,袋(主题)是由多个功能描述数组(实例)和标签提供的塑料袋,而个人的标签实例是未知的。提出了几种方法剥削当地或全球信息和实现不同的分类器或映射功能。对MIL完整的分类算法,我们将爱茉莉的工作(22),以及先前的评论福尔兹和弗兰克(23)或盾(24]。在第一级分类树的分类框架遵循实例空间(是),空间袋(BS),或嵌入空间(ES)模式。

方法的范式的推理过程是基于信息驻留在单个实例,即。,一个实例级分类器训练独立积极或消极的类的实例。然后获得实例级分数汇总总结整个包的信息,通常基于两个假设[之一22,23):标准的心肌梗死假设每个积极的包都包含至少有一个积极的实例和集体(或加权集体)假设在一个袋子中所有实例贡献同样(或根据权重)袋子的标签25]。选择聚合规则从而充当bag-level分类器。虽然assumption-based模式被证明是一个有效的启发式在许多应用领域,通常,一袋实例之间的关系和bag-level类标签是未知的;因此,使用概念介绍了放松严格的预定义的假设。更精细的层次结构的假设是由魏德曼et al。26),提出了通过增加通用性标准MI(一个概念),提供(多个概念),基于基于阈值,点的假设。

与范式,(bag-level)分类器作为当地的聚合反应,得到的推论过程方法在执行BS和ES范例的空间袋。b方法直接采用距离或内核函数来操作nonvectorial实体,如袋,以评估它们之间的相似性。因为我们的方法不涉及这一类的方法,我们省略进一步讨论,但请参考[22额外的细节。在ES范式中,一组概念是通过无监督学习和作为一个词汇来描述类的实例。映射函数然后用来每袋映射到一个特征向量 聚合关于包的相关信息。在基于直方图ES方法的特例,向量 描述了实例的分布(直方图)到不同类型的词汇。少数ES方法不是基于词汇或概念的学习通常总结统计数据(例如,最小值和最大值)内的所有实例的特性包。另一个有趣的方法是将这些袋子与他们最翔实的实例通过实例的选择。通过这种方式,包空间映射到一个减少实例,分类器在哪里,甚至可以利用经典non-MIL分类器。最近一个新的多实例学习算法与歧视包映射(MILDM) [27]提出了,选择的实例,这样包中最大限度的新的映射空间。

在本文中,我们提出一个无缝的特征提取方法和MIL高维数据的分类建模的数据n维数组(即。张量)。通过张量分解,我们构造一个高维的字典模型数据的潜在因素的数量 维1级结构。这样,系数对应于实例的模式表明每个潜在因素的贡献表示相应的实例,因此他们可以作为实例级特性。随后,使用这些特性,我们训练隐藏类的一个实例级分类器预测标签的每个实例一个连续得分。我们每个包的密度函数预测模型标签和火车一袋空间分类器对最终的分类任务。我们的动机是避免严格的预定义的MIL规定,如标准MIL假设;因此,我们延长了集体的假设,通过学习袋标签使用概率密度函数估计隐藏实例的标签。

我们工作的主要贡献总结如下:(1)TensMIL基于广义特征提取方法使用张量分解高维数据,因此可以应用在多个场景(2)它执行即使少量的观测数据(例如,10%)(3)评价乳腺癌在UCSB基准数据集与全部和部分观测值表明它优于或相当于现有最先进的MIL算法(4)我们所知,我们是第一个利用潜在的生理信号(如呼吸和心脏)在预测aging-associated下降(弱点)。TensMIL显示预后的应用功能虚弱表现,此前的方法没能找到

2。材料和方法

拟议的方法是简化的示意图,如图所示1主要由三个阶段:(i)的数据表示和特征提取阶段数据从原始高维空间映射到低维空间使用张量分解,(ii)的多实例学习阶段顺序歧视模型推断分类数据分成不同的组,(3)优化阶段,加上前一阶段学习hyperparameters。在接下来的部分中,我们描述分析每个阶段从使用张量分解特征提取并参与我们的提议MIL框架。

我们跟随在这个手稿的符号如下。我们张量表示的资本黑体欧拉字母( ),矩阵通过黑体大写字母( , , ),向量通过粗体小写字母( ),由小写字母和标量( , , )。矩阵的条目或一个张量与下标用小写字母(例如,( )条目的n方法张量 )。矩阵的列是用粗体大写字母和一个下标组成的明星和一个数字(例如, 表示矩阵的第一列 )。

2.1。张量分解

我们简要概述CANDECOMP / PARAFAC (CP)分解,一个强大的工具最初介绍了(28,29日]。预赛的张量,我们将补充材料(可用在这里)。不失一般性,从现在起为了简单起见,我们将把三阶张量,虽然提出了高阶张量方法可以推广。让 我家的张量的大小 完整的数据,一个张量 可以分解成一组矩阵 , , 的大小 ,分别如下: 在哪里 的秩分解和” ”表示两个数组的叉积。

让Ω的张量的观察指标 我们可以定义一个张量指标 拥有相同的大小等原始的张量 , ,和零。张量分解问题可以制定如下: 的地方” “表示阿达玛(element-wise)产品。当Ω等于设置的指标 ,然后我们有一个完整的——(常数)值分解问题;否则,我们有一个缺失值的分解问题。

计算CP分解,我们利用著名的交替最小二乘(ALS)方法(30.当我们处理全部价值的问题,两个近端方法提出了(31日当我们处理缺失值问题。提出的方法在31日]-GenProxSGD(将)和StrProxSGD(分布式的、适合大数据)解决的优化问题(2)解决局部极小问题,而不是解决整个问题。

2.2。广义特征提取

我们在这里提出一个通用的方法从原始数据中提取基于实例的特性数据被表示为一个n维张量 的代表性问题特定的数据,我们将在后面的小节中讨论的数据表示为两个不同的问题,我们解决的问题。我们的目标是通过CP分解计算数据的潜在因素原始数据的张量,在实例被安排在一个维度。获得的因子矩阵(相对应的一个实例)可以作为特征矩阵实例的空间。另一个因素矩阵对应于高阶词典计算。

正式,如果 (实例被安排在第一个维度),我们可以写slice-wise rank-R CP分解 在(1), 在哪里 代表一个模式1片对应的张量实例。方程(3)表示,每个实例可以近似的线性组合 二维组件, 这对应于数据的潜在因素。因此,我们可以选择特性代表了一个实例 , 系数 , ,相对应的 系数矩阵的行 在(2)。此外,我们可以看到潜在的因素 作为一个高阶词典描述数据。这个过程可以使用张量 收益率字典的顺序 和独立于数据本身的性质。

2.3。选择新(看不见的)数据的特征提取

拟议的框架tensor-based特征提取过程中涉及到的一个常见的张量分解构造连接的训练和测试样本,如上所述。为降低计算成本,它可能需要将新的测试数据不重复整张量分解。我们描述下另一种方法获得的低维特征表示PARAFAC模型仅从训练数据,测试数据由估计训练模型如下。如果 是一个PARAFAC分解级别R为训练集和计算 张量的测试数据,那么它可以显示30.](PARAFAC计算的问题2)可以写在一个模式1 matricized形式

我们可以制定和解决最小二乘法最小化问题发现的“亲密”表示测试集计算词典的基础上 :

它很容易显示(30.)问题的解决方案(5)有以下封闭形式 ,,“ ”是Moore-Penrose伪逆。

在下面,我们描述下一阶段的方法,涉及到歧视的建设模式,多实例学习。

2.4。问题陈述的多实例学习(MIL)

我们首先简要定义正式的多实例学习的问题。一袋 是一组 描述一个主题特征向量。让我们表示 当所有的袋子。每袋的基数 可以改变整个包。每一个特征向量 ,第一个索引指相应的包和第二索引的特性包它属于,称为一个吗实例。所有实例 , , 生活在一个d维特征空间( ),被称为实例空间。每个包都有一个标签 , , 定义一个二分类问题 定义一个 类分类问题。 表示所有袋类标签的集合。

密尔的目标问题是给定的集合 袋(主体)与适当的标签 学习模型,该模型可以预测新观测的标签(袋)。

2.5。我们的MIL框架(TensMIL)

提出了MIL框架遵循的范式在实例级分类器 首先是构建基于标签(即继承规则。,一袋继承的所有实例的标签袋)。为了使学习计算上可行的,它通常是必要的假设空间减少执行一些MI的假设。然而,与经典的基础方法,直接结合实例级响应通过一些预定义的规则,我们增加了普遍性并试图推断出这些假设基于训练集。具体地说,我们提取直方图每袋内的所有实例级反应和学习训练集的分布直方图。instance-label反应指实例级分类器的输出 和类似于类为每个实例预测分数。实例级响应对应的直方图提取量化反应在预定义的箱子,可以视为集群低,中等或高class-likeness。在这个意义上,也涉及到我们的框架ES方法没有词汇的差异表示不是基于原来的(多个)实例的属性,但是在实例级响应(第一个分类器的输出)。贡献在于,我们不依赖于几个统计,平均、最小值,最大值,但结合直方图等更丰富的表示。

在数学方面,我们制定(类似于以前的工作32)一个优化问题,我们解决基于以下步骤:(我)首先,实例级反应在每个袋子里估计是基于一个函数 分配一个类预测分数(如异常分数)袋给定一组的每个实例的参数 (6),通过初始化未知实例与相应的类标签标签,例如, : 在哪里 空间是一个损失函数定义的实例。在估计 ,这个函数 将提供实例级的预测类标签,这是与工作(32],未知实例级类标签作为优化变量,以迭代的方式计算(2)然后,一个映射函数 从实例应用空间袋的空间和映射的功能是用作新包表示吗 (7)。在拟议的方法中,这种映射对应类的密度函数的计算预测分数和直方图提取获得的: (3)最后,分类功能 计算整个袋的监督学习见以下方程: 在哪里 是一个损失函数定义在袋空间

更多细节在以下部分中提供的各个步骤。

2.5.1。稳健估计实例的隐藏的标签

医疗应用程序通常关注顺序数据的分类问题,在类有自然的顺序,如肿瘤或性能的等级分数在临床测试。如果使用了类标签,它们可以被视为离散近似的连续得分(如肿瘤);因此,同样的技术可以被应用到离散或连续的输出变量。这个问题的二进制分类是一个特例,两类躺在两个极端(最小和最大)的临床评分范围。

在第一步(6),我们使用平方误差作为损失函数和训练一个完整的二次回归模型(包含一个拦截,线性条件、交互和平方计算) 在预测的实例空间隐藏类标签 为每一个实例。二次回归模型可以表示为 的参数 共同构成了矢量 在(6), 的维数 受雇于回归。因为没有可用的实例的信息隐藏类标签,回归模型训练为因变量,通过使用值对应的类标签袋,这意味着 的计算 ,这是常见的所有包,我们可以估计实例标签吗

因为并不是所有的实例一袋 将属于包的类 ,一些实例将表现为异常值和不适合各自的类。消除这样的效果不一致的数据,我们采用鲁棒二次回归使用迭代再加权最小二乘加权函数(33]。我们使用物流权重函数: 在哪里 是向量上一次迭代的残差 是一个估计的标准偏差的误差项的残差均值的平均绝对偏差比例常数 , 是向量中的杠杆值最小二乘拟合,然后呢调优是一个调优参数。在本文的实验中,我们使用上述参数的默认值: 不断的选择 使估计误差项的标准差为正态分布的。此外,上面的默认值的选择给出了系数估计,大约有95%是统计上有效的普通最小二乘估计,只要反应没有异常值的正态分布。通过使用上面的权重函数,实例的误分类代价不属于包的类降低,因此获得稳健估计隐藏标签的实例。最后,我们想说,我们尝试了不同的加权函数和不同的调优参数和我们经验总结使用上述物流权重函数与默认的优化设置,因为它产生更好的结果。

2.5.2。QDA-Based包分类

为了获得包表示(7)和随后的包分类((8)和(9)),我们把提取的属性(即在目标袋。,的实例-level class predictions per bag) as random variables that are defined over a space of probability distributions. We then approximate the density functions ,每个包的类标签分数的直方图提取使用 同样大小的箱子。在估计训练集的所有包的直方图 ,我们可以训练一个bag-wise分类器,将学会区分未知的类 假设每个类的观察 从多元高斯分布 ,每一个类都有自己的协方差矩阵( ),我们可以用二次判别分析(QDA)分类器34)找到一个非线性二次决策边界。QDA分类器 分配一个观察与最大判别类分数 : 在哪里 是袋子的判别函数空间, 是均值向量的所有培训的观察 th类, 的协方差矩阵是吗 th类, 是一个观察的先验概率属于 类。的参数 判别函数学习的训练集,随后用于测试阶段预测类标签的新袋。

2.6。TensMIL架构的实现细节和总结

在本节中,我们总结的各个步骤的方法,从原始多维数据,说明他们在图2强调训练和测试阶段之间的区别。

在第一阶段,数据必须安排在一个张量 ,第一维的实例。张量可以由每袋的实例 顺序排列的,但这只是为了方便。训练和测试数据可以被放置在相同的张量,构造一个高维张量,可以看到图2。在第二阶段(特征提取阶段),PARAFAC模型计算和火车和测试特性提取相应的系数矩阵的行对应实例的维度。在第三步中,训练和测试功能矩阵连接沿维度对应实例和PCA进行解相关和降维得到截断训练和测试矩阵。(百分比 )PCA的方差解释载荷矩阵是一个参数的方法,对不同的数据集可能会有所不同。在第四步中,一个健壮的二次回归模型预测训练实例的标签。最后,每个包的类预测的直方图计算和安装pseudoquadratic判别分析分类器。

2.6.1。贝叶斯优化Hyperparameters

两个合并模型的参数, 计算顺序,监督学习,而直方图箱的数量( )和比例( )组的方差保留hyperparameters优化外部学习阶段和使用作为输入。我们优化hyperparameters使用贝叶斯优化(35),基于训练集上的2倍交叉验证。

的算法的训练阶段TensMIL算法所示1

输入:训练和测试实例的特性U火车U测试,受试者的培训品牌Y火车利用主成分分析法(PCA),方差的百分比保留 ,箱子的数量用于直方图
输出:预测模型
1 .连接U火车U测试沿着第一个维度矩阵U。
2。对解相关执行PCA和降维连接矩阵U得到的分数T,使用塞满奇异值保存 数据的方差。
3所示。将截断得分矩阵T到相应的T火车T测试(将用于测试阶段)得分矩阵。
4所示。火车一个健壮的完整的二次回归模型(方程(10)使用T火车y火车(实例标签对应的包标签)继承了标签预测实例Pred火车为每个实例
5。将向量Pred火车 子集的大小和存储切割边缘点作为直方图本测试阶段
6。为每个 培训包计算归一化累积直方图和构造 特征矩阵一个火车
7所示。适合QDA模型 映射一个火车Y火车(方程(12))。
2.7。的评估方法

作为评价指标的选择hyperparameters和整体的评估方法,我们使用了分类精度(数量的正确分类样本的样本总数),平衡精度,ROC曲线下的面积(AUC)。平衡精度的定义是 被正确分类袋类的数量c 在课堂上包的数量c,因为

指标的选择取决于所使用的数据集和度规之前(即工作。,通过选择相同的标准,与其他作品是可能的)。我们进行了一系列的实验,通过比较不同的分类器在相同的数据集使用10倍交叉验证和报告的平均精度。对于每一个褶皱,我们内部使用2倍交叉验证过程的训练集,以调优hyperparameters每个方法。一旦确定最佳参数,它们被用来测试准确性的测试集进行分类记录。因此,所有评估方法对独立测试集分类模型的训练期间不习惯,也没有在hyperparameters的优化。为了公平,我们在每个折叠网格搜索进行寻找的最佳参数为每个方法相比(我们自己以及其他先进的方法)。

3所示。结果与讨论

评估我们的算法,我们使用两个数据集:(i)乳腺癌UCSB Bio-Image信息学中心基准数据集(36)组成的组织病理学的彩色图像和(2)多通道记录FrailSafe项目(37)监测老年人。在接下来的章节中,我们简要描述这些数据集和它们是如何由多维数组表示。

3.1。数据集
3.1.1。UCSB乳腺癌影像分类

UCSB乳腺癌数据集(36)由颜色组织病理学58对象大小为896×768像素的图片来自32个良性恶性乳腺癌患者和26。这些图像的分类问题是制定作为一个MIL问题首先Kandemir et al。4]在7×7补丁和分割图像中提取特征从每个补丁。在MIL、图像补丁被认为是作为实例和图片包。为了将数据表示为一个张量在我们的方法中,我们也段中的每个图像 补丁和vectorize每个补丁的像素每通道最后一个矩阵,矩阵的行代表像素和3列代表了RGB通道。如果我们安排这些矩阵在第一维度,我们获得一个张量的维度 ,在哪里 是每个补丁的像素数量。如果我们把第一个模式张量的情况下,第二个像素模式,第三种模式RGB通道,我们最终3-mode张量,包含所有实例如前所述。

3.1.2。老年人生理信号监测

这个数据集收集的一部分FrailSafe项目(37),由生理测量获得的老年人(> 70岁)。测量期间获得普通室内或户外活动。最终目标是预测aging-associated储备下降和函数(表示脆弱)通过从multiparametric老年指数的提取数据。标准脆弱指数,如油炸表型的弱点(38),是基于共同的老年评估(偶尔执行,如果认为必要)和不持续监测健康状况,既不捕获不同的医学领域。相反,我们的目标是提取脆弱指标的多维录音,以无妨碍的监测老年人的健康状况。我们评估使用TensMIL生理信号的预测能力和油炸分数作为地面实况,测量在同一时期获得的数据。根据油炸规模(38),三个脆弱阶段可以区分:nonfrail, prefrail和虚弱。

生理信号用于这项研究包括时间同步测量(由专门的软件算法计算)从呼吸、心脏、姿势,和体育活动。七个频道在相同的频率重新取样(25 Hz):呼吸原始信号(通过压阻传感器),3轴加速度的大小呼吸幅度,呼吸频率,心电图心率、心电图心率变异性,心电图RR区间。测量记录使用两种不同的设备,这一事实使得这个数据集特别具有挑战性。更多细节问题客观、注册设备可以在找到1,2]。

数据表示的张量的形式包括提取一分钟时间(即不重叠的时间窗。1500时间点)。我们认为每个主题的测量在每次窗口作为一个实例,而每个主题的总记录(所有实例)组成一个包。为了模型的数据在多维数组的形式,我们连接(即多个实例。每个主题的时间窗)三维张量 的维数 , ,在哪里 是为每个主题可用实例的数量。为了构建整个张量,我们将所有的张量 沿着第一个维度产生一个新的3 d-tensor 包含所有的包里的所有实例,如图3结果, 张量。在表1,我们总结每个弱点组可用的数据。


Nr.的袋子 Nr.的实例 Perc。的包 Perc。的实例

Nonfrail 49 7127年 42.24% 37.03%
Prefrail 54 8803年 46.55% 45.74%
虚弱的 13 3314年 11.21% 17.22%
总和 116年 19244年 100% 100%

3.2。实验
3.2.1之上。PARAFAC特性的见解

在继续之前的结果分析,我们提供了一些见解对提取的本质特性。正如之前提到的,一个张量和值可以分解成完整或失踪 1级组件,产生一个高阶词典数据代表了潜在的概念。因为实例被分配到的第一维张量,每个模式1片对应于一个实例。在计算PARAFAC因素 , , ,我们可以计算,根据(1),数据的重建张量从完整的观测值或从张量的价值观的一个子集(缺失值)。

4描述了五个随机乳腺癌数据集的实例和相应的重建与ALS算法使用完整的值(上一行)或StrProxSGD算法使用10%的观测值(低行)。它可以观察到完整的价值观的重建结果更清晰版本的原始图像。在下一节中,将讨论我们的实验表明,分解的信息保存(即使使用只有10%的观测值)就足以准确分类的图像在良性和恶性案件。空间(PARAFAC分解产生 从方程(3))和颜色( 从方程(3))的组件对应于第二和第三维度数据的张量,它构成了高阶词典。图5说明了40(选择120)空间组件的字典。我们也观察空间组件计算从观测值的10%略比吵着完整的组件计算值,这一事实显示不明显影响分类精度。

3.2.2。分类评估

评价指标,我们为每个数据集用于我们的实验是不同的。公元前的数据集,我们报告AUC,因为这个指标被用于评估在大多数其他作品。为了完整性,我们报告还意味着测试精度在10个不同的测试集。

报道在表1,生理信号数据集包含11.21%的虚弱袋和高度不平衡nonfrail和prefrail袋约42%和47%,分别。出于这个原因,以及测试精度,我们报告还平衡精度。

3.2.3。乳腺癌的诊断从组织病理学图像

在这个实验中,我们计算了该方法的准确性和AUC对先进的MIL算法。我们报告结果为每个提取的算法采用功能Kandemir et al。4),和特征提取的方法计算PARAFAC分解使用ALS算法[从完整的价值观30.从10%)和随机选择的观测值使用StrProxSGD算法(31日]。我们应该注意,Kandemir提取的特性等。4)是特定于应用程序的对比我们提取特征problem-independent直接从任何原始多维数据,可以获得相同的过程。

可以观察到表中2,当我们雇佣的特性(4),我们的方法是JC2MIL [40)但它是优于其他方法。这表明,特征提取过程和拟议的MIL分类方法密切相关。事实上,当我们使用该特性从张量分解,绩效改进可以从TensMIL的性能充分显示和90%的缺失值,分别。当使用ALS特性从完整的数据,我们的方法优于其他方法的AUC,改善性能的4% -11%,准确性TensMIL优于所有其他调查方法和MCILBoost可比。总的来说,我们的方法相当或优于其他方法的AUC,优于所有其他方法在准确性方面,除了MILBOOST [41]。关于数据缺失值的情况下,我们的方法优于所有其他调查方法准确性和AUC的所有方法除了JC2MIL它可比。让我们注意,手工的提取特征(4]目前不能复制数据缺失值,因为特征提取的代码不提供。因此,对于缺失值的实验中,我们比较只有StrProxSGD[提取的特性31日]。


公元前 Kandemir [4] 肌萎缩性侧索硬化症 StrProxSGD (90%缺失值)
Acc AUC Acc AUC Acc AUC

英里(39] 81.33 (0.15) 0.91(0.15) 72.67 (0.21) 0.79 (0.21) 63.33 (0.18) 0.72 (0.15)
JC2MIL [40] 74.33 (0.16) 0.84 (0.16) 72.33 (0.18) 0.78 (0.18) 77.67 (0.08) 0.88(0.14)
MILBoost [41] 89.33(0.09) 0.94(0.09) 81.67 (0.21) 0.87 (0.19) 68.33 (0.3) 0.77 (0.27)
MCILBoost [42] 82.33 (0.15) 0.93(0.12) 85.00(0.12) 0.90(0.12) 76.67 (0.22) 0.84 (0.16)
TensMIL 74.33 (0.16) 0.86 (0.16) 84.67(0.17) 0.90(0.15) 79.33(0.16) 0.85 (0.15)

3.2.4。生理信号脆弱的预测

在接下来的实验中,我们评估的准确性TensMIL虚弱状态预测基于运动的老年人,心脏和呼吸信号。在这些实验中,hyperparameters交叉验证的方法估计在训练集(使用StrProxSGD算法提取特征观测值为10%),随后被用于全值的情况。我们进行了两个系列的实验。在第一个实验中,我们考虑了三个不同的脆弱阶段提出的油炸(nonfrail、prefrail和脆弱),而在第二个实验中,我们合并prefrail和脆弱类来创建一个更少的不平衡的数据集。特征提取是使用ALS算法执行完整的数据和StrProxSGD算法对缺失的数据。3类问题的结果完整的和不完整的数据如表所示3。当考虑满值,该方法的准确性为45.76%(37%的概率高于随机猜测)和平衡精度是34.06%(类似于随机猜测)。相反,当只有10%的值,得到精度73.41%,平衡精度67.17%,这是一个改进的1.6倍(精度)和1.97(平衡精度)。这些结果强烈表明,数据非常嘈杂。尽管对噪声(PARAFAC分解是健壮的43),ALS算法使用完整的数据找不到一个好高阶字典三个类之间的歧视。另一方面,当只有10%的数据是,StrProxSGD可以计算更合适的字典分类任务。让我们注意,我们不从其他MIL分类报告结果,因为他们的表现很穷当使用上述多级one-against-all策略问题。


方法 肌萎缩性侧索硬化症 StrProxSGD (90%缺失值)
Acc Bacc Acc Bacc

TensMIL 45.76 (0.13) 34.06 (0.09) 73.41 (0.01) 67.17 (0.13)

自从prefrail类隔虚弱和nonfrail类,为了构建一个更加平衡的数据集,我们合并prefrail脆弱群体和研究二元分类问题。报道在表4,TensMIL达到精度从26.44%到13.63%高于其他方法使用只有10%的随机选择的值。完整的值的情况下,该方法实现从8.56%到2.43%更好的精度。只比TensMIL JC2MIL达到精度略好。


方法 肌萎缩性侧索硬化症 StrProxSGD (90%缺失值)

英里(39] 51.59 (0.13) 67.20 (0.11)
JC2MIL [40] 56.82(0.07) 55.30 (0.08)
MILBoost [41] 50.83 (0.15) 54.39 (0.15)
MCILBoost [42] 45.46 (0.14) 60.91 (0.22)
TensMIL 54.02(0.13) 80.83(0.16)

在表5,我们报告还意味着CPU运行时间(在10倍交叉验证集)TensMIL相比其他调查的最先进的方法。报告的时间对应的弱点分类问题基于生理信号,因为这个数据集两个检查应用程序中是最大的。使用张量分解特征提取组件是最耗时的一部分的方法(它需要大约2.25小时),而MIL组件快速计算具体来说,分类组件TensMIL少需要7 ~ 52倍训练时间和分类调查。这个事实是由于TensMIL因为只有一个完整的二次回归的简单性和QDA模型必须训练。的推理时间(特征提取),TensMIL连同JC2MIL达到下一个测试时间1秒,这是比所有其他的算法研究。我们应该注意,张量分解的实验进行了在Red Hat Enterprise Linux release 6.7(圣地亚哥)服务器,包括162.8 GHz AMD Opteron 6320™处理器和62 Gb的RAM, MATLAB R2018a运行,而实验测量进行了训练和测试时间在Ubuntu 16.04 LTS桌面,包括42.0广州英特尔®Xeon®CPU E5504处理器23.5 Gb RAM, MATLAB R2017a运行。


方法 培训时间一个 测试时间一个

英里(39] 42秒 1秒
JC2MIL [40] 56秒 < 1秒
MILBoost [41] 52秒 5秒
MCILBoost [42] 309秒 6秒
TensMIL 6秒 < 1秒

一个实验进行了一个Ubuntu 16.04 LTS桌面,组成4个2.0 GHz Xeon (R) (R)与23.5 Gb内存,CPU E5504处理器运行MATLAB R2017a。

最后,我们将我们的方法与聚类方法提出了(1)预测的几个临床指标,用统计特性相同的生理信号,以及其他设备(GPS、游戏平台)。尽管这种方法(1)显示高潜在临床指标,所表达的准确性脆弱指数油炸得分仅为51%的2类问题(nonfrail比prefrail和虚弱)。TensMIL达到精度高3.02%和29.83%时所有的值或使用只有10%的值,分别。(聚类的方法1]并不是评估缺失值;然而,我们预计小偏差精度由于大时间尺度用于特征提取和统计性质的功能实现。

4所示。结论

在这项工作中,我们利用健康数据的高阶结构通过张量分解针对提取应用独立特性,可以促进预测多实例学习范式。预测模型的训练序列的方式学习当地和全球的内容,而外部hyperparameters估计贝叶斯优化,从而提供一个端到端的体系结构。该方法可以成功地表示和分类数据大量(90%)的缺失值。在UCSB乳腺癌评估基准数据集,以及预测aging-associated下降。在这两个应用程序场景,该方法优于或相当于现有最先进的机器学习技术。此外,获得的结果优于我们的以前的工作基于统计特性和聚类分析。未来的工作包括调查稀疏表示和nonnegativity和正交约束更自然和可判断的数据提取的概念。

数据可用性

UCSB乳腺癌数据集公开可用的,可以从下载https://bioimage.ucsb.edu/research/bio-segmentation。脆弱的生理信号预测的数据收集的一部分FrailSafe项目(27),可以在项目的存储库:https://frailsafe-project.eu/(联系人:vasilis@ceid.upatras.gr)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

研究报告摘要FrailSafe项目支持的部分(h2020 - phc - 21 - 2015 - 690140)“感知和预测治疗的脆弱和相关并发症使用先进的个性化模型和先进的干预”得到地平线下的欧洲委员会2020年研究和创新项目。作者想感谢所有ICT (Smartex、CERTH Gruppo Sigla)和医疗合作伙伴FrailSafe项目的数据共享和注释。他们特别要感谢他们的同事k Deltouzos和美国Kalogiannis帮助进行数据预处理。

补充材料

张量的预赛和秩分解。(补充材料)

引用

  1. 美国Kalogiannis,依Zacharaki, k Deltouzos et al .,“老年群体聚类分析非线性嵌入式多传感器数据,”2018年IEEE国际会议上创新智能系统和应用程序(INISTA 2018)2018年,塞萨洛尼基,希腊,。视图:谷歌学术搜索
  2. 答:Papagiannaki,依Zacharaki, k Deltouzos et al .,“会议活动识别老龄化的挑战在现实生活环境中,“20国际会议2018年IEEE e-Health网络、应用程序和服务(Healthcom)斯特拉瓦,页1 - 6,捷克共和国,2018年。视图:出版商的网站|谷歌学术搜索
  3. g . Lu l . Halig d . Wang秦x, z . g . Chen和b·范”Spectral-spatial使用高光谱成像技术分类的癌症检测工作,“《生物医学光学,19卷,不。10日,第106004条,2014年。视图:出版商的网站|谷歌学术搜索
  4. m . Kandemir c·张,f . a . Hamprecht”授权多个实例组织病理学癌症诊断单元图,”医学影像计算和计算机辅助干预- MICCAI 2014。MICCAI 2014。课堂讲稿在计算机科学中,第8674卷,p . Golland:哈塔,c . Barillot j . Hornegger和r·豪,Eds。施普林格,页228 - 235年,可汗。视图:出版商的网站|谷歌学术搜索
  5. k . Mosaliganti f . Janoos o . Irfanoglu et al .,”张量的分类N分相关函数的组织学特性组织分割。”医学图像分析,13卷,不。1,第166 - 156页,2009。视图:出版商的网站|谷歌学术搜索
  6. v . g .喀纳斯,依Zacharaki,大肠皮帕,诉Tsirka m . Koutroumanidis诉Megalooikonomou,“癫痫分类使用张量分解和non-epileptic事件,”2015年IEEE 15日生物信息学和生物工程国际会议(BIBE)贝尔格莱德,塞尔维亚,2015年11月。视图:出版商的网站|谷歌学术搜索
  7. 张炳扬。诉Latchoumane f·b·Vialatte j . Sole-Casals et al .,“多路数组分解分析脑电图在阿尔茨海默氏症,”神经科学杂志》上的方法,卷207,不。1,每周,2012页。视图:出版商的网站|谷歌学术搜索
  8. a . Cichocki d . Mandic l . de Lathauwer et al .,”张量分解为信号处理应用程序:从双向多路成分分析,“IEEE信号处理杂志,32卷,不。2、145 - 163年,2015页。视图:出版商的网站|谷歌学术搜索
  9. n . d . Sidiropoulos l . de Lathauwer x赋,k .黄e·e·Papalexakis和c·凯利斯,”张量分解为信号处理和机器学习,”IEEE信号处理,卷65,不。13日,3551 - 3582年,2017页。视图:出版商的网站|谷歌学术搜索
  10. k . n . h . Lu Plataniotis, A . n . Venetsanopoulos“多重线性张量数据的子空间学习的调查,“模式识别,44卷,不。7,1540 - 1551年,2011页。视图:出版商的网站|谷歌学术搜索
  11. 燕,d .徐、杨问:l .张x Tang和h . j .,“多重线性判别分析人脸识别,”IEEE图像处理,16卷,不。1,第220 - 212页,2007。视图:出版商的网站|谷歌学术搜索
  12. 张x, x元,l . Carin“外地低秩张量因子分析图像恢复,”IEEE计算机视觉与模式识别会议(CVPR)美国盐湖城,UT, 2018年6月。视图:谷歌学术搜索
  13. Du, m, l . Zhang r·胡和d .道,“PLTD: patch-based低秩张量分解为高光谱图像,”IEEE多媒体,19卷,不。1,第79 - 67页,2017。视图:出版商的网站|谷歌学术搜索
  14. l . y . Wang Lin问:赵,t .悦,d .孟和y .梁,“压缩传感的高光谱图像通过联合张量分解和加权全变差正则化,塔克”IEEE地球科学和遥感信,14卷,不。12日,第2461 - 2457页,2017年。视图:出版商的网站|谷歌学术搜索
  15. a·s·拉的派遣,e . Vlachos和k .工程“压缩传感的高效编码密度3 d网格使用基于模型的贝叶斯学习,”IEEE多媒体,19卷,不。1,41-53,2017页。视图:出版商的网站|谷歌学术搜索
  16. d . y . Wang孟,m元,“从向量稀疏恢复:张量,”国家科学评论,5卷,不。5,756 - 767年,2018页。视图:出版商的网站|谷歌学术搜索
  17. e . Acar d . m .《t . g . Kolda和m . Mørup“可伸缩的张量分解与缺失的数据,”2010年暹罗国际会议数据挖掘哥伦布,页701 - 712年,哦,美国,4、2010。视图:出版商的网站|谷歌学术搜索
  18. p . j . Garcia-Laencina J.-L。Sancho-Gomez, a . r . Figueiras-Vidal”缺失的数据模式分类:审查”,神经计算和应用,19卷,不。2、263 - 282年,2010页。视图:出版商的网站|谷歌学术搜索
  19. j·g .安德鲁·b·雷希特,r·诺瓦克和x朱,“转导与矩阵完成:一石三鸟,”神经信息处理系统的进步23(少量的2010)威廉姆斯,j·d·拉弗蒂c . k . i, j . Shawe-Taylor r·s·泽梅尔和a . Culotta Eds。,页757 - 765,柯伦Associates Inc ., 2010年。视图:谷歌学术搜索
  20. 大肠领唱者,r·利夫尼和y曼苏尔,“分类等级较低的和缺失的数据,”《32 nd机器学习国际会议、里尔、法国,2015年。视图:谷歌学术搜索
  21. d . Porro-Munoz r·p·w·Duin,拉维尔,“dissimilarity-based分类中的遗漏值的多路数据,”在模式识别、图像分析、计算机视觉和应用程序。CIARP 2013。课堂讲稿在计算机科学中,第8258卷j . Ruiz-Shulcloper g . Sanniti di巴哈,Eds。,Springer Berlin Heidelberg, Berlin, Heidelberg, 2013.视图:出版商的网站|谷歌学术搜索
  22. j .爱茉莉”,多个实例分类:审查、分类和比较研究,“人工智能补充卷。201年,C, 81 - 105年,2013页。视图:出版商的网站|谷歌学术搜索
  23. j .福尔兹和e·弗兰克的多实例学习的假设,”知识工程评审,25卷,不。1、1 - 25,2010页。视图:出版商的网站|谷歌学术搜索
  24. l .董多实例学习算法的比较怀卡托大学。新西兰怀卡托大学的汉密尔顿,2006年。
  25. x徐,在多个实例统计学习的问题怀卡托大学。新西兰怀卡托大学的汉密尔顿,2003年。
  26. n .魏德曼e·弗兰克,b . Pfahringer”两级广义多实例学习方法问题,”机器学习:ECML 2003。ECML 2003。课堂讲稿在计算机科学中,第2837卷:Lavrač,d . Gamberger h . Blockeel和l . Todorovski Eds。施普林格,页468 - 479年,柏林,海德堡。视图:出版商的网站|谷歌学术搜索
  27. 锅,j . Wu x朱、张,吴x,“多实例学习与歧视包映射,”IEEE工程知识和数据,30卷,不。6,1065 - 1080年,2018页。视图:出版商的网站|谷歌学术搜索
  28. j·d·卡罗尔和j j。常”,在多维标度分析个体差异通过多方的泛化”Eckart-Young“分解”,心理测量学,35卷,不。3、283 - 319年,1970页。视图:出版商的网站|谷歌学术搜索
  29. r . a . Harshman表示“PARAFAC过程:模型的基础和条件的“解释”综合因素分析”,加州大学洛杉矶分校工作底稿语音学》16卷,页1 - 84,1970。视图:谷歌学术搜索
  30. t . g . Kolda和b·w·贝德,”张量分解和应用程序”,暹罗审查,51卷,不。3、455 - 500年,2009页。视图:出版商的网站|谷歌学术搜索
  31. t . Papastergiou和诉Megalooikonomou分布式近端张量梯度下降方法完成,”2017年IEEE国际会议上大数据(大数据)美国,波士顿,MA, 2017年12月。视图:出版商的网站|谷歌学术搜索
  32. c·莱斯特那a Saffari h .女孩,与随机树MIForests:多实例学习海德堡,激飞柏林,柏林,海德堡,2010年。
  33. w . Dumouchel和f . O ' brien集成一个健壮的选项进入多元回归计算环境,”计算和统计图形页,41-48斯普林格出版社,纽约公司,纽约,纽约,美国,1991年。视图:出版商的网站|谷歌学术搜索
  34. t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素纽约,施普林格系列统计,气象出版社,2009。
  35. m·a·基尔巴特j .杖鱼,r·p·亚当斯“贝叶斯与未知的约束,优化”《第三十会议上不确定性人工智能AUAI出版社,页250 - 259年,魁北克市,魁北克,加拿大,2014。视图:谷歌学术搜索
  36. e . d . Gelasca j . Byun b . Obara b . s .希,“生物图像分割,评估和基准”2008年15日IEEE国际会议上图像处理美国圣地亚哥CA, 2008年10月。视图:出版商的网站|谷歌学术搜索
  37. “脆弱的安全项目,“可以从:https://frailsafe-project.eu/视图:谷歌学术搜索
  38. l . p .油炸c . m .他j . Walston et al .,“虚弱老年人表现型的证据,”老年病学期刊:系列卷,56号3,M146-M157, 2001页。视图:出版商的网站|谷歌学术搜索
  39. j . y . Chen Bi, j . z王“英里:通过嵌入式多实例学习实例选择”,IEEE模式分析与机器智能,28卷,不。12日,第1947 - 1931页,2006年。视图:出版商的网站|谷歌学术搜索
  40. k . Sikka r·吉里和m . s . BartlettX。谢,m·w·琼斯和g·k·l·Tam”联合聚类和分类为多个实例学习,”英国机器视觉研讨会论文集(BMVC),BMVA出版社,2015年。视图:出版商的网站|谷歌学术搜索
  41. p .中提琴,j·c·普拉特和c .张“多个实例对象检测、提高”诉讼18国际会议上的神经信息处理系统麻省理工学院出版社,页1417 - 1424年,温哥华,不列颠哥伦比亚,加拿大,2005。视图:谷歌学术搜索
  42. y, j . y .朱依c . Chang m .赖和z涂,“弱监督组织病理学图像分割和分类癌症,”医学图像分析,18卷,不。3、591 - 604年,2014页。视图:出版商的网站|谷歌学术搜索
  43. e . Acar d . m .《t . g . Kolda和m . Mørup“可伸缩的张量分解为不完整的数据,”化学计量学和智能实验室系统,卷106,不。1,41-56,2011页。视图:出版商的网站|谷歌学术搜索

版权©2018年托马斯Papastergiou et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点2242年
下载947年
引用

相关文章