文摘
我们考虑一个聚类方法基于区间模式概念。精确算法开发了这种方法的框架内无法产生一个解决高维数据在合理的时间,所以我们建议快速贪婪算法解决问题的几何重构,显示了良好的收敛速度和足够的实验高维数据的准确性。特别是,提供高质量的聚类算法的触觉框架注册医疗触觉Endosurgical复杂。
1。介绍
我们考虑集群的问题,也就是说,将一个有限集 成不相交的子集(称为集群)的方式分相同的集群是相似的(对一些标准),分不同的集群不同(见,例如,1])。方便的输入数据在数值的形式背景下(表)的行对应于对象和列对应的属性对象。
形式概念分析(FCA)是一种数据分析方法基于点阵理论和秩序理论应用。对象属性的二元关系的可视化使用概念格的线路图。这一理论的框架内一个正式的概念被定义为一对(程度上,意图)服从伽罗瓦连接(具体定义见专著[2通过甘特图和威利)。
存在一些概括的FCA模糊和数值上下文。其中一个被称为模式结构的理论引入了甘特图和“库兹涅佐夫”(3]。的模式的概念,一个重要的特殊情况下的关键对象的理论模式结构、间隔模式的概念与操作的时间间隔的十字路口。间隔模式允许一个概念聚类分析应用于行正式的数值上下文。在这种情况下,标准的相似性在于归属相应的属性的值之间的差异,给定的时间间隔。
可以很容易地看出的问题找到一个间隔模式最大程度大小的概念(即。基数)可以新配方的最佳定位的问题维盒子与给定边长为给定的集合 ,那就是,找到一个位置框,最大化点集的数量包围盒(下面的细节部分2.2)。
现有的算法,解决问题找到一个盒子的最优位置不允许一个获得一个精确的或者至少高维数据的近似解在一个合理的时间内(见详细调查部分2.2)。本文的主要目的是提出一个贪婪算法,给出了一个近似解这个问题和基于最优聚类算法定位问题。我们提出一个聚类算法 最坏的时间和空间的复杂性, 表示迭代次数的主要阶段的算法和参数和调节每个迭代的持续时间。更大的每个迭代的迭代次数和时间提供更好的近似。
剩下的纸是组织如下。节2我们介绍的主要定义和形式化的表述问题。在部分3和4我们制定我们的算法。在部分5和6我们描述了验证结果和做一些总结。
2。主要问题的定义和声明
在本节中,我们首先主要从正式的理论概念的定义,然后提出一个几何问题的再形成的间隔模式最大程度大小(我们称之为简单的概念最大间隔模式概念)。
2.1。正式的概念
让我们回想一下我们需要形式化的主要定义聚类方法基于区间模式概念。更多细节可以在[2,3]。
定义1。一个上(下)semilattice半序集吗这样,对于任何元素 存在一个唯一最小上界(最大下界,职责)。
定义2。一个semilattice操作在一组是一个二元运算 : 以下属性特征的确定 和任何元素 :(我) (幂等性)。(2) (交换性)。(3) (结合性)。(iv) 。
定义3。一个晶格是一个有序集合这是在同一时间上、下半格。
定义4。让和半序集。一个伽罗瓦连接这些集之间是一对地图 : 和 : (每个人都被称为一个伽罗瓦的运营商),这样以下保持任何关系 和 :(我) (anti-isotone属性)。(2) (anti-isotone属性)。(3) 和(等渗性属性)。应用伽罗瓦算子的两倍,即和 ,定义了一个闭包算子。
定义5。一个闭包算子 在是一个地图,分配一个吗关闭 每个子集 在下列条件:(我) (单调)。(2) (空间性)。(3) (幂等性)。
定义6。一个模式结构是一个三
,在那里是一组对象,是meet-semilattice潜在对象描述,然后呢
:
是一个函数,它将描述与对象。
伽罗瓦连接对象和集合的子集之间的一组描述的模式结构
定义如下:
定义7。一个模式的概念模式结构 是一对 ,在哪里 是对象的集合的一个子集, semilattice的描述,这样吗 和 ;被称为模式一定程度上的概念和是模式的意图。
特定的模式概念是间隔模式概念。一组由行数值上下文中,这被视为元组零长度的间隔。一个间隔模式是一对概念 ,在哪里是对象的集合的一个子集,是一个元组的间隔结束由相应的组件的最小和最大的价值在所有对象的描述 。
间隔模式概念是方便使用数值分析的情况下,当需要把所有数据分为集群组成对象的数值数据同样是“分布式”行。
为每个组件介绍宽间隔模式的概念 :不同组件的最大和最小的值。然后使用一个标准的聚类过程可以定义贪婪的方法。具体地说,在每一步的最大时间间隔确定模式的概念,也就是说,一个间隔模式的概念与对象的最大数量,每个组件的宽度对不超过一个预定义的 。确认间隔模式概念的对象组合成一个集群和排除在组对象分析后续步骤。
在示例表中给出1的对象是学生和数值数据上下文包含各学科考试的成绩了。
我们需要将学生的集合划分为集群以这样一种方式,学生的成绩在同一集群最多相差1为每个学科。这样的设置对应 ;在这种情况下我们获得6集群(间隔模式概念的宽度不大于1),每个包含一个学生。在的情况下 我们到达同样的6个集群。
当 我们有五个集群 , , , , ,在的情况下 我们获得三个集群 , , 。
例子2。在前面的例子让我们设置的条件 , , , 。然后一组的学生可以分为四个集群 , , , :
聚类方法基于区间模式概念发现应用程序在实验数据分析。例如,基因表达分析这些方法的应用进行了讨论(4,5]。
2.2。几何
让是一组点( ), 是一组正实数。
定义8。一个与中心-orthotope(也称为一个盒子) 和边长度 间隔的笛卡儿积吗
可以很容易地看出问题的最大间隔模式概念的识别可以重新找到最优边长的框的位置 ,也就是最大化的点集封闭的盒子。这个公式可以推广的问题找到一个球的最优位置任意度量空间,因为任何框拉伸可视为一个球的距离度量 之间的分 和 被定义为
问题的最优定位已经深入研究了 :一些降低复杂性和夏普上界已知(见,例如,6,7])。然而,我们所知的情况下任意维度没有下界和高效精确算法可用为止。de Figueiredo和da Fonseca指出[8),大致的问题完全可以解决时间点投影到维抛物面半空间和使用范围搜索数据结构(9]。在同一篇论文中案例的加权分在某些额外的限制他们也获得了下界为精确算法和表明,现有算法未加权的版本的问题不打这个下界在最坏的情况下。Eckstein等人表明,泛化问题的最优定位的输入还包括一组禁止点是np难10]。
认识近似算法最优定位也取决于时间复杂度指数增长。例如,de Figueiredo和da Fonseca提出一个近似算法(8在最坏的时间解决问题 ,在那里 是一个给定的近似参数。由于指数的依赖这些近似算法在高维的情况下,几乎不适用的,有必要开发一个算法,可以在合理的时间产生一个近似解。
3所示。一个贪婪算法寻找一个盒子的一个近似最优位置
在本节中,我们提出一个贪婪算法寻找一个近似最优的位置与边长一盒 一组 (点列出的顺序无关紧要)。这个算法是聚类方法中描述的辅助部分4。
该算法有几个输入参数:积极的实数 , ,一个函数 : 。的参数 , ,和调节一个迭代的持续时间。这个函数需要的值和作为输入,并返回的迭代算法的主要阶段。更大的每个迭代的迭代次数和时间提供更好的近似。
该算法包括两个基本阶段:预处理阶段和主要阶段。
3.1。预处理
(1)在第一阶段我们的算法的框边的长度 转换成的单位立方体(我们称之为简单多维数据集)通过分裂每个点的坐标 , 。这个阶段可以执行操作。(2)我们考虑边缘的整数晶格长度1,计算点的数量在每个单元格,表示包含点的最大数量的细胞 。细胞被称为基础数据集。让 表示的中心 。这个阶段需要操作。(3)在预处理阶段,我们构建的最后一步- - - - - -树的数据结构(这是使用在主要阶段组织快速搜索范围)操作空间的复杂性(见[11,12])。
3.2。的主要阶段
让 : 表示函数计算数量的点的集合在一个任意的子集 。我们的算法的主要思想在于构建一个多维数据集的有限序列是从一个随机点在基础数据集和满足的条件下比前一个多维数据集包含更多的点。让 表示这些立方体中心 ,分别。我们在我们的符号 和 对所有 。后 迭代算法返回一个局部最优多维数据集 。
定义9。的社区一个立方体的与中心 是组成的立方体中心分的形式对所有 ,也就是说,所有数据集通过翻译沿着一个轴的距离 。
现在我们描述的程序构建多维数据集的顺序。让在立方体底部任意点和 ,与中心多维数据集 , 。为了得到一个明确的估计精度的算法(见定理11我们初始化第一个迭代确定性的中心作为 。其他随机迭代初始化。
假设数据集 与中心 分别和数字 已经建成。有两种可能情况。(1)如果存在一个立方体在附近的这样 ,然后我们组 ,采取的中心作为 ,并采取 。换句话说,如果存在一个立方体社区目前的立方体包含更多的点 ,然后我们当前方块移动到这个位置。(2)如果没有这样的数据集(例如所有数据集社区目前的立方体包含相同数量的点),然后设置 , , (即。,decrease the current step size). If (达到步长阈值),则结束,这个过程作为过程的结果返回。
为了获得可接受的时间复杂度我们施加额外限制的选择下一个多维数据集。这些假设是必要的,以避免序列的长度呈指数级增长的情况 。验证实验数据证实,这些限制基本上不影响聚类的结果。
限制1。序列中的所有数据集必须有共同点的基础多维数据集 。
在图1我们提出一组的一个例子这要求精确解之间的显著差异原因和解决方案产生的算法。然而,这种差异实际上是降低了聚类算法的进一步措施,一般只影响集群的顺序。
限制2。为每个单独的坐标是不允许翻译相反的方向在不同的步骤中的立方体上面描述的过程。
上面的限制导致下面的引理。
引理10。算法的主要阶段 最坏的时间复杂度。
证明。首先,我们得到一个上估计的长度多维数据集(一个任意的顺序 )。由于的限制和我们有 因此,限制1和2避免序列的长度呈指数级增长的情况 。每一步的过程构建多维数据集需要的序列评价函数的多维数据集(例如,范围搜索)。与使用- - - - - -树可以执行搜索范围最坏时间复杂度(见[13])。构建多维数据集的序列包括的过程 迭代,因此上述复杂性约束。
请注意,我们也有一个简单的估计 ,因为生长,因此 。因此,最坏的复杂性估计没有强加的限制 持有,因此可以省略的限制没有违反实际可行性,以防如果对象的数量维度的顺序相同吗 。
3.3。精度和算法的复杂性
定理11。让是一个中心 , 是一个多维数据集由一个算法迭代初始化(所以这个迭代 ),是一个最优多维数据集(例如, ,其中最大的是接管所有的单位立方体)。然后 这估计是锋利的。
证明。上估计是微不足道的。较低的估计遵循的事实被最多细胞的整数晶格边缘的长度是1,因此 举个例子,这个例子表明,估计是类似于图的例子1。例如,我们可以找到的中心在整数晶格节点,把点这样每个单元的整数晶格最多包含一个点。然后,我们选择一个任意单元的整数晶格距离这个细胞,把一个点, 。
定理12。该算法寻找一个大约最优位置的盒子 最坏时间复杂度,空间的复杂性。
证明。结合的时间和空间复杂性估计算法的预处理阶段和主要阶段给上述范围。
请注意,省略的限制和导致最坏时间复杂度估计
4所示。聚类算法
现在让我们考虑集群的问题,也就是说,把给定的问题 为互不相交的子集 。间隔模式概念的方法后,我们构建集群控制区间宽度模式概念。我们提出一个基于贪婪的方法和聚类算法的过程找到一个近似最优位置的部分中描述的一个盒子3。该算法对点的顺序不敏感给出了。算法的参数包括积极的实数 和所有参数的定位算法,即 , 。
首先,我们把 并找到一个近似最优位置盒子的边缘长度 为一组 。现在假设集 和 已经建立,让 。如果 然后程序结束。我们找到一个近似最优位置盒子的设置 。这个过程的输出是一组集群 。
为了避免产生大量的小集群组成的离群值我们强加一个限制。
限制3所示。由此产生的集群至少必须包括对象。
与这一限制的大小 小于然后程序结束(分属于 被认为是未聚集和称为离群值)。
限制结合定理12立即导致下面的定理。
定理13。聚类算法有 最坏时间复杂度,空间的复杂性。
如果限制- - - - - -省略了,最坏时间复杂度估计是吗
5。验证
聚类算法在本研究开发的验证数据集上执行的触觉图像注册医疗触觉Endosurgical复杂(MTEC)在人工检查样品。MTEC允许术中机械感受器触觉检查组织,已经用于内窥镜手术(14- - - - - -16]。作为医学触觉图像的自动分析方法仍然不足,尤其是验证结果和聚类算法在一般为医疗领域应用提供新的机遇。
MTEC的关键组件是一个触觉机械感受器(17,图1)。营运主管配备19压力传感器执行同步测量每秒100次。每个测量结果(称为“触觉框架”和19个值)组成的无线传输到电脑,执行预处理和可视化。传感器是位于操作头表面是一个圆,直径20毫米。
为了创建一个数据集的触觉图像我们利用MTEC触觉检查的三种类型的人工样品。样本类似L-samples利用研究(17)——是用软硅胶(Ecoflex 00-10,肖氏硬度00-10A)根据制造商的指示和形状的矩形块的长度,宽度,高度40毫米,35毫米,分别和11毫米。区别是在大小和形状的硬包体封闭样品。第一样品类型(死神)包含了一种与底座直径8毫米球冠高度2.4毫米的触诊的凸边。第二个样本类型(ST2)包含了一种底座直径4.7毫米的球冠和高度1.7毫米也面向触诊的凸边。第三样例类型(ST3) ST2夹杂物是一样的,但是他们对触诊从平面向。对所有样本类型的夹杂物是位于中心高度约3毫米。因此,样品类型相似与不同大小或凸性的包容。这些样本模拟与恶性肿瘤组织。
完全55的触觉检查使用MTEC样本进行描述。接触角是约等于 ,和夹杂物靠近表面的中心首席运营官。我们进行了22个,十七岁,十六岁考试样本的相约,ST2,分别和ST3类型。对于每一个检查一个触觉框架被选,即最大的标准差(SD)的价值观,和其他触觉帧被忽视。触觉的可视化框架为每个样本类型提出了数字2(一个)- - - - - -2 (c)。
(一)
(b)
(c)
(d)
因此,每个检验点 ,点的总数是55。这个点集是集群使用聚类算法开发,和结果的结果进行了比较——集群( 欧氏距离;见,例如,(1]),用作参考。Scikit-learn实现(18的则算法利用。调整和生兰德索引(聚类结果与原始类;见,例如,(1)被用作比较特征聚类的质量。注意,两个聚类算法使用随机初始化,所以多个运行进行聚类质量评估进行了(具体地说,100年,估计兰德指数对于每个算法给定的参数)。
由该算法和结果算法则是令人不满意的。然而,由此产生的聚类质量差是可以预见的研究一个示例可以导致触觉帧,本质上是对代表不同的意义由于旋转和轻微变化的触觉机械感受器。
得到更好的结果,我们的数据映射到新的能量空间的属性。新属性包括(我)SD触觉帧的所有值;(2)对应的均值和SD值7中间传感器;(3)对应的均值和SD值12外传感器;(iv)均值和SD值对应的传感器,属于主对角线(3对角线组成的每个5传感器,总共13个传感器;参见图2 (d)详情);(v)均值和SD值对应的传感器,属于二次对角线(6对角线每个组成的4传感器,总共12个传感器;参见图2 (d)详情)。这些属性是健壮的旋转成正比 。的值均值和SD后计算比例值段。
转换到新的属性空间本质上改善了聚类质量,但是我们的算法左10 - 14分,离群值(是等于8;的值 , ,和是等于 , ,和分别为,是等于所有属性)。代表一个运行提出了表的结果2。然后我们将获得集群的异常值点最近邻居算法( 无关紧要的;见,例如,(19])。一位代表一个运行提出了表结果3。
表4包含兰德指数的平均值和SDs和定时信息。
可以看出,该算法有一个可接受的运行时间,我们和算法达到则意味着质量高原已经在20次迭代。
在该算法的优势则算法对聚类质量在统计学上意义重大。例如,20次迭代和调整兰德指数的比较我们的算法和异常值——在100年导致Mann-Whitney运行以及双尾值等于 。作为离群值聚类的点最困难的是,我们的算法的优势辅以kNN-attributing集群的异常值则较低,但仍坚定地与Mann-Whitney显著以及双尾值等于 。
有趣的是,过渡到新属性空间改进算法的质量比的质量——集群。例如,20次迭代,调整兰德指数,和100年运行时,初始属性的聚类质量的比较空间和新的属性空间导致Mann-Whitney以及双尾值不超过“离群值”和“没有异常值”版本的算法,而对于则的值 。
6。结论
在本文中,我们提出了一个贪婪的聚类算法基于区间模式概念。获得的理论估计算法复杂性被证明对高维空间计算的可行性,并验证实验数据证明高质量产生的集群相比,传统的聚类算法等则。
特定结果验证期间,如触觉的一个新属性空间框架注册的医疗触觉Endosurgical复杂,有个人意义对于医学领域应用提供新的机会,它们旨在触觉图像的自动分析。
数据访问
数据集的触觉帧用于验证和实现发达的Python脚本从作者聚类算法可按照客户要求定制。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者感谢Alexey诉Galatenko博士和弗拉基米尔诉Galatenko宝贵意见和讨论。俄罗斯科学基金支持的研究(项目16-11-00058“的发展方法和算法的自动化分析医疗触觉信息和触觉图像分类”)。