研究文章|开放获取
李Yingyu朱,西蒙, ”相似度统计Clusterability细胞形成问题的分析与应用”,概率论与数理统计》杂志上, 卷。2018年, 文章的ID1348147, 17 页面, 2018年。 https://doi.org/10.1155/2018/1348147
相似度统计Clusterability细胞形成问题的分析与应用
文摘
本文提出了利用相似度值的统计评估clusterability或structuredness关联到一个细胞的形成(CF)的问题。通常,structuredness CF的解决方案不能认识到CF问题已经解决了。在这种背景下,探讨机器对估计的相似性统计给定的潜在structuredness CF问题没有解决它。一个关键的观察是一个结构良好的CF解矩阵相似性强机的比例相对较高。然后,使用直方图作为统计工具研究相似值的统计分布。这项研究导致型标准的发展和基于Kolmogorov-Smirnov测试标准。因此,开发过程分类是否输入CF问题可能导致结构或架构不良CF矩阵。20矩阵在数值研究中,最初是用于确定的阈值标准,和40附加矩阵被用来验证结果。此外,这些矩阵的例子表明,遗传算法无法有效改善结构良好的CF的解决方案(高分组有效性值),通过分层聚类(一种启发式)。这个结果支持相似的相关性统计preexamine输入CF问题实例并提出适当的解决方案解决问题的方法。
1。介绍
本文的研究就像制造系统和计算机科学的一个十字路口。基于我们的学科背景,我们最初研究细胞的形成(CF)的聚类问题,寻求类似的机器和零部件支持大规模定制(1]。换句话说,一个CF的问题是一个双模聚类问题(2]。由于CF np难的本质问题3],许多算法,包括准确、metaheuristic和启发式方法,提出了(在讨论部分2.2。3)。研究的层次聚类(缩写为HC,列为greedy-based启发式方法),尽管HC不是最强大的搜索算法解决方案,它可以产生令人满意的结果与一些强大的metaheuristic方法(例如,遗传算法)“结构”的解决方案。在这种背景下,本研究调查的条件基于相似度值的统计数据来估计一个给定的潜在structuredness CF问题没有解决它。
在计算机科学领域,structuredness不知怎么的概念对应于clusterability概念(4]。凭直觉,clusterability可以被视为衡量一个数据集的“内在结构”是集群(5]。计算机科学家已经观察到的数据集好clusterability集群非常有效(即可以。聚类的性质,更少的影响赋权问题)。这个观察总结在一份声明中,“集群是困难的,只有当它并不重要”(缩写为CDNM论文)4,6]。
值得注意的是,衡量clusterability仍然是计算机科学的一个开放的话题。阿克曼和Ben-David4)调查不同clusterability和显示他们的不相容的定义成对比较。Nowakowska et al。5]认为应该partition-independent clusterability测量,以便它不依赖于聚类算法和最终的解决方案。阿克曼et al。7)提出了使用成对的统计分布评估clusterability任何两个物体之间的距离。
CF的问题的背景下,为了应对CDNM论文,我们还观察到一个启发式方法(例如,HC在我们的例子中)可以产生令人满意的结果。进一步利用这一观点在实践中,本研究开发的标准评估潜在structuredness(计算机科学对应clusterability)给定CF的问题,建议使用HC或遗传算法(GA)来解决问题。验证开发,我们应用算例检验的结果structuredness标准和CF方案通过HC和GA的质量。
虽然独立开发,我们要承认我们的方法评估structuredness标准类似于阿克曼的统计方法等。7]。的区别在于我们的应用程序的集中在CF问题,而阿克曼et al。7)都集中在集群的相对高级的开发任务。这种差异解释了我们使用的相似性措施(而不是距离)的统计分析,因为他们是常见的CF问题,允许一些规范化设置structuredness标准。此外,我们的工作数字检查structuredness标准和解决方案之间的关系质量(即两个不同的聚类方法。、HC和GA)。
值得注意的是,本文从我们的会议论文(扩展8]的改进技术(例如,阈值设置和归一化方法)。同时,额外的数值例子已经用于评估。
本文的其余部分组织如下。部分2将概述CF问题和讨论一个结构良好的三个属性CF方案为了澄清相似数据的逻辑关系。部分3将引入相似度值的直方图分析和发展u型标准。部分4将介绍Kolmogorov-Smirnov(钴)测试,用于通知矩阵的structuredness开发另一个标准。部分5将讨论的程序开发标准适用于结构和架构不良矩阵进行分类。部分6通过算例将检查structuredness标准,也用来检查的有效性metaheuristics通过一个两阶段的解决方案的过程。部分7将本文的结论。
2。背景:细胞的形成问题
2.1。问题的介绍
在细胞制造系统的设计,一个早期和重要的决定是机器组和部分家庭的形成,它通常被称为细胞的形成(CF)的问题。一个简单的CF问题可以紧了一个机械零件关联矩阵。让米=(我= 1,米的机器和集P=(j= 1,n部分的集合。然后,一个关联矩阵,表示为B =(bij),表明机器米我需要生产部分pj(如果是这样,bij= 1;否则,bij= 0)。解决CF问题后,矩阵的行和列的机器可以被重新排序,揭示子集(即。机集团)部分的子集(即高度相关。,一个家庭的一部分)。
利用关联矩阵来表示CF(即解决方案。,block-diagonal matrices), they can be roughly classified into two types: well-structured and ill-structured matrix [2,9]。如图1,一个结构良好的矩阵块外几乎没有非零矩阵的条目(定义为特殊元素)和几块内零矩阵的条目(定义为空洞)。准确地说,特殊元素的矩阵的条目bij= 1,米我和pj在不同的细胞,空洞的矩阵的条目bij= 0和米我和pj在相同的电话。相反的条件申请一个架构不良矩阵(即。,有许多特殊的矩阵解元素和空间)。一个结构良好的矩阵意味着家庭只可以产生相当一部分机器组这几个部分家庭的变化不会产生不利影响其他地区的生产。这是一个理想的特性的细胞制造系统(1]。
量化的structuredness CF矩阵解决方案,我们使用传统的分组功效(表示μ),这是制定如下(10]。 在哪里nen出n在非零矩阵的条目的总数,特殊元素,分别和空洞。在一个完美的CF的解决方案n出=n在= 0,分组效率等于其最大值,即。,一个。当有更多的特殊元素(n出)和空间(n在),分组有效性值将变得更小。
然而,并不是所有的关联矩阵都可以转化为一个结构良好的矩阵由于原始复杂相互依存的机器和零件之间的生产要求。这种情况下不能通过先进的优化技术来解决问题的根源来源于CF的原始输入的问题。然而,我们几乎不能知道是否一个给定的CF的问题是要有一个结构良好的矩阵或直到我们解决这个问题。在这种背景下,本文的目的是评估一个给定的structuredness CF问题通过分析相似的机器实际上没有解决它。在传统CF概念,两台机器可以是类似的,如果它们是必需的,主要生产公共部分的一个子集。在这部作品中,Jaccard应用相似系数(11,12]。让年代xy机器之间的相似度值米x和米y。制定以下提供Jaccard相似系数。 在哪里一个xy是部分的数量需要机器吗米x和米y;bxy是部分的数量需要机器吗米x但不是机器米y;cxy是部分的数量需要机器吗米y但不是机器米x。从概念上讲,Jaccard相似系数关注共同的特征的数量(例如,一个xy总数)归一化的相关特性(例如,一个xy,bxy,和cxy)。值得注意的是,相似性是任何两台机器(即只评估。,一副机)。
在指定机器相似的概念,让我们重温图中的两个例子1。每个例子都有30机器,导致30×()比率是30 - 1 / 2 = 435机对。通过检查任何两台机器的相似性(或机器对),我们发现结构良好的矩阵有更高的机器对高度相似性值。在图的例子1,我们可以得到以下两个语句有关机器的数据相似度值。(我)结构良好的矩阵:81(435)机器对具有相似值高于或等于0.80。(2)架构不良矩阵:4(435)机器对具有相似值高于或等于0.50。
在这个例子中,大致确定一个结构良好的矩阵可以有相当不同的统计分布的机器相比一个架构不良矩阵相似度值。这个观察导致调查问题的统计条件可分为结构良好的矩阵。这个调查是本文的重点。通过了解这些统计条件,工程师在设计最初的细胞制造系统可以通过机器相似的统计评估他们的生产要求。如果统计数据显示(即不利的结果。,chance of getting a well-structured matrix is low), they can either modify the production requirements (e.g., buy more machines) or seek for other manufacturing systems. It can save the efforts to solve the CF problem with such initial assessment. Also, this paper will show that a well-structured matrix can be satisfactorily obtained by some less time-consuming heuristics (where complex optimization methods may not bring additional benefits).
2.2。一个结构良好的CF方案的属性
调查的统计条件structuredness CF的解决方案,这一节将讨论一个结构良好的矩阵的三个属性。这三个属性包括高分组功效,很高比例的高度相似性机双,相对容易获得满意的CF的解决方案。之后,将讨论研究计划。
2.2.1。财产我:高分组功效
的原始配方分组有效性(GE) (1)可以在Kumar和Chandrasekharan [10],它的目的是取代一个加权和函数用一个简单的比例来评估一个CF的解决方案的美好(block-diagonal形式)。自那时以来,通用电气在CF测量已成为流行的研究(例如,9,13])。尽管它受欢迎,一些研究人员批评其“内置的重量”14),较低的孔隙的数量(例如,n在通用电气)往往会给一个更好的衡量(相比特殊元素(例如,n出))。Brusco [15)评论说,通用电气测量的非线性产生的一个挑战找到CF问题的精确解。评论的衬衣和Mondal16]在他们调查的报告中,不容易开发一个标准衡量,适合所有CF问题。人们普遍认识到,通用电气测量好辨别structuredness依赖于CF的解决方案(2]。因此,我们选择通用电气测量在这个研究。
根据其定义,一个结构良好的矩阵应该有一些特殊的元素和空洞,导致通用电气的高价值。虽然通用电气是有效地指示的structuredness CF(高价值的解决方案结构良好的矩阵),这个值不能到CF问题已经解决了。因此,在本研究中,通用电气作为验证测量检查机器如何相似可以与structuredness CF的解决方案。
2.2.2。房地产二:高百分比的高度相似性机对
高分组功效的财产相比,是不太明显的知道一个结构良好的矩阵有很高比例的高度相似性机对。针对Jaccard相似系数(2),有两种类型的因素用来评估机器相似。而一个xy(即。,the number of common parts) is taken as a commonality factor, bothbxy和cxy(即。,the number of parts processed in one machine but not another one) serve as differentiating factors to normalize the similarity measure. In turn, if the similarity value of both machines is high,一个xy不能是零和的值bxy和cxy应该是小,这意味着不仅共性,而且排他性这两个机器的处理他们共同的部分。这个功能可能会导致较小的空洞和特殊号码,导致一个结构良好的矩阵。
在文学,相似的概念已经应用多年来解决CF问题,Jaccard相似系数是一个早期的应用程序(11]。从那时起,许多提出了相似性系数,相似性系数的比较研究可以发现在衬衣17),Mosier et al。18[],阴和Yasuda19]。值得注意的是,相似度是一个上下文相关的概念,这取决于应用程序和相关的信息来评估类似的两个物体之间。在我们的调查中,我们选择Jaccard相似系数,因为它的概念的共性和区别因素简单的CF应用程序非常简单。
虽然相似系数已经广泛的研究了CF问题,相似度值的统计分布的CF问题尚未调查在我们合理的理解。值得注意的是,这些相似性值可以发现没有解决CF问题。然后,如果我们知道之间的关系相似度值的统计分布和通用电气测量,我们可以利用相似度值的统计分布,评估潜在的收益结构矩阵为一个CF的问题。这是本文的主要目的。
2.2.3。房地产III:相对容易获得满意的CF的解决方案
在这一点上,我们可能想知道为什么重要的是要知道的潜力的一个结构良好的矩阵在解决CF问题。首先,它已经认识到,一个CF的问题是一个np难问题(3),不太可能找到一种实用的算法,可以保证一个确切的解决方案一个不大不小的问题。因此,力气就能解决一个CF的问题不是微不足道的。在文学,许多metaheuristic算法提出了解决CF问题如遗传算法(20.,21和模拟退火22,23]。相关的综合评价中可以找到Papaioannou和威尔逊24Renzi]和et al。25]。虽然metaheuristic算法有能力取得高质量的解决方案,他们通常需要用户拥有良好的数学能力,理解不了这些算法(26)和良好的经验做一些“实现决策”15,p . 293](例如,在遗传算法终止条件)。
相比metaheuristic算法,启发式算法容易实现,但他们的解决方案通常是质量目标(27,p . 159);(24]。简而言之,启发式算法的一个共同的特征就是他们的贪婪或爬山方法专注于最好的解决方案在一个阶段没有回溯其他解决方案的可能性。这个特性允许他们快速收敛于一些可行的解决方案的权衡检查一个较小的解决方案空间(因此,潜在的弱解的质量)。层次聚类(HC),这是一个早期的CF方法问题(11),是启发式算法的一个例子因为HC组最高的对象对相似度值逐渐没有回溯。
作为它的第三个属性,可以看出一个结构良好的矩阵可以获得相对容易通过启发式方法(本文称为HC特别),metaheuristic方法不一定有优势的获得高质量的解决方案。此外,metaheuristic方法的优点是经常观察到的架构不良矩阵。正如之前所讨论的,一个结构良好的矩阵显示相似和不同的机器对之间的明显差异。该特性支持的“贪婪”性质的启发式方法,它可以很容易地分辨高度相似性对进步的分组过程中。相比之下,一个架构不良矩阵与middle-similarity值,以便有更多的机器对一些边缘案例可能导致低质量的解决方案。而这第三个属性可能不是很明显,更验证示例将在稍后公布6.3作为本文的调查行动的一部分。
鉴于这第三个属性的一个结构良好的矩阵,相似度值的统计分析可以导致另一个应用程序,即。,支持的选择算法求解CF的问题。如果统计分析显示了一个高潜力获得一个结构良好的矩阵,我们可以选择启发式方法来解决CF问题。或者,如果它显示一个高一个架构不良的概率矩阵,我们可以考虑修改输入关联矩阵(例如,添加更多的机器或改变部分需求)。同时,我们可以准备使用metaheuristic方法寻求高质量的解决方案。总之,统计分析可以初步给定CF探针的结构问题,以决定下一个解决问题的步骤。
2.3。研究计划
针对一个结构良好的矩阵的三个属性上面所讨论的,设置如下的研究和发展问题。(我)是什么相关的标准相似值的统计数据来评估潜在的结构矩阵吗?(2)我们如何决定是否使用metaheuristic或启发式方法求解一个CF的问题?
为了解决第一个问题,本文将利用两种统计工具:直方图和Kolmogorov-Smirnov(钴)测试。直方图将用于分析给定CF的机器相似值的分布问题,和二十个CF的解决方案将调查通知的潜在structuredness阈值矩阵。钴测试将被用来评估机器的常态分布的相似度值。如果相似度值的设定大致遵循正态分布,这意味着许多机器对平均相似度值,这意味着较低的比例高度相似性值(即。一个架构不良矩阵)。
基于调查使用直方图和钴的测试中,我们将开发一个程序给定CF探针的结构矩阵和建议是否使用metaheuristic或启发式解决问题(即。解决第二个问题)。在本文中,我们实现了遗传算法(GA)和层次聚类(HC)作为metaheuristic和启发式方法,分别解决CF的问题。验证过程中,额外的40 CF矩阵将被设置。这些CF矩阵将通过HC然后遗传算法解决观察之间的关系矩阵的structuredness和效用更好的CF metaheuristic方法的解决方案。
3所示。直方图分析的相似度值
3.1。直方图和u形
在这项研究中,频率分布直方图用于报告0.1机器相似值的增量。图2显示了两个直方图的结构和架构不良矩阵图1,分别。在这些柱状图,横轴代表机器相似值从0到1,纵轴代表机器的数量对这些相似度值的范围内。值得注意的是,这些订单的直方图是独立的一个矩阵的行和列。也就是说,我们可以将这些直方图相似性值没有解决CF问题。
从这两个柱状图,可以看出一个结构良好的矩阵往往产生一个u型直方图,即。极端相似,相对较高的数字值。正确的峰型可以解释的高百分比的高度相似性的财产机双节中讨论2.2。2。虽然low-similarity机的数量对高在这两种情况下的结构和架构不良矩阵,一个结构良好的矩阵有一个低数量的机器对相似性值在0.2和0.4之间。相比之下,一个架构不良矩阵有一个良好的middle-similarity机器配对,导致细胞形成清晰的分组的一个挑战。鉴于这种通用型观察,下一个部分将讨论的标准分类的structuredness矩阵(即。,基于直方图的数据结构或架构不良)。
3.2。设置20个指标矩阵
以来的频率分布直方图的订单将不会改变一个矩阵的行和列,我们可以设置CF解矩阵与已知structuredness然后观察直方图开发structuredness标准。在这个调查,20 30×40解矩阵(即。,30.米一个chines and 40 parts) with three cells (or blocks) are set. These matrices are varied by two factors:块大小和数量的特殊元素和空洞。块大小、5例设置如下,每个括号显示块的大小(数量的机器×数量的部分)。(我)情况下⟶甚至情况:(10×13)(10×13)(10×14)(2)案例B⟶一个大块:不均匀情况(20×26)(5×7)(5×7)(3)案例C⟶不均匀的机器数量和部分在两个街区(20×7)(5×26)(5×7)(iv)例D⟶不均匀的机器和零件在三块:(20×5)(5×17)(5×18)(v)例E⟶两大块:不均匀情况(14×18)(14×19)(2×3)
此外,4例设置下面描述的控制矩阵的structuredness通过特殊元素和孔隙的数量。(我)我(结构):一些特殊的元素,没有空隙(2)例二(结构):没有特殊元素和一些空洞(3)例III(结构):一些特殊的元素和一些空洞(iv)例四:(架构不良):好数量的特殊元素和空洞
结果20矩阵如图3。一般检查、矩阵的情况下,我和二世有明确的三个单元的边界。矩阵,以防III有更多的特殊元素和空洞但他们的结构仍然很明显。相比之下,矩阵的结构,以防IV是混乱的特殊的元素和空洞。基于这些矩阵,下一小节将调查他们的直方图和发展型分类标准矩阵的structuredness。
3.3。基于直方图u型标准
通知矩阵的structuredness,两个条件为u型标准设置向低,高度相似性值。让F左(x)是相似的分数值低于x和F正确的(y)是相似的分数值高于y。然后,通用型标准可以表示如下。 在哪里一个和b是最低分数低的阈值和高度相似性值,分别描述结构良好的u形矩阵。这些参数值的设置(例如,x,y,一个,b)将基于上述20基准矩阵。
图4显示了直方图的20个指标矩阵。初步观察,频率分布直方图的结构(即之间被认为完全不同。,I, II, III)和架构不良矩阵(即。,案例四世)。Yet, some U-shapes are not plainly obvious (e.g., Cases A-III and C-II), and the peaks of high-similarity values of the well-structured matrices are not located at the rightmost region (e.g., Cases C-I and D-I). The U-shape criteria will then be set based on these observations.
关于该地区的low-similarity值(即。,the left side of the U-shape), it is found that both well-structured (i.e., Cases I, II, and III) and ill-structured (i.e., Case IV) matrices have high proportions because many machines, as long as they are not in the same cell, have less common parts to work with in both cases. As a result, the proportions of low-similarity values from a well-structured matrix can become less discernible statistically. Thus, we choose to investigate the extreme value when the similarity values equal to zero, i.e.,F左(x= 0)。表1记录机器的数量对的相似度值等于零。观察到,而矩阵情况下II和III右侧低山峰,他们这样zero-similarity机器比例高,对。随着u型标准将用于早期筛查,我们将这一标准相当严格,如下所示。 这一标准要求50%的机器对zero-similarity值以符合一个结构良好的矩阵。通过检查的基准矩阵(即30机器。,435米一个chine pairs), the threshold is 218 machine pairs, and the matrices in Case II pass this criterion.
|
|||||||||||||||||||||||||||||||||||||||||||||
关于该地区的高度相似性值(即。,the right side of the U-shape), as discussed earlier, not all well-structured matrices have high proportions of high-similarity values at the rightmost region. By inspecting the histograms in Figure4,我们确定一个合理的高度相似性截止值应该是0.5,也就是说,F正确的(y= 0.5)。表2记录机器的数量对的相似度值大于或等于0.5。观察到的、高度相似性值的比例(年代xy≥0.5),以防IV(即。,我ll-structured matrices) are relatively low. In contrast, Case C-II is the well-structured matrix with the lowest number of high-similarity values (i.e., 91), and the corresponding fraction is 91/435 ≈ 0.21. As a result, another U-shape criterion for the right-hand side is set as follows. 总之,如果一个输入关联矩阵满足一个(两个u形标准制定的5)和(6这个矩阵),很有可能产生一个结构良好的CF的解决方案。值得注意的是,我们对基于直方图u型标准作为初步筛选工作。也就是说,如果一个矩阵不满足这些标准,它不立即暗示这个矩阵是架构不良。事实上,其他参数的输入关联矩阵,如机器的数量和密度矩阵非零项,可以影响的频率分布直方图。因此,下一节将开发另一个基于钴标准测试。
|
|||||||||||||||||||||||||||||||||||||||||||||
4所示。标准设置基于Kolmogorov-Smirnov(钴)测试
4.1。背景
Kolmogorov-Smirnov(钴)测试是一种假设检验的统计数据(订单和工头)(28]。作为它的一个应用程序,钴测试本文中用于评估如何代表一个正态分布的数据集(例如数据集的常态)。使用钴试验在本研究中主要是出于直方图的观察图2井身结构矩阵往往会给一个u形。型通常会表现出两座山峰的直方图表示,相关数据(即的常态。相比,相似度值)将疲软的一个架构不良矩阵。
图5阐述了相似度值的正常的概念有两种情况:单峰直方图和u形柱状图。钴测试本质上比较两个累积分布函数的曲线(CDFs) [29日,30.]。当一个运作(即代表了经验数据点。,e米p我rical CDF, solid line), another CDF is based on the normal distribution curve fitted by the empirical data (i.e., hypothesized normal CDF, dashed line). As seen in Figures5 (c)和5 (d)正常,单峰直方图高于自单峰型直方图直方图收益率进一步实证,假设正常CDFs之间的匹配。相比之下,u型直方图收益率实证CDF实验组的图5 (d)在开始和结束与快速增长,加上中间一个相对平坦的区域,并提供曲线明显偏离正常(31日]。
(一)一个单峰直方图
(b)型直方图
(c) CDFs的单峰直方图
(d) CDFs的u型直方图
的P值是一个常见的概念假设检验(32]。它可以解释为最小的概率值与给定数据集相关拒绝零假设(即。,小P值更有可能拒绝零假设)。在这项工作中,我们把P钴测试值作为代理措施正常的一组相似的价值观。也就是说,如果P值越小,数据集往往是少正常(33]。解释在我们的情况下,少正常条件意味着一个u形,因此一个结构良好的矩阵。例如,P单峰直方图图的价值5 (c)是7.44× ,和P型直方图如图5 (d)是9.27× 。
值得注意的是,使用钴测试的目的在这个工作不是关于假设检验,但只有使用它P作为代理的价值衡量评估常态的一组相似的值然后通知structuredness CF的矩阵。然而,P在我们的应用程序往往是很小的值。方便地处理这代理措施,让P价值是P值的一组相似的值基于钴测试,和另一个代理(表示lp)定义如下: 作为lp负对数的吗P价值,更高的价值lp意味着更高的趋势有一个u型的数据集。例如,的值lp单峰直方图(即。,图5 (c))和u型直方图(即。,图5 (d)分别为3.13和21.03)。换句话说,如果一个CF矩阵收益率更高的价值lp,它有一个更好的机会去得到解决作为一个结构良好的CF的解决方案。
通过了解房地产的趋势lp,这就引出了下一个调查问题设置的阈值lp对架构不良和结构良好的矩阵进行分类。要做到这一点,它是意识到的值lp可以敏感的机器数量和密度给定矩阵的非零元素。因此,下一小节将调查的上界lp一个给定的矩阵规范化的价值lp。然后,我们将20基准矩阵图3确定阈值。
4.2。的上界估计lp为归一化
的上限lp可以通过一个完美的block-diagonal估计矩阵,异常的数据元素(n出)和空间(n在(即)是零。,the grouping efficacyμ= 1)。在这种情况下,机器对具有相似值等于任何一个(当两台机器属于同一块)或0(当两台机器在不同的块)。这种“双相”分布可以看成是一个极端的正态分布,以及相应的P值可以作为的上界lp。
在标准化过程中,我们可以先确定尺寸和给定矩阵的非零元素的数量。让米和n机器和零部件的数量,分别为矩阵的大小。非零的数量被表示为矩阵的条目ne。然后,矩阵的非零元素的密度(表示D年代)可以确定如下。 给定一个关联矩阵,其上界lp可以被认为是在一个情况下当它的非零项可以自由地搬到形成一个近乎完美block-diagonal矩阵。固定的值米,n,和D年代,可以有相应的理论上限lp。让l英国石油公司表示这样的一个上界lp一个给定的矩阵。那么,对于任何给定的矩阵,我们可以确定它lp和l英国石油公司,在那里l英国石油公司被视为一个正常化的因素。由于本文着重机相似,我们将考虑n为了简化调查。然后,下一步是确定以下函数。 估算的功能l英国石油公司,我们的策略是系统生成的完美block-diagonal矩阵通过改变机器的数量,零件,哪怕大小细胞(注:哪怕大小细胞的数量将决定非零项的数量)。这些不同的参数在这工作的范围如下。(我)机器数量:从10到50的机器(2)部分:数量从10到110个部件(10)的增量(3)哪怕大小细胞数量:从2到14细胞(也限制了矩阵的大小,以避免非常大或小细胞)
进一步的细节设置这些可以找到完美的矩阵在朱34]。因此,这项工作已经产生2519完美的矩阵。然后,的值P价值和lp这些矩阵,确定给近似函数制定(2519分9通过曲线拟合技术)。结果发现回归方程如下所示。 在实践中,我们可以确定的值lp通过(7),l英国石油公司通过(10)对于一个给定的矩阵。然后,我们可以检查它的比例lp来l英国石油公司检查U-shapeness然后的structuredness矩阵。下一小节将讨论基于标准的比例lp来l英国石油公司。
4.3。比标准的基础上lp和l英国石油公司
的设置比例阈值lp和l英国石油公司基于20基准矩阵图3。的值lp,l英国石油公司和他们的比率被记录在表3。回忆,例I, II, III将代表结构良好的矩阵,和案例第四代表架构不良矩阵。作为一个初步评估,平均比率的情况下我,II, III(即。,结构良好的矩阵)是0.48,比第四例0.07的平均水平。这个观察表明,比例lp/l英国石油公司可以区分结构和架构不良矩阵非常有效地从统计的角度来看。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
然而,当我们考察的极端情况下,结构良好的情况下是0.17的最低比率(即。情况下d - i,大胆的在表3),比例最高的架构不良情况下是0.15(即。,iv,还大胆的表3)。观察,两者之间的差距是关闭,我们打算实施严格标准分类结构良好的矩阵。因此,我们设置阈值为0.2,制定如下。 在这一点上,d - i是唯一的结构矩阵,不满足这一标准。然而,d - i满足前面的u型标准之一。因此,我们的下一步是将u型标准和比例标准程序检查的潜在structuredness关联矩阵。也就是说,如果一个给定的矩阵满足这些标准之一,它是表示,这矩阵具有很高的潜在产量结构良好的CF的解决方案。下一节将讨论这个过程来应用这些标准通知的潜在structuredness给定矩阵。
5。过程
本节提供下面四个步骤的过程评估的潜在structuredness关联矩阵使用直方图u型标准和标准的基础上P钴的价值测试。图6说明了这个过程的决策分支。
步骤1(构造直方图)。通过接收一个关联矩阵作为输入,机器对的相似度值首先确定基于(2)。如果有米机器,会有米×(米1)/ 2机对与他们相似的价值观,形成统计分析的数据集。然后构造一个直方图来分析这些相似度值。
步骤2(应用基于直方图的u型标准)。这是初步的检查频率的基础上高和low-similarity值。如果其中的一个标准F左(0)≥0.5或F正确的满足(0.5)≥0.2时,关联矩阵被认为是有潜力产生一个结构良好的CF的解决方案。如果这两个标准都不满意,我们将继续分析的基础上P钴的价值测试。
步骤3(计算和 )。相似度值的数据集作为输入来确定P钴测试的价值评估数据集的常态。这个计算可以通过一些统计软件工具。在这项工作中,我们使用了Matlab计算的统计功能P价值。的价值lp可以使用(评估7)。关联矩阵,的价值l英国石油公司可以使用(评估10)通过识别机器的数量(例如,米)和非零元素的密度(即,D年代)。
步骤4(应用比标准/ )。的值lp和l英国石油公司如果,我们可以检查标准lp/l英国石油公司≥0.2。如果满足这一标准,输入矩阵应该有很好的潜力产量结构良好的CF的解决方案。如果不是,输入矩阵将很有可能导致一个架构不良CF的解决方案。从业者可能考虑修改输入矩阵通过添加机器或修改生产要求。
6。应用和验证
检查CF相似值的统计分析问题,其他40矩阵(除了前面20基准矩阵,矩阵占60)将生成和应用在这一节中。这60矩阵将被用来检查明确以下两个问题。(我)考虑到三个标准来评估的潜在structuredness矩阵,我们将使用这些60矩阵来检查它们的有效性区分矩阵结构和架构不良。(2)而第三财产(即。,relative ease of obtaining satisfactory CF solutions) of a well-structured matrix has been discussed in Section2.360,这将是验证通过这些矩阵的两个阶段CF解决问题。
6.1。设置的60发病率矩阵
策略来生成60矩阵是基于扩展的20节中基准矩阵3.2。额外的不同因素包括以下。(我)除了30×40矩阵的大小,另一个40×100矩阵大小设置。(2)我们添加例更多数量的细胞(从3到6、8和12细胞)(3)细胞大小的均匀度也不同。
表4显示的设置60矩阵,病例和E部分是重复的3.2进行比较。值得注意的是,矩阵的structuredness,分类为例,II, III, IV部分3.2,也是应用,导致15×4 = 60发病率研究矩阵。设置的意图,矩阵的情况下,我和二世没有空洞和特殊元素,分别。然后,他们应该被分类为结构良好的矩阵。例III只有一些特殊元素的矩阵和空洞,他们也应该被列为结构良好的矩阵。相比之下,第四例有更多特殊的矩阵元素和空洞,和他们应该归类为架构不良矩阵。这60矩阵的图像和直方图作为补充材料(可提供在这里)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6.2。考试的标准
评估的有效性的标准来评估structuredness矩阵,我们评估了标准60矩阵的值。结果表中提供5值,满足结构矩阵的标准是大胆。观察到这些结果,structuredness标准可以分辨矩阵结构良好的情况下,II, III,每个矩阵满足至少一个标准。相比之下,没有任何第四矩阵的情况下满足结构矩阵的标准。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
针对个人的有效性标准,观察到F左(0)是有效的过滤情况下二世的矩阵(即。,很少有空洞,没有特殊的元素)。由于缺乏特殊元素在这种情况下,任何两台机器不同的块相似性值等于零。这就解释了高的值F左(0)中观察到的情况。相比之下,F正确的(0.5)时少效率矩阵有更多的细胞(如例H和I)和大尺寸(如情况下J O)。值得注意的是,的值F正确的第四(0.5)的情况下非常低(从0.00到0.09)。在这个视图中,标准的F正确的(0.5)是相当紧。
相比之下,比标准(例如,lp/l英国石油公司)似乎有效的区分矩阵结构良好,d - i是唯一的案件不认定为一个结构良好的矩阵这一标准。值得注意的是,结构良好的矩阵的明显差距(最低为0.17 d - i)和架构不良矩阵(最高0.16以防L-IV)很小。它解释的需要F左(0)和F正确的(0.5),以及比例标准,评估structuredness的矩阵。
6.3。通过优化考试第三财产
从部分召回2.2。3、地产三州一个结构良好的矩阵可以通过启发式方法获得的相当,在更复杂的metaheuristics可能不会带来额外的好处。为了验证这个属性,六十矩阵进行了一个两阶段的解决方案的过程。首先,每个矩阵将解决一个层次聚类(HC)方法作为一个启发式产生一个CF的解决方案。然后,我们检查如果我们能进一步优化获得的CF通过遗传算法(GA)解决方案,代表一个metaheuristic方法。通过这种方式,我们可以检查分组效率和改善的百分比之间的关系通过遗传算法解的质量。HC的算法细节方法和遗传算法应用于该研究的实现细节可以发现在朱34]。
表6列出了分组效果(μ)后60矩阵结果运行层次聚类(HC)和遗传算法(HC + GA)。同时,改进的分组有效性的百分比GA比较的报告。观测矩阵的方案在I和II不能进一步的改进遗传算法,而三个矩阵解决方案,以防三世可以改进遗传算法与小百分比(0.20%至0.25%)。相比之下,架构不良矩阵解决方案,以防IV的GA可以提高改善的百分比在0.63%和22.69%之间。总的来说,我们认为数值结果一般遵循产权三世,鉴于矩阵以防III接近结构和架构不良矩阵之间的边界。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
图7显示解决方案改进的百分比的情节和分组功效的值基于HC + GA。根据60矩阵研究了遗传算法提高矩阵的质量解决方案,没有0.60或更高版本分组功效。数据点的分组效果值小于0.60,我们发现这些数据点是负相关,相关性值(32-0.62,p . 173)。的统计解释,我们可以状态,低分组的价值功效往往允许一个更大的房间改进的GA但其线性度不强。值得注意的是,HC的功能和GA产量高质量的解决方案可以依赖其他因素(例如,密度矩阵的非零项)。因此,它是不容易的观察一个线性相关改善的百分比和分组之间的有效性。更多的控制因素和所需样品应该深入调查。
7所示。结论
本文探讨了相似度值的统计调查structuredness细胞形成的矩阵(CF)的解决方案。使用分组有效性(μ)作为一个公认的指数通知CF的质量矩阵,发现一个结构良好的矩阵有很高比例的高度相似性机双(即。,Property II). Accordingly, this paper sets up 20 benchmark matrices, with varying structuredness, to develop the U-shape criteria and the criterion based on the Kolmogorov-Smirnov test. Then, a procedure is developed to assess the potential structuredness of a CF matrix without solving the CF problem. The criteria for assessing structuredness of matrices are examined via additional 40 matrices, and agreeable results are observed. Genetic algorithm (GA) is used to see if it can improve the CF solutions obtained by hierarchical clustering (as one type of heuristics). The results show that the matrix solutions with high grouping efficacy values (i.e., well-structured matrices) cannot be effectively improved by GA.
而最坏的聚类问题的计算复杂性(例如,NP困难)承认,CDNM论文(部分中讨论1)已经暗示,并非所有的集群在实践中难以解决的问题。本研究对应于阿克曼提出的“集群管道”et al。7],clusterability(或structuredness在上下文)可以评估通知选择有效的聚类算法。在这个视图中,这项工作目的的贡献之一是实现这个想法的CF的问题。在未来的工作中,我们将探索更多的应用在制造系统要求分组和组合决策(例如,产品和系统模块化)。同样,我们可以探索更多的统计和机器学习技术,如多峰性测试和随机森林取代钴为更好的预测性能测试。
数据可用性
矩阵数据用于支持本研究的结果中包括补充信息文件(绘画插图)。其他数据格式(如Excel文件)可以提供相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的NSERC发现资助,加拿大。
补充材料
一个文件的补充材料中包含的手稿。这个文件包含矩阵的图像数据部分中给出的问题6。(补充材料)
补充材料
引用
- n . l .惠和Wemmerlov,重组工厂:通过细胞制造竞争、生产力出版社,波特兰,或美国,2002年。
- m . j . Brusco”一个精确的算法在面向集群分组功效最大化,”国际教育协会事务卷,47号6,653 - 671年,2015页。视图:出版商的网站|谷歌学术搜索
- c . Liu y阴、k Yasuda和j .连“细胞形成问题的启发式算法考虑多种生产要素,”国际先进制造技术杂志》上,46卷,不。(9 - 12),1201 - 1213年,2010页。视图:谷歌学术搜索
- m·阿克曼和美国Ben-David“Clusterability:理论研究,”《人工智能国际会议上和统计,JMLR:研讨会和会议程序Ed:劳伦斯,5卷,p。18日,2009年。视图:谷歌学术搜索
- e . Nowakowska j . Koronacki, s . Lipovetsky从“可集群性”评估对于高斯混合模型,应用数学和计算卷,256年,第601 - 591页,2015年。视图:出版商的网站|谷歌学术搜索
- 答:丹尼:Linial, m·萨克斯”集群是困难的,只有当它并不重要,“计算机科学(机器学习),2012年。视图:谷歌学术搜索
- m·阿克曼a Adolfsson n·布朗斯坦,”一个有效和高效的方法可集群性”评价,计算机科学(机器学习),2016年。视图:谷歌学术搜索
- 朱y s·李,“统计分析解决细胞形成相似性度量的问题,“Procedia CIRP卷,63年,第253 - 248页,2017年。视图:出版商的网站|谷歌学术搜索
- m . m . Paydar和m . Saidi-Mehrabad”细胞形成的混合genetic-variable邻域搜索算法基于分组有效性问题,“电脑与行动研究,40卷,不。4、980 - 990年,2013页。视图:谷歌学术搜索
- c·s·库马尔和m . p . Chandrasekharan”分组功效:定量标准的块对角形式的二进制矩阵在成组技术,”国际期刊的生产研究,28卷,不。2、233 - 243年,1990页。视图:谷歌学术搜索
- j . McAuley“机器分组为高效生产,”生产工程的研究和开发,51卷,不。2,53-57,1972页。视图:出版商的网站|谷歌学术搜索
- p·h·a·索斯尼斯和r . r .数值分类法:数值分类的原则和实践弗里曼,旧金山,加州,美国,1973年。
- 郭宏源。吴,c c。常,J.-Y。叶,“混合启发式算法采用玻耳兹曼函数和变异算子制造细胞的形成问题,“国际生产经济学杂志》上,卷120,不。2、669 - 688年,2009页。视图:谷歌学术搜索
- g·j·k·奈尔和t . t . Narendran分组指数:一个新的定量标准善block-diagonal形式在成组技术,”国际期刊的生产研究,34卷,不。10日,2767 - 2782年,1996页。视图:谷歌学术搜索
- m . j . Brusco”细胞形成的迭代局部搜索的启发式,”计算机与工业工程卷,90年,第304 - 292页,2015年。视图:出版商的网站|谷歌学术搜索
- b . r .衬衣和美国Mondal分组细胞制造效率的措施:一项调查和评论,”国际期刊的生产研究,37卷,不。2、285 - 314年,1999页。视图:谷歌学术搜索
- b . r .袍”,成组技术的相似系数:关系指标的调查和比较研究,“计算机与工业工程,30卷,不。1,第116 - 103页,1996。视图:谷歌学术搜索
- c·t·莫斯尔j . Yelle g·沃克,“调查基于相似系数的方法应用于成组技术配置问题,“ω,25卷,不。1,第79 - 65页,1997。视图:谷歌学术搜索
- y阴和k Yasuda相似系数方法应用于细胞的形成问题:分类和审查,”国际生产经济学杂志》上,卷101,不。2、329 - 352年,2006页。视图:谷歌学术搜索
- c .赵和z吴”,制造细胞的形成与多个路径的遗传算法和多目标,“国际期刊的生产研究,38卷,不。2、385 - 395年,2000页。视图:谷歌学术搜索
- f . m . Defersha m·陈,“线性编程嵌入遗传算法集成细胞形成和许多大小考虑产品质量,“欧洲运筹学杂志》上,卷187,不。1,46 - 69年,2008页。视图:出版商的网站|谷歌学术搜索
- 李和惠普王”,制造细胞的形成:dual-objective模拟退火的方法,”国际先进制造技术杂志》上,7卷,不。5,314 - 320年,1992页。视图:出版商的网站|谷歌学术搜索
- r . Tavakkoli-Moghaddam: Safaei, f . Sassani”动态细胞形成问题的新的解决方案替代路由使用模拟退火和机器成本,”运筹学学会》杂志上卷,59号4、443 - 454年,2008页。视图:谷歌学术搜索
- g . Papaioannou和j·m·威尔逊”细胞形成问题的进化方法基于最近的研究(1997 - 2008):回顾和未来研究方向”欧洲运筹学杂志》上,卷206,不。3、509 - 521年,2010页。视图:谷歌学术搜索
- c . Renzi f . Leali m . Cavazzuti, A . o . Andrisano”回顾人工智能应用程序专用的和可重构制造系统的优化设计,“国际先进制造技术杂志》上,卷72,不。(1 - 4),403 - 418年,2014页。视图:谷歌学术搜索
- a . Stawowy”为制造单元设计进化策略。”ω,34卷,不。1队,2006页。视图:出版商的网站|谷歌学术搜索
- g·j·奈尔和t . t . Narendran”,例:细胞形成的聚类算法与序列数据,”国际期刊的生产研究,36卷,不。1,第180 - 157页,1998。视图:谷歌学术搜索
- g . w .订单和d .领班,非参数统计:一种循序渐进的方法约翰·威利& Sons霍博肯,纽约,美国,2014年。
- a·p·布拉德利“ROC曲线等效使用Kolmogorov-Smirnov测试”模式识别的字母,34卷,不。5,470 - 475年,2013页。视图:出版商的网站|谷歌学术搜索
- t·阿诺德和j·爱默生,“零分布,离散的非参数拟合优度测试”R日报,3卷,不。2,34-39,2011页。视图:谷歌学术搜索
- A . Justel d·佩纳和r . Zamar“多元Kolmogorov-Smirnov拟合优度的考验。”统计与概率的信,35卷,不。3、251 - 259年,1997页。视图:出版商的网站|谷歌学术搜索
- d . c .蒙哥马利和g . c .响应用统计学和概率为工程师美国新泽西州霍博肯市威利,第五版,2011年版。
- z Drezner和o . Turel正常化变量与过于频繁值使用Kolmogorov-Smirnov测试:一种实用的方法,”计算机与工业工程,卷61,不。4、1240 - 1244年,2011页。视图:谷歌学术搜索
- y . j .朱层次聚类和相似性统计解决和研究细胞的形成问题机械和制造工程部门,卡尔加里大学,2017。
版权
版权©2018 Yingyu朱镕基和西蒙•李。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。