文摘

在现代工业中,复杂产品的开发涉及工程变更经常需要重新设计或改变产品或组件。一个工程变更过程,工程变更请求(所需)文档(形式)和部分用自然语言描述建议增强或问题产品或组件。ECRs发起的变化过程,促进组织内部讨论来帮助确定变化的影响,最好的可能的解决方案。尽管ECRs可以包含重要的细节,反复出现的问题或好的做法的例子重复的项目,他们通常存储但不咨询,缺少学习先前项目的重要机遇。本文探讨了利用自组织映射(SOM)的无监督聚类问题ECR文本。提出了一个案例研究中所需的工程变更过程期间收集的铁路行业进行了分析。结果表明,SOM文本聚类具有良好的潜力提高整体知识重用和剥削。

1。介绍

复杂产品的开发,如火车或汽车,经常涉及工程变更,需要重新设计或修改的产品及其组件。所定义的Jarratt et al。1)“工程变更是一个变更部分,图纸或软件设计过程中已经被释放。改变可以是任何大小或类型,可以包含任意数量的人,可以采取任何的时间长度。“变化可能包括任何修改表单,健康,和/或产品的功能作为一个整体或部分材料,并可能改变产品的组成元素的交互和依赖关系。可以改变需要解决质量问题或满足新客户的要求。尽管工程变更管理历来被视为一个典型的设计与制造研究领域,一些贡献突出的影响等其他业务流程工程变更物料需求计划(2)和企业资源规划(3,4]。工程变更过程的概述和大局的文学提供了工程变更管理,分别由Jarratt et al。5)和Hamraz et al。6]。

工程变更请求(ECR)文件,启动工程变更过程。ECR用于描述一个需要改变或在给定产品可能存在问题。ECR之后,讨论了一个变化的影响在涉及利益相关者和最好的确定可能的解决方案。

一旦完成的实现变化,常常ECRs不再是咨询了世卫组织可以受益于他们。然而,回顾ECR文档可以提供一个机会来提高产品的设计和工程变更的过程。改变可能是一个机会来改善产品和做事情“下次”(9]。ECRs包含结构化和非结构化数据的文档,,如果分析,可能是有用的发现相关信息重复出现的问题和解决方案采用了过去。

所述Hamraz et al。6),很多文学关注的prechange阶段过程,提出方法来预防或缓解工程更改的实施之前发生。相比之下,postchange阶段包括出版和处理事后探索实施工程更改的影响。分析工程变更过程属于postchange阶段,只有一些方法关于工程变更的分析数据在复杂产品行业。在这种背景下,一个主要的挑战是处理自由格式的文本包含在工程更改文件,使得数据更加难以查询,搜索和提取。本文对非结构化数据中包含的ECRs postchange分析并提出了文本聚类的工程变更的过程。

文本聚类是一种无监督学习方法,类似的文档分为集群。一致的目标是创建集群内部,但显然不同。在文献提出的聚类方法中,自组织映射(SOM)近年来吸引了很多研究人员。SOM神经网络模型和算法,实现了一个特性非线性输入信号从高维空间中的投影到一个低维正则网格,可以有效地利用可视化和探索的属性数据10]。对其他文本聚类方法,SOM允许在低维网格可视化文档之间的相似度。因此,类似的文档可能会发现在邻近地区的电网。

在文献中,文本挖掘方法提出了支持工程变更过程Sharafi et al。11),Elezi et al。12],Sharafi [13]。特别是,Sharafi et al。11)关注变化的原因包含在ECRs和计算术语出现ECRs为了分析关键词的出现在不同的项目和数据中寻找模式。Elezi et al。12采用半自动文本挖掘过程分类迭代在工程变更的原因。因此,成本和技术类别的原因被确定为迭代的发生的主要原因。Sharafi [13)应用在数据库知识发现方法来分析历史工程数据为了获得的见解在形式的变化模式在数据库中。详细研究关注应用程序的一部分 则, -Medoids DBSCAN,集群所需文件和支持向量聚类方法的汽车制造商。

本文探讨了利用SOM ECR文档的无监督聚类的问题。给出了一个案例研究,所需工程变更过程中收集的铁路行业进行了分析。结果表明,SOM文本聚类是有很大潜力的,提高整体知识重用和开发一个工程变更的过程。

提醒的纸是组织如下。节2,介绍了SOM理论的基本概念。节3SOM基于文本聚类方法。节4工业,工程变更的过程。节5案例研究和实验结果都进行了讨论。节6,给出结论。

2。SOM算法

最初提议的SOM Kohonen [14),是基于系统的观点可以用来模拟人类大脑中的神经元的集体合作。它是一种无监督的机器学习方法广泛应用于数据挖掘、可视化复杂的数据、图像处理、语音识别、过程控制,在工业和医学诊断和自然语言处理15]。

SOM在于映射的算法 维输入向量 对二维 根据他们的特征。它减少了维度的数据地图,有助于理解高维数据,和团体一起类似的数据。一个简单的SOM由两层组成。第一个输入空间中包括节点和第二输出空间中的节点。SOM的表示与输出节点在一个二维网格视图中提供了图1。SOM由 单位;每单位索引 与一个 维原型向量 在输入空间和一个低维正则网格位置向量, ,在输出空间。SOM算法的步骤如下:(1)初始化。从原型向量的初始值 。在没有任何先验信息,原型向量的值 可以随机或线性和调整,而网络学习。(2)抽样。选择一个向量 从训练输入空间。的选择 可以随机的。(3)匹配。确定最佳匹配单元(BMU)。向量 相比之下,所有的原型向量和指数吗 BMU;也就是说,原型向量 这是最接近 选择相应的最小欧式距离如下: (4)更新。更新BMU及其邻国。原型向量的调整更新获胜的输出神经元及其邻国 在哪里 是一个索引。的价值 在(2)计算如下: 在哪里 学习速率因子和吗 社区功能。特别是,学习速率的因素 由在 在学习阶段,是单调递减。社区功能 确定索引节点之间的距离 在输出层网格。一个广泛应用的社区内核高斯函数可以写成: 在哪里 节点的位置向量 和参数 定义了内核的宽度,对应于附近的半径 是指一组附近的点周围节点的索引数组 (图1)。的值 减少学习期间,经常从一个初始值与输出层网格的尺寸值等于1。

SOM的学习期间,阶段2 - 4是重复的连续的迭代,直到原型向量 代表,尽可能多的输入模式 接近的神经元在二维地图。初始化后,可以训练SOM顺序或批处理的方式(8]。连续训练是重复分批培训,而是发送所有数据向量映射为体重调整,一次一个矢量数据被发送到网络。一旦SOM训练,每个输入向量映射到一个神经元的地图,降低高维输入空间到一个低维的输出空间。地图的大小取决于应用程序的类型。大尺寸地图显示的更多细节信息,而一个更小的地图被选为保证泛化能力。

在应用之前,SOM方法需要预定义的大小和结构网络,社区功能,和学习功能。这些参数通常是选择启发式信息的基础上(7,8,16,17]。

2.1。SOM集群可视化

SOM是极其多才多艺的高维数据在低维空间可视化的工具。可视化的SOM的unified-distance矩阵(U-matrix) [18和组件的飞机19使用)。U-matrix计算相邻的地图单元之间的距离,这距离可以使用颜色可视化代表集群规模在地图上。

U-matrix技术是一个情节显示集群边界根据邻近单位之间的异同。U-matrix可视化地图上的距离范围是由不同颜色(或灰色阴影)。红色的颜色对应于大的距离;也就是说,之间存在着很大差距在输入空间原型向量的值;蓝色的颜色对应于小的距离;地图单位紧密聚集在一起。U-matrices是有用的集群在输入数据的可视化工具没有任何先验信息的集群。

可视化的另一个重要的工具是组件的飞机,也就是说,一个网格的细胞包含的值 th原型向量的维度显示颜色的变化。它有助于分析每个变量的贡献集群结构和数据集的不同变量之间的相关性。

2.2。SOM聚类使用 则算法

SOM分析的缺点之一是,与其他集群方法,SOM没有明显的集群边界。当数据集变得更复杂的是不容易区分纯粹的集群可视化。所述Vesanto和Alhoniemi10),在SOM原型节点可用于聚类,而不是所有的输入数据集。让 表示一个集群分区组成的 集群。选择最好的聚类可以由应用众所周知的 则算法(20.]。这一算法最小化误差函数计算每个数据点的距离平方的总和在每个集群。该算法迭代计算分区的数据和更新集群中心基于误差函数。在这种方法中,集群的数量 必须是固定的先验。因此 则算法运行多次 ,在那里 是样品的数量。最好的数字集群 可以选择根据戴维斯Bouldin指数( )[21]。这个指数基于比率within-cluster和大类间距离和计算 在哪里 是集群的数量, , 分别within-cluster和大类间的距离。最优数量的集群 对应的最小值 。SOM神经网络结合其他聚类算法被用于Yorek et al。22对学生认知结构的可视化模型。

3所示。SOM-Based文本聚类

文本聚类是一种无监督过程用于单独的文档收集到一些集群的基础上,集合中的文档之间的相似度关系(17]。假设 是一个集合 集群文件。文本聚类的目的是把 集群,

SOM文本聚类可以分为两个主要阶段(23,24]。第一个阶段是文档预处理由使用向量空间模型(VSM)来生成输出文档向量从输入文本文档。第二个是文档聚类应用SOM在生成的文档向量获得输出集群。

3.1。文档预处理

文本聚类的重要预处理方面是考虑如何将文本内容可以用数学表达式的形式表示为进一步分析和处理。

通过的特点, ( )可以表示为向量 维空间。在细节中,每个文档 可以表示为一个数值特征向量 : 每个元素 向量的通常代表一个字(或一组词)的文档集合;即向量的大小定义词的数量(或组词)的完整的文档集合。

最简单的方法是分配给每个文档频率和逆文档频率(TF-IDF)加权方案(25,26]。TF-IDF加权方案分配给每个词 th文档权重 计算为 在哪里 词的频率;也就是说,这个词的次数 出现在文档 是文档集合中包含术语的数量吗

根据TF-IDF加权方案, (1)高时,项 少量的文件中多次出现(因此贷款高鉴别力这些文档),(2)低时,这个词 文档或发生少次发生在许多文档(因此提供一个不太明显的相关性的信号),(3)低时,这个词 发生在几乎所有的文档。

前预处理的文档TF-IDF加权方案,条件创建的文档的列表的大小可以减少使用的方法停止词删除阻止(23,24]。

基于文本的文档中,事实上,有许多noninformative话说,例如文章,介词,连词,称为停止的话。停用词表通常是由词应该过滤的文档表示的过程。词地停止列表中包含语言和任务的依赖;但是一组通用词可以考虑停止词几乎所有的任务,如”和“和”或。“单词,很少出现在文档也过滤。

预处理的另一个常见的阶段是阻止,阻止这个词来源于一个词的出现通过删除情况和变形信息。例如,“计算”、“计算”和“计算机”都映射到相同的干细胞”第一版。“遏制不显著改变文档表示中包含的信息,但它确实避免功能扩张。

3.2。SOM文本聚类

一旦获得特征向量 在(6)与每个文本关联 ,描述的SOM算法部分2可以申请文本聚类。上面的文本聚类方法解释了被称为“SOM +特点”;刘提出的其他变体,et al。27,28]。概述的应用SOM在文本聚类是由刘et al。17]。这种聚类法等领域的专利(29日)、金融服务(30.),和公共政策分析31日]。

4所示。工程变更过程中复杂的产品行业

对于复杂的产品,如火车、汽车或飞机,工程变更是不可避免的,产品或组件必须重新设计和改造,以适应新的变化新的设施和产品。在这些环境中,一个工程变更包括由于时间延迟的风险。黄等。32)进行了一项调查关于工程变更的影响四个制造业和发现的时间投资在处理工程变更从2 36人天不等。在愤怒33)据估计,超过35%的今天的制造资源只是致力于管理工程图纸变更,生产计划和调度的要求。工程变更流程在复杂环境中如汽车、火车、和航空工业也研究了愣et al。3)和Subrahmanian et al。34]。

真正的工程变更过程的阶段在复杂产品行业可以概括如下(图2):(1)进行了工程变更请求和发送到一个工程经理。在此阶段,标准使用ECR形式列出原因的变化,变化的类型,哪些组件或系统可能会受到影响,和部门的人的请求,等等。(2)可能的解决方案的变更请求标识。(3)技术评估的变化。在这个阶段,技术实现评估每个解决方案的影响。例如,各种因素被认为是影响设计和产品要求,生产进度和资源投入。(4)进行经济评价的变化。实现每个解决方案的经济风险评估。在此阶段,相关的额外生产成本次,更换的材料、处罚错过了截止日期,估计等等。(5)一旦选定一个特解,批准或不批准。改变了一个成本效益分析。当解决方案被批准后,准备和发布工程变更单。(6)实现工程变更和识别的文件,如图纸、更新。(7)竣工文档的更新。竣工文档通常是最初的设计文档修订,以反映任何更改过程中,也就是说,设计变更、材料变化,等等。

迭代过程的发生,例如,当一个特定的解决方案对产品需求产生负面影响或风险太大,所以实施过程返回阶段2和另一个解决方案是识别。另一次迭代时是可能的解决方案的成本太高或更多风险分析时要求或建议的解决方案是完全拒绝了。

如图2,没有类似的审查过程变化面临过去执行过程中或结束时。这方面是强调Jarratt et al。5)通过强调,一段时间后,应当检查的变化,以验证是否达到最初是为了什么,可以吸取经验教训为未来的变化过程。各种因素阻碍检查解决方案采用在过去特定的改变。首先,是缺乏适当的方法来分析过程中收集到的文件,也就是说,ECR。ECRs通常包含部分用自然语言形式。分析这些类型的文档在设计阶段的产品或组件或一个新的变更请求发生时可能非常耗时,没有一个合适的解决方案。

在这种背景下,SOM文本聚类的应用程序可以改进过程。当一个新的ECR发生,事实上,过去ECRs管理和类似于当前请求可以分析以评估最佳的解决方案,避免重复同样的错误在过去。为了探索不同ECRs文本之间存在的相似性,第一步是验证潜在的聚类分析中数据集。SOM ECR文档文本聚类的应用探索下一节。

5。使用SOM文本聚类所需的分析

为了测试SOM文本聚类,我们使用的数据集 ECRs代表一些工程更改管理工程变更过程中铁路公司。数据集包括自然语言变化的原因的书面描述中包含所需表格。文件被写在意大利语言和部分的特点3用于生成输出向量输入文本文件。术语的数量,每个向量的维数 与每个文档后的数据集相关联停止词删除阻止过程,等于

在我们的工作中,我们使用MATLAB软件。具体来说,词矩阵生成器(TMG)工具箱(35)为SOM聚类文本文档预处理和SOM工具箱(8]了。

的地图大小SOM通过启发式计算公式在Vesanto et al。8]。详细计算神经元的数量 ,在那里 是训练样本的数量。地图与六角晶格形状是矩形网格。邻域函数是高斯和地图是训练使用SOM的批版。地图训练后,每个数据向量映射到最相似的原型向量的映射,也就是说,匹配的结果的BMU一步SOM算法。在我们的例子中,网络结构是一个2 d-lattice 六角。

基于SOM聚类分析的第一步是基于视觉检查飞机通过U-matrix和组件。

SOM的应用程序获得的U-matrix ECR数据集如图3。为了表示附加信息(即。,distances), the SOM map size is augmented by inserting an additional neuron between each pair of neurons and reporting the distance between the two neurons. The U-matrix and the different colors linked to the distance between neurons on the map show that five clusters are present in the dataset. Each cluster has been highlighted by a circle.

除了看U-matrix总体差异,它很有趣看每个组件之间的差异出现在输入向量,这意味着我们看差异对于每个组件与一个“词”的输入数据集。组件的总数飞机从耶鲁大学管理学院获得对应的总数在我们的数据集;也就是说, 。出于演示目的,图4显示了两个组件选择飞机作为例子。第一个组件平面(图4(一))是与这个词相关的指数 “天线”,即词;第二个(图4 (b))相关的指数 ,即“金属板。”这两个术语之间的差别在数据集可以表示为考虑,例如,地图左上角单元的两个数据。这张地图单位高值变量”项 “变量和低价值”项 从观察组件。”飞机,我们可以得出结论,这两个术语之间没有相关性。事实上,这两项没有一起使用到相同的文件。

如上所示,U-matrix和组件飞机允许获得一个粗略的ECR的集群结构数据集。得到更好的聚类结果,原型向量映射的集群使用 则算法。最好的数量的集群SOM地图控制可以由使用DBI的值。图5(一个)显示了不同数量的DBI值集群 。手肘点图表明,最优数量的集群 对应的最小值 = 5。SOM聚类的结果获得通过 ——与 集群如图5 (b)。BMUs属于每个集群都用不同的颜色表示,在每个六边形文档的数量与每个BMU相关联。

5.1。外部验证的SOM文本聚类

在参考案例研究中,每个ECR的正确分类的数据集是运营商提供的过程。因此,使用这些信息在我们的研究中为了执行外部验证的SOM文本聚类。特别是,每个ECR文本进行了分析和分类,参照工程所涉及的主要成分变化(即“金属板”,“卡特”“天线”“半成品,”“液压面板”和“气动系统”)。表1报告有关每个组件所需的数量,以及使用的标签以分类ECR文档(即“女士”,“CR”,“,”“老”,“惠普”和“PS”,分别)。尽管一个分类是本文的具体案例研究,值得注意的是,通常这些信息可能不可用。

通过叠加分类信息,地图网格生成的训练SOM在图6,每个六边形报告的分类标签文件共享给定BMU(括号内,相关文档)。从图6,它可以观察到,无监督聚类产生的SOM算法是相当一致的与实际的分类由过程运营商;事实上ECR文档共享相同的分类标签包含在BMUs属于同一个集群。值得注意的是,实际的标签是分配给每个文档后SOM无监督进行了培训。从图6它也可以指出ECRs,分为“PS”和“惠普”,都是包括在一个独特的集群。此外,两个文档的十二个标签“女士”被分配到集群,包括不同的标签,即“CR”,“PS”,和“惠普。“我们调查这个错误分类,我们发现导致的变化描述在这两个“女士”文档非常类似于那些包含在文件贴上“CR、”“PS,”和“惠普”。

考虑到实际的分类,得到聚类的质量可以通过计算评估四个指标:纯洁,精确,回忆, 测量(36]。

是真正的分区的过程操作,分区 包括所有的文件和标签 。让 表示文档的数量在真正的分区 。也让 表示通过SOM聚类得到的文本聚类算法 在集群表示文档的数量 。的 应变矩阵 由聚类 和真正的分区 可以通过计算获得的元素 ,在那里 表示文档的数量,是常见的集群 和真正的分区 。的应变矩阵SOM表报告所需的文本聚类2

从表2,计算以下指标:(我)纯度指数。集群提供集群范围内的纯度指数 被定义为 整个集群的整体纯度指数 是计算 如表所示3、集群 , , 纯度指数等于1;也就是说,它们包含实体从只有一个分区。集群 从不同的分区收集实体, , , 为集群 , 为集群 。整体纯度指数= 0.79。(2)精度指标。给定一个集群 ,让 表示大多数分区包含文件的最大数量 ;也就是说, 。的精度一个集群指数 是由 为集群表2大多数分区 , , , , 。精度指标显示所有文件聚集在集群 , , 多数属于相应的分区 , , 。为集群 属于50%的文档 最后88%的文件在集群 属于 (3)记得指数。给定一个集群 ,它被定义为 在哪里 。它在分区措施文档的一部分 共享与集群 。召回指数报告在表3显示集群 , , , 共享共同的100%的多数文档分区 , , , ,分别。集群 共享文件的83% (iv) - - - - - -衡量指标。它是调和平均数为每个集群的精度和召回值。的 测量的集群 因此,作为 整体 度量的聚类 的意思是clusterwise吗 测量值: 3显示, 测量的集群 = 1,而其他值都小于1。较低的值 措施为集群 , , 依赖于集群的低精度指标 集群和召回指数较低 。因此,整个 测量等于0.90。

考虑到实际的分类,SOM可以进一步验证通过分析交叉验证技术,以检查其分类能力。特别是, ECR文档是用于培训和剩下的一个测试中每个ECR文本(迭代,直到数据被用于测试)。

在每个迭代中,一旦SOM一直在训练 所需,当测试样本作为输入,提出了选择BMU SOM算法的匹配步骤。培训文档的标签BMU被认为是相关的。对于一个空BMU,也就是说,结果不与任何培训文档,最接近的一个与至少一个相关培训文档被认为是相反的,而对于BMU与培训相关文件与多个标签,标签被认为是与更多的文档。

4显示的结果分析交叉验证。对于每一行,也就是说,对于一个给定的ECR标签,第二列报告数据集文件的总数,而最后两列报告测试所需的数量由SOM正确分类。特别是,第三列报告测试所需的数量正确归类为他们连接到第一个BMU与培训相关文档相同的标签。最后一列是指所需的数量与空第一BMU有关,然而,导致靠近第二个BMU相关文档属于同一个类的测试样本。也交叉验证研究表明,与实际分类和标签由SOM是连贯的证实了SOM作为分类工具的能力。

6。结论

在本文中,一个真实的案例研究有关工程变更过程中复杂的产品行业。有关研究的postchange阶段工程变更过程,过去的工程更改数据分析发现信息可利用的新工程更改。特别是使用SOM聚类自然语言编写的文本在工程变更过程中产生。分析了文本包括变化的原因的描述包含在ECR形式。首先,SOM算法用于聚类工具找到ECR文本之间的关系,相应地集群。随后,SOM测试作为分类工具,通过分析结果验证了交叉验证技术。

真实的案例研究的结果表明,使用SOM文本聚类可以是一种有效的工具在工程变更过程的改进分析。特别是,一些本研究中强调的优点如下:(1)文本挖掘方法允许分析非结构化数据并获得高质量的信息。ECR分析的主要困难在于分析自然语言编写的文本。(2)聚类分析过去的ECRs存储在公司允许的基础上自动收集所需文档之间的相似度。当一个新的改变触发,该公司可以迅速关注感兴趣的集群。聚类可以支持公司知道类似的改变已经在过去的管理,分析采用的最佳解决方案,避免同样的错误在过去学习。(3)使用SOM ECRs文本聚类允许自动组织大型文档集合。关于其他聚类算法,SOM文本聚类的主要优势在于文本的相似度是保存在神经元的空间组织。原型中SOM的距离地图可以因此被认为是估计文档之间的相似度属于集群。此外,SOM首先可以计算使用代表旧的输入数据的子集。新的输入可以直接映射到最相似的模型没有再计算整个映射。

然而,研究显示一些限制的应用SOM文本聚类和分类。第一个限制是与自然语言书面文本。不同的文本中包含的条款可能是类似的,即使一个工程变更请求关注不同的产品。相似的术语可能影响SOM-based集群的性能。第二个限制是与使用SOM的分类方法。分类,实际上,需要训练数据集的标签。这个活动需要深入了解不同种类的ECRs管理工程变更过程中,可能是困难和费时。

作为总结,研究工程变更过程中使用SOM文本聚类分析为进一步研究似乎是一个有前途的方向。工作的未来发展方向将考虑使用SOM文本聚类所需的更大的数据集比较SOM与其他聚类算法等 ——或层次聚类方法。另一个未来的研究方向涉及分析SOM健壮性参数选择(即。、地图的规模和结构、参数和类型的学习,和小区的功能)。

符号

: 纯量值学习速率的因素
: 应变矩阵
: 大类间距离
: Within-cluster距离
: 原型向量的调整
: 收藏的文件
: 集群文件的索引
: 真正的分区的文件由过程操作符
: 真正的分区与标签的文件
: 大多数分区包含文件的最大数量
: 内核的宽度对应的半径
: 指数的BMU
: 文档的索引
: 戴维斯Bouldin指数 集群
: 数量的文档集合中 它包含术语
: 社区功能
: 集群的总数
: 最优数量的集群
: 总数方面的文档集合
: 分区的文件数量
: 处理文档的总数
: 周围邻居节点
: 集群中的文档数量
: 的文档数常见的集群 和分区
: 单位的SOM的总数
: 索引的时间
: 项频率项 th文档
: 体重相关的术语 th文档
: 原型向量与BMU相关联
: 原型向量的指数
: 位置矢量的指数
: 位置矢量的指数
: 数值特征向量相关的 文档。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项研究由MIUR, ITIA中国北车,和集群Fabbrica Intelligente (CFI)可持续制造项目(CTN01_00163_148175)和Vis4Factory项目(Sistemi Informativi Visuali /我工艺di Fabbrica nel settore一些trasporti PON02_00634_3551288)。作者感谢MerMec波斯公司的技术和管理人员。(意大利)提供的工业案例研究的研究。