提高决策支持系统的效率通过复杂的集群基于规则的知识库和推理算法的修改

文摘

决策支持系统建立在基于规则的知识表示应该配备规则管理机制。有效的探索新知识在人类生活的各个领域需要新算法的知识组织和彻底搜索创建数据结构。在这部作品中,作者介绍了一种优化的知识库结构和推理算法。因此,提出了一个新的层级结构组织知识库结构,利用聚类分析方法和一种新的正向串行推理算法仅搜索规则的所谓代表集群。利用相似的方法,该算法试图发现新的事实(新知识)从已知的规则和事实。作者定义和分析各种代表四代方法规则集群。实验结果包含的影响的分析提出了决策支持系统的效率的方法与知识表示。为了做到这一点,四个代表一代方法和各种类型的聚类参数(相似性度量、聚类方法等)进行。可以看到,该修改知识库的结构和推理算法取得了令人满意的结果。

1。介绍

大数据处理不再仅仅是一个巨大的字节数,但做数据,你不能做的事。不仅仅是表格数据可以很容易地插入一个电子表格或数据库(1]。在计算机科学家曾经仅仅限于gb或tb的信息,甚至他们现在学习pb和eb的信息。同时,筛选的工具,所有数据得到更好的计算机科学家改进和提高他们使用的算法从海量数据中提取意义(2]。毫无疑问,大数据在所有科学和工程领域正在迅速扩大。虽然这些大量数据的潜力无疑是重要的,完全理解他们需要新的思考方式和新颖的学习技术来应对各种挑战。大多数传统的机器学习技术都不是天生有效或可伸缩的足够的处理大量的数据与特点,不同类型,高速、不确定性和不完全性,价值密度低。作为回应,机器学习需要重塑自我对大数据处理(3]。当前热门话题寻求提高效率的机器学习技术包括搜索紧凑的知识表示方法和知识发现和集成的更好的工具。

作者的科学工作的主体是边界的人工智能领域知识的表示方法和勘探,数据分析的统计方法、机器学习方法。最近的工作重点是管理复杂知识库和规则表示新的推理算法的发展在这样的数据集。

为了提取有用的领域知识的研究区,事先要收集大量的数据。在很大程度上也取决于规则是诱导的。例如,有效的规则归纳算法可以生成一个压缩组几十或几百几千人组成的一个数据集对象的规则。这就是为什么在谈到领域知识基地,与几千规则文件通常被认为是太大(4]。作者的工作经验的在这样的数据量提出了(5]。在这项研究中,作者都集中在发现最优方法大数据存储、管理、管理和探索。为了做到这一点,初步实验,使用中型知识库与各种类型和大小的数据,进行了。最重要的目标是指定参数,促进新知识的快速和有效的发现在知识库。

在推理过程中基于规则的知识库,我们探索新领域知识通过激活规则(基于规则的系统的组件形式:如果前提结论)与真正的前提,那些可能是由给定的先验的事实。激活一个给定规则的过程结果在处理其结论作为一个新的事实。更多的规则和初始事实在一个给定的知识库,可以激活更多的规则。当然,最近的解决方案领域的决策支持系统要求他们另外执行任务在最短的时间和最少的人工参与。医疗系统,让我们举一个例子,我们的目标是尽可能快地做出决定,基于知识(事实)关于一个特定的病人。系统搜索知识库和规则为了找到所有规则与给定的一组相关的事实。对于大数据集,有很多的规则,这一过程可能耗时太长。然后经典方法是低效的,因为它在一个给定的搜索每一条规则的知识库,在大数据集需要太多时间。因此,新的解决方案需要发现和发展。这些解决方案会导致效果不差比的经典方法,尽快和尽可能有效。 It requires a deep analysis of the knowledge stored in the knowledge bases and exploration of the information about a given domain, for example, in the form of so-called meta-knowledge (knowledge about knowledge). In the literature, there is a lot of research devoted to the subject of meta-knowledge and meta-rules [6- - - - - -8]。

众所周知学习新领域的最好办法是使用泛化能力。泛化是发现一般特征的过程中,重要的功能,常见的对于一个给定的类对象的特性。走这条路,泛化的信息保存在规则允许我们获得知识这些规则。通过将类似的一组规则和泛化的团体,我们获得很多知识规则,而不必分别审查每一个规则。

这个概念在本文提出的观点是建立在相似性之间的规则,然后他们后续的聚类分析。在大量的聚类算法中,会凝聚的层次聚类(AHC)选择算法(作者先前分析很多其他算法(9,10])。(优势)最重要的特性是它的集群(聚集)一群最相似的规则和形式。关于知识库中的规则,我们必须考虑,从集群的一个特定时刻,不再是类似的规则在任何方面并没有理由集群了。因此,经典的聚类算法AHC需要修改。此外,有效(有效和迅速)找到正确的激活群规则,有必要描述优化。作者最近耗费精力的建议和分析方法来代表组织的规则,使用泛化方法(11]。本文旨在验证推理的有效性,即。,the ability to activate rules by reviewing only a selected part of the entire knowledge base, most relevant to the given facts. An inference process can be considered successfully finished where only a small part of the entire knowledge base is searched and we are able to successfully find and activate a given rule (or rules).

事实证明,一些聚类参数产生重大影响的结构组织的规则(倾向于创建小型或大型集群,确定典型规则和单独的组)。此外,某些规则的方法表示集群(代表代方法)的特点是倾向于创建过于一般代表(或有时空)或过于详细的代表,已不再反映整个集团的内容。拥有知识聚类参数,代表一代方法确保最好的效率,我们将能够努力实现最优的结果。

论文的结构如下。部分2介绍了基于规则的决策支持系统的知识库和推理过程。管理的规则知识库的主体部分3。该方法与聚类算法的描述和推理算法层次结构的知识库规则集群提出了部分4。实验的结果和他们的解释都包括在部分5。摘要提出了部分6。

2。以知识为基础的系统

以知识为基础的系统(KBS)是一个系统,使用人工智能来解决问题。它侧重于利用知识技术来支持人类决策、学习、行动。这样的系统有能力配合人类用户和适合的目的。我们甚至可能说他们比人类好,因为它们是富含效率和有效性的美德。他们可以诊断疾病,修理电气网络,控制工业的工作场所,创建地质地图等。专家知识的表示是困难的,因为知识可以不精确或不确定。一般来说,知识表示成一个大的一组简单的规则。结论一般是通过推理过程。专家系统在知识领域的先驱。他们代替一个或多个专家来解决问题。在很多情况下,他们可能会更有用的比传统的基于计算机的信息系统。 There are many circumstances when they become particularly useful: when an expert is not available, when expertise is to be stored for future use or when expertise is to be cloned or multiplied, when intelligent assistance and/or training are required for decision-making or problem-solving, or when more than one expert’s knowledge has to be stored on one platform. All these situations make them very useful nowadays, and thus, it is very important to improve their performance and usability. The improvement may concern both the structure of the knowledge base and the inference algorithms.

2.1。基于规则的知识库

在各种知识表示方法、规则是最受欢迎的形式。

基于规则的知识表示使用角条款形式:“如果前提结论。“这是最自然的方法之一为领域专家解释和展示他们的知识。在推理过程中激活的规则会导致增加他们的结论作为新的事实(新知识)。让我们假设知识库是一组规则: 。每一条规则有一个表格 ,在哪里的结合(前提)和规则的条件规则的结论吗。

规则可能会使用一个自动生成的许多可能的算法基于机器学习技术。知识库可以组合不同类型的规则:分类规则,关联规则,回归规则,或所谓的生存的12]。此外,可以通过改变决策树规则集(13]。他们也可以由专家给出,但这样的过程是一个非常困难的任务。通常,专家的知识是额定的价值很高,专家不愿意分享它。因此,实施正确的数量的实验,这是决定使用知识库的规则自动生成在UCI机器学习数据共享库(14]。一个高效的算法从数据是LEM算法自动生成规则15]。它是基于粗糙集理论(16- - - - - -18]和诱发的一套特定的规则下近似(低近似的描述域对象明确,属于利息)的子集,分别一个可能的规则集的上近似(上近似的描述对象可能属于感兴趣的子集)。该算法遵循古典贪婪的计划产生局部覆盖每一个决策的概念。它涵盖了所有的例子从给定的近似使用最小的规则集。

准备这项工作是知识库的过程如下。每个选中的数据从存储库是写成一个决策表,当时受规则归纳的过程(LEM2算法)使用rs工具(19]。

作为一个例子,让我们以一个心脏病的数据集20.最初],它包含303个实例,描述了14名义和数值属性(年龄:近年来,性:(1 =男;0 =女),cp:胸痛与值类型(1):典型的心绞痛,(2):非典型心绞痛,(3):nonanginal疼痛,和(4):无症状和其他人)。“目标”字段是指存在心脏病的病人。这是整数值从0到4(不存在)。

的原始数据集如下:

,145.0,233.0 63.0,1.0,1.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0

,160.0,286.0 67.0,1.0,4.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2

,120.0,229.0 67.0,1.0,4.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1

,130.0,250.0 37.0,1.0,3.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0

,130.0,204.0 41.0,0.0,2.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0

,120.0,236.0 56.0,1.0,2.0,0.0,0.0,178.0,0.0,0.8,1.0,0.0,3.0,0

与99规则知识库。源文件中所示的源代码里1。

RULE_SET heart_disease
属性14
agenumeric 1
性数字1
.....
diseasesymbolic
DECISION_VALUES 2
2
1
规则99
(blood_sugar = 0) &(心绞痛= 0.0)&(需要= 3.0)&(性= 0)& (pain_type = 3.0) = >(疾病= 1 [23])23
(blood_sugar = 0) &(心绞痛= 0.0)&(需要= 3.0)& (no._of_vessels = 0) &(性= 0)&(心电图仪= 0.0)= >(疾病= 1 [22])22
....
…
(blood_sugar = 0) &(性= 1)&(心电图仪= 2.0)&(心绞痛= 0.0)& (pain_type = 1.0) &(= 42岁)= > = 1(疾病[1])1
(blood_sugar = 0) &(性= 1)&(心电图仪= 2.0)& (no._of_vessels = 0) &(需要= 7.0)&(心绞痛= 1.0)&(= 53岁)= > = 1(疾病[1])1

规则(blood_sugar = 0) &(心绞痛= 0.0)&(需要= 3.0)&(性= 0)& (pain_type = 3.0) = >(疾病= 1 [23])23应该理解为:如果(血糖= 0)和(需要= 3.0)和(性= 0)和(pain_type = 3.0)然后(疾病= 1),这是由23 303个实例的原始数据集(303年8%的实例介绍这一规则)。

当输入数据的大小(规则)生成增加,生成规则的数量也是如此。让我们看一下糖尿病数据集(14]。它包含768个对象的数据描述与8连续属性。处理数据和LEM2和rs LEM2的实现算法,创建了490条规则。为托儿所最初数据集,它包含12960个实例描述与9条件属性,867规则生成。这些数字很难甚至不可能由一个人进行了分析。同样重要的是要注意,生成的规则可能有不同数量的前提。可以说,前提规则越少,就越容易确定这是真的(这需要更少的条件覆盖)。另一方面,做决定取决于尽可能高的条件可能表明,如果所有的条件已经满足,决定必须是正确的。

当全球看规则的知识库,事实证明,它可能包含大量的短规则(一个或几个前提),但也有一些规则描述与大量的前提,只有几个前提,区分他们。反过来,这带来了各种问题的规则推理过程中分析阶段。当有许多长一组规则(描述与几个前提),不同于有一个前提,它可以扩展推理过程然后试图检查所有被认为适合被激活的规则。另一个可能的结果可能是在一个给定的知识库有不均匀分布的规则与给定的前提。这可能导致一大群规则只专注于一个领域,一个或很少的规则描述的其他区域域(域的特定部分尚未充分探讨)。发现罕见的规则可能会成为一个重要的任务。当考虑到大套的问题往往分散规则,事实证明,推理过程的有效性,决策支持系统建立在基于规则的知识表示应该配备规则管理机制。换句话说,这些方法和工具帮助审查规则有效和快速找到那些被激活。一个可用的解决方案是规则聚类。的文学主题,这个问题已经进行了广泛的描述和大部分时间它专注于聚类分析21]。假设每个规则集群作为一组类似的规则,它可以创建代表为一组的所有特性描述以最好的方式。让我们想象一下,一个知识库与大量的规则聚类。因此,将会有一个组织结构类似的规则。知识库的凝聚力的程度将转化为产生集群的数量和大小的规定。有几个可能的场景:一个小数量的集群包含的大量的规则或大量的集群包含在每个集群的一些规则。当然,上面描述的场景是在极端的规模。然而,集群的生成结构可能是均衡的,每个集群包含相当数量的规则和规则的数量接近每个集群的大小(例如,如果有100个规则分为10集群规则在每个)。

随后,从规则提取的知识集群的有效性取决于集群质量规则和推理算法的效率。对于规则的集群,我们创建代表和搜索在推理的过程中。由于质量的代表和推理过程的优化是如此重要,仍在寻求更好的解决方案。

让规则激活过程,除了收集知识,推理机制是必要的。下面的小节介绍了推理的定义和一个简短的描述现有的推理算法,讨论了参数和推理控制策略。

2.2。推理算法

一个推理引擎是一个软件程序,指的是现有知识,操纵知识符合需求,并使决策行为。它通常利用模式匹配和搜索技术的结论。通过这些过程,推理引擎检查现有的事实和规则并添加新的事实。通常有两种方法推导新的事实与规则和已知事实。这些都是数据驱动的(正向链接)和目标驱动(反向链接)推理算法。最受欢迎的一个,对于实际的应用程序的可用性,数据驱动算法的基础上演绎推理统治常见的推理策略。它是简单和容易理解22]。如下:给定的框架可以统治国家,当一个被认为是真实和规则”如果,那么B,“这是有效的得出B是正确的。

数据驱动算法从一些事实和规则适用于所有可能的结论。它适用于当推理的目标是定义。推理与给定的目标是提供,直到这一目标被认为是一个新的事实。的情况下激活可能有一个以上的规则,在给定迭代的推理算法,称为文献中一系列的冲突,处理这个问题的方法称为冲突解决策略设置(23]。应该强调,特别是在大数据集的情况下,这样的情况经常发生。有许多可能的文献中所提出的战略,但最受欢迎的是使用先进先出(先进先出)或后进先出(后进先出)技术熟悉的编程语言。当有许多规则和事实参与一个专家系统,经典的推理算法成为无效。推理时间变得不可接受,新生成的事实的数量超过限制的新知识,可以适当地吸收。

在这种情况下,有必要寻找新的推理算法,确保有效管理分析过程的规则被激活。还可以考虑改变规则的知识库的结构组织在一个特定的和很好的描述结构,以便以后其搜索将是有效的。

本文作者继续她的研究知识库结构规则的修改到一个层次的质量代表集群创建的规则是这些星系团的质量一样重要。

因此,作者提出了以下优化的方法。在第一阶段,知识库结构修改。在知识库的经典方法是一组规则没有任何特定的顺序写的,需要搜索整个的规则集。作者提出集群规则具有类似前提到规则集群。在各种方法中,会凝聚的层次聚类算法被用于这项研究(作者也研究了其他算法的使用(10])。它的经典方法假定合并,在每次迭代中,两个最相似的规则或规则组为一组。这种方法的提出的修改是基于发现的最佳时刻减少规则的创建层次结构。它应该完成时没有足够的相似性的规则或规则组仍是集群。并给出了建议的方法的细节在以下部分。

3所示。规则聚类

太多的规则知识库中可以产生负面影响的有效性管理的规则。管理规则的方法之一是集群成组织和描述组织的代表。每个集群使用所谓的组描述代表(配置文件)。的概念聚类分析表明,分析维度中的对象被划分为集群收集对象最接近另一个和由此产生的集群是完全不同的21]。规则的最优结构簇假定最大内部相似性和最小外部相似性组织的规则。它保证一个最佳的内部凝聚力和外部分离的集群。在下一小节,作者简要介绍了其他聚类方法。

3.1。短的特征聚类算法

范围内的聚类分析算法,可以选择partitional(有时称为 - - - - - -优化算法,以 - - - - - -意味着)或分层算法(提供额外知识的顺序聚类最相似的对象在一起,例如,会凝聚的层次聚类算法(AHC))。partitional和分层算法利用距离或相似度测量的过程中寻找相似的对象。此外,还有基于星团内密度(DBSCAN算法24和光学25),最近,光谱分析算法(SMS(光谱意味着转变)26])。

假设集群是一个自动化过程进行随机的一组规则和一个未知的结构,有助于避免其他可能的问题的最佳解决方案是使用一个分层算法。上述问题,无法确定一个最优数量的集群(partitional所需算法),需要单独的罕见的对象(规则)创建集群,和动机来获得额外的知识规则的序列聚类,这样对于每个规则,可以找到另一个最相似规则或集群。在density-based算法,类似于partitional算法,其他聚类参数最小距离阈值或对象的数量在一个集群中需要定义。会凝聚的层次聚类算法(AHC)是免费的限制(9,10]。这个算法有很多修改,从最初的对改变聚类过程的停止条件。

3.2。会凝聚的层次聚类算法

提出规则具有类似前提产生的聚类层次结构(系统树图)。的经典形式会凝聚的层次聚类算法(AHC),个人的聚类过程应该持续到单个集群规则获得预订,每一步创建一个集群通过加入对规则或集群最相似的规则。因此,为知识库中的规则数,等于算法的迭代次数。很容易注意到大量知识库推理的持续时间可能是一个问题。这是一个不可接受的特性对于大型知识库,和修改,减少迭代的数量是受欢迎的。

3.3。聚类参数

有各种聚类参数,有助于实现最优聚类结果。在这项研究中,作者分析了等参数的相似性措施,创建集群的数量,和聚类方法。

3.3.1。相似的措施

聚类相似的对象要求之间的相似性(或距离)对象被定义。在文献中,有很多研究致力于分析可用的措施相似和不同的对象(27,28]。这些措施(摘要)用于确定彼此之间的相似之处的规则以及规则的相似之处和集群的规则与集群的代表。随后同样的措施可以用来测量代表集群的相似推理规则和事实的过程。提供解决方案的普遍性,单一规则和集群使用的结合对由一个属性和其价值。属性的值可能是象征性的和连续的。

一般来说,一双的相似值的规则和这是一组规则的吗按以下方式计算: 在哪里两个规则之间的相似性值吗和相对于属性和值属性的重量吗(通常是坚定为 ,在哪里是属性的数量)。另外,重量可以使用0和1的属性(0属性的体重意味着属性没有出现在规则1意味着给定属性构成了规则的前提部分)。相似度值可以通过使用各种可能的相似性措施之一。作者处理措施相似度的聚类质量的影响(29日,30.]。在[29日,九个各种措施进行了描述和分析:SMC(简单的匹配系数)及其修改wSMC(简单加权匹配系数),高尔半岛的测量(广为人知的文献),两个指标用于大型文本文件中的信息搜索(油田)和四个措施基于发生对于一个给定的概率特性的描述一个规则或一组规则(古德的措施)27,28]。在这项研究中,作者使用同一组相似措施(在实验阶段,每一个方法是使用)。作者描述的措施被广泛在[29日,30.];因此,讨论的问题不是在这工作。

例如,相似度值如果规则基于wSMC = 1和包含相同的值属性。否则等于0。因此,只有在规则和为每个属性包含相同值的前提和体重确定是为和是属性的数量,那么相似的价值等于1。如果至少一个属性有不同的规则,小于1的值。值为0 (wSMC相似性度量的情况下)意味着没有甚至一个属性的规则和会有相同的值。

的一些措施确定规则的相似性分析使用频率发生的一对特定的属性及其值在整个组规则(表示一个前提的次数出现在规则),而其他人则是基于概率(表示样本的概率时的情况的前提出现在规则: )。

3.3.2。数量的集群

确定一个最佳的相似性阈值可能是不可能的,如果算法需要独立于类型的数据。必须记住,当类似的规则是集群,阈值必须是建立在一个较高的层次上或集群内的知识库可以启动规则几乎是不同的,这可能是无法达到一个高水平的相似性。在[9,10),作者提出了一种方法基于集群的终止时intercluster相似性大于星团内相似。不幸的是,这种方法所需的计算过于加重的聚类算法。另一个解决方案是终止集群在一定程度是企图强加于集群的数量。然后,AHC算法加入到规则及其集群只要认为数量的集群。上述解决方案提出了。

在文献中有多个文件,处理的问题一个最佳选择集群的数量的聚类算法(31日,32]。最普遍的方法被发现在这些论文强调了需要执行大量的迭代中逐渐改变数量的集群,然后选择一个最佳的解决方案。从理论上讲,这意味着可能的分区的数量为一个知识库规则=因为有5个规则集群,我们可能在1或2每一条规则,3、4,甚至到5集群。当然,第一个和最后一个方案不合理(我们将实现一个集群的一整套规则或5奇异规则集群)。出于这个原因,初始参数值与组2和数量的增加在每个分区1到集群的数量小于规定的数量。如果许多知识基地而言,这种方法不会时效。

作者试图提出启发式,帮助确定最优数量的集群。集群的数量要创建的计算方程和。和创建集群的数量,然后呢表示数量的规则。很容易理解的修改由集群逐渐改变(迭代一步一个脚印,相对于变量 ,为 )参数。这种解决方案可以找到最优数量的集群创建和不需要检查所有可能的场景只是其中的一些。例如,在心脏病与99规则数据集的情况下,所有可能的分区规则,基于提出的启发式方法,如下: 。因此,而不是生成99个不同的分区规则,只有20创建和分析。

3.3.3。聚类方法

在本文中,作者使用四种最受欢迎的方法,在文献中找到。第一,单键(SL)方法,措施集群之间的距离和作为一双随机规则之间的最小距离和在哪里和。第二个是被称为complete-link法(CL)和定义集群之间的距离和任何两个物体之间的距离最长两个集群。还有两个方法在文献平均链接方法和重心链接方法。前者,标记为“本文措施之间的距离光泽和对所有对象的平均距离位于检查集群。后者,在本文坳,总是计算集群之间的距离和作为其质心之间的距离。质心是pseudo-object属性值的平均值的集群中的所有对象。

4所示。建议的方法

取得团体由类似的规则,事实上只有一小部分搜索知识库。前面object-by-object分析,搜索对象需要匹配的知识以最可能的方式,可以减少输入数据匹配的每个集群的代表和选择最佳的匹配的代表。

4.1。层次结构的知识库

由此产生的结构是一个或多个二叉树的节点数量,更容易降低计算的复杂性从线性推理算法复杂性作为前出现的必要性审查所有规则的知识库为了找到一个能被活化的规则集。知识库的结构与规则集群应定义为一对排序在哪里代表的结构数量的集群和构成一组这些集群(代表 )。必须满足以下两个条件: 和为和 , 。一个层次化知识库包含一个集群结构的规则和他们的代表。结果的应用AHC算法停止聚集一组标准,我们得到许多集群(等于 )包含其他规则集群或单一的规则。然后,将这个结构搜索推理过程。

4.2。会凝聚的层次聚类:建议的方法

层次聚类算法的伪代码规则和数据驱动的推理算法规则提出了集群图1。迭代,直到给定数量的集群( )没有实现,在聚类过程的每一步,我们创建一个对所有规则集群相似矩阵。每个单元格都包含一个相似度值的规则集群和。然后,我们必须选择一个矩阵细胞最大的相似性。在每个迭代结束时,我们创建一个新的集群它包含合并后的集群和我们把集群从公关和添加新的集群结构到它。效应中的聚类分析产生相当均匀的组织规则和他们的代表。

4.3。知识提取规则集群

新知识的决策过程包括提取基于知识库中的规则和事实。规则已经并入组以来,规则的推理过程,必须申请集群。作者提出的方法是基于众所周知的方法在文献中检索信息系统和搜索域内的层次结构。与AHC规则聚类算法创建一个层次结构的形式系统树图。又发生了类似的结构智能系统(33),文本文档聚类。集群在其中被定义为这样的文档,每一项类似于所有的剩余部分集。然后获得文档的层次结构之间的相似性搜索通过分析组织的代表和给定的查询。在每一个层级的级别,选择最相似的。过程结束时最相关的集团(文档)被发现34]。过程的目的是最大限度地增加搜索效率匹配请求只有存储文档的一个小子集,同时最小化损失相关文件检索的搜索。有必要记住,集群代表进行了分析;因此,文件内搜索的效率取决于质量的代表。有许多可能的方法来构建一个集群的代表。例如,文档集群可以表示为一组特征最常见的所有的文件在一个给定的集群。的代表可以是一般或特定的上下文中非常重要的推理效率。一般代表作为短类型描述可能容易分析但花费更多的时间寻找一个给定的文档。具体代表通常包含许多功能的描述,因此需要更多的时间来分析一个代表,但是通常我们可以很容易地找到一个给定的文档。

在这个项目中,作者与规则的知识库是一个非常特殊的数据类型,因此需要一个特定的方式正确地管理它们。他们不仅可能有不同的长度和可能包含不同的属性值,但最重要的是,完全不同的属性,这严重影响能力进行比较,寻找相似之处。

4.4。规则集群的代表

当生成一组集群,可以构造一个分类向量代表每个集群,称为质心向量,这样重心反映了典型的财产分配,相应的属性值或平均值,值为所有元素在每个给定的集群。可以使用各种方法来生成质心向量。考虑到规则知识库是一个特定类型的数据,大多数时候,这些规则被记录和各种类型的数据,作者提出了一种方法既考虑名义和代表的数字特征描述。找出哪些形式的代表(普通或详细)提供了一个更大的有效性产生的结构和推理过程,作者提出了几种不同的方法。应该注意到,在她之前的研究(11),作者还分析了其他方法产生集群的代表。每个规则集群分配一个代表称为配置文件( )。进一步在基本方法(称为阈值方法),代表由出现在所有这些属性在给定组(默认的规则 ): 在哪里返回一个给定的属性的次数的前提出现在所有规则的条件部分。如果一个给定的属性达到设置的阈值,根据其类型不同,其价值(象征性功能)或意味着(数字特性)添加到代表。

作为这个方法分析成对只有属性部分(属性,值),搜索过程的准确性可能不会作为其他方法的精确,因为它是。找到类似的代表这种技术只意味着一个规则集群包含给定属性被发现。

每一条规则的条件和决策部分创建从一个给定的一组对(属性值)。以下的一组属性和它们的值 , , , , ,和 ,我们可以考虑一些不同的场景(示例中为简单起见,我们假设所有的属性是名义尺度)。的知识基础 ,以下规则

我们可能会说,规则不像其他的(它所描述的其他属性),而规则和非常相似,因为除了相同的前提吗 ,他们用一个属性也包含类似的前提。规则(如规则 )与别人不同,但只看属性部分,我们会说,它更类似于规则和比规则 ,包含一个属性。

假设选择的聚类算法将首先加入规则和然后包括规则在同一集群中,使用创建的代表(阈值方法参数设置为值50%) 。不可否认的优点基于粗糙集理论的近似集可以发现在许多论文等(16- - - - - -18]。粗糙集的近似是一个模糊的概念(套)由一对精确概念,所谓的上下近似。下近似是一个域对象的描述,明确属于感兴趣的子集,而上近似的描述对象可能属于子集。使用上下近似集的概念,创建一个代表使用下/上近似法。下近似方法定义了一个集群的代表全对(属性,值),出现在每一个规则的条件部分在分析集群。相反,一个集群的代表指定的上近似法应当包含所有对(属性,值)出现在至少一个规则的条件部分集群。较低的定义近似为一组的概要文件如下: 和一个类比的定义上近似方法在哪里意味着条件的一部分法则,这条规则是一个单一的前提。集群代表规则 , ,和使用低approximation-based遗憾的是包含一个空集的方法,在使用上approximation-based方法它包含以下特性: 。它并不精确,因为它包含的功能覆盖不到30%的规则在给定组。

因此,它似乎合理的控制水平的覆盖特性选择集团的代表。它导致创建集群代表的另一种方法,即加权方法代表。在这种方法中,让体重(表示为 ),创建一个代表所有双(属性,值),至少在出现在给定的规则组。

的代表的一组规则 , ,和选择使用这种方法(一个值参数设定为50%) 因为只有这个前提出现在这个组中至少50%的规则。这清楚地显示阈值和加权的方法之间的区别。必须强调,代表立即创建集群与集群的规则,因此,可能会有/空代表即使创建一个集群。这当代表指定的方法太限制(捕获条件为代表的一些特性是相对较高的,难以实现),同时停止条件没有达到创建的结构仍有多组比假设阈值和群体不断聚集。这样严格的要求下近似法的特征。这种方法规定,并发特性包括在一个代表的描述是一个共同特征构成集群的所有规则。这种情况通常是难以实现的,特别是当规则知识库是短暂的,很少有共同的前提。结果是,在某个阶段(当团体聚集在更高层次的组织层次结构),不代表有集群。这种结构必须被避免,因为它们阻碍了评审的组织和利用集群作为一种工具的探索知识的基地。减少过度的条件检查过程中指定代表让他们过于详细描述集群通常不足。 For instance, using the upper approximation method or setting up too low a threshold for the designation of representatives in the weighted or threshold representative methods (e.g., a 25% threshold) for a cluster of four rules, when a given feature is included as a premise in at least one rule, it is sufficient to be included in the cluster’s representative.

4.5。推理过程在一个分层的知识库

大数据分析的核心是数据科学(通过数据推理和探索深知识发现)。需要一些流程知识表示,鉴于情况的描述,可以使用知识做出结论。知识是正确代表时,及时推理得出适当的结论。因此,必须适应知识推理策略,以确保一定的推论是由知识。推理经典知识基地匹配整个组规则已知事实推断出新的事实。是不可能工作在整个组规则和事实的大知识库。因此,在这和之前的研究任务9),作者定义了模型的层次化知识库规则集和规则的代表。

推理在层次化知识库涉及使用层次结构性能优化搜索的规则。结果的推理和推理过程本身的强烈依赖推理的目标。

当你考虑向前推理(数据驱动的),我们需要考虑到推理与给定的假设来证明或没有它。在第一种情况中,我们审查的代表集群的规则在每个水平并最终选择规则或规则集群最相关的事实。如果选择规则可以被激活,结果导致增加新的事实到知识库中。当这个新的事实同时推理的目标,这个过程成功应该结束。推理没有指定的目标时,我们只要有任何可以被激活的规则。因此,因此,实现推理算法导致的探索一些新的事实、推理效率的措施之一,其中,新的事实相比的百分比的开始。新的事实越多,更有效的推理过程。

在经典的方法中,每个规则的前提是检查他们是否匹配的事实。如果他们这样做,规则被激活,其结论是添加到组的事实。如果这个新的事实被证明是一个给定的假设,成功过程结束。如果没有给定的目标推理,重复这个过程,直到至少有一个规则被激活。

在这项研究中提出的方法,只有创建规则的代表集群分析,大大缩短了时间的推断。通常,规则创建集群的数量远远小于规则被集群的数量。然而,推理过程的成功取决于质量的聚类和方法创建代表。的结构集群与他们的代表,推理过程如下。对于给定的一组输入的事实,我们正在寻找在最高水平的代表集群创建层次结构,在层次结构的各个层面,从根到叶子,我们选择集群最相关的事实。如果选择组已经一个规则,及其所有前提匹配给定的事实,然后规则被激活,其结论是作为新添加到知识库中。如果新的事实是同时被证明是一个给定的目标,推理过程是成功的。否则,这个搜索过程将继续,直到要求推理的目标是确认或有规则就能激活。很容易看到,在最乐观的情况下,只持续一个迭代过程,在这一个规则被激活,其推理的结论匹配给定的目标成功结束的过程。当然,推理过程也成功如果给定的假设是证明在多个迭代,或如果任何规则被激活(当没有指定假说)。出于这个原因,在实验阶段,作者研究了下列情形:指定的目标,是可以实现的,并最终实现了吗?这是另外检查规则是否被激活,集群已经搜查了多少规则,如果一个空的代表已经在搜索过程中发生。

建议的解决方案的正确性的验证包括比较的结果为层次化知识库与推理规则集群的结果一个经典的知识库(没有规则集群)和经典推理(分析所有的规则一个接一个)。在验证的过程中,检查频率的指定目标推理已证实或任何新知识已经推导出的规则和事实。

数据驱动的推理算法的伪代码规则提出了集群算法2,如图1。最重要的过程是一个可以找到最相关的一组 )规则集群,然后选择组最相关的规则。每个集群 ,其代表而设置的事实吗 ,结果,一群选择最大相似度( )。评审时间搜索每一条规则的经典方法是减少所需的时间搜索集群代表。大多数时候,(集群)的数量明显小于(规则)的数量。选中的规则被激活,推理过程成功完成如果新的事实推论是一个要求的目标。如果没有,这个过程仍在继续。

4.6。分析提出了想法

包含大约一千集群的结构规则,大约十几位代表将找到最相似的组相比,给定的信息。由于对数算法的计算复杂度,我们组的更多的规则,越大时间获得浏览集群结构。这无疑是使用这种方法的最大优势。尤其是在大数据集,这样的解决方案是特别有用。缺点可能是其他规则的疏忽与给定的事实有关。这种方法更优的与作者之前的研究中提出的方法(9,10]。优化源自于这样一个事实:如果在给定水平的分析规则集群结构,该集团选为更相关的包含其他集群(这意味着额外的后续搜索),我们检查,如果其他集群(省略在这个级别,不那么重要)不是一个单一的规则。如果是这样的话,这条规则匹配的前提事实,这些规则被激活,可以完成推理过程。

4.7。规则聚类和规则的推理过程的例子集群

让我们假设一个给定的知识库包含五个规则:

AHC聚类算法的知识基础,在使用wSMC相似性度量的情况下,提出了数字2。

因此,两种集群的生成规则:它包含规则和和它包含 , ,和。这些团体的上下approximation-based代表如下: 还有一组给定的输入的事实。推理的过程中,考虑到代表的类型,提出了表1。


一步	LowerApp (R_我)	UpperApp (R_我)	阈值(R_我)/加权(R_我)

代表的一代
代表的一代

之间的相似性和
之间的相似性和

选择最相关的组	ϕ

发现规则激活	ϕ



激活的规则	ϕ

新的事实	ϕ

这个基本的例子清楚地说明了代表一代方法影响推理过程的效率,产生不同的结果。LowerApp方法,没有规则被激活,可以获取新知识。在考虑大数据集时,每个人都应该记住,选择集群表示方法可以显著影响新知识的数量从知识库中提取的成百上千的规则。下近似法(生产总体描述规则集群)不幸的是可以发现新知识的过程,从规则和事实不可能(因为空的代表)。

5。实验

实验旨在调查是否提出了聚类方法(SL, CL,艾尔和坳)和代表代方法(阈值,LowerApp、UpperApp和加权)影响推理的效率和质量的规则创建集群。实验的对象是四个数据集:心,天秤座,天气,krukenberg各种数量的属性和规则(14]。最小的知识库包含5属性和5规则和最大数量的规则是二百,而最大数量的属性是165元素。在实验中,有许多可能的组合检查每个知识库:9相似措施,四种聚类方法,和四个代表代方法有三个不同比例阈值和不同数量的集群。实验的总数等于178200,它的结果必须使用所有可能的组合不同的相似性度量,聚类方法,聚类数,代表一代方法(各种阈值 ),和相关的其他参数推理过程等不同数量的事实和情况下与一个给定的假设被证明或没有任何假设。178200年所有表总结获得的结果对整个实验的进行。

表2- - - - - -4目前分析结果的影响,利用各种方法规则代表集群的推理效率。


代表生成方法	新知识		目标没有实现^一个	目标实现
代表生成方法	不到100%	至少100%	目标没有实现^一个	目标实现

阈值	23145例(48.71%)	24375例(51.29%)	40657例(85.56%)	6863例(14.44%)
LowerApp	5692例(47.91%)	6188例(52.09%)	10459例(88.04%)	1421例(11.96%)
UpperApp	6377例(53.68%)	5503例(46.32%)	9277例(78.09%)	2603例(21.91%)
加权	22901例(48.19%)	24619例(51.81%)	41036例(86.36%)	6484例(13.64%)

^一个空代表推理中发现。


代表生成方法	BCS		O		陆军研究实验室			强
代表生成方法	的意思是	SD	的意思是	SD	的意思是	SD	Min-Max	的意思是	SD	Min-Max

阈值	76.68	59.18	3.93	5.66	4.05	3.08	0.0 - -9.75	5.85	3.63	0.0 - -14.0
LowerApp	78.46	60.45	3.70	5.43	1.39	0.60	0.6 - -3.75	2.71	1.90	1.0 - -9.0
UpperApp	80.94	61.34	3.97	5.98	25.94	37.60	2.2 - -279.0	86.79	94.28	4.0 - -279.0
加权	77.72	59.21	3.85	5.57	4.13	3.59	0.0 - -14.5	6.83	6.83	0.0 - -19.0


代表生成方法	触发规则		空的代表		新的事实		在集群
代表生成方法	的意思是	SD	的意思是	SD	的意思是	SD	的意思是	SD

阈值	5.31	21.69	0.0	0.0	0.92	1.95	54.53	102.35
LowerApp	5.65	23.31	71.13	60.55	0.79	1.67	62.05	111.50
UpperApp	11.53	31.68	0.0	0.0	1.32	2.63	95.14	121.03
加权	4.64	19.93	30.45	48.67	0.82	1.69	52.52	101.17

表2成功完成推理提出的频率(推理的目标已经达到或/和任何新的事实是诱导从规则和事实已知)和频率至少100%的新知识的探索(新事实)按照输入的知识。表3提出了一个描述创建集群依赖不同的代表代方法的形式以下因素:bc(最大的集群的规模),O(异常值的数量),和支持/ BRL(平均最大/代表的长度)。表4包含一个描述推理效率作为触发规则的平均数量,平均数量的空的代表,和新的事实的平均数量以及搜索集群的数量。很容易观察到代表一代方法可以确定一个给定的目标通常是UpperApp方法(在21.91%的情况下而LowerApp方法允许我们确定我们的目标只有在11.96%的病例)。如果我们的目标是实现很多新的事实(新知识),然后代表一代方法可以获得新知识超过100%的输入知识LowerApp方法(52.09%的病例)。的新知识列的值至少100%对应的情况对于一个给定的输入的事实,至少相同数量的新的事实是在推理过程中生成的。

UpperApp方法产生最大的集群大小,最大数量的异常值,以及更大范围的代表比其他代表一代方法。只有UpperApp和阈值代表一代方法是空的代表不生成。

表5- - - - - -7包含相似的信息表2- - - - - -4但是对于不同的聚类方法。


聚类方法	新知识		目标没有实现^一个	目标实现
聚类方法	不到100%	至少100%	目标没有实现^一个	目标实现

SL	14721例(49.57%)	14979例(50.43%)	24941例(83.98%)	4759例(16.02%)
CL	14182例(47.75%)	15518例(52.25%)	25122例(84.59%)	4578例(15.41%)
艾尔	14517例(48.88%)	15183例(51.12%)	25795例(86.85%)	3905例(13.15%)
上校	14695例(49.48%)	15005例(50.52%)	25571例(86.10%)	4129例(13.90%)

^一个空代表推理中发现。


聚类方法	BCS		O		陆军研究实验室		强
聚类方法	的意思是	SD	的意思是	SD	的意思是	SD	的意思是	SD

SL	50.78	52.60	2.81	5.14	6.24	14.31	11.99	33.11
CL	83.01	64.37	3.14	5.49	6.26	14.06	14.22	40.03
艾尔	83.56	55.36	4.84	5.52	5.69	13.76	14.70	39.52
上校	93.46	56.36	4.72	6.06	5.84	13.73	15.18	41.37


聚类方法	触发规则		空的代表		新的事实		在集群
聚类方法	的意思是	SD	的意思是	SD	的意思是	SD	的意思是	SD

SL	4.92	19.08	18.60	41.91	0.95	1.94	43.48	84.77
CL	5.60	22.26	20.06	43.39	0.91	1.88	63.75	110.60
艾尔	5.30	22.54	19.16	42.62	0.91	2.00	46.31	100.04
上校	6.98	25.54	19.36	42.64	0.87	1.83	80.62	119.48

SL聚类方法可以确定一个给定的推理最常见的目标。这种方法也会产生最小的规模最大的集群中,异常值的最小的数,最短的长度代表创建规则生成的集群。上述方法也收益率最小数量的解雇规则,实现空代表的最早时间,最小数量的搜索集群。

6。结论

决策支持系统建立在基于规则的知识表示应该配备规则管理机制。有效的探索新知识在人类生活的各个领域需要新创建的知识组织和搜索的算法数据结构。作者在本文中提出的优化是基于聚类分析方法和修改的推理算法,搜索在规则创建集群的代表,而不是规则。本文建议的方法的描述和实验结果选择知识库。

在各种聚类算法中,会凝聚的层次聚类算法选择的修改提出的规则建立起来的作者直到到达给定数量的集群。对于每个规则集群,创建一个代表。在推理过程中,仅代表进行了分析,并在每一个级别的创建层次结构,选择最相关的代表和进一步分析。这意味着它可以搜索整个知识库的只有一小部分具有相同的精度,实现整个知识库搜索。在前面的实验中,结果表明:大型知识库(超过一千的规则),只有1.5%的整个KB必须分析推理过程成功完成。为每个聚类的组合参数,比如相似的措施,数量的集群,others-Tables2- - - - - -4现在的结果描述和检查集群的方法代表的一代。表5- - - - - -7分别存在四种不同的聚类方法的结果。

正如所料,UpperApp代表方法符合创建最大的大小和最大的代表创建集群。因此,这种方法更频繁地导致一个成功的结论。因此,建议考虑进一步分析两代表一代为了提出新的方法和推理算法优化,实现更高的效率。

数据可用性

读者可以通过链接访问数据:http://zsi.tech.us.edu.pl/ ~诺瓦克/ data.rar在最初的四个数据集和四个实验阶段中生成报告文件上传。原始知识库和相关文件的事实被用作CluVis软件输入数据(由作者实现)来构建一个层次结构的知识库,然后运行推理过程。结果报告CSV-type文件推理效率等措施在实验因素计算。

的利益冲突

作者说,她没有利益冲突。

引用

http://news.mit.edu/2014/big-fast-weird-data。
https://www.cnbc.com/2014/02/12/inside-the-wacky-world-of-weird-data-whats-getting-crunched.html。
g j .秋问:吴叮,y,和美国风,“大型数据处理、机器学习的调查”EURASIP在信号处理的发展》杂志上,卷2016,不。1,2016。视图:出版商的网站|谷歌学术搜索
k·m·韦格专家系统:一个经理的指导国际劳工局,瑞士日内瓦,1990年。
r . Simiński和a . Nowak-Brzezińska”为基于web的知识系统,目标驱动推理”信息系统体系结构和技术:学报》第36届国际信息系统体系结构和技术会议,成绩测试标准2015 -第四部分卷,432先进的智能系统和计算Karpacz,页99 - 109年,波兰,2015年。视图:出版商的网站|谷歌学术搜索
t . Breidenstein i Bournaud, f . Woliński“规则基础,知识发现”知识获取、建模和管理卷,1319在计算机科学的课堂讲稿施普林格,页329 - 334年,1997年。视图:出版商的网站|谷歌学术搜索
a . Hashizume b . Yongguang x Du, n . Ishii”从集群生成代表数值属性的关联规则,”智能数据工程和自动化的学习卷,2690在计算机科学的课堂讲稿施普林格,页605 - 613年,2003年。视图:出版商的网站|谷歌学术搜索
s . f .你们j . Wang, h·陈,t·黄和l .道“矿业meta-rules的综合方法,”机器学习在模式识别和数据挖掘卷,3587在计算机科学的课堂讲稿施普林格,页549 - 557年,2005年。视图:出版商的网站|谷歌学术搜索
a·诺瓦克,a . Wakulicz-Deja和s Bachliński“语音识别的优化聚类的手机”,Fundamenta Informaticae,卷72,不。1 - 3、283 - 293年,2006页。视图:谷歌学术搜索
a·诺瓦克和a . Wakulicz-Deja”的概念层次聚类算法对基于规则的系统,”智能信息处理和网络挖掘施普林格,页565 - 570年,2005年。视图:出版商的网站|谷歌学术搜索
a . Nowak-Brzezińska”挖掘基于规则的知识库由粗糙集理论的启发,“Fundamenta Informaticae,卷148,不。1 - 2,页35 - 2016。视图:出版商的网站|谷歌学术搜索
Ł。“m . Sikora和m .旧事”规则质量度量设置分类、回归和生存规则归纳——实证方法,”Fundamenta Informaticae,卷149,不。4、419 - 449年,2016页。视图:出版商的网站|谷歌学术搜索
“j . Stefanowski基于粗糙集的决策规则的方法归纳,”粗糙集在数据挖掘和知识发现l . Polkowski和a . skowron4月份Eds。,pp. 500–529, Physica, Verlag, Heidelberg, 1998.视图:谷歌学术搜索
m . LichmanUCI机器学习库加州大学,信息与计算机科学学院,欧文CA,美国,2013年。
j . w . Grzymala-Busse“归纳法”数据挖掘和知识发现手册施普林格,页249 - 265年,波士顿,MA,美国,第二版,2010年版。视图:出版商的网站|谷歌学术搜索
r . Slowinski s·格列柯,b . Matarazzo“粗糙集决策,”百科全书的复杂性和系统科学施普林格,页7753 - 7787年,2009年。视图:出版商的网站|谷歌学术搜索
答:skowron4月份”,从决策表中提取法:粗糙集的方法,”计算智能,11卷,不。2、371 - 388年,1995页。视图:出版商的网站|谷歌学术搜索
pswlak z, j . Grzymala-Busse r . Slowinski, w . Ziarko“粗糙集”,ACM的通信,38卷,不。11日,第95 - 88页,1995年。视图:出版商的网站|谷歌学术搜索
j·g . Bazan m . s . Szczuka, j . Wroblewski“粗糙集勘探的新版本系统,”粗糙集,计算当前的趋势施普林格,页397 - 404年,2002年。视图:出版商的网站|谷歌学术搜索
r . Detrano a . Janosi w . Steinbrunn et al .,“国际申请的新的概率算法的诊断冠状动脉疾病,”美国心脏病学杂志》,卷64,不。5,304 - 310年,1989页。视图:出版商的网站|谷歌学术搜索
a . k . Jain和r·c·杜布算法聚类数据新世纪,Inc ., 1988年。
b·g·布坎南和e·h·Shortliffe基于规则的专家系统:斯坦福启发式编程的霉菌素实验项目(人工智能addison - wesley系列),addison - wesley朗文出版有限公司,波士顿,MA,美国,1984年。
c . l . Forgy“网:快速算法模式/许多对象模式匹配问题,”专家系统,页324 - 341,IEEE计算机协会出版社,1990年。视图:谷歌学术搜索
w·k·Loh和黄懿慧公园”,调查density-based聚类算法,”无处不在的信息技术和应用程序y s .宋,黄懿慧公园,c·h·许和j。j公园,Eds。卷,280课堂讲稿电气工程施普林格,页775 - 780年,柏林,海德堡,2014年。视图:出版商的网站|谷歌学术搜索
h·k·Kanagala和诉诉Jaya罗摩Krishnaiah,”比较研究k - means, DBSCAN和光学”2016年国际会议上计算机通信和信息(ICCCI)哥印拜陀,页1 - 6,印度,2016。视图:出版商的网站|谷歌学术搜索
A·杜德克”比较聚类方法的性能使用光谱方法,”数据分析方法及其应用,页143 - 156 h贝克,华沙,波兰,2012。视图:谷歌学术搜索
s . Boriah诉Chandola,诉Kumar“相似措施分类数据:比较评估,”学报2008年暹罗国际会议数据挖掘,页243 - 254年,亚特兰大,乔治亚州,美国,2008年。视图:出版商的网站|谷歌学术搜索
j·c·高尔半岛”,一般的相似系数和它的一些属性,“生物识别技术,27卷,不。4 p。857年,1971年。视图:出版商的网站|谷歌学术搜索
a . Nowak-Brzezińska和t . Rybotycki比较上下文规则聚类的相似性措施”2017年IEEE国际会议上创新智能系统和应用程序(INISTA)格丁尼亚,页235 - 240年,波兰,2017年IEEE会议出版物。视图:出版商的网站|谷歌学术搜索
a . Nowak-Brzezińska和t . Rybotycki聚类参数对效率的影响基于规则的知识库中的知识挖掘过程,”Schedae Informaticae25卷,第101 - 85页,2017年。视图:出版商的网站|谷歌学术搜索
y荣格,h .公园,d . z Du和b·l·德雷克”决定条件下的最优数量的集群层次聚类,“杂志的全局优化,25卷,不。1,第111 - 91页,2003。视图:出版商的网站|谷歌学术搜索
美国仍然和w . Bialek集群多少?信息理论的角度来看,“神经计算,16卷,不。12日,第2506 - 2483页,2004年。视图:出版商的网站|谷歌学术搜索
r . Baeza-Yates和b . Ribeiro-Neto现代信息检索:搜索背后的概念和技术,,2011。
j . j . Rocchio文档检索系统——优化和评估,[博士。论文),哈佛大学出版社,1966年。

复杂性

克服“大数据”障碍的机器学习技术的实际应用