克服了真实应用的机器学习技术中的“大数据”障碍

1.介绍

数据分析，无论数据是否有望解释定量（如回归）或分类（如分类）模型，通常需要克服各种障碍。它们包括不平衡数据集，缺陷的测量结果和不完整的数据。

一群特殊的障碍是典型的，因为现在被称为“大数据”。该术语用于表征可用数据集太大而无法轻松处理传统机器学习工具和方法的问题。现在普遍认为，处理巨大和复杂的数据集处理许多处理挑战，并开启了一系列的研究和技术问题，并呼吁新方法。

大数据通常具有众所周知的5V属性:(我)容量:通常是大量的数据，(2)速度:数据生成的速度，包括它们的动态和进化，(3)品种：涉及多个，异构和复杂的数据表示，（iv）准确性:数据的不确定性和缺乏质量保证，（v）价值:大数据分析可能提供的潜在商业价值。

大数据环境通常是分布式的，数据源是分布式的。这些源可以是异构的，在包括存储技术和表示方法在内的各个方面都不同。

大数据不仅需要克服5V特性，还需要开发数据捕获、转换、集成和建模技术。然而，其他重要问题涉及大数据分析的隐私、安全、治理和伦理方面。

目前在处理大数据问题方面取得的进展，尽管在许多情况下令人瞩目，但在现实应用中还远远不能令人满意。在生物信息学、文本挖掘或安全等领域，机器学习任务对于获取不同过程和属性的知识至关重要，因此在许多领域尤其如此。不幸的是，当问题变得非常大时，大多数当前的算法变得无效，因为潜在的组合优化问题，作为一个规则，计算困难。各种方法和工具在解决中小型机器学习任务时表现优异，但在处理大型机器学习任务时表现不佳。

目前在寻求提高机器学习技术的有效性中的当前热门话题包括搜索紧凑的知识表示方法和更好的知识发现和集成工具。机器学习也可能从整合集体智能技术，应用进化和生物透露技术，以及进一步深入和极端学习技术的利润。

2.特殊问题中包含的捐款

本特刊的目的是发表一些目前的研究成果，以推进处理大型和复杂问题的不同技术。本论文共十四篇，涵盖了一些新的方法和技术及其应用。其中精选的是2017年IEEE INISTA会议上发表的论文的扩展版本。

I. Czarnowski和P. Jędrzejowicz的论文提出了一种融合堆叠、旋转和agent种群学习技术的大数据集学习数据约简方法。研究表明，结合所提出的方法可以提高分类器在大型复杂数据集中的学习性能。该方法基于分类器集成范式，其中叠加集成是使用基于旋转的技术生成的，保证了它们的异质性。为降低数据的维数，采用了实例数据约简和特征维数的方法。

在J. Lee和D. -W的论文中还讨论了维数减少。金。作者考虑了一个多责任分类问题。Multilabel分类是多字母分类的变体，其中可以为每个实例分配多个标签;即，每个实例对应于多个类标签。该方法基于特征选择的维度减少。该方法是基于对信息内容的分析，并通过丢弃不重要的标签来补救计算负担，以具有重要性分数。

半熟学习是一类机器学习任务，其中标记和未标记的数据都用于诱导学习模型。E. proTopapadakis等人的论文。处理实例选择和训练设置预处理的问题。讨论了基于采样的若干方法选择并进行比较。本文纳入了考虑方法的广泛实验评价。

在他们的论文中，J. Jedrzejowicz和P. Jedrzejowicz考虑了一种数据流挖掘的方法。采用元基因和数据约简的增量基因表达式编程分类器解决了这一问题。如前所述，所提出的元基因组概念保证了分类精度的提高，而数据约简则可以控制计算时间。该方法的优点还在于允许使用简单漂移检测机制实现的数据流。该方法以牺牲分类精度为代价，根据用户需求调整计算时间，从而提供了可扩展性。

Z. H. Kilimci和S. Akyokus研究了文本分类问题。作者提出了集成学习和深度学习方法来提高文本分类性能。为解决所考虑的分类问题而提出的基分类器集成包括naïve Bayes、支持向量机和随机森林等传统机器学习算法，以及基于深度学习的传统网络分类器。对八个不同数据集上的不同文档表示和不同的集成方法进行了评估。最后，研究表明，将异构集成与深度学习方法和词嵌入相结合可以提高文本分类性能。

A. Nowak-Brzezińska涉及知识管理问题，并提出了决策支持系统中规则管理机制的新方法。该方法基于分层组织的规则基础结构。基于聚类方法产生这种结构。利用相似性方法，所提出的算法试图从已知的规则和事实中发现新的事实（新知识）。计算实验涉及对具有分层知识表示的决策支持系统效率的影响分析。

B. Huynh和B. Vo关注可擦除项集的挖掘问题。可擦除项集的挖掘是一类常见的模式挖掘问题。可擦除项集挖掘问题一般属于NP-hard类，现有的可擦除项集挖掘算法计算复杂度较高。计算结果表明，该方法与以往的方法相比具有较好的合理性和竞争力。

Guo Y. et al.处理复杂电力系统状态监测和评估问题。本文提出了一个专门的大数据分析平台，并进行了讨论。通过实例分析，说明了如何改进电力系统的决策过程。

本文主要研究复杂网络的可靠性建模和评估问题。一般来说，计算复杂网络可靠性的问题属于NP-hard类问题。提出了一种新的网络可靠性评估方法。与其他已知方法相比，该方法大大减少了大型网络的计算时间。

在他的论文中，J.P.Paplinski调查了BAT算法的稳定性。该分析基于假设所考虑的算法可以被视为随机离散时间系统，该时间系统允许利用Lyapunov稳定性理论来分析算法的行为。计算实验证明了这种方法的正确性。

C. A. Martin等人的论文致力于对游客在线发布的评论进行分类的问题。本文讨论了应用卷积神经网络和长短期记忆网络进行服务质量改进决策的案例研究。

A. Wosiak和D. Zakrzewska讨论了心脏病检测和诊断的真正问题。一种为医学诊断准备心脏病模型的方法是基于聚类。提出了一种基于无监督特征选择和聚类相结合的聚类方法。提出的方法已经通过真实的心血管病例数据集进行了验证。实验结果表明，该方法与其他基于特征选择但不采用聚类支持统计推断的方法相比具有一定的优势。

在J. Jakubik和H. Kwaśnicka撰写的论文中，使用机器学习方法对音乐数据进行了分析。SVM被用作分类工具，但在此之前必须使用递归神经网络准备充分的数据表示。实验结果表明，所提出的混合机器学习工具与其他方法相比具有较强的竞争力。

D. Świetlik写的这篇论文是关于模拟自然的大脑过程，包括三个典型的过程，即学习、记忆和遗忘。这一过程是基于海马CA1区模型进行模拟的。本文还讨论了硬件实现海马CA1区锥体细胞的可能性。所考虑的问题是不同信号影响大脑过程的一个例子。他们的分析从医学诊断的角度以及从提取知识的角度来看都是有用的，这些知识对于准备和改进用于脑数据分析的人工模型和算法非常重要。

结论

编辑认为，特殊问题一直是一个重要及及时的主动性。编辑希望提出的研究成果将对在大数据，数据科学，机器学习，复杂数据，数据挖掘，知识发现和项目管理分析的基础上工作的科学界。呈现的结果也针对目前或将在未来实施不同的数据分析工具，以解决现实生活问题的其他研究人员讨论。

我们愿借此机会感谢所有作者所作的宝贵贡献。提交的论文已被至少两位推荐人审查。我们要感谢所有同行审稿人，他们宝贵的工作、建议和详细的反馈有助于提高特刊论文的质量。特别感谢Sergio Gómez和Vincent Labatut，他们支持编辑们的工作。

利益冲突

编辑声明他们没有关于出版本特殊问题的利益冲突。

Ireneusz Czarnowski.
彼得亚雷Jedrzejowicz
郭明超
Tülayyildirim

复杂

克服了真实应用的机器学习技术中的“大数据”障碍

1.介绍

2.特殊问题中包含的捐款

结论

利益冲突

版权

更多相关文章

相关文章