数据分析,无论数据预计将解释定量(如回归分析)或分类(分类)模型,通常需要克服各种障碍。不平衡数据集,包括错误的测量结果,不完整的数据。
一群特殊的障碍是典型的现在被称为“大数据。”这个术语用于描述问题,可用数据集太大很容易地处理传统机器学习工具和方法。现在普遍接受的是,处理巨大和复杂的数据集提出了许多处理挑战并打开一系列的研究和技术问题和要求的新方法。
大数据通常以著名的5 v特性:
体积:通常是大量的数据,
速度:速度数据包括动态生成和演化,
品种:涉及多个异构、复杂的数据表示,
真实性:数据的不确定性和缺乏质量保证,
值:一个潜在的商业价值,大数据分析可以提供。
大数据环境通常是分布式的分布式数据源。这些来源可以是异构的,各方面包括存储技术和不同的表达方法。
大数据的挑战不仅涉及需要克服5 v特性还包括需要开发技术进行数据采集、转换、集成和造型。然而,其他重要的问题涉及隐私,安全、治理和道德方面的大数据分析。
当前先进的处理大数据的问题,尽管在很多情况下,壮观,远非令人满意的实际的应用程序。尤为如此在众多领域获得知识不同的机器学习任务是至关重要的过程和特性在生物信息学等领域,文本挖掘,或安全。不幸的是,大多数当前的算法成为无效时,问题变得非常大由于潜在的组合优化问题,作为一个规则,计算困难。存在多种方法和工具,善于解决中小型机器学习任务而成不满意当处理大的。
当前热门话题为了提高机器学习技术的有效性包括搜索紧凑的知识表示方法和知识发现和集成的更好的工具。机器学习也可能获利整合集体智慧技术,应用进化和bioinspired技术,探索进一步深度和极端的学习技术。
这个特殊问题的目的是发布一些当前的研究成果推动不同的技术来处理大而复杂的问题。问题由14个文件覆盖一些新奇的方法和技术,以及他们的应用程序。选中的扩展版本的论文在2017年IEEE INISTA会议上提出的。
i Czarnowski纸和p . Jędrzejowicz提出了一种数据还原方法从大数据集学习通过整合叠加,旋转,和代理人口学习技术。本文表明,结合该技术可以提高分类器的性能学习从大型和复杂的数据集。基于分类器集成的方法是范例使用rotation-based叠加乐团一直在生产技术,保证他们的异质性。降低数据的维数,减少数据和功能维度已经应用实例。
降维一直在还讨论了j·李和D.-W的纸。金姆。作者考虑一个multilabel分类问题。Multilabel分类是一个变种的多级分类,多个标签可能是分配给每个实例;即。,每个实例对应于多个类标签。特征选择是基于降维的方法。信息内容的方法是基于分析和补救措施的计算负担丢弃不重要的标签功能重要性分数。
Semisupervised学习是一个类的机器学习任务标记和未标记数据用于诱导学习模型。本文的大肠Protopapadakis等人处理问题的选择和训练集预处理实例。几种方法实例选择基于抽样进行了讨论和比较。一个广泛的实验评价方法包括在纸。
在他们的论文中,j . Jedrzejowicz和p . Jedrzejowicz考虑数据流挖掘的方法。问题已经解决了使用增量减少基因表达式编程分类器与metagenes和数据。它已被证明,提出的概念metagenes保证提高分类精度,同时减少数据允许控制计算时间。该方法的优点是还允许使用数据流,结果简单的漂移检测机制的实现。建议的方法还提供了可伸缩性的可能性来调整计算遍给用户需要的分类精度。
z h . Kilimci和美国Akyokus关注文本分类问题。作者提出了整体学习和深度学习方法提高文本分类的性能。合奏的基分类器提出了解决考虑分类问题包括朴素贝叶斯等传统机器学习算法、支持向量机和随机森林,和基于深度学习的传统网络分类器。不同的文档表示,不同的系综方法在八个不同的数据集评估。最后,它已被证明,使用异构乐团一起深入学习方法和字嵌入提高文本分类的性能。
a . Nowak-Brzezińska处理知识管理的问题,提出了一种新的方法在决策支持系统的规则管理机制。方法是基于分层次组织规则库结构。这种结构是基于聚类的方法。该算法利用相似的方法试图发现新的事实(新知识)已知的规则和事实。计算实验涉及的分析的影响提出了决策支持系统的效率的方法与层次知识表示。
b . Huynh和b签证官关注的问题挖掘可擦写项集。挖掘可擦项集是一个类一个频繁模式挖掘的问题。一般来说,可擦项集的数据挖掘问题属于np难类和现有算法挖掘可擦项集有较高的计算复杂度。计算实验结果表明,该方法保证非常合理和竞争结果与之前的方法相比。
y郭等人处理这个问题的复杂电力系统状态监测和评价。在报纸上,一个特殊的大数据平台,作为分析工具,提出了讨论。基于案例研究中,作者展示了如何提高电力系统的决策过程。
摘要写的p . Caşcaval关注的问题建模和评估复杂网络的可靠性。一般来说,计算复杂网络可靠性的问题属于np难问题。本文提出了一种新颖的方法有助于网络可靠性评估。该方法降低了大型网络的计算时间在很大程度上与一个精确的方法以及与其他已知的方法。
在他的论文中,j . p . Paplinski调查蝙蝠算法的稳定性。分析是基于假设认为算法可视为一个随机离散时间系统,允许使用李雅普诺夫稳定性理论分析该算法的行为。计算实验证明了方法的正确性。
c·a·马丁等人的论文致力于评论,游客发布在线分类的问题。本文论述了案例研究,卷积神经网络和长期短期记忆网络使用在决策的过程中对服务质量的改进。
a . Wosiak和d Zakrzewska讨论真正的问题的检测和诊断心脏疾病。一种方法准备医疗诊断心脏疾病的模型是基于聚类。作者提出一种新的基于结合无监督特征选择和聚类方法。该方法使用真实的数据集进行验证的心血管病例。实验结果表明了该方法的优势与其他方法相比,基于特征选择但是没有统计推断的集群支持。
在报纸上写的j . Jakubik和h . Kwaśnicka音乐数据使用机器学习方法进行了分析。支持向量机作为分类工具,但是在足够的数据表示之前必须准备使用递归神经网络。计算实验结果表明,该混合动力机器学习工具与其他方法相比具有竞争力。
这篇论文写的dŚwietlik处理模拟大脑的自然过程,包括三个典型过程,即。、学习、记忆、遗忘。流程模拟模型的基础上,海马的CA1区。硬件实现的可能性的大脑海马CA1区锥体细胞的。考虑的问题是问题的一个例子,不同的信号影响大脑处理。他们的分析可以从的角度有用的医学诊断以及从知识的角度提取重要的准备,提高人工大脑模型和算法应用于数据分析。
编辑认为,特殊问题一直是一个重要和及时的倡议。编辑希望呈现研究成果将有价值的科学界在大数据领域的工作,数据科学、机器学习、复杂的数据分析,数据挖掘,知识发现,和项目管理。提交结果也为其他研究人员正在处理或将在未来实现不同数据分析工具试图解决现实生活中的问题。
我们想借此机会感谢所有作者的有价值的贡献。提交的论文综述了至少两个裁判。我们要感谢所有同行评议者的宝贵的工作,建议,和详细的反馈有助于提高论文的质量包括在特殊问题。特别感谢是由于塞尔吉奥•戈麦斯和文森特Labatut支持编辑的工作。
编辑们宣称他们没有利益冲突有关的出版这个特殊的问题。