文摘

在过去的几十年中,研究人员已经取得了重大进展在粒度分析沉积环境解释,但这些改进往往依赖于主观经验的研究员和通常是与其他方法相结合。目前,研究人员已经使用大量的数据挖掘和知识发现方法来探讨沉积物粒度分析的潜在关系。在本文中,我们将两偶图的理论构建样品/粒度网络模型,然后构造一个样本网络模型预计从这个由两部分构成的网络。此外,我们将使用迷你批k - means算法与最合适的参数(重新分配比例 小批= 25)集群沉积物样品。我们将使用四个代表评价指标来验证聚类结果的精度。仿真结果表明,该算法可以划分样本网络分为三个沉积直言集群:海洋,河流,。根据先前的研究结果从各种指标,获得关于沉积物粒度分类实验结果的精度是0.92254367,这一事实表明,该方法分析沉积环境的粒度是非常有效和准确的。

1。介绍

数据挖掘、知识发现和机器学习算法几乎渗透到各领域的研究(1- - - - - -4]。复杂网络作为数据挖掘的一个重要方法重视发现隐藏信息之间的事情。因此,许多研究者从不同的研究领域,包括数学、物理学、生物学、化学、海洋学、使用复杂网络探索潜在的数据之间的关系5- - - - - -9]。复杂网络有一些特点:自相似性、自组织、无尺度,小世界,群落结构(集群)和节点中心。社区结构是最重要的一个特征,因为它可以客观地反映节点之间的潜在关系。一个社区是由一群内节点之间的联系的节点之间的紧密连接,但它们与其他集群稀疏(10,11]。

粒度分析是沉积环境分类的基本工具之一,分析可以提供重要的线索来源,运输历史和沉积条件(12]。一般来说,粒度分析涉及的代表统计参数值,模式,意思是,分离参数,偏态和峰态13]。在过去的几十年里,两个粒度参数的计算方法是:图解法和矩量法(12]。吸干和派伊(2011)提出了这两种分析方法有一些优点和缺点与各种参数计算泥沙粒度样品。大多数沉积物polymodal,曲线形状和统计措施通常只是反映了种群的相对大小和分离。Polymodal粒度谱可以看作一种叠加的结果几个单峰组件(14]。许多作品表明不同粒度分布与特殊的运输和沉积过程(15]。三种功能一般用于符合粒度分布:正常函数,对数正态函数,威布尔函数(15]。基于实验结果,太阳et al。15)发现,威布尔函数的数学描述适合各种沉积物的粒度分布,而应用程序正常功能的河流和湖泊沉积物也是可以接受的。虽然这些方法,特别是威布尔函数,表现良好在沉积物的粒度分布,他们经常需要主观经验的研究人员,和环境的决心没有明确的标准。基于钻孔数据的Lz908,易等人分析了沉积环境的演变。粒度数据之外,他们还使用了磁化率的数据,树花粉、放射性碳年代测定法,光激励发光(OSL)约会16,17]。相同的结论可以通过只使用相对方便和廉价的粒度数据指标?

在本文中,我们介绍了复杂网络的数据建模沉积物粒度数据。基于两偶图的理论(18),我们构建的样品/粒度一式两份的加权网络模型能客观地反映协会沉积物样品和晶粒尺寸之间的关系。通过使用投影,我们将构建样本网络模型由两部分构成的网络。经过反复测试基于数万代表聚类算法,我们选择了小批k - means算法(19),一种优化算法结合k - means算法(20.),和经典的批处理算法(21)将样本节点到他们的类别和找到沉积环境与晶粒尺寸之间的关系。400年测试后,我们可以在迷你批找到最合适的参数k - means算法。最后,我们将使用四个评价指标AMI,敝中断,完整性,精度验证聚类划分的准确性和效率。

2。评价函数

在复杂网络的研究领域,研究人员总是使用几个具有代表性的绩效评估指标AMI,敝中断,完整性,精度验证聚类划分的准确性和效率。全世界都知道一个指数的价值越高,更好的聚类划分的结果。因此,我们还将使用这四个评价指标来验证样品沉积物粒度的聚类结果。

2.1。敝中断和AMI

归一化互信息(敝中断)22,23)是一个方法来衡量两个数据之间的共享信息分布的信息论中信息熵的定义是包含在一个分布(24]。 在哪里 代表一个对象的概率随机选择分为两类 这两个标签作业 有相应的熵 定义如下: 在哪里 一个对象的概率是随机挑选的 属于类 这个方程 有类似的定义

敝中断和调整互信息(AMI) (25)被定义为 在哪里 是MI期望值。敝中断的范围和AMI吗 ,分别。

2.2。完整性

基于该标准的分区珍贵的已知粒度样品的研究结果,条件熵分析用于定义一些直观的措施。完整性分配给定类相同的集群中的所有节点(26,27]。完整性是正式的 在哪里 类和熵的吗 考虑到集群的条件熵类作业。

2.3。精度

精度(28)( )是真阳性的数量( ) +假阳性的数量( )。的精度

3所示。数据集的沉积物/粒度

本研究的沉积物样品来自钻孔Lz908(37°09年 N, 118°58 E),位于渤海南部,中国(图1)。水下钻孔的钻是101.3米,2007年,回收率达到75%。现有的研究结果表明,该地区晚更新世发展成三个海侵层,厚度河流,,海洋胶莱盆地的沉积物达到2000 - 3000米[16]。我们提取2141个沉积物样品的晶粒尺寸钻孔基于间隔2厘米。我们测试的粒度通过彻底的在第一个海洋研究所的预处理方法,中国国家海洋局。晶粒尺寸的测量仪器是Mastersizer 2000激光粒子分析仪由英国公司莫尔文;测量范围为0.02 -2000μm;重复测量误差小于3%。

我们计算φ每一个沉积物样品的价值通过51序列(表1),它代表了相应的各种颗粒尺寸的大小。数据描述每个晶粒尺寸的大小的比例占总晶粒尺寸的大小。因此,我们构建了一个数据集 2141×51矩阵, 表示百分比的成分 的晶粒尺寸 th样本(表1)。

4所示。建设样品/粒度由两部分构成的网络

在本文中,我们构建的样品/粒度网络基于两偶图理论(18图是表示) ,在哪里 是节点集和 代表两偶图的边集。理论, 分成两个不相交的子集 ,在哪里 是节点和一个类 代表了其他类; 协会表示一组节点之间的关系 和一个节点集

根据这一理论,建设的过程样品/粒度一式两份的加权网络模型如下。

在这个过程中,一个类, ,是样本节点和另一个类, ,表示粒度节点。如图2,样例节点编号lz04 - 076包括几个粒度节点-7.00与7.25级。如果样品节点包含一个粒度节点,优势将这个样本之间存在节点和相应的粒度节点。边缘的重量表示晶粒大小包含在一个样本的数量。基于这一常规,我们构建了决赛样品/粒度一式两份的加权网络模型,如下所示(图3)。

在这个由两部分构成的网络,我们粒度节点标识为绿色,对应于51类颗粒大小不同的大小;我们样品节点标记为粉红色,对应2141套样品。这个模型可以清楚地反映协会示例节点和节点粒度之间的关系。

我们构造一个样本网络模型预测的样品/粒度由两部分构成的网络模型(图4)。的样本网络模型有2141个节点和44198边缘;一个节点代表一个样本,边代表两个样品含有相同的粒径大小。边缘的重量显示的频率两个样品有相同的晶粒尺寸。

5。基于k - means迷你批沉积物粒度样品分析

5.1。沉积物粒度数据分析

在本文中,我们的集群样本迷你批网络模型的k - means算法。在每次迭代的处理时间沉积物样品,我们随机从总样本中提取小批次级样本和更新每一批迷你示例利用凸组合的方法。同时,我们使用另外的学习速率增加的速度收敛速度。随着迭代次数的增加,我们发现这个算法的收敛条件时逐次迭代聚类结果没有变化。最后,我们把样品分成几个集群节点。

5.2。沉积物粒度样本数据分析的步骤

步骤1随机抽取 小批次级样本 从沉积物样本数据集 51和2141个样本的属性步骤2随机选择 样本作为初始聚类中心;保存到一个数组中 存储 聚类中心在算法运行时将被改变步骤3选择一个样本 ;计算聚类中心节点示例 在最近的距离 利用欧氏距离;结果保存在一个数组 欧氏距离如下: 在哪里 显示最近的样本之间的欧氏距离 和中央节点 th属性的示例 步骤4获得样品 ;更新其中计数器 : 步骤5获得实时的情况学习速率 ,这个算法的收敛速度 步骤6以梯度步骤: 步骤7如果 ,所有的样品已经被划分为一个集群,否则,返回到步骤4步骤8如果迭代的时间 ,回到步骤1。该算法的收敛条件时将停止或者是满意迭代的时间>

算法12显示小批k - means算法的伪代码沉积物样本数据处理。

小批k - means
输入:粒度的数据集X;初始簇的数量k是3;迭代次t;
迷你批b
输出:聚类标签的集合C;集群中每个样本的标签c
初始化每个样本的标签
;
因为我= 1 t
/ /提取随机 小批使
;/ /计算和存储集群核心样本
结束了
;/ /获得中央样本
;/ /更新的情况
;/ /得到实时的情况学习速率
;/ /梯度一步
结束了
结束了
:一个 投影L1球
输入: 宽容,L1-ball半径 ,向量
如果 然后退出
如果 然后 其他的
结束时
因为我= 1 m
结束了

6。模拟和分析

6.1。多索引分析,聚类结果

在本文中,我们使用四个指标AMI,敝中断,完整性,精度验证沉积物样品的聚类结果。我们经典的两个参数小批重新分配比例小批量的k - means算法。反复测试400次后,我们获得表中相应的结果2。不同评价指标的最大值是标记为粗体数字:0.40919072,0.41485376,0.44747697和0.92254367。

6.2。热图分析的聚类结果

以下的热图可以客观地反映聚类划分的准确性和效率的沉积物样本数据计算小批k - means算法。在每一个人物,每平方代表不同的指数小批重新分配比例在一个特定的评价指标。最右边的仪表板中的不同颜色显示不同的分数,和每一个指标的分数范围 颜色的渐变每平方代表值的大小。

如数据所示56,AMI可以获得最大值0.40919072时重新分配比例 小批= 25。敝中断的最大价值是0.41485376在同样的参数。

基于数据78、完整性和精度可以获得最大值0.44747697和0.92254367,分别的时候重新分配比例 小批= 25。

通过聚类分析,我们可以将这些样本分配给其实际沉积物集群。客观、精度是最重要的指数从这四个绩效评估指标。通过分析上面的仿真结果中,我们可以知道,沉积物粒度的聚类结果样本计算小批k - means算法以适当的参数, 小批= 25,有精度高:0.92254367。其他三个指标也可以获得最大值:AMI = 0.40919072, = 0.44747697敝中断= 0.41485376,和完整性。

6.3。网络特性分析的聚类结果与其他研究和比较

我们计算的聚类结果沉积物粒度样品使用迷你批k - means算法与最合适的参数, 小批= 25。仿真结果表3和图9

根据表3和图9,我们把样本网络模型为三个集群计算的迷你批k - means算法。易等人分裂的沉积环境Lz908通过各种指标代表的手稿(12,16]。与他们的研究结果相比,三个集群对应三个沉积环境:海洋,河流,。绿色的集群显示这些样品可以分配给海洋沉积物分类;橙色的集群表明这些样品可以分成河流;蓝色可以分为集群代表这些样品。这个网络可以要求精度高,0.92254367,聚类划分的迷你批k - means算法的参数设置 小批= 25。此外,我们发现大部分的不同的点与宝贵的研究位于不同的沉积物类型(图的结10)。这些结果表明,该方法分析沉积环境的粒度是非常有效和准确的。

7所示。结论

在过去的几十年中,研究人员已经取得了重大的进步的环境解释粒度分析,但环境的决心没有明确的标准。以往的研究往往过分强调主观经验的研究员和通常与其他方法结合粒度分析和很少使用粒度进行沉积环境分析。最近,复杂网络已经发挥着越来越重要的角色在数据挖掘和知识发现,因为他们可以揭示事物之间的潜在关系,隐藏信息。在本文中,我们使用复杂网络和两偶图的理论构建样品/粒度网络模型和一个样本网络模型。此外,我们使用迷你批k - means算法集群沉积物粒度样品。我们使用代表评价指标AMI,敝中断,完整性,精度验证样本的聚类结果的精度。仿真结果表明,该算法可以划分样本网络分为三个集群海洋,河流,——事实是几乎相同的部门在古典手稿。同时,评价指标还可以获得比较高的值,当我们设置适当的参数 小批= 25。结果还表示,聚类结果有效;例如,相同的分类与传统方法的样品是0.92254367,一个优秀的计算结果相对方便和廉价的方式。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

我们承认中国的资金支持国家重点研究项目(2016 yfc0402801)和国家自然科学基金(41406072)。