Geofluids

在这一页上

文摘介绍分析结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

机制,原因,和控制水、溶质和气体迁移由采矿活动引起的

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID8519695| https://doi.org/10.1155/2018/8519695

沉积环境分析,粒度数据基于迷你批k - means算法

乔苏 ,¹ Yanhui朱,² 非政府组织贾,² 萍李,¹ 方胡 ,^2、3 和Xingyong徐¹

学术编辑器: Umberta Tinivella

收到了 2018年4月26日

接受 2018年9月23日

发表 2018年12月02

文摘

在过去的几十年中,研究人员已经取得了重大进展在粒度分析沉积环境解释,但这些改进往往依赖于主观经验的研究员和通常是与其他方法相结合。目前,研究人员已经使用大量的数据挖掘和知识发现方法来探讨沉积物粒度分析的潜在关系。在本文中,我们将两偶图的理论构建样品/粒度网络模型,然后构造一个样本网络模型预计从这个由两部分构成的网络。此外,我们将使用迷你批k - means算法与最合适的参数(重新分配比例 和小批= 25)集群沉积物样品。我们将使用四个代表评价指标来验证聚类结果的精度。仿真结果表明,该算法可以划分样本网络分为三个沉积直言集群:海洋,河流,湖。根据先前的研究结果从各种指标,获得关于沉积物粒度分类实验结果的精度是0.92254367,这一事实表明,该方法分析沉积环境的粒度是非常有效和准确的。

1。介绍

数据挖掘、知识发现和机器学习算法几乎渗透到各领域的研究(1- - - - - -4]。复杂网络作为数据挖掘的一个重要方法重视发现隐藏信息之间的事情。因此,许多研究者从不同的研究领域,包括数学、物理学、生物学、化学、海洋学、使用复杂网络探索潜在的数据之间的关系5- - - - - -9]。复杂网络有一些特点:自相似性、自组织、无尺度,小世界,群落结构(集群)和节点中心。社区结构是最重要的一个特征,因为它可以客观地反映节点之间的潜在关系。一个社区是由一群内节点之间的联系的节点之间的紧密连接,但它们与其他集群稀疏(10,11]。

粒度分析是沉积环境分类的基本工具之一,分析可以提供重要的线索来源,运输历史和沉积条件(12]。一般来说,粒度分析涉及的代表统计参数值,模式,意思是,分离参数,偏态和峰态13]。在过去的几十年里,两个粒度参数的计算方法是:图解法和矩量法(12]。吸干和派伊(2011)提出了这两种分析方法有一些优点和缺点与各种参数计算泥沙粒度样品。大多数沉积物polymodal,曲线形状和统计措施通常只是反映了种群的相对大小和分离。Polymodal粒度谱可以看作一种叠加的结果几个单峰组件(14]。许多作品表明不同粒度分布与特殊的运输和沉积过程(15]。三种功能一般用于符合粒度分布:正常函数,对数正态函数,威布尔函数(15]。基于实验结果,太阳et al。15)发现,威布尔函数的数学描述适合各种沉积物的粒度分布,而应用程序正常功能的河流和湖泊沉积物也是可以接受的。虽然这些方法,特别是威布尔函数,表现良好在沉积物的粒度分布,他们经常需要主观经验的研究人员,和环境的决心没有明确的标准。基于钻孔数据的Lz908,易等人分析了沉积环境的演变。粒度数据之外,他们还使用了磁化率的数据,树花粉、放射性碳年代测定法,光激励发光(OSL)约会16,17]。相同的结论可以通过只使用相对方便和廉价的粒度数据指标?

在本文中,我们介绍了复杂网络的数据建模沉积物粒度数据。基于两偶图的理论(18),我们构建的样品/粒度一式两份的加权网络模型能客观地反映协会沉积物样品和晶粒尺寸之间的关系。通过使用投影,我们将构建样本网络模型由两部分构成的网络。经过反复测试基于数万代表聚类算法,我们选择了小批k - means算法(19),一种优化算法结合k - means算法(20.),和经典的批处理算法(21)将样本节点到他们的类别和找到沉积环境与晶粒尺寸之间的关系。400年测试后,我们可以在迷你批找到最合适的参数k - means算法。最后,我们将使用四个评价指标AMI,敝中断,完整性,精度验证聚类划分的准确性和效率。

2。评价函数

在复杂网络的研究领域,研究人员总是使用几个具有代表性的绩效评估指标AMI,敝中断,完整性,精度验证聚类划分的准确性和效率。全世界都知道一个指数的价值越高,更好的聚类划分的结果。因此,我们还将使用这四个评价指标来验证样品沉积物粒度的聚类结果。

2.1。敝中断和AMI

归一化互信息(敝中断)22,23)是一个方法来衡量两个数据之间的共享信息分布的信息论中信息熵的定义是包含在一个分布(24]。在哪里代表一个对象的概率随机选择分为两类和。这两个标签作业和有相应的熵和定义如下: 在哪里一个对象的概率是随机挑选的属于类。这个方程有类似的定义与。

敝中断和调整互信息(AMI) (25)被定义为在哪里是MI期望值。敝中断的范围和AMI吗和 ,分别。

2.2。完整性

基于该标准的分区珍贵的已知粒度样品的研究结果,条件熵分析用于定义一些直观的措施。完整性分配给定类相同的集群中的所有节点(26,27]。完整性是正式的在哪里类和熵的吗考虑到集群的条件熵类作业。

2.3。精度

精度(28)( )是真阳性的数量( )在+假阳性的数量( )。的精度

3所示。数据集的沉积物/粒度

本研究的沉积物样品来自钻孔Lz908(37°09年N, 118°58E),位于渤海南部,中国(图1)。水下钻孔的钻是101.3米,2007年,回收率达到75%。现有的研究结果表明,该地区晚更新世发展成三个海侵层,厚度河流,湖,海洋胶莱盆地的沉积物达到2000 - 3000米[16]。我们提取2141个沉积物样品的晶粒尺寸钻孔基于间隔2厘米。我们测试的粒度通过彻底的在第一个海洋研究所的预处理方法,中国国家海洋局。晶粒尺寸的测量仪器是Mastersizer 2000激光粒子分析仪由英国公司莫尔文;测量范围为0.02 -2000μm;重复测量误差小于3%。

我们计算φ每一个沉积物样品的价值通过51序列(表1),它代表了相应的各种颗粒尺寸的大小。数据描述每个晶粒尺寸的大小的比例占总晶粒尺寸的大小。因此,我们构建了一个数据集2141×51矩阵,表示百分比的成分的晶粒尺寸th样本(表1)。

4所示。建设样品/粒度由两部分构成的网络

在本文中,我们构建的样品/粒度网络基于两偶图理论(18图是表示) ,在哪里是节点集和代表两偶图的边集。理论,分成两个不相交的子集 ,在哪里是节点和一个类代表了其他类;协会表示一组节点之间的关系和一个节点集。

根据这一理论,建设的过程样品/粒度一式两份的加权网络模型如下。

在这个过程中,一个类, ,是样本节点和另一个类, ,表示粒度节点。如图2,样例节点编号lz04 - 076包括几个粒度节点-7.00与7.25级。如果样品节点包含一个粒度节点,优势将这个样本之间存在节点和相应的粒度节点。边缘的重量表示晶粒大小包含在一个样本的数量。基于这一常规,我们构建了决赛样品/粒度一式两份的加权网络模型,如下所示(图3)。

在这个由两部分构成的网络,我们粒度节点标识为绿色,对应于51类颗粒大小不同的大小;我们样品节点标记为粉红色,对应2141套样品。这个模型可以清楚地反映协会示例节点和节点粒度之间的关系。

我们构造一个样本网络模型预测的样品/粒度由两部分构成的网络模型(图4)。的样本网络模型有2141个节点和44198边缘;一个节点代表一个样本,边代表两个样品含有相同的粒径大小。边缘的重量显示的频率两个样品有相同的晶粒尺寸。

5。基于k - means迷你批沉积物粒度样品分析

5.1。沉积物粒度数据分析

在本文中,我们的集群样本迷你批网络模型的k - means算法。在每次迭代的处理时间沉积物样品,我们随机从总样本中提取小批次级样本和更新每一批迷你示例利用凸组合的方法。同时,我们使用另外的学习速率增加的速度收敛速度。随着迭代次数的增加,我们发现这个算法的收敛条件时逐次迭代聚类结果没有变化。最后,我们把样品分成几个集群节点。

5.2。沉积物粒度样本数据分析的步骤

步骤1随机抽取小批次级样本从沉积物样本数据集51和2141个样本的属性步骤2随机选择样本作为初始聚类中心;保存到一个数组中存储聚类中心在算法运行时将被改变步骤3选择一个样本从 ;计算聚类中心节点示例在最近的距离利用欧氏距离;结果保存在一个数组。欧氏距离如下: 在哪里显示最近的样本之间的欧氏距离和中央节点。的th属性的示例是步骤4获得样品和 ;更新其中计数器 : 步骤5获得实时的情况学习速率 ,这个算法的收敛速度步骤6以梯度步骤: 步骤7如果 ,所有的样品已经被划分为一个集群,否则,返回到步骤4步骤8如果迭代的时间≤ ,回到步骤1。该算法的收敛条件时将停止或者是满意迭代的时间>

算法1和2显示小批k - means算法的伪代码沉积物样本数据处理。

小批k - means
输入:粒度的数据集X;初始簇的数量k是3;迭代次t;
迷你批b。
输出:聚类标签的集合C;集群中每个样本的标签c。
初始化每个样本的标签。
;
因为我= 1 t
/ /提取随机小批使从。
为做
;/ /计算和存储集群核心样本
结束了
为做
;/ /获得中央样本
;/ /更新的情况
;/ /得到实时的情况学习速率
;/ /梯度一步
结束了
结束了

:一个投影L1球
输入: 宽容,L1-ball半径 ,向量
如果然后退出

而或做


如果然后其他的
结束时
因为我= 1 m

结束了

6。模拟和分析

6.1。多索引分析,聚类结果

在本文中,我们使用四个指标AMI,敝中断,完整性,精度验证沉积物样品的聚类结果。我们经典的两个参数小批和重新分配比例小批量的k - means算法。反复测试400次后,我们获得表中相应的结果2。不同评价指标的最大值是标记为粗体数字:0.40919072,0.41485376,0.44747697和0.92254367。

6.2。热图分析的聚类结果

以下的热图可以客观地反映聚类划分的准确性和效率的沉积物样本数据计算小批k - means算法。在每一个人物,每平方代表不同的指数小批和重新分配比例在一个特定的评价指标。最右边的仪表板中的不同颜色显示不同的分数,和每一个指标的分数范围。颜色的渐变每平方代表值的大小。

如数据所示5和6,AMI可以获得最大值0.40919072时重新分配比例 和小批= 25。敝中断的最大价值是0.41485376在同样的参数。

基于数据7和8、完整性和精度可以获得最大值0.44747697和0.92254367,分别的时候重新分配比例 和小批= 25。

通过聚类分析,我们可以将这些样本分配给其实际沉积物集群。客观、精度是最重要的指数从这四个绩效评估指标。通过分析上面的仿真结果中,我们可以知道,沉积物粒度的聚类结果样本计算小批k - means算法以适当的参数, 和小批= 25,有精度高:0.92254367。其他三个指标也可以获得最大值:AMI = 0.40919072, = 0.44747697敝中断= 0.41485376,和完整性。

6.3。网络特性分析的聚类结果与其他研究和比较

我们计算的聚类结果沉积物粒度样品使用迷你批k - means算法与最合适的参数, 和小批= 25。仿真结果表3和图9。

根据表3和图9,我们把样本网络模型为三个集群计算的迷你批k - means算法。易等人分裂的沉积环境Lz908通过各种指标代表的手稿(12,16]。与他们的研究结果相比,三个集群对应三个沉积环境:海洋,河流,湖。绿色的集群显示这些样品可以分配给海洋沉积物分类;橙色的集群表明这些样品可以分成河流;蓝色可以分为集群代表这些样品湖。这个网络可以要求精度高,0.92254367,聚类划分的迷你批k - means算法的参数设置和小批= 25。此外,我们发现大部分的不同的点与宝贵的研究位于不同的沉积物类型(图的结10)。这些结果表明,该方法分析沉积环境的粒度是非常有效和准确的。

7所示。结论

在过去的几十年中,研究人员已经取得了重大的进步的环境解释粒度分析,但环境的决心没有明确的标准。以往的研究往往过分强调主观经验的研究员和通常与其他方法结合粒度分析和很少使用粒度进行沉积环境分析。最近,复杂网络已经发挥着越来越重要的角色在数据挖掘和知识发现,因为他们可以揭示事物之间的潜在关系,隐藏信息。在本文中,我们使用复杂网络和两偶图的理论构建样品/粒度网络模型和一个样本网络模型。此外,我们使用迷你批k - means算法集群沉积物粒度样品。我们使用代表评价指标AMI,敝中断,完整性,精度验证样本的聚类结果的精度。仿真结果表明,该算法可以划分样本网络分为三个集群海洋,河流,湖——事实是几乎相同的部门在古典手稿。同时,评价指标还可以获得比较高的值,当我们设置适当的参数和小批= 25。结果还表示,聚类结果有效;例如,相同的分类与传统方法的样品是0.92254367,一个优秀的计算结果相对方便和廉价的方式。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

我们承认中国的资金支持国家重点研究项目(2016 yfc0402801)和国家自然科学基金(41406072)。

引用

w·魏j . Cai x胡锦涛et al .,“当前流线的分形维数值研究二维和三维多孔介质的孔隙分形模型,”分形,23卷,不。1,1540012条,2015。
视图: 出版商的网站 | 谷歌学术搜索
t·科迪亚·esl f . Lejzerowicz et al .,“预测海洋环境的生态质量状态从埃德娜metabarcoding使用监督机器学习的数据,”环境科学与技术,51卷,不。16,9118 - 9126年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
江y, y郭台铭,t, k . Wang和c·胡”的机器学习方法在温跃层Argo数据分析,“传感器,17卷,不。10,2225年,页2017。
视图: 出版商的网站 | 谷歌学术搜索
c .周k .阴y曹et al .,“滑坡敏感性建模应用机器学习方法:一个案例研究从隋代修建三峡库区,中国,“电脑与地球科学卷。112年,23-37,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j . Cai和b . Yu”预测的最大孔径的多孔介质分形几何的基础上,“分形,18卷,不。4、417 - 423年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
p .塔玛色比和A . Hezarkhani”混合神经networks-fuzzy logic-genetic算法级估计,“电脑与地球科学,42卷,18-27,2012页。
视图: 出版商的网站 | 谷歌学术搜索
m·纽曼,”在网络社区检测:模块化优化和最大似然是等价的,”2016年,http://arxiv.org/abs/1606.02319。
视图: 谷歌学术搜索
j .傅和j·吴深随机模型检测在复杂网络社区,”统计物理学杂志,卷166,不。2、230 - 243年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
施朱f . Hu y, y, j . Cai l . Chen和沈,“一个算法Walktrap-SPM检测重叠社区结构,”国际现代物理学杂志》上没有,卷。31日。15日,1750121条,2017年。
视图: 出版商的网站 | 谷歌学术搜索
m·e·j·纽曼和m . Girvan“发现和评估网络社区结构,”物理评论E,卷69,不。2、第026113条,2004年。
视图: 出版商的网站 | 谷歌学术搜索
z . y . f . Hu m . Wang Wang在香港,和y朱,“一个算法J-SC检测在复杂网络社区,”物理信,卷381,不。42岁,3604 - 3612年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
l, c·邓x徐et al .,“Paleo-megalake终止在第四纪:古地磁的从渤海南部和水位的证据,中国,“沉积地质学卷,319年,页1 - 12,2015。
视图: 出版商的网站 | 谷歌学术搜索
g·m·弗里德曼“种群的粒子的大小分布的差异金沙各种起源:附录IAS总统地址”沉积学,26卷,不。6,859 - 862年,1979页。
视图: 出版商的网站 | 谷歌学术搜索
通用汽车希礼,“polymodal沉积物的解释。”《地质,卷86,不。4、411 - 421年,1978页。
视图: 出版商的网站 | 谷歌学术搜索
d .太阳,j . Bloemendal d . k . Rea et al .,“polymodal沉积物的粒度分布函数液压和风成环境,沉积组件和数值分区,”沉积地质学,卷152,不。3 - 4、263 - 277年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
l .易周宏儒。Yu j·d·奥尔蒂斯et al .,“晚第四纪沉积记录的链接三个天文节奏和亚洲季风,推断出从沿海南渤海钻孔,中国,“古地理学、古气候学、古生态学卷,329 - 330,101 - 117年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
j·d·l .咦,h . Yu Ortiz et al .,“重建晚更新世相对海平面的渤海南部中国,基于沉积物粒度分析,“沉积地质学卷,281年,第100 - 88页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
k .福田和t .松井”,发现两偶图中的所有完美的匹配,”应用数学的信,7卷,不。1、15—18,1994页。
视图: 出版商的网站 | 谷歌学术搜索
m .分支头目,a·佩雷斯,j . a . Lozano”一个高效的近似的k - means聚类大规模数据,”以知识为基础的系统卷。117年,56 - 69,2017页。
视图: 出版商的网站 | 谷歌学术搜索
j·a·哈和m . a . Wong”算法136:k - means聚类算法”,英国皇家统计学会杂志》上的C系列(应用统计),28卷,不。1,第108 - 100页,1979。
视图: 出版商的网站 | 谷歌学术搜索
k . p . Papadaki和w·b·鲍威尔的自适应动态规划算法随机multiproduct批调度问题,“海军研究物流,50卷,不。7,742 - 769年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
l .安娜和a . k . Jain“健壮的数据聚类”2003年IEEE计算机学会计算机视觉与模式识别会议,2003。诉讼美国,麦迪逊,WI, 2003年6月。
视图: 出版商的网站 | 谷歌学术搜索
l . Danon a . Diaz-Guilera j .杜赫,竞技场,群落结构识别相比,“杂志的统计力学:理论和实验,卷2005,不。9日,第09008条,2005年。
视图: 出版商的网站 | 谷歌学术搜索
n . x Vinh j . Epps, j·贝利,“信息聚类理论措施比较:变异,属性,正常化和改正的机会,“机器学习研究杂志》上11卷,第2854 - 2837页,2010年。
视图: 谷歌学术搜索
Romano, n . x Vinh j .贝利和k . Verspoor“集群比较措施调整机会,”机器学习的研究》杂志上,17卷,第4666 - 4635页,2016年。
视图: 谷歌学术搜索
a·罗森博格和j . Hirschberg“V-measure:条件entropy-based集群外部评价措施,”学报2007年联合会议上实证方法在自然语言处理和计算自然语言学习布拉格,页410 - 420年,2007年。
视图: 谷歌学术搜索
t . Grinshpoun和a . meisel完整性和APO算法的性能。”人工智能研究杂志》上33卷,第258 - 223页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
a . Biswas和b Biswas”调查自我网络社区结构的角度来看,“专家系统与应用程序,42卷,不。20日,第6934 - 6913页,2015年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2900年

下载

1251年

引用