总有机碳含量预测湖泊页岩使用极端的梯度提高机器学习基于贝叶斯优化

文摘

总有机碳(TOC)含量是一个重要的参数估算页岩油资源。然而,常见的TOC预测方法依赖于经验公式,及其适用性不同地区。在这项研究中,一种新的数据驱动的贝叶斯优化极端梯度增加(XGBoost)模型提出了预测使用有线TOC内容日志数据。古宇湖页岩,渤海湾盆地,中国,作为一个案例研究。首先,相关分析是用来分析之间的关系以及日志和core-measured TOC数据。基于相关性的程度,六个测井曲线反映了TOC含量被选为机器学习构造训练数据集。然后,XGBoost模型的性能进行了测试 - - - - - -折交叉验证,模型的hyperparameters测定使用贝叶斯优化方法来提高搜索效率,减少不确定性由经验引起的。其次,通过分析预测错误,确定系数( )XGBoost TOC含量预测的模型和core-measured TOC含量达到0.9135。均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分比误差(日军)分别为0.63、0.77和12.55%,分别。此外,五个常用的方法,即方法,随机森林,支持向量机, - - - - - -最近的邻居,和多元线性回归,是用来预测TOC内容确认XGBoost模型具有更高的预测精度和更好的鲁棒性。最后,该方法应用于预测20勘探的TOC曲线井古宇。我们获得定量的等高线地图TOC首次这一块的内容。这项研究的结果提供便利的快速检测湖页岩油的“风水宝地”。

1。介绍

最近,非传统的页岩油气储层深刻彻底改变了能源行业在北美和中国1,2]。与海洋页岩,渤海湾盆地东北地区主要发育湖泊页岩中,沉积环境的变化频繁,强大的储层不均匀性。甜蜜点的准确、高效的识别薄的页岩是一个热门研究问题。研究发现,页岩油的勘探潜力主要与三个因素有关:生烃潜力,水库容量,和可恢复性3]。有机物是一个重要的材料确定生烃潜力和碳氢化合物浓缩(4]。总有机碳(TOC)含量是关键指标评价有机质丰度(5]。一个精确的TOC值通常是来自Rock-Eval岩心样品的热解;然而,钻探获得核心样本是费时和昂贵,导致core-measured TOC的不连续和不均匀分布数据。此外,富含有机物湖的页岩的厚度通常是很小的;因此,合理使用离散core-measured TOC数据点的生烃潜力进行评估。测井高分辨率,提供连续数据。有机质含量的变化影响形成的岩石物性性质,如放射性、电阻率,和密度(穴),形成一个独特的测井响应;因此,TOC曲线可以预测使用测井(6]。

目前,利用测井方法来预测TOC内容包括统计相关性,重叠的方法、多元回归和机器学习。啤酒首次提出利用自然伽马放射性强度评估TOC含量(7]。随后,许多学者建立了实证关系方程之间的自然伽马(GR)日志和TOC在不同领域8,9]。Swanson发现有机物主要是相关的放射性铀的吸附量(U)的形成。因此,研究人员预测使用GR射线光谱日志(TOC内容10,11等),建立一个线性TOC含量之间的相关性和U日志12]或建立一个多元统计TOC含量之间的关系和美国日志结合钍(Th) / U比日志13]。什莫克发现减少的主要原因的巢穴富含有机物的形成是有机质含量的增加;因此,窝之间的回归关系建立了日志和TOC含量(14]。赫伦提出一个方法来确定使用碳氧比测井(TOC内容15]。Passey等人提出的方法(16),重叠孔隙度与深度电阻率(RD)日志和日志使用nonsource摇滚区作为基线建立一个TOC之间的实证关系公式内容和日志。随后,许多学者提出了基于改进的方法方法(17- - - - - -20.]。近年来,特殊的日志记录方法的出现提供了许多方法来预测TOC含量。例子包括使用元素捕获光谱计算TOC内容日志(21]或结合核磁共振日志和窝日志估计TOC含量(22]。所有上述方法开发了基于岩石物理模型(RPM)和广泛依靠经验公式。由于第三个人工智能的繁荣,机器学习已经广泛用于岩性识别(23- - - - - -25和储层评价26,27]。机器学习方法TOC含量预测包括支持向量机(SVM) [28,29日),高斯过程回归(GPR) [30.,31日),极端学习机(ELM) [32,33),神经网络(34,35),模糊聚类(36),和随机森林(RF) (37]。机器学习是数据驱动的,它提高了TOC预测的准确性和效率比传统方法。

实际上,大部分的核心样品可以作为机器学习样本集中在主要储层区。然而,很少有标记数据点存在于nonreservoir区域,导致训练样本的极度失衡。当个体模型被用来优化目标函数,很容易陷入局部最小值,这些模型泛化能力差。整体学习可以有效地解决这个问题通过训练多个模型,利用复合输出。个体模型是用于创建一个最优预测模型,它提供了预测精度高于单个模型。一个受欢迎的一个模型是射频的例子,已用于地震储层预测(38),岩性识别(39],烃源岩预测(40]。然而,射频是基于装袋技术和对噪声很敏感,容易过度拟合进行回归预测。相比之下,梯度提高决策树(GBDT)是基于促进技术和一般执行更好的回归问题。陈等人首次提出极端梯度增加(XGBoost)方法基于GBDT [41]。与GBDT算法利用一阶导数信息,XGBoost进行损失函数的二阶泰勒展开,包含正则项目标函数找到最优解,避免过度拟合,使该方法高效、灵活、便携。燕等人XGBoost应用于测井解释执行的致密砂岩,发现它比SVM和射频模型更好的流体识别(27]。阮等人XGBoost用于预测压缩和剪切波在泥晶灰岩和实现精度高于一个人工神经网络(ANN)和支持向量机(42]。顾等人利用粒子群优化(PSO)算法来确定hyperparameters XGBoost算法和应用XGBoost预测致密砂岩的渗透率(43]。XGBoost模型到目前为止,还没有被应用到TOC预测水库。因此,在这项研究中,一个工作流组成XGBoost机器学习提出了基于贝叶斯优化TOC预测并应用于湖泊在渤海湾盆地页岩油。预测的结果进行了对比方法和其他典型的机器学习方法证明了该方法的准确性和可靠性。

2。机器学习理论

2.1。XGBoost理论模型

XGBoost是一个整体提高决策树算法,包含多个迭代。这是一个改善GBDT。多个分类和回归树(CART)模型首先构造使用数据集进行预测;这些树会结合成一个新的树模型。迭代模型不断增强,每个迭代生成一个新的树模型符合前面的树的残差。随着越来越多的树木被添加,模型整体的复杂性变得越来越高,直到方法数据本身的复杂性;因此,培训达到最佳结果(41]。如果有回归树、预报函数被定义为的表达在哪里是^th回归树,代表的车,的预测价值吗^th样本。

的损失函数预测所代表的价值和真正的价值 : 在哪里是样品的数量。

模型的预测精度是共同确定偏差和方差。损失函数代表模型的偏差,和方差是由正则项抑制模型的复杂性。因此,目标函数可以被定义为在哪里代表叶节点的数量,是叶重价值,是叶树的惩罚因子,叶重惩罚因子。

XGBoost使用梯度推进战略,新生成的回归树需要符合过去的残差预测。的目标函数^th迭代可以写成

对目标函数进行泰勒展开来获得在哪里损失函数的一阶导数和吗损失函数的二阶导数。

因此,只需要计算和的损失函数值为每个步骤和优化目标函数得到对每一个步骤。最后,一个最优的整体模型是基于叠加法获得。

2.2。贝叶斯Hyperparameters的优化

当一个机器学习模型建立,hyperparameters需要提前确定。的选择hyperparameters对预测精度有显著影响。因此,重要的是要获得hyperparameters的最优组合。hyperparameters是一种典型的黑盒的优化优化问题。常用的优化方法包括网格搜索(GS),随机搜索(RS)、遗传算法(GA),算法和贝叶斯优化(44]。遗传算法和PSO算法需要足够数量的初始样本点和不是非常高效的优化。目前,GS、RS和贝叶斯优化是最常见的方法。GS方法需要遍历所有可能的参数组合,这是非常耗时的大数据量和许多hyperparameter维度。相比之下,RS随机样本hyperparameters在一定范围和选择他们通过比较不同组合的性能,不保证会得到最优组合。此外,每个hyperparameter的GS和RS是独立计算的组合。当前计算不使用搜索点的结果,但这些信息指导搜索过程,可以提高结果的质量和搜索速度。相比之下,贝叶斯优化选择最有前途的hyperparameters通过评估过去的结果,使适当的选择hyperparameters比RS方法(用更少的迭代45,46]。从理论上讲,贝叶斯优化解决了目标函数的全局最优解: 在哪里表示hyperparameters优化,是集hyperparameters优化,是目标函数,是hyperparameters的最优组合。贝叶斯优化算法的核心包括两个部分:首先,后验概率分布计算是基于过去的结果使用地质雷达获取的预期均值和方差hyperparameters在每个采样点。第二,收购构造函数来确定下一个采样点基于后验分布。

2.2.1。高斯过程

高斯过程(GP)是一种泛化的多元高斯概率分布意味着定义的函数和协方差函数。

全科医生可以表示为

为了方便在实际应用程序中,我们之前的意思是函数是0。存在一个高斯分布的满足感

的协方差矩阵可以表示为

相应的协方差函数可以表示为

根据医生的性质,添加后样品预测,新的高斯分布可以表示为

然后,联合后验分布是

通过评估均值和协方差矩阵,可以从联合后验分布采样。

2.2.2。采集功能

收购功能决定了下一个采样点基于后验概率的结果代理模型。通常,选择采样点的采集功能需要探索新领域的目标空间,利用已知的地区。开发是指寻找全局最优的解决方案基于当前最优解来改善目标函数的平均值。探索是指检测未鉴定的采样点,以减少目标函数的不确定性。当医生作为概率代理模型、改进的四个常用的采集功能包括概率(π),熵搜索(ES),上层信心绑定(UCB),和预期的改善(EI) [45]。在这篇文章中,EI选为采集功能;它的数学表达式在哪里代表了观察和的最小值是当前的观察。

2.3。TOC预测过程

TOC的流程图预测基于贝叶斯优化XGBoost模型如图1。它包含三个部分,即数据预处理、模型建立和模型应用程序描述如下。(1)数据预处理:我们首先收集core-measured TOC数据和相应的测井数据。数据depth-corrected outlier-processed,和归一化,然后,测井相关TOC预测选择作为机器学习输入特性使用线性回归交会图和皮尔逊相关系数技术。最后,处理数据随机分为训练集和测试集使用一个适当的规则(2)模型建立:然后我们建立初始的XGBoost模型和优化模型的hyperparameters使用贝叶斯优化算法(3)模型应用程序:最优XGBoost模型应用于未使用的测井预测TOC含量

3所示。地质设置和数据分析

3.1。研究区域

古宇位于北部渤海湾盆地辽河萧条的东北地区,覆盖约800公里的区域²(图2(a))。这是一个新生代陆相沉积凹陷发达的地下室太古代变质岩和元古代碳酸盐岩。从结构上讲,它有一个不规则的三角形中更广泛的南部和北部的窄和有界三大缺点。主要的烃源岩是油页岩发育暗色泥岩戏剧扮演的第四个成员和第三位成员的下第三系沙河街组地层(E₂年代₄E₂年代₃)。本研究的目标形成E的较低的次要成分₂年代₄(E₂年代₄^l),位于古宇(图的中心区域2(b)),占地面积约200公里²。在137口井钻在E₂年代₄^l形成良好的油气条件观察在53个井,和4井提供工业石油生产。

在E的沉积₂年代₄^l,湖水平振荡引起的构造运动导致循环沉积环境的变化,以及形成的岩性(图显示了“三明治”特征3)。上部是E₂年代₄^l我集团以黑暗石油页岩和砂岩薄层的局部观察。中间部分是E₂年代₄^l——集团是由粉砂岩和泥质白云岩。下方是E₂年代₄^l第三组,闰石油页岩、泥灰岩和白云岩。的总厚度E₂年代₄^l从20米到220米不等,TOC含量范围从2%到12.8%,范围从0.4到0.6%,有机质主要是I型,与某些类型II₁和第二₂。生烃强度。最新的预测显示,E₂年代₄^l形成了页岩油开采油气资源,展示重要的潜力(47]。

3.2。数据分析

在这项研究中使用的数据从关键勘探S352,由测井数据和core-measured TOC数据。S352是钻从3150年到3352遇到E₂年代₄^l形成,145.92米的密闭取心深度3169 - 3348.97完成,获得的核心长度122.47米,核心回收率83.9%。共有107个实验核心样本获得nonequal间隔在这个核心部分(3169 - 3348.97)。Leco碳和硫分析仪用于测量TOC内容根据国家标准GB / T 191452003 - 104有效TOC数据点。可用常规测井包括GR、自然电位(SP),以及直径(CAL)中子(CNL),窝,运输时间(AC),理查德·道金斯,和自然伽马能谱(U, TH, K)。使用前数据,深度校正和离群值过滤进行以确保core-measured TOC数据和测井数据一一对应。表1显示日志预处理的分布特征,包括均值、最大值和最小值,标准差,偏态和峰态。可以看出,大部分的测井曲线满足高斯分布,除了RD,有一个很大的偏差。因此,我们应用一个对数变换的RD数据在使用前。


	GR	理查德·道金斯	交流	窝	补偿中子测井	U	TH	K	TOC
	API	欧姆·米	μs /英国《金融时报》	克/厘米³	%	ppm	ppm	%	wt. %

的意思是	53.34	18.23	91.56	2.27	36.84	2.14	6.99	1.52	4.11
性病	7.61	41.11	14.19	0.17	7.41	0.71	1.78	0.56	2.37
马克斯	70.73	1.76	117.95	2.64	49.23	3.97	10.27	3.50	10.18
最小值	29.68	296.08	62.80	1.96	19.89	0.63	2.45	0.52	0.29
偏态	-0.52	5.80	-0.42	0.47	-0.57	0.26	-0.39	1.33	0.39
峰度	1.64	35.71	-0.81	-0.55	-0.61	-0.25	-0.12	2.07	-0.49

交会图分析创建core-measured TOC之间的相关内容和日志,和线性回归是用来适应数据。确定系数( )计算评估线性模型的拟合优度。它被定义为

交会图如图4。可以看出AC,补偿中子测井,RD, GR, TH, U有积极与TOC含量的线性关系。交流是最高(0.3431),其次是CNL (0.2984)。RD之间的线性关系,GR、TH和TOC含量较弱值为0.0408、0.0112和0.0957,分别。书房和钾(K)有负面与TOC含量的线性关系,与更高窝(0.2805)和低K (0.1002)。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

多源数据,皮尔森相关系数计算测量的测井数据之间的线性相关程度和TOC的内容。计算使用

在哪里反映了变量之间的线性相关程度和 , 协方差的变量和 , 的标准偏差 ,和的标准偏差。

变量之间的相关性评估通过创建一个热图的皮尔森相关系数。如图5,相关系数表示的值。一个负数代表负相关,正数代表正相关,0表示没有相关性,和一个值接近1或1显示出很强的相关性。可以看出,最高的相关性之间发生交流和TOC(0.59),其次是补偿中子测井(0.55)和窝(-0.53),分别。之间的相关性GR、U和TOC是相对贫穷(分别为0.02和0.07)。

总之,所有的测井与TOC含量显著相关。然而,结果提供测井数据的排名根据他们与core-measured TOC的内容。因此,我们可以确定并删除不相关和冗余功能的训练数据集,降低模型的复杂度,减少输入数据的维数,并提高模型的效率(37]。根据结果,因此,我们选择了六个日志(AC,窝、补偿中子测井、K、TH和RD)作为输入训练功能。

4所示。模型性能的评价方法

4.1。 - - - - - -折交叉验证(简历)

在机器学习中,数据通常是随机分为三个部分:训练集,测试集和验证集。然而,我们有很少带安全标签的数据点,导致强烈的不确定性在使用小验证数据集来评估模型的性能和鲁棒性。最优方法来避免这个问题 - - - - - -折叠的简历。数据集分成部分,对于每一次迭代,部分被用作训练集,其余部分作为测试集,获得模型。的 - - - - - -褶皱的简历利用所有数据,大大提高了模型的学习能力,并提高了模型的鲁棒性。本文建议后Zhang et al。48和黄49),折数设置为5和有关计算时间和偏见之间的权衡(图6)。

4.2。模型的比较

我们比较XGBoost模型的性能与其他机器学习算法。选择四种方法,即、射频、支持向量机 - - - - - -最近邻(资讯)和多元线性回归(高)。这些算法的详细描述可以在书中找到的Mohri et al。50]。每台机器的hyperparameters使用贝叶斯学习算法确定优化方法,以确保公平。此外,我们使用最广泛方法比较。该方法覆盖RD登录对数坐标和算术坐标计算的孔隙度日志TOC含量富含有机物页岩,分开的两个日志。两者的区别日志, ,然后派生的经验使用吗在哪里电阻率(Ω·米),是衡量交通时间(μs /英尺)和电阻率和渡越时间值,分别在两个日志重叠的基线organic-deficient区。

的和有机成熟度是用来确定富含有机物的TOC含量区,如图所示在哪里是有机成熟度水平。富含有机物页岩TOC内容背景水平。

4.3。评估标准

除了 ,我们选择了均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分误差(日军)来评估模型的性能。这些标准定义如下: 在哪里是真正的价值,预测的价值,是一个积极的最小值,是样品的数量。

5。结果与讨论

在这项研究中,采用5倍CV测试模型的性能和鲁棒性。代码实现微机与英特尔酷睿i7 - 7700和32 GB RAM和CPU Windows 10系统。Python编程语言。支持向量机,然而,高钙,射频模型中实现开源Scikit-learn机器学习包。我们使用了开源XGBoost工具包XGBoost算法运行,和方法代码是作者写的。

5.1。模型性能的比较

数据集被随机分为训练集和测试集的5倍的履历。所有数据归一化,消除单位的影响和规模不同的测井参数之间的区别。预测和core-measured TOC含量的交会图如图所示7;实线是1:1线,虚线是线性回归直线。应该指出的是,所有可用的数据用于分析方法,没有使用5倍的简历。结果表明,XGBoost模型的预测性能,最好到0.9135分,接下来是RMF的模型0.8931的价值方法用一个值为0.8345。相比之下,其他三种方法平庸的预测性能,值约为0.74。

(一)

(b)

(c)

(d)

(e)

(f)

此外,我们比较了RMSE使用5倍的简历和日军的不同的方法。图8显示了rms的测试集,这表明XGBoost rms和射频远低于其他的方法。此外,它可以推断出,XGBoost模型是最可靠的,因为它的RMSE值最低的在所有情况下,当除外是1。图9显示了测试集的地图。在相对误差性能方面,XGBoost模型优于其他模型,最大日军值为16.14% ,最低为9.77% ,日军和平均值的12.55%。第二好的模型是射频,最大日军值为17.18% ,最低为9.05% ,日军和平均值的12.97%。支持向量机的日军大幅波动;最大值为22.86%,最小值为11.06%。的意思是日军价值资讯是16.49%。高钙的最低性能,与日军在每个测试值超过20%。

表2列出了梅的平均值,RMSE,日军5倍的简历的不同的方法。梅的平均值、均方根误差和日军XGBoost模型0.63,0.77和12.55%,分别和每个值与其他方法相比是最低的。误差分析结果表明,XGBoost方法精度最高,比其他机器学习方法,提供一个重要的优势的方法,对TOC的预测。


模型	美	RMSE	日军(%)

XGBoost	0.63	0.77	12.55
射频	0.71	0.82	12.97
支持向量机	0.71	0.88	16.21
然而,	0.82	1.18	16.42
线性	1.26	1.52	23.87
	0.79	1.07	14.80

5.2。模型验证

我们选择好S352验证的预测结果的TOC含量不同的方法。日志,core-measured TOC数据和TOC曲线预测的不同的方法所示的数据10和11。第一个跟踪表示泥浆录井岩性、第二个跟踪日志显示了岩性指标,第三个跟踪是电阻率日志,第四跟踪日志显示了孔隙度、第五跑道是GR射线光谱日志,和6日至10日跟踪TOC曲线预测的 ,高钙、资讯、支持向量机、射频和XGBoost方法;红点代表core-measured TOC数据。

图10显示了E的预测结果₂年代₄^l我组。3200到3150年间,石油页岩岩性,和测井的波动小,表明形成均匀性好。TOC曲线预测的所有方法与core-measured TOC内容高度相关,和趋势是相似的。然而,在3200年和3236之间,岩性开始改变。电阻率日志显示高电阻特性,core-measured TOC含量显著增加。的预测结果XGBoost、射频和与core-measured TOC方法是在良好的协议内容。相比之下,高钙的预测值,支持向量机,然而方法大大小于core-measured TOC含量。

图11显示了E的预测结果₂年代₄^l——和E₂年代₄^l第三组。的深度E₂年代₄^l——集团是3248 - 3278 m,岩性为泥质白云岩夹层之间的少量的油页岩。core-measured TOC含量从0.17%到3.84%不等,表明弱生烃潜力。不同方法的预测的准确性是高度可变的。XGBoost和射频方法预测精度高于其他方法。TOC值预测的方法明显大于core-measured TOC值。可能的原因是,这个玩不同的矿物成分很大,基本形成;因此,交流和RD日志大大受岩性的影响,不反映了有机质含量的变化。的深度E₂年代₄^l第三组是3278 - 3350。这组展示了非均质性强。石油页岩和泥质白云岩夹层之间的频繁,每一层的厚度小于3米。测井显示波动,TOC趋势尚不清楚。core-measured TOC含量从0.29%到9.77%不等。XGBoost方法提供了最高的协议与core-measured TOC数据,RF紧随其后。从获得的预测值 ,高钙、资讯和SVM方法大大低于core-measured TOC值。

总的来说,预测结果好S352表明,贝叶斯优化XGBoost方法最可靠地执行非齐次的形成,提供最高的预测精度和良好的泛化能力。因此,这种方法更适合TOC预测湖泊页岩油比在这项研究中使用的其他方法。

5.3。TOC分布的预测

我们选择20油井钻在E₂年代₄^l形成预测使用XGBoost TOC内容模型。预测TOC的等高线地图内容的E₂年代₄^l- i, E₂年代₄^l——、E₂年代₄^l第三组在研究区域如图12。在E₂年代₄^l我集团,TOC含量相对较高的西边的A10-A49-A95(> 4%),和附近的最高价值发生S166 (> 6%)。一个TOC含量超过4%的面积是73公里²(图12(一个))。在E₂年代₄^l——集团TOC含量相对较低,从1.5%到3.1%不等。TOC值大于2%的区域覆盖115公里²(图12 (b))。在E₂年代₄^l第三组,TOC含量大于4%的地区附近井S224, A49, A104, Sh25 Sh17,面积23公里²。TOC其他领域的内容是低于4%(图12 (c))。垂直,E₂年代₄^l我集团TOC含量最高,其次是E₂年代₄^l第三组和E₂年代₄^l——集团。水平、优质烃源岩主要分布在研究区西部斜坡和其他地区的零星。

(一)

(b)

(c)

6。结论

我们提出一个健壮的数据驱动的贝叶斯优化XGBoost模型来预测TOC内容使用有线日志数据。从古宇获得数据,渤海湾盆地,中国,包括日志和core-measured TOC数据。线性回归得到了交会图,皮尔森相关系数计算评价之间的关系以及日志和core-measured TOC数据。结果表明,没有一个日志TOC含量有显著相关性。然而,相关分析使我们能够识别和移除不相关和冗余为TOC测井特性预测和减少模型的复杂性,通过减少输入数据的维数。使用5倍CV模型性能评估。四个标准的量化误差分析表明,该方法性能比传统的方法( ),与从0.8345增长到0.9135美,RMSE,和日军减少0.79,1.07,14.80%,至0.63,0.77和12.55%,分别。此外,XGBoost模型优于其他流行的机器学习算法(即。、射频、支持向量机然而,,和MLR) in terms of robustness, accuracy, and generalization in predicting TOC for strongly nonhomogeneous lacustrine shale plays. We used the proposed approach for the TOC prediction of 20 exploration wells in the Damintun Sag and obtained contour maps of the TOC content in the E₂年代₄^l形成。启用了地图识别具有较高的生烃潜力的领域,这是有用的寻找甜蜜点。一般来说,机器学习广泛依赖于训练数据的质量和数量。随着新的勘探时,应该添加额外的数据实时改善可靠性和模型的泛化能力。在未来,我们打算创建一个数据库的机器学习。除了预测TOC含量,该数据库可以用来预测其他岩石物性和地质属性的水库。

缩写

交流:	声波测井
安:	人工神经网络
卡尔:	井径测井
购物车:	分类和回归树
补偿中子测井:	中子测井
窝:	密度测井
EI:	预期改善
榆树:	极端的学习机器
ES:	熵的搜索
遗传算法:	遗传算法
GBDT:	梯度提高决策树
医生:	高斯过程
探地雷达:	高斯过程回归
格:	自然伽马测井
g:	网格搜索
凯西:	钾的日志
资讯:	- - - - - -最近的邻居
梅:	平均绝对误差
日军:	平均绝对误差百分比
高:	多元线性回归
PI:	改进的概率
算法:	粒子群优化
:	确定系数
理查德·道金斯:	深电阻率测井
射频:	随机森林
RMSE:	均方根误差
转:	岩石物理模型
拉尔夫-舒马赫:	随机搜索
SP:	自然电位测井
支持向量机:	支持向量机
TH:	钍日志
目录:	总有机碳
药:	上信心绑定
XGBoost:	极端的梯度增加。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作由中国石油天然气集团公司重大科技工程”研究可持续生产关键技术在辽河油田1000万吨原油”(2017号e-16)。

引用

李g . x、k·罗和d·施问:“关键技术、工程管理和页岩石油/天然气发展的重要建议:Duvernay页岩项目的案例研究在加拿大西部沉积盆地,”石油勘探和开发卷,47号4、791 - 802年,2020页。视图:出版商的网站|谷歌学术搜索
w·赵胡,l .侯et al .,“页岩油在中国大陆的类型和资源潜力与致密油及其边界,”石油勘探和开发卷,47号1、1 - 11,2020页。视图:出版商的网站|谷歌学术搜索
l .周x赵,g .柴et al .,“关键的勘探与开发技术和工程实践的陆相页岩油:一个案例研究的成员2下第三系Kongdian Cangdong凹陷形成,渤海湾盆地,中国东部,”石油勘探和开发卷,47号5,1138 - 1146年,2020页。视图:出版商的网站|谷歌学术搜索
m·温江z, k . Zhang et al .,“差异分析有机质富集机制上Ordovician-lower志留纪从中国南方扬子地区页岩和页岩气勘探的地质意义,”GeofluidsID 9524507条,卷。2019年,14页,2019。视图:出版商的网站|谷歌学术搜索
b . Liu h . Wang x傅et al .,“高度前瞻性的岩相及沉积环境湖页岩油连续上白垩纪古龙凹陷青山口组,松辽盆地北部,东北、”中部公告,卷103,不。2、405 - 432年,2019页。视图:出版商的网站|谷歌学术搜索
张x l, l . z, r·h·谢·h·吴和y高,“岩石物性工作流页岩气评价,”地球物理学进展,4卷,2013年。视图:谷歌学术搜索
r . f .啤酒”,放射性和一些古生代页岩的有机质含量,”美国石油地质学家协会中部公告,卷。29日,22页,1945页。视图:谷歌学术搜索
i r . Supernaw m .丹,a . j .链接”方法原位地球形成的烃源岩潜力评价,“美国专利4 - 071755,1978。视图:谷歌学术搜索
j·w·什莫克,”阿巴拉契亚泥盆纪页岩的有机质含量测定γ射线日志,“中部公告,卷65,不。7,1285 - 1298年,1981页。视图:谷歌学术搜索
v . e . Swanson石油产量和铀含量的黑色页岩综合数据分析中心威斯康辛州科学中心,1960年。
v . e . Swanson在海洋地质和地球化学的铀黑页岩:复习一下美国政府印刷局,华盛顿特区,1961年。
w·h·Fertl和g . v . Chilingar”,从测井总有机碳含量决定的。”SPE地层评价,3卷,不。2、407 - 419年,1988页。视图:出版商的网站|谷歌学术搜索
m z h . Chen Cha,金,“应用自然伽马射线测井和自然伽马能谱测井沉积盆地古环境恢复,”中国地球物理学报卷,47号6,1145 - 1150年,2004页。视图:谷歌学术搜索
j·w·什莫克,”阿巴拉契亚盆地西部泥盆纪页岩的有机质含量,”中部公告,64卷,1980年。视图:出版商的网站|谷歌学术搜索
s·l·赫伦”,总有机碳日志源岩评价,“日志分析1987年,卷。28日。视图:谷歌学术搜索
问:r . Passey s Creaney j·b·Kulla f·j·莫雷蒂,和j·d·斯特劳德,“有机丰富实用模型,从孔隙度和电阻率日志”中部公告,卷74,不。12日,第1794 - 1777页,1990年。视图:谷歌学术搜索
问:r . Passey k . m . Bohacs w . l .每r·克利和s . Sinha“从易生油岩气页岩储层地质和非常规页岩气储层的岩石物性特征,”国际石油和天然气在中国会展2010年,北京,中国。视图:谷歌学术搜索
x z . p . Wang Chen彭日成,k, m .太阳和x陈,“修正模型确定TOC页岩玩耍:泥盆纪Duvernay页岩的例子,加拿大西部沉积盆地,”海洋和石油地质学卷,70年,第319 - 304页,2016年。视图:出版商的网站|谷歌学术搜索
黄毛p .赵,z, z, c .张“新方法估算总有机碳含量从测井,”中部公告,卷100,不。8,1311 - 1327年,2016页。视图:出版商的网站|谷歌学术搜索
l .朱c .张周x, z . Zhang和w·刘”,一种改进的方法来评估TOC的内容使用dual-difference页岩地层ΔlogR方法。”海洋和石油地质学卷,102年,第816 - 800页,2019年。视图:出版商的网站|谷歌学术搜索
r . r . Pemper x汉、f·e·门德斯et al .,“碳的直接测量含有石油和天然气井使用脉冲中子矿物学工具,”SPE年度技术会议和展览新奥尔良,路易斯安那州,2009年。视图:谷歌学术搜索
m·m·赫伦j·a·格劳赫伦s . l . et al .,“总有机碳和地层评价钢丝绳在绿河油页岩日志,“等离子体物理学和受控核聚变,46卷,不。4、593 - 609年,2013页。视图:谷歌学术搜索
d .备忘录,z . w . Wang y l .黄徐,和d·p·周”的火山岩岩性识别SVM测井数据:案例研究辽河盆地东部凹陷的,”中国Geophysics-Chinese版杂志》上,卷。58岁的没有。5,1785 - 1793年,2015页。视图:谷歌学术搜索
a . a·席尔瓦·m·w·塔瓦雷斯a . Carrasquilla r . Missagia和m .对“岩相分类使用机器学习算法,”地球物理学,卷85,不。4,WA101-WA113, 2020页。视图:出版商的网站|谷歌学术搜索
y谢,c·朱、r·胡和z朱,“而且方法智能测井岩性识别与极端随机树,”数学地质,53卷,不。5,859 - 876年,2021页。视图:出版商的网站|谷歌学术搜索
d . j .曹j .杨y . Wang Wang和y .史,“极端学习机对非均质砂岩油藏储层参数估计,“数学问题在工程文章ID 287816卷,2015年,10页,2015。视图:出版商的网站|谷歌学术搜索
y . a . Xingyu g .美国Hanming, x i . ccb)“XGBoost算法应用于致密砂岩气藏测井数据的解释,“石油地球物理勘探,54卷,不。2、447 - 455年,2019页。视图:谷歌学术搜索
m . Tan问:刘、张,“动态自适应径向基函数方法总有机碳含量预测有机页岩中,“地球物理学,卷78,不。6,D445-D459, 2013页。视图:出版商的网站|谷歌学术搜索
x x m . Tan歌,杨、吴,“支持向量回归机技术总有机碳含量的预测从有线登录有机页岩:比较研究,“天然气科学与工程》杂志上26卷,第802 - 792页,2015年。视图:出版商的网站|谷歌学术搜索
r·h . Yu Rezaee z,王et al .,”一个TOC估计在紧页岩气储层的新方法,”国际煤炭地质杂志》上卷,179年,第277 - 269页,2017年。视图:出版商的网站|谷歌学术搜索
j .鲁伊·h·张任,l .燕问:郭,d·张,“TOC含量预测基于高斯过程回归模型相结合,“海洋和石油地质学,第118卷,第104429页,2020年。视图:出版商的网站|谷歌学术搜索
l . g . x, j . Wang Liu Yang x通用电气和美国江,“极端的学习机器的应用在总有机碳含量的预测和神经网络有机页岩钢丝绳日志,“天然气的科学与工程》杂志上33卷,第702 - 687页,2016年。视图:出版商的网站|谷歌学术搜索
l .朱张c, c .张周x, x王,j . Wang”应用multiboost-KELM算法缓解测井曲线的共线性评估海洋中丰富的有机质泥页岩储层:一个案例研究在四川盆地,中国,“Acta Geophysica,卷66,不。5,983 - 1000年,2018页。视图:出版商的网站|谷歌学术搜索
l .朱张c, c . Zhang et al .,“总有机碳含量的预测页岩储层基于一种新的集成的混合神经网络和常规测井曲线,“地球物理与工程杂志》上,15卷,不。3、1050 - 1061年,2018页。视图:出版商的网站|谷歌学术搜索
a . a . a·马哈茂德·s . Elkatatny m·马哈茂德·m·Abouelresh a . Abdulraheem和a·阿里”测定总有机碳(TOC)的基于常规测井使用人工神经网络,”国际煤炭地质杂志》上卷,179年,第80 - 72页,2017年。视图:出版商的网站|谷歌学术搜索
y白和m . Tan“动态委员会与fuzzy-c-means集群机器总有机碳含量的预测从有线日志,“电脑与地球科学,第146卷,第104626页,2021年。视图:出版商的网站|谷歌学术搜索
a . Handhal a . m . al-Abadi h·e·Chafeet和m·j·伊斯梅尔”预测的总有机碳在鲁迈拉油田,伊拉克南部利用常规测井和机器学习算法,”海洋和石油地质学,第116卷,第104347页,2020年。视图:出版商的网站|谷歌学术搜索
j .歌问:高,l·哲,“应用随机森林回归地震储层预测,“石油地球物理勘探,51卷,不。6,1202 - 1211年,2016页。视图:谷歌学术搜索
m . j . Cracknell和a . m .阅读,“不确定性的上升:从航空地球物理识别岩性的接触区,使用随机森林和支持向量机,卫星数据”地球物理学,卷78,不。3,WB113-WB126, 2013页。视图:出版商的网站|谷歌学术搜索
y . x l . x赵j . s . Liu姚明et al .,“定量地震特征的烃源岩在湖泊沉积环境使用随机森林方法:一个例子从长江凹陷在东海盆地,”中国地球物理学报,卷64,不。2、700 - 715年,2021页。视图:谷歌学术搜索
t·陈和c . Guestrin“XGBoost:一个可伸缩的树增加系统”22 ACM SIGKDD国际会议,页785 - 794,纽约,纽约,美国,2016年。视图:谷歌学术搜索
t . Nguyen-Sy m . n . Vu公元Tran le, b . v . Tran和t·t·阮”研究泥晶灰岩层使用机器学习方法,“应用地球物理学杂志,卷184,不。4、2021。视图:谷歌学术搜索
y . f .顾、d . y . Zhang和z d·鲍”渗透率预测使用PSO-XGBoost基于测井资料,”石油地球物理勘探卷,56号1,26-37,2021页。视图:谷歌学术搜索
j . Bergstra r . Bardenet y Bengio, b . Kegl”hyper-parameter优化算法”,先进的神经信息处理系统,24卷,第2554 - 2546页,2011年。视图:谷歌学术搜索
a . Klein福克纳,s·巴特尔斯·亨尼希和f . Hutter,“快贝叶斯优化机器学习hyperparameters在大型数据集”人工智能和统计PMLR, 536,页528 - 2016。视图:谷歌学术搜索
j .吴m . Poloczek a·g·威尔逊和p i弗雷泽,“贝叶斯优化梯度,”2017年,https://arxiv.org/abs/1703.04389。视图:谷歌学术搜索
l .晓光l . Xingzhou l .金鹏,t .智”的综合评价和勘探实践沙4古宇湖页岩油,辽河抑郁症,”中国石油勘探,24卷,不。5,636 - 648年,2019页。视图:谷歌学术搜索
w·张,c .吴h .钟y,和l .王”的预测使用极端的不排水抗剪强度梯度增加和随机森林基于贝叶斯优化”地球科学前沿,12卷,不。1,第477 - 469页,2021。视图:出版商的网站|谷歌学术搜索
t . t . Wong“分类算法的性能评估_k_倍和离开——一出交叉验证的话,“模式识别,48卷,不。9日,第2846 - 2839页,2015年。视图:出版商的网站|谷歌学术搜索
m . Mohri a Rostamizadeh, a . Talwalkar机器学习的基础美国马剑桥,麻省理工学院出版社,2012年。

Geofluids

定性和定量描述页岩油的高效开发

总有机碳含量预测湖泊页岩使用极端的梯度提高机器学习基于贝叶斯优化

文摘

1。介绍

2。机器学习理论

2.1。XGBoost理论模型

2.2。贝叶斯Hyperparameters的优化

2.2.1。高斯过程

2.2.2。采集功能

2.3。TOC预测过程

3所示。地质设置和数据分析

3.1。研究区域

3.2。数据分析

4所示。模型性能的评价方法

4.1。 - - - - - -折交叉验证(简历)

4.2。模型的比较

4.3。评估标准

5。结果与讨论

5.1。模型性能的比较

5.2。模型验证

5.3。TOC分布的预测

6。结论

缩写

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章