总有机碳(TOC)含量是一个重要的参数估算页岩油资源。然而,常见的TOC预测方法依赖于经验公式,及其适用性不同地区。在这项研究中,一种新的数据驱动的贝叶斯优化极端梯度增加(XGBoost)模型提出了预测使用有线TOC内容日志数据。古宇湖页岩,渤海湾盆地,中国,作为一个案例研究。首先,相关分析是用来分析之间的关系以及日志和core-measured TOC数据。基于相关性的程度,六个测井曲线反映了TOC含量被选为机器学习构造训练数据集。然后,XGBoost模型的性能进行了测试gydF4y2Ba
最近,非传统的页岩油气储层深刻彻底改变了能源行业在北美和中国gydF4y2Ba
目前,利用测井方法来预测TOC内容包括统计相关性,重叠的方法、多元回归和机器学习。啤酒首次提出利用自然伽马放射性强度评估TOC含量(gydF4y2Ba
实际上,大部分的核心样品可以作为机器学习样本集中在主要储层区。然而,很少有标记数据点存在于nonreservoir区域,导致训练样本的极度失衡。当个体模型被用来优化目标函数,很容易陷入局部最小值,这些模型泛化能力差。整体学习可以有效地解决这个问题通过训练多个模型,利用复合输出。个体模型是用于创建一个最优预测模型,它提供了预测精度高于单个模型。一个受欢迎的一个模型是射频的例子,已用于地震储层预测(gydF4y2Ba
XGBoost是一个整体提高决策树算法,包含多个迭代。这是一个改善GBDT。多个分类和回归树(CART)模型首先构造使用数据集进行预测;这些树会结合成一个新的树模型。迭代模型不断增强,每个迭代生成一个新的树模型符合前面的树的残差。随着越来越多的树木被添加,模型整体的复杂性变得越来越高,直到方法数据本身的复杂性;因此,培训达到最佳结果(gydF4y2Ba
的损失函数gydF4y2Ba
模型的预测精度是共同确定偏差和方差。损失函数代表模型的偏差,和方差是由正则项gydF4y2Ba
XGBoost使用梯度推进战略,新生成的回归树需要符合过去的残差预测。的目标函数gydF4y2Ba
对目标函数进行泰勒展开来获得gydF4y2Ba
因此,只需要计算gydF4y2Ba
当一个机器学习模型建立,hyperparameters需要提前确定。的选择hyperparameters对预测精度有显著影响。因此,重要的是要获得hyperparameters的最优组合。hyperparameters是一种典型的黑盒的优化优化问题。常用的优化方法包括网格搜索(GS),随机搜索(RS)、遗传算法(GA),算法和贝叶斯优化(gydF4y2Ba
高斯过程(GP)是一种泛化的多元高斯概率分布意味着定义的函数gydF4y2Ba
全科医生可以表示为gydF4y2Ba
为了方便在实际应用程序中,我们之前的意思是函数是0。存在一个高斯分布的满足感gydF4y2Ba
的协方差矩阵gydF4y2Ba
相应的协方差函数可以表示为gydF4y2Ba
根据医生的性质,添加后样品gydF4y2Ba
然后,联合后验分布gydF4y2Ba
通过评估均值和协方差矩阵,gydF4y2Ba
收购功能决定了下一个采样点基于后验概率的结果代理模型。通常,选择采样点的采集功能需要探索新领域的目标空间,利用已知的地区。开发是指寻找全局最优的解决方案基于当前最优解来改善目标函数的平均值。探索是指检测未鉴定的采样点,以减少目标函数的不确定性。当医生作为概率代理模型、改进的四个常用的采集功能包括概率(π),熵搜索(ES),上层信心绑定(UCB),和预期的改善(EI) [gydF4y2Ba
TOC的流程图预测基于贝叶斯优化XGBoost模型如图gydF4y2Ba
数据预处理:我们首先收集core-measured TOC数据和相应的测井数据。数据depth-corrected outlier-processed,和归一化,然后,测井相关TOC预测选择作为机器学习输入特性使用线性回归交会图和皮尔逊相关系数技术。最后,处理数据随机分为训练集和测试集使用一个适当的规则gydF4y2Ba
模型建立:然后我们建立初始的XGBoost模型和优化模型的hyperparameters使用贝叶斯优化算法gydF4y2Ba
模型应用程序:最优XGBoost模型应用于未使用的测井预测TOC含量gydF4y2Ba
流程图的TOC使用贝叶斯优化XGBoost模型预测。gydF4y2Ba
古宇位于北部渤海湾盆地辽河萧条的东北地区,覆盖约800公里的区域gydF4y2Ba2gydF4y2Ba(图gydF4y2Ba
研究区域的位置。gydF4y2Ba
在E的沉积gydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba,湖水平振荡引起的构造运动导致循环沉积环境的变化,以及形成的岩性(图显示了“三明治”特征gydF4y2Ba
地质剖面的EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba次要成分研究的领域。gydF4y2Ba
在这项研究中使用的数据从关键勘探S352,由测井数据和core-measured TOC数据。S352是钻从3150年到3352遇到EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba形成,145.92米的密闭取心深度3169 - 3348.97完成,获得的核心长度122.47米,核心回收率83.9%。共有107个实验核心样本获得nonequal间隔在这个核心部分(3169 - 3348.97)。Leco碳和硫分析仪用于测量TOC内容根据国家标准GB / T 191452003 - 104有效TOC数据点。可用常规测井包括GR、自然电位(SP),以及直径(CAL)中子(CNL),窝,运输时间(AC),理查德·道金斯,和自然伽马能谱(U, TH, K)。使用前数据,深度校正和离群值过滤进行以确保core-measured TOC数据和测井数据一一对应。表gydF4y2Ba
统计分析的结果好S352好日志。gydF4y2Ba
| GRgydF4y2Ba | 理查德·道金斯gydF4y2Ba | 交流gydF4y2Ba | 窝gydF4y2Ba | 补偿中子测井gydF4y2Ba | UgydF4y2Ba | THgydF4y2Ba | KgydF4y2Ba | TOCgydF4y2Ba | |
|---|---|---|---|---|---|---|---|---|---|
| APIgydF4y2Ba | 欧姆·米gydF4y2Ba |
|
克/厘米gydF4y2Ba3gydF4y2Ba | %gydF4y2Ba | ppmgydF4y2Ba | ppmgydF4y2Ba | %gydF4y2Ba | wt. %gydF4y2Ba | |
| 的意思是gydF4y2Ba | 53.34gydF4y2Ba | 18.23gydF4y2Ba | 91.56gydF4y2Ba | 2.27gydF4y2Ba | 36.84gydF4y2Ba | 2.14gydF4y2Ba | 6.99gydF4y2Ba | 1.52gydF4y2Ba | 4.11gydF4y2Ba |
| 性病gydF4y2Ba | 7.61gydF4y2Ba | 41.11gydF4y2Ba | 14.19gydF4y2Ba | 0.17gydF4y2Ba | 7.41gydF4y2Ba | 0.71gydF4y2Ba | 1.78gydF4y2Ba | 0.56gydF4y2Ba | 2.37gydF4y2Ba |
| 马克斯gydF4y2Ba | 70.73gydF4y2Ba | 1.76gydF4y2Ba | 117.95gydF4y2Ba | 2.64gydF4y2Ba | 49.23gydF4y2Ba | 3.97gydF4y2Ba | 10.27gydF4y2Ba | 3.50gydF4y2Ba | 10.18gydF4y2Ba |
| 最小值gydF4y2Ba | 29.68gydF4y2Ba | 296.08gydF4y2Ba | 62.80gydF4y2Ba | 1.96gydF4y2Ba | 19.89gydF4y2Ba | 0.63gydF4y2Ba | 2.45gydF4y2Ba | 0.52gydF4y2Ba | 0.29gydF4y2Ba |
| 偏态gydF4y2Ba | -0.52gydF4y2Ba | 5.80gydF4y2Ba | -0.42gydF4y2Ba | 0.47gydF4y2Ba | -0.57gydF4y2Ba | 0.26gydF4y2Ba | -0.39gydF4y2Ba | 1.33gydF4y2Ba | 0.39gydF4y2Ba |
| 峰度gydF4y2Ba | 1.64gydF4y2Ba | 35.71gydF4y2Ba | -0.81gydF4y2Ba | -0.55gydF4y2Ba | -0.61gydF4y2Ba | -0.25gydF4y2Ba | -0.12gydF4y2Ba | 2.07gydF4y2Ba | -0.49gydF4y2Ba |
交会图分析创建core-measured TOC之间的相关内容和日志,和线性回归是用来适应数据。确定系数(gydF4y2Ba
交会图如图gydF4y2Ba
core-measured TOC之间的交会图和日志:(一)RD-TOC AC-TOC (b), (c) DEN-TOC, (d) CNL-TOC, (e) GR-TOC U-TOC (f) (g) TH-TOC, K-TOC (h)。gydF4y2Ba
多源数据,皮尔森相关系数计算测量的测井数据之间的线性相关程度和TOC的内容。计算使用gydF4y2Ba
在哪里gydF4y2Ba
变量之间的相关性评估通过创建一个热图的皮尔森相关系数。如图gydF4y2Ba
热图的皮尔森相关系数。gydF4y2Ba
总之,所有的测井与TOC含量显著相关。然而,结果提供测井数据的排名根据他们与core-measured TOC的内容。因此,我们可以确定并删除不相关和冗余功能的训练数据集,降低模型的复杂度,减少输入数据的维数,并提高模型的效率(gydF4y2Ba
在机器学习中,数据通常是随机分为三个部分:训练集,测试集和验证集。然而,我们有很少带安全标签的数据点,导致强烈的不确定性在使用小验证数据集来评估模型的性能和鲁棒性。最优方法来避免这个问题gydF4y2Ba
5倍交叉验证。gydF4y2Ba
我们比较XGBoost模型的性能与其他机器学习算法。选择四种方法,即、射频、支持向量机gydF4y2Ba
的gydF4y2Ba
除了gydF4y2Ba
在这项研究中,采用5倍CV测试模型的性能和鲁棒性。代码实现微机与英特尔酷睿i7 - 7700和32 GB RAM和CPU Windows 10系统。Python编程语言。支持向量机,然而,高钙,射频模型中实现开源Scikit-learn机器学习包。我们使用了开源XGBoost工具包XGBoost算法运行,和gydF4y2Ba
数据集被随机分为训练集和测试集的5倍的履历。所有数据归一化,消除单位的影响和规模不同的测井参数之间的区别。预测和core-measured TOC含量的交会图如图所示gydF4y2Ba
交会图预测的TOC和core-measured TOC内容:(a) XGBoost模型,(b)射频模式,(c)gydF4y2Ba
此外,我们比较了RMSE使用5倍的简历和日军的不同的方法。图gydF4y2Ba
RMSE 5倍交叉验证的结果。gydF4y2Ba
日军5倍交叉验证的结果。gydF4y2Ba
表gydF4y2Ba
平均误差值为5倍的简历的不同方法。gydF4y2Ba
| 模型gydF4y2Ba | 美gydF4y2Ba | RMSEgydF4y2Ba | 日军(%)gydF4y2Ba |
|---|---|---|---|
| XGBoostgydF4y2Ba | 0.63gydF4y2Ba | 0.77gydF4y2Ba | 12.55gydF4y2Ba |
| 射频gydF4y2Ba | 0.71gydF4y2Ba | 0.82gydF4y2Ba | 12.97gydF4y2Ba |
| 支持向量机gydF4y2Ba | 0.71gydF4y2Ba | 0.88gydF4y2Ba | 16.21gydF4y2Ba |
| 然而,gydF4y2Ba | 0.82gydF4y2Ba | 1.18gydF4y2Ba | 16.42gydF4y2Ba |
| 线性gydF4y2Ba | 1.26gydF4y2Ba | 1.52gydF4y2Ba | 23.87gydF4y2Ba |
|
|
0.79gydF4y2Ba | 1.07gydF4y2Ba | 14.80gydF4y2Ba |
我们选择好S352验证的预测结果的TOC含量不同的方法。日志,core-measured TOC数据和TOC曲线预测的不同的方法所示的数据gydF4y2Ba
比较不同方法的预测结果(EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba我集团)。gydF4y2Ba
比较不同方法的预测结果(EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba——集团和EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba第三组)。gydF4y2Ba
图gydF4y2Ba
图gydF4y2Ba
总的来说,预测结果好S352表明,贝叶斯优化XGBoost方法最可靠地执行非齐次的形成,提供最高的预测精度和良好的泛化能力。因此,这种方法更适合TOC预测湖泊页岩油比在这项研究中使用的其他方法。gydF4y2Ba
我们选择20油井钻在EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba形成预测使用XGBoost TOC内容模型。预测TOC的等高线地图内容的EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba- i, EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba——、EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba第三组在研究区域如图gydF4y2Ba
等高线地图预测的TOC内容:(a) EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba我集团(b) EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba——集团和(c) EgydF4y2Ba2gydF4y2Ba年代gydF4y2Ba4gydF4y2BalgydF4y2Ba第三组。gydF4y2Ba
我们提出一个健壮的数据驱动的贝叶斯优化XGBoost模型来预测TOC内容使用有线日志数据。从古宇获得数据,渤海湾盆地,中国,包括日志和core-measured TOC数据。线性回归得到了交会图,皮尔森相关系数计算评价之间的关系以及日志和core-measured TOC数据。结果表明,没有一个日志TOC含量有显著相关性。然而,相关分析使我们能够识别和移除不相关和冗余为TOC测井特性预测和减少模型的复杂性,通过减少输入数据的维数。使用5倍CV模型性能评估。四个标准的量化误差分析表明,该方法性能比传统的方法(gydF4y2Ba
声波测井gydF4y2Ba
人工神经网络gydF4y2Ba
井径测井gydF4y2Ba
分类和回归树gydF4y2Ba
中子测井gydF4y2Ba
密度测井gydF4y2Ba
预期改善gydF4y2Ba
极端的学习机器gydF4y2Ba
熵的搜索gydF4y2Ba
遗传算法gydF4y2Ba
梯度提高决策树gydF4y2Ba
高斯过程gydF4y2Ba
高斯过程回归gydF4y2Ba
自然伽马测井gydF4y2Ba
网格搜索gydF4y2Ba
钾的日志gydF4y2Ba
平均绝对误差gydF4y2Ba
平均绝对误差百分比gydF4y2Ba
多元线性回归gydF4y2Ba
改进的概率gydF4y2Ba
粒子群优化gydF4y2Ba
确定系数gydF4y2Ba
深电阻率测井gydF4y2Ba
随机森林gydF4y2Ba
均方根误差gydF4y2Ba
岩石物理模型gydF4y2Ba
随机搜索gydF4y2Ba
自然电位测井gydF4y2Ba
支持向量机gydF4y2Ba
钍日志gydF4y2Ba
总有机碳gydF4y2Ba
上信心绑定gydF4y2Ba
极端的梯度增加。gydF4y2Ba
使用的数据来支持本研究的结果包括在本文中。gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
这项工作由中国石油天然气集团公司重大科技工程”研究可持续生产关键技术在辽河油田1000万吨原油”(2017号e-16)。gydF4y2Ba