文摘

准确计算煤层瓦斯含量的床甲烷(CBM)储层具有重要意义。然而,由于疲软的煤层气储层的测井响应之间的相关性和气体含量参数和强大的非线性特性,传统瓦斯含量计算算法很难获得更可靠的结果。本文提出一种煤层气储层气体含量评价方法结合k - means聚类和随机森林。使用k - means聚类划分水库和区分类型建立一个随机森林模型。从评价的影响研究,新方法的预测精度明显高于原来的方法,和更精确的瓦斯含量预测值可以获得不同类型的储层。研究表明,这种方法可以帮助煤层气储层的气体含量评价,提高气体含量评价的准确性,更好地支持煤层气储层的勘探和开发。这项研究的结果表明,基于集群随机森林方法能有效区分不同的测井响应和气体含量之间的关系。在此基础上,随机森林算法模型可以有效地描述复杂的气体含量和测井曲线响应之间的关系。对于可怜的气体含量之间的相关性和测井曲线,水库的气体含量还可以准确地计算。

1。介绍

勘探和开发的不断进展,研究各种非常规储层,如煤层瓦斯(煤层气)和页岩气在全面展开,和他们的主要增长点是储备1- - - - - -3]。煤层气是由生物化学和热解生成天然气的形成和演化过程中煤层和存储在煤层中。目前,美国、加拿大、澳大利亚、俄罗斯、印度、中国和其他国家都已经开始煤层气的勘探和开发4- - - - - -6]。

煤层气储层的瓦斯含量是一个非常重要的参数,它决定了储层的储量和最终产量(7,8]。然而,与其他水库相比,它更难以计算煤层气储层的气体含量,极其限制优质储层的确定和制定发展计划,导致煤层气储层不清楚的理解。核心瓦斯含量计算方法,金正日提出结合的水分和灰分含量煤层温度和压力和水平衡状态修正量计算煤层气含量(9]。艾哈迈德等人提供了建立一个等温吸附模型描述气体含量使用一个等温吸附实验(10]。霍金斯等人提出了利用朗缪尔煤阶方程来预测瓦斯含量(11]。然而,以上方法可以预测中的气体含量的纵向连续性的形成。测井是目前唯一的方法,可以准确地预测单一的垂直气体含量变化。具有重要意义,建立一个精确的气体含量测井评价模型。

一些学者研究了测井计算煤层气储层的气体含量的方法。刘等人。12),孟et al。13和邵等。14]都提出了一个统计方法评价煤层气储层的气体含量。金等。15和傅et al。16)也使用这种方法。除了使用统计模型或体积气体含量评价模型,气体含量和测井响应之间的关系太复杂了。目前,使用机器学习的方法来评价煤储层气体内容算法逐渐浮出水面。侯和王17)利用误差反向传播神经网络预测空气含量,取得了一定的成果。锅和黄18),吴还利用摘要预测空气含量。丽安et al。19]介绍了支持向量机的评估内容。郭et al。20.,21)利用灰色系统和随机森林预测气体含量。香等。22)提出了深度学习的方法在煤层气测井解释中的应用,认为深层信念网络的影响煤层气瓦斯含量的预测比摘要,多重回归,朗缪尔方程的方法。

虽然许多学者提出了各种方法评价煤层气的气体含量,它不容忽视,煤层气储层的复杂性是更大的,甚至高于页岩气储层。如此复杂储层的测井响应影响非常多样化,以及测井响应不同的储层的主要控制因素是不同的。无论多么强大的模型的逼近能力,很难准确评估气体含量参数通过建立一个单一的评价模型。本文的创新之处是利用聚类方法对数据进行分类具有不同特性的关系,这样的机器学习算法可以预测不同的数据更有针对性,并使用更有效的机器学习算法来提高预测的效果。

基于这种思想,本文提出了一种k - means聚类+随机森林空气含量评价方法,即首先收集数据,使用聚类方法对数据进行分类。之后,机密数据被用来建立一个模型分别和评估气体含量。最后,建立一系列模型用于应用测井曲线来获得最终的瓦斯含量预测曲线对整个部分。通过这种方式,不同的主要控制因素对预测的影响可以消除尽可能多的,所以模型更有针对性,提高模型的预测效果。尽管这种方法似乎是一个更复杂的建模方法,实际储层瓦斯含量的预测效果都得到很大的提高。从研究的预测效果的角度来看,本文提出的方法是有效的,可以帮助煤层气的勘探和开发。

2。数据

研究区块位于沁水盆地东南部。钻探表明,有16个在太原组和山西形成煤层,最大总厚度为23.6米。其中,15号煤层在山西太原形成和3号煤层形成稳定分布在整个盆地。主要的3号煤层开采煤层,和15号煤层只参与个别井。目前,有超过1000块的煤层气井。生产井在不同位置千差万别,瓦斯含量分布尚不清楚,限制了煤层气的勘探和开发。我们收集了169从22煤层气参数井取心气体含量测量数据在这个块,和6测井曲线包括自然伽马射线、自发的潜力,钻孔直径、深度浅侧向电阻率、体积密度。测量气体含量数据显示,3号煤层的瓦斯含量是主要分布5至20米3/ t(图1)。

3所示。方法

3.1。k - means聚类

虽然我们经常使用监督学习方法的分类或回归算法来预测类别或价值观,我们仍然经常遇到的情况,我们需要使用非监督学习方法得到一组数据类别。的数据量很大时,你可以考虑使用聚类算法得到不同类别的数据。聚类隶属于无监督学习,不依赖于定义类和培训类标签的例子。其中,k - means聚类是一个非常经典的聚类方法(23]。

在k - means聚类的开始,我们首先需要弄清楚如何定量计算两个同类元素之间的区别。程度的差异越小,直接两个样本之间的相关性越大,越有可能是一个岩石样品的一种岩石。在数学上我们定义的程度不同。

假设 , ,在哪里 是双元素条目,每个条目 可测量的特征属性;然后,之间的程度不同 被定义为

其中, 是真正的数域。也就是说,不同的程度是一个映射的两个元素实数域,和实数定量表示的程度不同的两个元素。不同的计算可以用欧氏距离、曼哈顿距离,闵可夫斯基距离,等等。通常,我们使用欧氏距离:

上述计算方法的不同有问题,也就是说,属性有一个较大的值范围对距离的影响高于价值属性与一个小的范围内。为了解决这个问题,它通常是必要的规范化属性值。所谓的标准化是将每个属性值成比例地映射到相同的值区间,以平衡距离上的每个属性的影响。通常,每个属性映射到区间[0,1],和映射公式

其中, 代表的最大和最小值 属性在所有元素项。所谓的聚类问题是给一组元素 ,其中每个元素都有 可观察到的属性,用一定的算法来划分 子集,并要求每个子集中的各元素之间的差异程度,尽可能低,和元素不同的不同子集尽可能高。浓度,每个子集被称为集群。不同分类,分类是模范学习,要求澄清之前每个类别分类,每个元素映射到一个类别,而集群是观察学习,甚至类别可能不知道或类别的数量可能不知道集群。

k - means试图找到自然类别的数据。用户类别的数量设置为找到一个好的类别中心。算法流程如下:(1)输入数据集的数量和类别 (2)随机分配的中心点类别(3)把每一个点的集合的类别中心点接近它(4)类别中心点移到它在哪里(5)第三步,直到收敛

若干周期后,可以得到最佳的分类效果。与海相页岩储层不同,煤储层的含气量之间的关系和煤储层的测井响应相对贫穷,和法律不一致,也会导致最终的预测模型的可靠性。这是因为煤储层比页岩储层复杂,连续性差,导致煤层的测井是受到多种因素的影响。使用聚类方法获得多个类别,建立相应的预测模型基于不同类别可以大大提高预测结果。

3.2。随机森林

随机森林是一个高度灵活的机器学习算法,刚刚出现在21世纪。它是指一个包含多个决策树分类器。背后的想法是类似的群体智慧。在1980年代,Breiman等人发明了一个分类树算法,通过反复的二分法进行分类或回归的数据,大大减少了计算量。2001年,Breiman结合分类树成随机森林,也就是随机变量的使用和使用数据,生成许多分类树,然后总结分类树的结果(24]。随机森林预测精度提高,而计算量显著增加。随机森林是不敏感的多元共线性,结果相对强劲的缺失数据和不平衡数据和可以预测的影响成千上万的解释变量。

随机森林使用一个随机的方法来构建一个森林。在森林里有很多决策树,每一个决策树,没有相关性的随机森林。获取森林之后,当一个新的输入样本输入,让每一个决策树在森林里做出判断单独看样本所属的类别。最多的类分类*是预测类。随机森林可以处理大量的属性是离散值。随机森林的施工过程如下:(1)如果有 样品, 样品是随机选择替换(每次一个样本是随机选择的,然后回来继续选择)。使用选中的 样本训练决策树作为样本决策树的根节点(2)当每个样本 决策树的属性,当每个节点需要分裂,然后 选择从这些属性 属性和条件 是满意的。然后,从这些 属性,诸如信息增益的策略是用来选择一个属性作为分裂节点的属性(3)决策树的过程中形成的,每个节点都必须根据步骤2分,直到不能再分裂。请注意,没有修剪在整个决策树生成过程(4)按照步骤1 - 3建立大量的决策树,形成一个随机森林

每个决策树在建设的过程中,要注意采样和完整的分裂的影响。首先是两个随机抽样过程。随机森林的样本输入数据的行和列。线抽样的替代方法是使用,也就是说,在抽样得到的样本集,可能有重复的样本。假设有 输入样本,也有 样品取样。这样,当训练,每棵树的输入样本并非都是样品,使其过度拟合相对困难。然后,执行列抽样,从 特性,选择 ( )。

之后,使用完全分裂的决策树建立方法抽样数据,以便某个决策树的叶节点不能继续分裂,或所有的样品指向同一类别。一般来说,许多决策树算法有重要step-pruning,但这并不是在这里完成。因为前两个随机抽样过程确保随机性,即使修剪不执行,不会发生过度拟合。使用一个随机森林方法预测瓦斯含量应该能够达到更好的结果。

3.3。结合k - means聚类法和随机森林

很难评价煤储层的含气量,因为日志反应一直受到各种因素的影响,导致可怜的测井响应和核心之间的关系。只有通过使用集群和其他方法来真正结合测井响应的分类,不同类型的数据的影响不同,以及测井响应和气体含量之间的关系在不同类别更接近。首先执行因此,k - means聚类,然后根据聚类的结果,建立了不同类型的随机森林模型最终的应用程序。事实上,这个模型的内在意义是类似于随机森林。它使用k - means聚类结合随机森林形成一个“森林集团”更准确地预测气体含量。建模和预测过程如下:(1)使用k - means聚类将数据划分为几个类别。测量方法通常用于比较不同的结果 值之间的平均距离是一个数据点及其集群重心。因为增加集群的数量总是减少数据点之间的距离,当 是一样的数据点的数量,增加 总是会减少指标为零。因此,这个指标不能作为唯一目标。相反,重心的平均距离的函数 ,和“肘”的还原速度急剧变化可以大致确定 价值(2)使用 训练数据集和随机森林算法 模型。确定新数据的类别后,相应的模型可以用来计算气体含量(3)预测新数据时,首先确定类别的新数据通过计算样本之间的欧氏距离数据和多个类的质心数据。新的数据属于类别对应的最小欧氏距离的重心。类别确定后,相应的模型用于预测和瓦斯含量的预测价值的样本点,和算法的可靠性是由与真正的价值进行比较

4所示。结果

首先,数据需要进一步澄清气体含量之间的关系分析煤层气储层的测井响应。相应的结果如图2

在图2总气体含量,Vg指通过实验结果。交流指的是声波时差曲线响应,卡尔是指直径曲线响应,补偿中子测井响应指的是中子孔隙度曲线。穴是指密度曲线响应,GR指自然伽马曲线响应和RD指深电阻率曲线响应。它可以清楚地看到,每一个曲线和气体含量之间的相关性差,这显然与海相页岩储层不同。从每个曲线的相关性,深电阻率测井、中子测井、声波测井有一个相对较好的储层与瓦斯含量的关系参数。建议可以使用上面的曲线作为输入模型的曲线。当气体含量增加,煤层的声波时差显著增加。随着水库的气体含量的增加氢指数的煤层,中子孔隙度也增加。此外,随着气体含量的增加,深电阻率测井的响应值显著增加,表明煤储层的吸附气体可显著提高储层的电阻率,降低煤层气储层的导电率。我们还建议在输入对数转换后的电阻率曲线。 Based on the above data, the K-means clustering research is carried out.

3反映了聚类结果和sample-particle距离之间的关系。可以清楚地看到,当有超过3集群类型、平均距离减少速度显著减慢,表明没有必要选择超过3集群。这里,我们选择集群的数量是3。聚类后,建立了瓦斯含量预测模型在不同的类别。使用建立模型来预测建模样本,结果如图所示4

从图可以看出4首先,测井曲线的响应之间的相关性和穷人总气体含量有很大影响瓦斯含量的预测。即使随机森林算法具有较强的逼近能力和泛化能力,获得的预测效果很差。它可以清楚地看到从右边的结果后,分类建模的预测效果明显优于聚类图4(一)。预测效果差只有当总气体含量小于5厘米3/ g,水库总气体含量小于5厘米3/ g不是我们关心的水库。通过聚类方法,数据较一致的主要控制因素是统一和分类,并在此基础上建立的模型更有针对性。从核心预测结果来看,本文提出的想法是非常有助于煤系岩储层的瓦斯含量预测。

该方法用于预测试验井的气体含量研究地区的A和B。结果如图56,分别。

在数据56,第一个跟踪深度跟踪,和第二个跟踪由四臂井径井径曲线测量工具。第三,SP曲线是自然电位测井曲线,GR曲线是自然伽马测井曲线,Rxo的微球聚焦电阻率测井曲线,RS是浅侧向电阻率测井曲线,并深侧向电阻RD。率测井曲线。第五,窝是密度测井曲线,交流是声波测井曲线,补偿中子测井中子孔隙度测井曲线。在第六频道,Vg_RF直接气体含量曲线预测的随机森林,和Vg_core气体含量的核心的价值。第七,Vg_KRF是气体含量曲线获得的随机森林聚类预测后,类别是曲线的聚类结果,结论是煤层气储层的解释结论。

从图可以看出5Vg_KRF曲线之间的对应关系和核心远高于Vg_RF曲线,表明随机森林模型基于聚类方法的效果更好。通过曲线的分析,可以看出,I型储层的气体含量相对较低,和相应的自然伽马曲线内容是相对较高的。这表明这类储层的泥含量高,影响测井响应和前面的原因。瓦斯含量的预测不准确的时候建立统一模型。此外,它可以发现,煤储层的反应自然伽马值对应于三级低,密度响应值很低,声波响应值相对较高,和电阻率响应值是相对较高的。这表明III型煤储层与煤含量更高,高质量的煤储层及其含气量也应高于其他水库。从预测效果的角度来看,很明显,瓦斯含量预测结果直接基于随机森林算法预测低气体含量III型水库,特别是在间隔与很高的气体含量。在现实中,这将使我们很难找到最好的储层质量。此外,它必须提到,虽然我们只使用声波测井响应值,电阻率测井响应值,和中子测井响应值,其他曲线也有很好的对应关系范畴,这证明类的准确性。IV型水库显然对应于扩大直径区间,这个区间和目标建模可以增强的可靠性模型尽可能多。 Therefore, from the application effect of well A, the gas content evaluation method proposed in this paper is more reliable than previous methods.

6显示目标模型的重要性。煤储层图6我基本上是一个类型储层。气体含量曲线获得的直接使用随机建模和预测森林有很小的波动和不是很具体,这使得我们很难直接使用优质储层识别的结果。Vg_KRF相对更准确的预测效果,可用于高精度的特征气体含量。不过,可以看出,在1243.1米- 1245.5米,Vg_KRF太小的预测结果,但预测的趋势符合实际的核心趋势,表明聚类结果需要调整。或者,由于煤层气储层的节省开发成本,日志工具用于测量的分辨率不够,和测井响应时扰动垂直变化的储层严重,最终导致不准确的分类。因此,在下一步的研究中,我们可以专注于研究对数曲线超限分辨基于小波变换和其他方法来进一步提高预测的效果。总的来说,本文提出的方法有很大的帮助的气体含量评价煤储层测井响应与储层参数之间的相关性较差。

5。摘要和结论

煤层气储层的含气量的计算更复杂的比其他水库。各种煤储层的特点将有一系列的对测井响应的影响。提出了一种结合k - means聚类和随机森林算法解决困难问题的计算煤层气储层的气体含量。研究结论如下:(1)事实上,煤层气储层的含气量的计算更复杂的是,煤层气储层本身是相对复杂的,这将导致测井响应受到多种因素的影响。进一步影响煤层气测井响应和气体含量之间的关系,使相关性差(2)首先,样品都聚集,建立了瓦斯含量预测模型的随机森林为每个类型的示例。通过聚类结果结合实际测井曲线分析,可以清楚地看到,通过聚类算法,不同类型的煤层气储层可以有效地分裂。此外,通过比较煤层气瓦斯含量的预测结果,可以看出,气体含量模型建立集群后更有针对性,可以更准确地评估气体含量。本文提出的方法可以提高计算精度的纯煤层气气体参数评价内容和提供的思维方式时,测井响应与储层参数之间的关系很差

命名法

CBM: 煤层甲烷床
射频: 随机森林
Vg: 气体含量
交流: 声波测井
卡尔: 井径测井
补偿中子测井: 中子测井
窝: 密度测井
格: 伽马测井
理查德·道金斯: 电阻率测井。

数据可用性

我们所有的数据已经被完全显示在文章中的图片。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的中海油信息化建设重大项目(编号2019 - kjzc - 010);海洋地质实验室,青岛海洋科学与技术国家实验室(2号mgqnlm-kf202004);中国博士后科学基金会(2021 m690161和2021 t140691号);在海南省博士后资助项目;中国社科院Sciences-Special研究助理项目;海南中国工程科技发展战略研究院咨询研究项目(20-HN-ZT-01);和开放的重点实验室基金对石油和天然气资源的勘探技术(长江大学),教育部(Nos K2021-03和K2021-08)。