文摘

重油中、晚期的发展,制定科学合理的采矿计划是提高油田效率的关键。目前,蒸汽吞吐仍然是主要的重油开发方法。确定锅炉的生产不仅限于条件,表面管道,和井筒条件还蒸汽吸收能力的形成。因此,局部分析不能达到最好的效果在整个生产过程中蒸汽吞吐。机理模型是最常用的方法来预测重油产量,但是太多理想化的假设使预测的结果与实际生产情况有很大不同。随着机器学习的快速发展,人们可以通过现场数据实现快速生产预测。然而,当实际参数的范围很小,模型的泛化能力弱,出现过度拟合。基于上述背景,本文进行耦合研究表面蒸汽管道流,注汽井筒流动,形成流从数据驱动的角度。首先,基于相关系数和随机森林的特征选择,影响液体生产特点和水的重要性排名的内容。其次,通过五个典型的机器学习算法的比较,我们选择最优预测模型和最优特征适合本文的示例。 Finally, because of the poor generalization ability of the prediction model, we sampled the mechanism model and increased the diversity of steam dryness samples. We find that the accuracy of the optimal prediction model is improved and the generalization ability of the model is improved after the training of new samples. This paper provides a new idea for the production prediction of heavy oil steam stimulation reservoirs, which is helpful for the efficient development of heavy oil reservoirs.

1。介绍

丰富的矿产资源,重油为其效率和经济发展具有重要的现实意义。然而,由于重油的粘度高,流动性差,很难达到理想的效果与传统技术。因此,蒸汽吞吐仍然是主要的重油开发方法。蒸汽吞吐技术在表面的局部分析理论管道、井筒和地层相对成熟并应用于油田的实际生产1,2]。对于一个给定的重油,蒸汽吞吐开采效果取决于注入和生产参数和程度的注入蒸汽的热能利用率。然而,注汽参数只能通过本地设计软件,不能使整个蒸汽吞吐过程中最好的。

蒸汽吞吐井的动态预测的基础上注入参数优化设计和生产设计。为了提高蒸汽吞吐开采效果,研究人员进行了大量的研究蒸汽吞吐井的指数预测。马克思和Langenheim利用能量平衡计算的加热区域石油层(3]。Boberg提出了蒸汽吞吐生产预测模型,可以反映加热粘度降低的机制和石油增加蒸汽吞吐过程中,但有很多限制4]。侯和陈提出一种改进的蒸汽吞吐效率预测模型基于以前的研究和介绍了形状修正系数的影响重叠现象在注汽过程中(5]。郑等人建立了一个新的蒸汽吞吐效率分析模型预测基于Marx-Langenheim模型(6]。模型显示一个指数的变化温度场的热油区域,哪个更符合实际的水库。当温度低于某一温度时,重油提出了一种非牛顿流体状态。杨等人认为非牛顿蒸汽吞吐效率预测模型的重油7]。

从渗流力学和控制论的角度,水库系统属于分布参数系统。描述储层的基本物理量状态水饱和度场和储层压力场。不同的参数代表不同的地下条件。机理模型反映了我们的归纳和总结实际现象和之前是一个可靠的和认知的地下流体的流动规律。虽然机制模型越来越完美但与油藏数值模拟方法相比,参数被认为是少得多。1953年,布鲁斯等人模拟一维气相不稳定径向流和线性(8]。虽然有限的计算机水平和解决算法,这是油藏数值模拟历史上的一个里程碑。突破的线性方程组的数值解,在1968年,石头介绍第一个数值解算器SIP (9]。1974年,外套等人开发了一个三维三相注蒸汽热力采油模式10]。在此基础上,等油藏数值模拟软件发生系列和Eclipse系列开发。

到目前为止,油藏数值模拟软件做出了很大突破的集成功能。为不同类型的油气储层,不同的采矿方法几乎可以用来处理油藏数值模拟软件(11- - - - - -14]。我们样品不同的地下条件通过油藏数值模拟,然后由偏微分方程描述储层开采状态,但其准确性是基于准确的地质模型。因此,一些理想化的假设是必要的。自生产法是受许多无法量化的主要控制因素,这可能导致预测结果之间的差异和实际的生产数据。

近年来,人工智能方法被广泛应用在石油工程领域(15- - - - - -19),主要用于生产控制和优化、信息预测和模型模拟石油工程(20.- - - - - -24]。然而,实际情况的限制,几乎没有不同地层条件和生产系统的数据在同一块蒸汽吞吐井之间,当应用于实际油田数据,模型的泛化能力弱,出现过度拟合。因此,很难仅仅反映出一些关键变量之间的关系和输出指标的数据分析。这是因为近似函数空间的基础是不确定的,没有目标的仿真时直接进行黑盒方法。拟合参数只能盲目地使用,也不能保证其稳定性。

本文的创新如下。(1)基于之前的研究,我们进行耦合研究表面蒸汽管道流,注汽井筒流动,形成基于数据驱动的流动。(2)基于相关系数和随机森林特征选择,本文排名影响液体生产和水的功能内容的重要性。(3)重中国东部油田,我们使用了五个典型的机器学习算法模型,并比较其字段数据。发现六度产生的特点,动态液面,浸泡时间,中风,中风,和井网模式对液体生产和含水量影响甚微,而消除。同时,液体产量和水分含量的预测模型基于随机森林的准确性最高86%和83%,分别,但预测模型的泛化能力很差。(4)我们采样机制模型,增加了蒸汽干燥样品的多样性,又训练有素的新样品。发现以前获得的最优预测模型的准确性提高,使预测结果更准确、可靠,提高了模型的泛化能力。

本文的内容安排如下。第二部分介绍了数据源和数据预处理。第三部分是输入和输出模型的建立和验证储层系统的基于数据驱动的。第四部分是输入和输出模型的建立和验证油藏系统的基于混合数据驱动。第五部分是结论。

2。数据源和预处理

2.1。数据源

本文使用的数据收集从动态和静态信息,蒸汽注入数据和生产数据的109块重油重中国东部油田。其中,静态信息包括石油领域,生产储备,孔隙度、渗透率、数据和其他信息。动态指标包括石油和累积累积水生产。蒸汽注入数据包括蒸汽锅炉出口数量,在锅炉出口蒸汽压力,等等。生产数据包括液体产量和水分含量。

2.2。数据预处理

数据预处理也是数据驱动指数预测的一个重要组成部分,这将大大影响预测的准确性。有许多缺失或异常值的实际生产数据,而不能直接训练。因此,必须首先进行数据清洗和其他操作来获取更高的预测精度。

2.2.1。异常处理

我们删除离群值根据PauTa标准( 标准)。假设测量变量与同等精度测量, 是获得。如果残差 的测量值 满足 ,然后 被认为是一个坏值与过失误差值,并删除。标准误差的公式 如下: 在哪里 , 算术平均,残差是什么

2.2.2。缺失值填充

对收集到的样本,如果有太多的缺失数据为某一组样本或液体的样品是错过了两个重要的数据生产和含水量,样本被删除。缺失值的其他参数,如蒸汽温度和蒸汽压力K最近邻居算法用于填充(25]。我们比较原始的数据集和相应的功能在新的数据集和计算新的数据和每个样本之间的距离在原始数据集。然后,新数据的类别投票通过K样本的最小距离。样本的距离计算公式如下: 在哪里 是样品和两条断层之间的相对距离特性 是不同的故障特征的对应点的数据样本,分别。

异常处理和缺失值填充之后,我们最终解决97年重油阻塞从109年重油,共计780组样本。

2.2.3。特征选择

特征选择也称为特征子集选择或属性选择。数据预处理操作,选择从原始特性降低数据维度,提高模型的泛化能力。在实践中应用,尽管更多的参数可用于集成更多的信息,太多的参数降低学习效率,甚至会影响预测精度。

因为许多因素影响重油蒸汽吞吐的发展指数,有必要通过一个系统的索引分析过程更准确地找到发展指数。根据油藏工程的基本理论,结合相关研究2,13,26- - - - - -28),我们获得了重油蒸汽吞吐生产的影响因素,可分为以下五类:(1)水库特点:储层类型、原油粘度、表面初始地层温度、储层埋藏深度,edge-bottom水、油区域,动态储备,原始含油饱和度、储层有效厚度、孔隙度、净总比石油层渗透率、原始地层压力,和动态液面,反过来x1x14(2)生产监管:浸泡时间,距离,井网密度、井网模式,启动好号码,中风,中风,生产时间,年营业额,反过来x15x23(3)历史生产的特点:累积石油生产,累积水生产、生产程度,反过来x24x26(4)控制变量:蒸汽锅炉出口数量,在锅炉出口蒸汽流量,蒸汽压力蒸汽注入井的底部,和蒸汽干燥蒸汽注入井的底部(5)输出变量:液体生产和含水量,为代表y1y2分别

在数据驱动的过程中,考虑到数据之间的相互作用可能对最终结果产生负面影响,因此需要适当的选择。四个控制变量直接影响最终的挖掘效果作为模型的输入,而本文只选择其余26个变量。

相关系数是一个类型的统计分析指标,通常用于确定的方向和程度变量的线性相关性。公式如下:

我们得到了2 26个独立变量和因变量之间的相关系数,如表所示1

基于随机森林的特征筛选是指多少贡献每个特性使得随机森林里每棵树(29日,30.),然后取平均和比较不同特性的贡献。基尼系数通常是作为评价指标来衡量;其计算公式如下: 在哪里K代表的类别和p代表类别的比例k在节点

然后,功能的重要性xj在节点如下: 在哪里胃肠道l胃肠道r分别代表了基尼系数的两个分支后新节点。

如果节点的功能xj在决策树 设置,然后特性的重要性xj在树上 如下:

假设有J随机森林中的树木,功能的重要性xj在随机森林如下:

我们得到了26个特征的重要性影响液体产量和水分含量,如表所示2

我们获得了相关系数和重要性排名基于随机森林的特征选择,然后添加他们做出一个全面的比较和获取变量的重要性排名影响液体生产和含水量。结果如表所示3

3所示。输入和输出模型的建立和验证储层系统的基于数据驱动的

蒸汽吞吐采油过程由一个蒸汽喷射系统、水库系统,升降系统。浸泡,他们执行注汽和生产,如图1。水库系统是整个石油生产系统的枢纽,它直接影响注蒸汽的能量消耗和系统效率和提升系统。与此同时,由于重油形成条件的复杂性,很难从的角度研究水库系统机制。因此,本文探讨了通过数据驱动的蒸汽形成的流动规律,进一步提高蒸汽吞吐开采效果。我们将注汽锅炉出口的数据转换为通过一个简化的机制模型的底部,如图2。本文假定只有蒸汽干燥在蒸汽流量和蒸汽压力变化过程,而蒸汽数量和蒸汽流量保持不变。

3.1。计算蒸汽压力和蒸汽干燥蒸汽注入井的底部

本文采用注汽井口、井底节点两表面蒸汽管道流,注汽井筒流动,形成流动。探索复杂地层流动法,首先,我们把字段数据从锅炉出口的底部通过一个简化的机制,如图1。其次,我们探索形成流法通过数据驱动,来预测重油蒸汽吞吐生产。本文假定只有蒸汽干燥在蒸汽流量和蒸汽压力变化过程,和其他注入和生产参数保持不变。

3.1.1。蒸汽干燥蒸汽管道上的变化

我们做出以下假设2]:(1)管道中的蒸汽流动时压力损失是不考虑(2)蒸汽温度和大气温度是固定的(3)外面有一层绝缘材料,蒸汽管道

因为到达井口仍然是饱和蒸汽和我们忽略压力的变化,其温度是恒定的。与此同时,我们不考虑动能和势能的变化,但只考虑蒸汽热力学能的变化。然后,井口干燥可以由能量平衡原理计算。我们有

蒸汽管道的干燥损失如下:

3.1.2。蒸汽压力注汽井筒的变化

我们做出以下假设2]:(1)蒸汽注入量、蒸汽压力和蒸汽井口的质量保持不变(2)我们假设传热从油井水泥环是一维稳定传热和水泥环形成的一维不稳定传热,而忽略了传热沿井深的方向发展(3)我们认为井筒压力变化(4)我们假设形成的热导率是恒定的

本文只考虑垂直注入井的情况。由于饱和蒸汽注入井,它变成了一个两相流的水和蒸汽。因此,根据压力平衡方程,压降公式表示如下:

我们获得注汽井筒的蒸汽压力变化如下:

考虑文章内容的限制,证明过程见附录一个

3.1.3。蒸汽干燥注汽井筒的变化

在单位时间内,热损失的长度 井筒的 根据的假设3.1。2,我们有

井筒热损失的下降将不可避免地导致饱和蒸汽的能量,这将导致减少蒸汽干燥。我们有

此外,

我们做出以下转变:

因此,方程的解决方案(14)如下:

我们得到以下干燥注汽井筒的损失:

考虑文章内容的限制,证明过程见附录B。见附件C参数描述。

3.2。数据驱动模型的介绍和评价

根据特征的重要性排名结果影响液体生产和水节的内容2.2,这部分是基于五个典型的机器学习算法N邻居,线性回归,随机森林、演算法和支持向量回归预测液体重油蒸汽吞吐生产和含水量,并选择最优预测模型和最优数量的特性适合本文样本的问题。为了评估模型的预测效果,我们使用R2(决定系数)模型的液体生产和含水量的测量标准。越大R2,模型精度越好。的公式R2如下: 在哪里xj,c是实际的观测值,xj,p是预测值,xj,一个是实际的观测值的平均值。

780组样本整理出来的部分2.2,我们使用上面的五个典型的机器学习算法进行十倍交叉验证对液体生产和含水量,和的平均值R2使用交叉验证结果的准确性的估计算法。特性的影响系数测定的液体生产数量和含水量数据所示34

可以看出,当特征的数量是24,液体生产的预测精度和含水量基于随机森林算法是最高,分别是86%和83%。这时,五个算法的确定系数对液体生产和含水量如表所示4

3.3。模型验证

为了进一步验证模型的准确性添加干燥样品之后,我们随机选择两个街区(A和B)从97年重油块和建立模型用来模拟蒸汽数量的影响,井底蒸汽压力和井底蒸汽干燥对石油生产和液体通过控制变量的方法。结果如图5- - - - - -7

根据图5,我们可以看到,石油生产和液体生产增加蒸汽数量的增加,但是上升的范围逐渐减小,这与实际的变化规律是一致的。

根据图6,我们可以看到,石油生产和液体生产第一随着井底蒸汽压力的增加而增加,然后逐渐减少后会出现一个“高峰”。

根据图7可以看出,井底蒸汽干燥的增加,石油生产和液体逐渐减少,这是不符合实际的变化。为穷人一致性的原因是实际的数据指标略有波动,从而导致培训后样本的多样性和疲软的泛化能力不足。

4所示。输入和输出模型的建立和验证油藏系统的基于混合数据驱动

通过现场数据训练模型的本质是函数拟合,拟合函数没有明确的方向,如图8(a)。如果参数的变化范围很小,模型的泛化能力较弱,可能会过度拟合。当预测仅仅基于机理模型,它本质上是一个抽象的物理定律的描述,如图8(b)。尽管模型的泛化能力强,理论基础是理想的模型,因为结果不一定与实际情况一致。因此,本文样本机制模型,结合现场数据训练模型。通过这种方式,它可以隐式和自动实现参数调整和装配作业,原本需要大量的手工操作机器学习培训过程中,提高拟合精度。它还可以人为调整机制的参数模拟增加数据的多样性和提高训练模型的泛化能力,这有利于建立预测模型的可靠性,如图8(c)。

4.1。混合数据驱动模型的介绍和评价

3所示。3在液体,蒸汽干燥的影响生产和含水量是不符合实际的改变。因此,在本节中,我们样品的机理模型储层数值模拟来增加蒸汽干燥样品的多样性并将它们添加到字段数据样本。验证模型的准确性是否改善增加样本的数量后,我们选择特性的数量为24,然后使用上述五个典型的机器学习算法re-predict液体生产和含水量。确定系数的五个算法对液体生产和含水量如表所示5

根据表5,我们可以看到,液体产量和水分含量的预测精度基于随机森林算法是最高,分别是88%和85%。同时,相对于表45后,我们发现,采样机制模型,结合现场数据,只有水含量预测模型的拟合效果基于演算法和液体生产基于支持向量回归的预测模型并没有改变,虽然提高了其他模型的拟合效果。

4.2。模型验证

为了进一步验证模型的准确性添加干燥样品之后,我们使用了一种新的预测模型一个B模拟蒸汽的影响量,井底蒸汽压力和井底蒸汽干燥对石油生产和液体通过控制变量的方法。结果如图9- - - - - -11

根据图9,我们可以看到,石油生产和液体生产增加蒸汽数量的增加,但是上升的范围逐渐减少。最终,它往往是平的,这与实际的变化规律是一致的。

根据图10我们可以看到,石油生产和液体生产先增加然后减少井底压力的增加,这与实际的变化规律是一致的。

11表明,石油生产和液体生产增加蒸汽干燥的增加,但是上升的范围逐渐减少。它与实际的变化规律是一致的。同时,相比之下,图7,我们可以看到算法的泛化能力已得到改进,这对进一步探索奠定了基础深基于现场数据和代理模型的学习算法。

5。结论

(1)基于之前的研究,本文进行耦合研究表面蒸汽管道流,注汽井筒流动,形成基于数据驱动的流动。这提供了一个新想法的预测重油蒸汽吞吐生产和进一步制定科学、合理的理论基础发展计划。(2)基于相关系数和随机森林特征选择,本文排名影响液体生产和水的功能内容的重要性。(3)重中国东部油田,我们比较了字段数据通过五道典型的机器学习算法和选择最佳的预测模型和最优数量的特性适合本文中的示例问题,但预测模型的泛化能力很差。因此,我们采样机制模型,增加了蒸汽干燥样品的多样性,又训练有素的新样品。发现以前获得的最优预测模型不仅提高了精度,而且模型的泛化能力。

可行研究蒸汽吞吐生产重油从机理模型和现场数据的角度。但是,本文仍有一定的局限性。首先,有一种错误的字段数据的集合,它可能会影响我们的结果。其次,缺乏样本训练后导致疲软的泛化能力。第三,蒸汽吞吐的内容是复杂的,多种因素影响蒸汽吞吐的生产。选择的特性,本文没有考虑重油提升方法和粘度的影响减少技术。

附录

答:计算井底蒸汽压力基于机理模型

基于的假设3.1。2,我们知道井筒压降是摩擦能量损失的总和,势能的变化,和动能变化。根据压力平衡方程、垂直注入井的压降公式可以表示为

动能的变化具有明显的意义只有在雾中流动。雾流,气体体积流量远远大于液体体积流量。因此,根据理想气体定律

与此同时,

所以,

我们代替方程()和方程(. 1),获得以下注汽井筒蒸汽压力的变化:

b .计算井底蒸汽干燥基于机理模型

在单位时间内,热损失的长度 井筒的 假设下一节3.1。2,我们有

井筒热损失的下降将不可避免地导致饱和蒸汽的能量,这将导致减少蒸汽干燥。我们有

其中, 在这里,

与此同时,

所以,

我们做出以下转变:

因此,方程的解决方案(12)如下:

我们得到以下干燥注汽井筒的损失:

c参数描述

6

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者感谢所有匿名评论者的仔细阅读和有价值的评论如何改进这项工作。这项工作是由中国国家自然科学基金(没有。11601451),成都市(没有的国际合作项目。2020 - gh02 - 00023 hz)和中石化公司的科研项目“重油蒸汽吞吐低耗高效发展总体优化技术”(不:P19018-5)。