文摘

很难确定的主要控制因素由于复杂的油藏地质条件,包括高粘度原油广泛的变化,生产的巨大差异之间不同的恢复方法。在这种背景下,主要控制因素的石油产量在不同的恢复方法进行了分析,获得了基于先验的算法。重油产量的预测是面对问题,如预测精度低和数据使用不足。因此,一种新颖的智能模拟和数据驱动的重油产量的预测模型和时变特征,建立了基于微分模拟,机器学习,和智能优化理论,克服了缺陷的非线性,多因素,拟合精度低的重油开发的动态数据。重油生产时变仿真模型的参数识别的最小二乘支持向量机(LSSVM)实现智能预测的生产。数值实验表明,新型智能模拟和预测模型的预测结果优于BP神经网络模型和GM (1, N)模型。这项研究提供了一个新颖可行的数据驱动的重油产量预测的方法,它可以有助于进一步研究数据驱动的重油产量。

1。介绍

生产预测在重油开发规划具有重要意义。由于重油的复杂地质条件,许多采油方法已经尝试,如循环蒸汽吞吐(CSS),蒸汽驱、蒸汽-重力泄油(SAGD),原位燃烧,toe-to-heel空气喷射(泰国)。许多开发和剥削因素影响重油产量的预测;因此,很难建立一个沉重的石油产量预测模型具有较高的准确性和适用性。

油田开发生产预测的方法主要包括递减曲线方法和机理模型预测方法。Arps下降法是最早的产量递减曲线的分析,研究和研究递减曲线广泛应用于储层天然气开发动态预测、油藏动态预测的基础是(1,2]。阿加瓦尔et al。3)提出了新颖的产量递减曲线分析生产数据从径向和垂直裂缝石油和天然气井。李等人。4]呈现下降分析模型推导出基于流体流动机制,提出了和用于分析石油产量数据从天然裂缝性油藏注水开发的。凌和他(5]导出的控制方程为不同的油藏产量递减结合静态地质和油藏数据与动态生产数据。Jongkittinarukorn et al。6)提出了一种新的方法来提高生产预测和储备估计多层在早期阶段的生产、利用Arps双曲线递减方法模型每一层的递减率。重油水库,有各种回收方法和许多因素影响生产。传统的产量递减方法主要是一个经验方程,它只考虑生产和时间之间的关系,并有一些局限性由于其恶劣的应用条件和应用范围。机理模型预测方法的模型参数有明确的物理意义,研究储层流体流动机制的一个重要手段。一个复杂的数值模拟模型和历史拟合所需的生产预测;随后,新参数替换为修改后的模型来预测生产(7]。然而,模型的解决方案需要很长时间。

最近,人工智能(AI)技术已逐步应用于石油勘探和开发。研究表明,数据驱动的模型执行比经验预测模型(8]。目前,人工智能技术的应用领域的油气田勘探和开发包括对储层物理性质的预测,石油和天然气的性质,可采储量,优化的布局计划,优化水力压裂设计和生产预测。例如,艾哈迈迪et al。9)与发达GA-LSSVM相比传统模型的有效性和GA-FL模型。Al-Marhoun et al。10)利用人工智能技术来预测在加拿大油田原油粘度曲线。巴塔查里亚等。11)使用一个随机森林和一个人工神经网络建立一个监督数据驱动的机器学习模型,并利用支持向量机(SVM)算法理解油井动态和预测每日天然气生产。Davtyan et al。12构造一个预期动态回归模型基于滑动窗口的机器学习方法回归和获得一个稳定的原油生产和长期预测模型预测能力。大多数工程师没有时间分析地质条件、生产系统,大多数井产量递减。然而,人工智能的应用计划可以快速高效地评估性能和预测油井生产(13),可以快速、准确分析成千上万的井,甚至成千上万的井。与常规油藏工程和数值模拟方法相比,数据驱动的人工智能模型简单,具有较强的泛化能力,并能准确地反映生产数据之间的关系的非线性响应(14]。人工智能自学习能力,生产模型建立情报和适应性,可以满足油田生产的需要和发展智力。

机器学习是人工智能的一个重要组成部分的预测方法。机器学习算法包括神经网络、决策树、k——支持向量机,先验的算法,期望最大化算法,k最近邻居算法和朴素贝叶斯算法。先验的算法(15),作为一个经典的关联规则挖掘方法,常用于因素分析。该算法可以找到数据项之间的关系在一个大关系数据集和已应用于许多领域。支持向量机拟合精度高,预测指数之间的关系和影响因素;因此,它通常用于石油和天然气储层的动态分析开发和生产预测。例如,钟等。16)利用SVM预测超高含水油田的发展指数在中国东部。Elhaj et al。17]结合神经网络和支持向量机来预测气藏的单井流量。彭et al。18)与LSSVM结合支持向量机和粒子群优化算法来预测油气田产量。根据油井生产的历史数据,Machado de Almeida Duque et al。19]分析了六个机器学习算法的预测效果对原油产品,并验证表明,支持向量机和逻辑回归模型有最好的预测效果。然而,经常使用支持向量机作为一种非线性拟合工具在原油生产预测实现单变量时间序列预测或多元回归的预测生产,没有完全考虑到油田发展指数本身的变化趋势。

灰色理论是邓小平提出的(20.和近年来已得到广泛的应用21- - - - - -23]。Kumar和耆那教徒的21)使用Grey-Markov和GM(1, 1)模型与滚动机制,预测印度的能源消耗。在[22),使用灰色模型预测方法对循环荷载作用下的累积塑性变形。Pao和蔡23)使用GM(1,1)模型来预测巴西的能源消费与ARIMA模型相比。主流灰色灰色预测模型包括单变量模型和多变量灰色预测模型,如GM(1, 1)模型(20.),离散灰色模型为副总经理(1,1)[24),分数累积灰色模型FAGM (1,1) [25),GM (1, N)模型(26],为副总经理(1,N)模型(27]。灰色预测更关注预测指数的变化趋势本身,克服了缺陷,SVM未能注意预测指数的变化趋势。灰色预测模型的参数是重要的影响因素的灰色预测模型的性能。一般来说,使用最小二乘法估计参数(28]。基于残差平方和最小优化、最小二乘方法容易陷入局部最小值。当它应用于重油产量的预测与强烈的非线性,获得的结果会显著偏离。相反,最小二乘方法稳定性差,不能适合中长期生产预测,从而影响精度的预测模型29日]。

在这项研究中,先验的算法用于确定不同的重油复苏方法的主要控制因素,建立了时变多灰色预测模型,并使用LSSVM确定生产预测模型参数。LSSVM的应用灰色模型的参数识别不仅确保历史高精度拟合也充分考虑状态变量本身的变化趋势,解决了大偏差的问题在生产预测的灰色模型,并实现智能重油产量的预测。

本文的其余部分组织如下。节2的主要控制因素,确定重油生产。节3,一个智能模拟和预测模型建立了数据驱动的重油产量。节4我们进行数值实验和分析模型的应用程序。最后,结论部分5

2。测定重油产量的主要控制因素

许多因素影响重油的生产。在不同的恢复方法,这些因素可能会扮演不同的角色,这很难确定生产的主要控制因素。在这项研究中,介绍了先验的算法进行关联分析,和强关联规则开采原油生产。然后,每个因素之间的关联度和重油产量排名皮尔逊相关系数,和重油生产的主要控制因素是最终决定。

2.1。K数据离散化方法

每一列的数值动态原始数据集的重油开发是相似的和有很强的连续性和足够的歧视,这是不利于使用关联规则算法来分析数据。之前推测的算法被用来分析重油的生产数据,这些数据是离散集数据并转换为相应的逻辑特征。在这项研究中,k聚类算法则用于实现的离散化处理的原始数据集油田生产。

具体步骤如下:(1)选择k重心,C1,C2从数据集,…,Ck作为初始聚类质心。(2)每个示例集群中心的欧氏距离计算,并且每个样本被分配到最相似的原则。根据最近的距离集群中的所有对象的平均值代表集群重心。对于每个点Vj,集群重心Cj是发现。如果距离d(Vj,Cj)之间的最小值,Vj被分配到j设置。(3)通过这种方式,所有数据样本分配到相应的设置,和最初的重心Cj每个集群的使用上面的方法重新计算。(4)继续跟踪循环步骤(2)和(3),直到部门的数据不再变化。(5)取得最小值

1显示的数据离散化流程图k实现方法的聚类算法。

2.2。先天的影响因子分析算法重油产量

先验的算法使用一个迭代的方法称为逐层搜索寻找频繁项集与原油生产基于给定的最小支持度,然后获得强关联规则与原油生产基于最低程度的信心。先验的关联规则分析四个基本定义:频繁项目集,关联规则支持度和信心。频繁项目集是指经常出现的数据集,和频率根据支持程度决定,而支持度的概率是指一组数据中出现。例如,在方程(1),XY代表要分析的两个人,支持度定义如下:

关联规则是指两个人之间的关系,这是衡量信心,见以下方程:

对于一个给定的规则XY信心值越高,越有可能Y是出现在一个事务涉及X。信心也可以估计的条件概率Y在给定的条件下X条件,条件概率的关联规则。的关联规则(min_sup)满足最小支持度阈值和最小信任阈值(min_conf)称为一个强有力的规则。这两个阈值在0%和100%之间。关联规则挖掘的任务是确定强关联规则与原油生产数据。

先验的算法的具体步骤如下:(1)首先通过迭代找到所有1项集更新方法,然后根据相应的支持程度进行判断,并消除那些低于最小支持度,和其余频繁1项集。(2)把所有频繁1项集合在一起形成2-item集,屏幕2-item集根据最小支持度,消除那些支持程度较低,其余的都是实际2-item频繁集。如果不断迭代进行,频繁l+ 1项集,然后,他们消除了根据最小支持度获得最终产品频繁的结果l项目集。图2显示了先验的算法的流程图。

2.3。序列的重质油生产的影响因素

通过分析影响因素的重油生产使用先验的算法、关联规则的因素可能会影响重油的生产。排名程度这些因素的基础上进行皮尔逊相关系数来确定重油产量的主要控制因素。与每个潜在影响因素影响重油产量作为一个独立变量 和重油产量作为因变量y,相关系数计算如下: 在哪里= 1,2,…p,j= 1,2,…p,

皮尔森相关系数是比产品的两个变量的协方差和标准差,和它是一个无量纲的标准化的协方差。线性变化不影响皮尔逊相关系数的结果,所以单位改变横坐标和纵坐标的值不会改变r,即r价值观不同的单元数据具有可比性。根据方程(3),可以计算相关系数判断自变量对因变量的影响,对影响因素进行排序,并确定重油产量的主要控制因素。

3所示。智能模拟和数据驱动的重油产量的预测模型

许多因素影响重油产量,和动态变化不同;因此,很难准确地预测的石油生产。在前一节中,作者的主要控制因素进行了分析和确定重油生产使用先验的算法。在此基础上,一个沉重的石油生产模拟和预测模型的建立多因素时变系统在本节中,考虑到影响的主要控制因素对重油产量。与此同时,提高模型的参数识别,和一个新的智能模拟和预测模型基于时变的重油产量。

3.1。建立时变智能仿真模型
3.1.1。建立数据集重油生产的主要控制因素

数据反映出有效信息的准确选择和消除干扰的数据是必不可少的数据驱动模型的预测能力。一般来说,可以消除异常数据,但对于动态油田开发系统,考虑到油田发展指数从时间序列的角度可以更好地反映整个油田开发的动态规律,并采用消除过程将导致不便后续建模。因此,对于丢失和异常数据x()在本研究中,以前的几何平均和随后的相邻数据,x(一个),x(b),被认为是估计的价值x()修复数据:

历史信息生产和它的主要控制因素。根据生产的主要控制因素对应不同的重油复苏方法,重油产量作为生产系统和主要控制因素的生产系统的输入;数据表(表1)按时间顺序排列。

沉重的石油产量影响因素上的数据是不一致的尺寸,和数量差异很大。如果这些数据没有进行无量纲处理,“大量吃少量”的现象很容易发生,导致不精确的处理结果。在这项研究中,采用中值转换为无量纲处理:

削弱了历史数据的随机性,应该积累和无量纲数据建立关联模型。

的原始数据进行无量纲处理重油产量和主要控制因素指数( )根据方程(历史数据表5)来构造一个无量纲时间序列进行处理:

积累相应的一阶方程的无量纲数据序列(6)构造和表示如下: 在哪里

上标1代表第一个无量纲数据的积累。

此外,构建相应的二次堆积序列使用无量纲方程(7),这是表示如下: 在哪里

上标2代表第二积累原始无量纲的数据。

重油生产数据表(表1)是一种无量纲处理和二次积累数据表,终于可以得到无量纲处理后重油产量和主要控制因素和次要积累,降低了历史数据的随机性。

3.1.2。建立模型

根据灰色理论,二次积累时间序列指数变化的性质,也就是说,它可以建立关联模型的微分模拟重油生产:

在方程(9), :随时间变化的函数的无量纲处理后石油生产和次要的积累 :的随时间变化的功能jth重油生产无量纲处理后的影响因素和次要的积累

基于历史数据,参数一个B1,B2、…Bj使用最小二乘方法确定方程(9)和离散获得以下:

如果方程(10)用于一步推断,可以进行多步预测:

当方程(11)用于推断和多步预测,参数与最新的信息没有更新,导致不准确的预测。因此,当方程(9)用于多步预测,它是一个时变系统,关联模型方程(12)的石油生产基于时变系统可以获得:

在方程(12),参数的识别一个(t),B1(t),B2(t),…Bj(t)是基于历史数据的重复周期。

3.2。LSSVM-Based模型参数识别

当执行多步预测的时变智能仿真模型,使用最新的信息来识别模型参数在每一步。模型参数随时间变化,预测精度更高。在方程(12),时变参数一个(t),B1(t),B2(t),…Bj(t)的模型得到了基于历史数据的重复周期。尽管他们可以充分反映预测结果之间的关系和主要控制因素和状态变量的变化趋势,计算偏差指数增加,增加时间步长,从而导致不精确的多步模拟和预测。这种不精确的本质是积累误差的最小二乘方法对时变系统的参数识别。

克服的缺点使用传统的最小二乘法来估计模型参数,提高精度的多步预测时变智能仿真模型,提出了一种LSSVM-based方法来估计模型参数。因为高精度LSSVM的配件,它可以避免造成的累积误差的快速增加识别参数的最小二乘法。该方法遵循结构风险最小化的原则(30.),该算法快速、准确。

缩写为 缩写为 ,和训练样本

考虑非线性回归模型: 在哪里 是一个非线性函数。非线性映射 ,在哪里F高维特征空间,得到如下: 在哪里

代入方程(13)(14),非线性回归模型可以写成:

定义一个错误变量:

考虑到优化问题: 在哪里C是惩罚因子。

在方程(解决这个问题17),构造拉格朗日函数优化问题转化为一个无约束的问题。考虑下面的拉格朗日函数: 在哪里 是一种乘数的语言。

考虑到Karush-Kuhn-Tucker(马)下面的条件:

代入方程(18)和(21)方程(22)和消除 ,以下线性方程组可以通过联立方程(20.)和(22): , , ,n阶单位矩阵。矩阵中的元素 被定义为 在哪里 是一个内核函数,满足Mercer的条件31日]。在这项研究中,径向基函数(RBF)被选为核函数:

代入方程(19)和(24)非线性回归模型(15),可以获得以下:

拉格朗日乘数的值 b可以直接使用系统解决线性方程(23),参数值可以替换成(26)获得的离散时变参数估计方程(12):一个(t),B1(t),B2(t),…Bj(t)。

3.3。聪明的重油产量的预测

状态方程可以通过根据协会执行离散化处理模型方程(12)重油生产基于时变系统:

使用LSSVM参数识别的一个( )B1( ),B2( ),…,Bj( )。

最后,减少二次执行 获得 ,维度是减少获得重油产量的预测价值。因此,根据方程(27),如果生产主要控制因素的预测在给定时间(如蒸汽注入体积、油井打开,注蒸汽干燥,和蒸汽喷射压力),预测生产可以获得。

4所示。模型应用程序和结果分析

一个智能仿真数据驱动的重油产量预测方法应用于油田在中国,和各种重油产量预测的例子。在这项研究中,生产预测是研究使用CSS和SAGD为例。

4.1。测定重油的主要控制因素

分析数据来源于200年的生产数据CSS开发单位和200 SAGD开发单位在重油油藏在中国。先验的算法和皮尔森相关系数是用来确定影子重油产量的主要控制因素。

之前推测的算法被用来分析重油的生产数据,对数据进行预处理和转换成相应的逻辑特征集数据。在这项研究中,k算法在Python中使用,则K值被设置为4,连续样本数据离散编号分为四个水平。CSS和SAGD的离散化结果生产和蒸汽注入数据下图(图所示3- - - - - -6)。

根据相同的方法,样本数据的蒸汽吞吐的所有可能的影响因素和SAGD开发离散成四层编号,和总标签规则如表所示23

CSS和SAGD生产数据转换成一个逻辑数据表(表45)。

使用Python编程实现和获取先验的关联规则,如表所示67

之间的皮尔逊相关系数影响因素的石油生产和每个影响因素计算,和协会的热力学图绘制(数字78)。

通过比较之间的关系影响因素的CSS和SAGD生产重油,CSS和SAGD生产的主要控制因素(表获得8)。

4.2。聪明的重油产量的模拟和预测

三个统计标准被用来评价模型的预测性能:确定系数(R2)、根均方误差(RMSE)和平均绝对百分比误差(日军)。

R2用于识别建模的观察和数据之间的拟合优度值,定义如下:

据RMSE是其中一个最分歧和表明预测的准确性,定义如下:

日军是用来评估的总体预测性能预测模型,定义如下: 在哪里 是实际的价值, 是预测值, 是实际值的平均值。

CSS和油田SAGD被选为24个月开发连续监测数据从2018年到2019年,并得到实际的数据信息,如表所示910。表9显示了重油的CSS生产之间的关系()注汽量和主要控制因素(x1),油井开放时间(x2),一轮CSS (x3)、注蒸汽干燥(x4)和注汽压力(x5),表10显示了SAGD生产之间的关系()注汽量和主要控制因素(x1),油井开放时间(x2)、注蒸汽干燥(x3),注汽压力(x4)和注汽温度(x5)。

在这项研究中,两个传统的预测方法,BP神经网络模型(M1) [32)和GM (1, N)模型(M2) (33),选择比较的数据驱动的智能模拟和预测模型的预测效果为重油生产(M3)。重油的头18个月生产数据用于模型参数训练,最后6个月的生产数据被用来评估模型的预测效果。三种预测模型被用于预测CSS和SAGD生产,分别,结果如表所示1112

11表明,日军M3的训练和预测数据的值是7.65,和4.89,分别。M3的RMSE模型是10872,低于其他两个模型的价值,反映出模型M3的优越性;R2M3的模型更接近于1,表明M3模型具有良好的预测效果。基于这三个评价指标的分析,模型M3 CSS有最好的预测影响生产的三个预测模型。

12表明,日军M3的训练数据和预测数据的值是7.65,和2.78,分别。M3的RMSE模型是4878,低于其他两个模型的价值,反映出模型M3的优越性;R2M3的模型更接近于1,表明M3模型具有良好的预测效果。基于这三个评价指标的分析,模型对SAGD生产M3有最好的预测效果的三个预测模型。

9显示生产预测结果的对比曲线模型M1, M2, M3, CSS和预测值与原来的数据,和图10显示生产预测结果的对比曲线模型M1, M2, M3 SAGD原始数据。有24组数据测试总共的头18集数据模型参数训练数据,和其余的6组数据用于测试该模型预测的结果。

如数据所示910智能仿真模型的预测能力(M3)的数据驱动的重油生产比其他的两个预测模型。模型M3重油生产具有较高的预测精度和更好的适应性在重油油藏不同的恢复方法。

5。结论

基于不同的重油复苏方法的特点,本研究使用混合数据驱动的方法来确定重油生产的主要控制因素,建立了智能模拟预测模型对重油生产基于这些主要控制因素。使用数据驱动的预期效果的智能模拟和预测模型预测重油生产比BP神经网络模型和GM (1, N)模型在相同的数据条件下。智能模拟和数据驱动的重油产量的预测模型能够准确地预测重油的CSS和SAGD生产,表明该模型具有良好的适应性重油产量与不同的恢复方法,预测和模型可以用来预测重油产量。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分支持的四川(没有的主要程序。20 qycx0030)。