文摘

本研究着重于推导简单线性回归模型的系数和二次回归模型使用分数微积分。工作证明,有一个光滑的经典部分运营商和运营商之间的联系。此外,它也表明,经典最小二乘方法用于获得系数线性和二次模型被视为特殊情况提出了更一般的分数阶导数的方法。

1。介绍

分数阶微积分初步概念(FC)可以追溯到十七世纪牛顿,莱布尼茨,L '医院讨论初步想法,揭示对俱乐部未来的发展。经过相当长的时间之后,数学家们回到讨论足球俱乐部的想法。1819年,拉克鲁瓦1)提到的任意阶的导数。欧拉和傅里叶也提到了一个任意阶导数。第一个应用程序是由亚伯(21823年)。罗斯(3)提供了一个历史跟踪FC的基础理论。

FC上世纪以来的最新研究趋势关注的调查在现实生活中的应用问题。产生成千上万的文章在这方面,研究者们从不同的分支科学,他们展示了古典微积分中定义的一些问题可以转化为俱乐部的问题。另一个类的研究领域包括那些不仅定义分数微积分的方法解决问题,但他还设法展示他们的作品,FC可能比其经典同行更高效的解决问题。在这两种情况下,它是常见的人员来支持他们的俱乐部找到类似的结果与经典微积分。

分数微分方程是FC的一部分,大量的工作已经开展旨在证明的力量在经典微分方程方法。作品进行沿着这些思路和应用生物学(4,5)、物理(6),和金融(7只是几个提到。一些最近的工作在俱乐部找到值得提及,例如,在8),作者研究了弯曲梁的使用分数微分方程。Sumelka et al。9)新配方的经典Euler-Bernoulli梁使用分数微积分理论。Stempin和Sumelka10]研究了弯曲分析nanobeams旨在改善space-fractional Euler-Bernoulli梁(s-FEBB)理论。Sidhardh et al。11]。提出了他们的研究结果在他们的研究分析和几何非线性有限元模型的建立和分数阶Euler-Bernoulli光束的非局部模型。nanobeams的尺度依赖的弯曲行为是研究Oskouie et al。12)采用Euler-Bernoulli梁理论,通过分数微积分获得的非局部效应。

分数微分方程的解决方法并不一定喜欢古典微分方程。因此,研究人员希望定义一个部分问题的模型和比较它与现有的经典模型,同样的问题。这样的方法吸引了我们的注意力,调查的存在之间的平稳过渡FC和古典微积分进行研究。

在这项工作中,我们选择调查系数的推导过程简单的线性和二次回归使用FC。它已成为明显的是,部分的解决方法提供了一个更通用的解决方案。因此,经典的解决方案就会变得部分解决方案的一个特例。这项工作的目的是为分数阶微积分应用奠定基础的统计数据。这是调查延长评估分数微积分可以直接使用一个统计模型的参数。因此,我们主要关注证明部分模型定义良好的解决这个问题。

2。推导线性和二次回归的系数

经典的线性和二次回归的方法将在本节中讨论。的确,这是两个模型数据拟合与许多应用程序在各分支科学。一般来说,这些模型是用来配合实验中收集的数据有一个预测,也称为自变量X和一个依赖或响应变量Y。使用数据集应该做的对 ,在哪里n是样本容量。一个简单的线性模型被定义为 在哪里 是斜率, y拦截。方程(1)是书面提供有一个确定性的独立变量之间的关系X和响应变量Y。然而,在实践中,这种关系并不存在实验收集数据本质上是随机的,包含随机错误。使用最小二乘法最小化误差拟合线性模型时可用的数据。据统计,简单的线性模型是一个最适合的数据集。然后,(1)成为 的变量 代表了随机过程中的错误。此外,它假定 介绍的估计系数 表示他们 ,分别拟合模型

回忆对实验数据 ,并表示拟合的模型 ,由此可见,可以表示为随机误差

系数 计算使用最小平方误差法是那些最适合的模型(1)。鉴于平方误差的总和(SSE)观察和安装之间的数据点用 (所示13]的简单优化(5)帮助找到的最优值 作为

使用类似的方法,最优系数的二次模型计算。给定一个实验数据集 ,其散点图展览的向上或向下凹度表明二次模型是合适的。确定的二次模型被定义为 ,否则,变成了线性模型。

因为在实践中,实验数据集要合身,和一个随机误差项。因此,(7)成为

的变量 代表了随机性在这个过程中, 的估计 ,分别拟合模型

回忆对实验数据 ,和相应的拟合模型对 ,可以表示为随机误差

系数 , , 使用最小二乘误差计算方法是那些最适合的模型(7)。的平方误差的总和(SSE)观察和安装之间的数据点用

的最优值系数 , , 很容易由以下3方程组获得(11)。

结果在当前部分是基于牛顿的微积分。在下一节中,模拟结果是使用FC。

3所示。推导部分线性和二次回归的系数

本节给出了类似的结果在前一节中获得基于FC。我们倾向于定义和使用FC工具时是必要的。我们认为(定义的线性模型的问题1SSE设置(后)5)。目的是使用分数部分分数阶导数计算最优拟合模型的系数。

定义1(见[3])。Riemann-Liouville部分积分 为一个函数 被定义为 提供积分的右边是逐点定义 , 是伽玛函数。

定义2(见[3])。卡普托导数 为一个函数 被定义为 在哪里 的整数部分是吗

定义3。两个变量的函数f部分偏导数的秩序对被定义为一个变量

引理1。我们考虑这样 , 此外,让 ;分数积分 是一个明确的数字。

引理的证明1它是通过分部积分。事实上,设置 是一个很好的提示去到解决方案。
最小化(SSE定义的5执行)为了获得最好的系数 利用分数阶导数。结果给出了一些定理及其证明如下:

定理1。我们认为定义的简单线性模型(1),最好的拟合模型的系数(5)使用分数导数给出 ,在哪里代表的分数阶导数。

定理的证明1使用分数导数。事实上,上交所的最小化,(5编写部分分数导数),使用如下: 这意味着 其他系数推导相似。的确,让计算偏导数 然后, 最后导致以下方程 ,在这 获得一个紧凑的形式插入B1如下: 导致最后方程 这个定理的证明1
上交所的二次模型定义为(11),FC工具可以用来计算系数 , , 的拟合模型。下面给出定理和证明的断言。

定理2。考虑到二次模型(7),至少square-based系数的拟合模型(9)计算使用分数导数,将最适合的模型如下:

定理的证明2证据是通过上交所的最小化,(11)使用分数阶导数。简化计算过程,上交所展开如下: 应用部分分数导数扩大SSE,方程(19)导致 它遵循从(20.), 类似的方法应用到那些由(19)和(20.),其余系数给出如下: 这个定理的证明2
很明显,二次模型的估计系数(见方程(21)- (23)相互连接,使其难以独立计算其中任何一个。在这方面,方程(21)- (23)排列形成一个方程组,(24同时)表达和计算系数。 方程(24)是在一个矩阵形式写的 模型拟合优度措施如何通过模型目标数据可辩解的。确定系数, 是一个流行的拟合优度指标用于回归分析。计算使用回归(SSR)的平方和误差也称为可辩解的误差平方偏差的总额的数据从它的意思。

定义4。我们考虑一个数据集 格式, 是预测和 响应变量。让 通过线性回归模型拟合响应变量。模型的确定系数计算如下: 在实践中, 的值为0意味着模型不能解释的目标变量,而值为1意味着模型是完美的,因此解释整个目标数据集的变化。
的平方根 是一个新的度量叫做相关系数的绝对值表示吗 在实践中,而不是使用(26)来计算 ,一个可以计算相关系数的平方。计算 与的值为0意味着表达没有相关性 ;而1和1的值意味着完美的消极和完美的正相关,分别。
的斜率定义的线性回归模型(3)。让 , 的标准偏差 ,分别。存在之间的关系 定义为 ,它遵循从(27), 扮演类似的角色在决定是否之间的线性关系 是积极的还是消极的。除了他们的共同关系, 决定回归线的陡度。不像 局限于封闭的区间[0,1]和[−1,1],分别 是没有单位的,它的大小只取决于数据集的范围

4所示。实验和比较

本节旨在模拟公式建立在以前的部分。两个数据集。

的第一个数据集从Kaggle检索数据库(14)由两个变量,预测的数量(变量x)是多年的工作经验的员工,而响应变量Y是美元的年薪。数据集的散点图显示了一个线性趋势(见图1(一))。下一个图1(一)是图1 (b)代表三个不同的模型旨在适应数据集。蓝线是线性回归古典意义上的,而灰色和棕色线表示分级模型,分别= 0.98,= 1.01。这些线是为了说明该模型的行为。全球趋势错误率的经典方法和分级方法如图1 (c)。事实上,所有可能的值的分数区间[0.9 - -1.3]被认为是使用一个步骤h两个值之间= 0.001。这导致了总共400个可能的值。每个值是用于构建分级模型,并使用公式的拟合误差率计算中发现的(15]。这是观察到的分数阶导数的同时,经典的一阶导数,这两种方法都产生相同的错误率。这是明显的,该方法是定义良好的,存在一个平稳过渡的部分经典的方法在这种情况下。

的分数阶导数伴随着古典方法,模型的相关系数 和确定系数 ;标准偏差 模型的斜率 这些信息会导致的结论是,超过95%的工资的变化取决于许多年的经验。的关系是积极的,这意味着加薪和多年的经验。

第二个数据集,从联合国数据库检索(16由两个变量;预测(变量x)是在1970年和1995年的指标,和响应变量Y是波斯尼亚和黑塞哥维那在这些年内人口。数据集的散点图显示有些二次趋势(见图2(一个))。旁边是图2 (b)代表三个不同的模型拟合数据集。蓝色曲线是经典的二次回归,而灰色和棕色曲线代表分级模型,分别= 0.98,= 1.001。这些曲线是为了说明该模型的行为。全球趋势错误率的经典方法和分级方法如图2 (c)。事实上,所有可能的值的分数区间[0.9 - -1.1]被认为是使用一个步骤h= 0.001。这导致共有200个可能的值。每一个值是用于构建分级模型,模型的错误率是计算使用公式中发现[15]。是观察到的分数阶导数的同时,经典的一阶导数,这两种方法都产生相同的错误率。这是明显的,该方法被很好地定义,和类似于线性情况下,平稳过渡的部分经典案例是可观测的。

该方法有许多潜在的应用。特别是,分数导数的方法提出了工作似乎是一个强大的替代估计模糊系数的模糊线性模型。一些作者研究系数计算的线性模型的预测但模糊响应(17- - - - - -19]。在一本章在模糊线性回归17),作者提出了蒙特卡罗方法建立模糊系数的置信区间估计。获得的系数被写成一个三角模糊数。更有趣的事实是,蒙特卡罗模拟耗时,因为它需要大约30分钟来完成这个过程。基于实验研究,我们认为两个部分衍生品1的分数从两侧将高效足以建立这样模糊系数。这不是在当前工作的范围,但表示方法将在即将到来的调查工作。

5。结论和未来的工作

在这项工作中,我们研究了计算系数的简单线性回归和二次回归使用结果分数导数表达式的回归系数的线性和二次模型是建立在分数的方法。他们的解决方案研究,并应用于两个不同的数据集。此外,平稳过渡之间观察到的经典模型和分级模型两种模型一致的分数阶导数=1。另一个有趣的事实值得深入调查在未来的工作是确定该分数的方法可以是一个强大的替代工具蒙特卡罗和其他方法用于估计模糊系数模糊回归分析。这一工作成果的进一步研究奠定基础,调查其他统计方法使用FC方式。

对未来的工作,研究人员可以研究提出一种改进的回归系数估计使用不同类型的分数导数,如卡普托Psi-Caputo,阿达玛部分衍生品和试图比较每个通过统计方法估计的准确性。

数据可用性

两个数据集用于本文的实验部分。第一集“薪资数据的简单线性回归”是免费在这个网址:https://www.kaggle.com/search?q=simple +线性回归。第二集“波斯尼亚人口”在自由访问以下网址:https://population.un.org/wpp/Download/Standard/Population/

的利益冲突

作者宣称没有利益冲突。

作者的贡献

每个作者,硕士及Y.Y.Y, Y.T.,和K.A. contributed to each part of this work equally and read and approved the final version of the manuscript.

确认

这项工作是支持通过年度资金跟踪科研院长以来,研究生学习和科研的副总统,费萨尔国王大学、沙特阿拉伯(项目号AN000648)。因此,作者承认在KFU安全域的技术和财政支持。