文摘

本研究介绍了部分功能的线性空间自回归模型可以探索一个标量空间依赖反应变量之间的关系和预测变量包含多个标量协变量和函数协变量。与功能系数近似Karhunen-Loeve表示,我们提出拉索贝叶斯自适应方法来同时估计未知参数,选择重要的协变量模型,可由吉布斯采样器和pmmh相结合的算法。进行一些模拟研究,结果表明,提出的贝叶斯方法的行为。

1。介绍

电子技术的快速发展,先进的测量工具的出现,大量的数据可以被收集和存储成本。特别是,科学家们通常面对数据提供的信息曲线,表面,或其他与连续变量不同,如经济指标、核磁共振数据,气象数据,股票数据。这种类型的数据结构被称为功能数据和已经收到越来越关注水平在不同的应用领域,包括金融工程、环境科学、医学、脑成像和公共卫生。因此,许多有用的功能提出了回归模型,并有大量的功能数据分析工作;参见[1- - - - - -5),等等。特别是,它经常发生在数据建模相关响应预测变量包括标量函数协变量,反是指部分功能的线性模型(PFLM)。最近,很多研究工作已经导致PFLM。例如,胫骨[6)建立回归系数估计的渐近正态性和收敛速度的估计的功能系数提出了部分功能的线性回归模型。基于Shin的结果(6陆,et al。7]介绍了功能部分分位数回归模型和提出的估计的大样本性质。Yu et al。8)调查了部分的参数的假设检验组件功能的线性回归。基于不完整的数据,周和彭4]讨论了功能部分线性模型当一些随机响应人失踪。Yu et al。9]研究了单个索引部分功能的线性回归模型,得到了产生的收敛率和渐近正态估计量。总之,最上面的引用担心个人功能回归模型是相互独立的,没有空间依赖结构响应变量。据我们所知,相对很少有研究进行了响应变量是空间相关的变量在函数数据分析。

众所周知,大量的模型和方法用于处理空间依赖变量。一个有用的方法在处理空间相关性是空间自回归模型,获得了极大的兴趣统计和计量经济学家。例如,刘等人。10)研究变量空间自回归模型的选择独立且相同的基于分布式错误惩罚quasi-maximum可能性的方法。谢et al。11)考虑在空间自回归模型进行变量选择与不同数量的参数。基于b样条逼近的思想和工具变量,Du et al。12)提出了一个估计方法获得的部分线性空间自回归模型和添加剂产生的收敛速度和渐近正态估计量。苏和金13)开发的部分线性空间自回归模型的统计推断使用内核估计方法和quasi-maximum可能性的方法。然而,上述论文主要关注的是实值变量预测变量。

相反,由于最近大幅进化先进的计算技术,许多学科领域基于数值近似迅速发展,如(14,15]。这些字段的最大受益者之一是贝叶斯统计。具体来说,贝叶斯模型允许一个将适当水平的不确定性;因此,贝叶斯适合各种统计模型近年来也得到了大量的关注。例如,基于方差建模技术和样条逼近,徐、张(16]讨论了半参数联合均值和方差的贝叶斯推理模型。吉布斯采样器结合pmmh算法,唐et al。17]研究了贝叶斯估计和贝叶斯局部影响分析转换的线性混合模型,随机效应遵循一个未知分布。Pfarrhofer和Piribauer18]提出两个收缩先验贝叶斯变量高维空间自回归模型的选择。小王和唐19)认为贝叶斯推理的分位数回归模型存在nonignorable失踪的协变量。赵et al。20.]研究了贝叶斯组合分位数回归与自适应集团套索点球。然而,我们所知,很少有工作的贝叶斯分析功能的线性空间自回归模型。特别是,贝叶斯变量选择这个模型几乎从未被研究过。此外,空间相关性是一种常见的数据特性功能分析等领域气象、经济计量学、海洋学、环境科学。因此,研究功能的线性空间自回归模型有很强的应用背景。因此,在这项研究中,我们将介绍拉索贝叶斯自适应方法的函数线性空间自回归模型的基础上,混合算法结合吉布斯采样器和pmmh算法,这是这种模式的尝试。

本研究的大纲如下。节2介绍部分功能的线性空间自回归模型,然后给似然函数的近似函数系数使用Karhunen-Loeve表示。节3拉索,以提供一个贝叶斯自适应过程,我们指定的先验分布,推导出完整的条件分布的未知参数,然后详细描述了抽样算法结合吉布斯采样器和pmmh算法。为了说明提出的方法,给出了一些模拟研究的结果4。这项研究的结论部分简要讨论5

2。模型和可能性

2.1。模型

在这项研究中,我们考虑下面的部分功能线性空间自回归模型: 在哪里 是一个实值空间相关的响应变量, 是一个 - - - - - -维随机变量 是一个零均值,二阶随机过程属于 , 此外, 一个给定的th元素 空间权重矩阵 对角元素为零,即 ,对所有 除此之外, 是一个 - - - - - -空间的未知参数, 是一个未知的平方可积函数 , 年代是相互独立同分布正常随机变量与零均值和方差

接下来,为了方便起见,我们使用矩阵和向量符号来表示变量和模型。表示 , , 然后,模型(1)可以写成 的随机误差 是一个 单位矩阵。

2.2。可能性

功能模型的一部分涉及到无限维的变量和未知参数,所以我们首先将无限维度问题转换为一个有限维的问题。具体来说,定义函数变量的协方差函数 及其经验的版本,分别 一个线性算子定义为协方差函数 ,映射函数 给出的 假定的线性算子的内核 是正定的。美世的定理,协方差函数的谱分解 可以表示为 ,分别在哪里 分别是有序线性算子的特征值与内核 相应的标准正交特征函数。显然,序列 每个表单一组标准正交基 因此,根据Karhunen-Loeve表示,我们有以下扩展: 在哪里 不相关的随机变量与零均值和方差吗 , , 代表内积。更多的细节也可以发现在拉姆齐和西尔弗曼21]。结合(2)和(3),我们重写模型(2),

因此,模型(4)可以近似如下; 在截断参数 通常截止电平和发散 我们替换 与相应的估计量 ;因此,我们可以把模型(5), 在哪里

然后,我们可以获得模型的似然函数(5): 在哪里

3所示。贝叶斯自适应套索

3.1。先知先觉

在这项研究中,贝叶斯方法估计未知参数实现 , , , 执行它,我们应该任命一个模型的未知参数的先验分布。首先,我们需要指定的之前 并考虑拉索贝叶斯自适应方法在本研究拉索贝叶斯版本的自适应方法。具体来说,根据贝叶斯自适应的套索,分层先验 考虑如下:

换句话说, , 上述层次先验导致以下条件独立的双指数前密度 : 这表明, , ,在哪里 表示双指数密度函数。根据贝叶斯定理,我们可以得到的后验分布 : 这意味着后的估计 只是拉索自适应估计量的 一般来说,一个大 对应于不重要的变量,而小 对应的重要变量。因此,我们可以使变量选择的价值 特别是,如果所有的值 是相等的,上面的过程成为著名的拉索贝叶斯方法。使贝叶斯分析,在这项研究中,我们使用分层贝叶斯方法选择调优参数 通过对 作为一个随机变量。注意,调优参数 大于零,所以自然要考虑伽马之前。在这里,我们把伽马之前 而不是 为方便取样。具体来说,γ之前 给出如下: 在哪里 是预定义的hyperparameters。此外,先验的参数 是选为 ,在hyperparameters 是假定为已知向量或矩阵。除此之外, 被逆伽马(IG(表示为 , ))的密度函数 ,在哪里 正数。在这项研究中,我们关注的是案件的先验分布的参数模型是上面列出的如正态分布、逆伽马和均匀分布。然而,该程序可以很容易地修改其他特定的先验分布。因此,联合之前所有的未知参数

3.2。后推理

,我们需要估计未知参数 基于似然函数(7)和先验(12),联合后验分布 是由未知的参数

使贝叶斯推理的基础上联合后验分布(13),我们首先得到完整的条件分布的未知参数,然后构造pmmh的吉布斯采样器采样算法生成后的样本全部条件分布如下。(我)充分条件分布 : 在哪里 , (2)充分条件分布 : 在哪里 (3)充分条件分布 : 在哪里 参数化的逆高斯密度函数是由 (iv)充分条件分布 : 在哪里 (v)充分条件分布 : 在哪里 (vi)充分条件分布 :

因此,基于的条件后验分布(14)(20.),我们可以构造一个高效的MCMC-based抽样算法生成后样品中总结了算法1。很容易看到的条件后验分布(14)(19)是一些熟悉的分布,如逆高斯,逆伽马,γ和正态分布。因此,它是快速和方便的生成后这些标准的样本分布。然而,的条件后验分布(20.)非标准密度函数和相当复杂;很难直接观察画在此基础上完整的条件分布。我们喜欢著名的pmmh算法来克服困难。首先,我们选择了正态分布 作为建议分布, 选择这样的平均录取率大约是在0.25和0.45之间(Gelman et al。22])。然后,pmmh算法实现如下:在 与当前值迭代 ,一个新的候选人 生成的 和被接受的概率:

因此,我们可以获得后的采样算法在算法1具有融合的联合后验分布(13老化后)。这时,一个获得M模型样本总数 可以通过收集该混合算法。因此,参数的贝叶斯估计 分别定义如下:

输入:设置初始值 ,和采样算法的迭代次数
输出:后样品的序列
获得迭代:列出如下(详细的吉布斯采样器周期)
做的事:
(1) 样本 ;
(2) 样本 ;
(3) 样本 ;
(4) 样本 ;
(5) 样本 逆高斯分布 ;
(6) 样本 从(20.)基于pmmh算法。
结束

4所示。模拟研究

在本节中,我们研究提出的性能通过蒙特卡罗模拟模型和贝叶斯估计方法。生成的数据集从以下部分功能线性空间自回归模型: 在哪里 遵循多元正态分布 ,在这里 , 有一个更好的比较,我们认为两个不同的值 1,代表强和弱的信噪比。此外,我们把空间参数 ,描述了不同的空间相关性和依赖性的方向。类似于谢et al。11),将权重矩阵 ,在哪里 是一个维向量和所有元素1和 克罗内克积。功能的情况下,我们以相同的形式为胫骨(6];换句话说,功能系数 ,在哪里 作为独立的正常分布与零和方差意味着什么 在仿真中,我们考虑noninformative hyperparameter值未知参数的先验信息类型 : 在哪里 是一个 - - - - - -维向量的所有元素是0。此外,我们选择 50和100 是3;因此,样本的大小 等于150年和300年。在我们的数值研究,我们选择截断参数 这样,第一 功能主成分的得分至少可以解释总变异的90%功能预测

基于生成的数据集和上面的仿真设置,我们使用之前提出MCMC-based抽样算法在算法1获得未知参数的贝叶斯估计基于100复制。调查提出的密度算法的收敛,计算EPSR值(估计潜在规模减少)23)的测试运行三个平行观测链的基础上通过三个不同的起始值。我们发现,在所有的测试运行,EPSR值接近1和小于1.2丢弃后第一个3000年老化期。所以,我们可以收集3000次迭代后的观察= 2000为每个复制和生产贝叶斯估计后的总结中列出的参数表1- - - - - -3。此外,功能系数估计量的准确性检查平方根的平均平方误差(破坏),定义如下: 在哪里 ,网格点的功能系数估计量 评估和N= 200是用于我们的模拟。仿真结果的均值和标准误差(SE)功能组件在不同情况下的破坏被发表在表4。此外,估计函数的精度 直接,我们的阴谋的真正价值功能系数 对其在不同情况下,估计和这些功能列表曲线拟合结果在不同空间参数数据1- - - - - -4

在表中1- - - - - -3,“偏见”意味着不同的真实值和平均参数的贝叶斯估计基于100复制,“SD”意味着贝叶斯估计的标准偏差,和“PP”表示参数被确定为零的比例在100年复制的标准参数被确定为0如果其95%置信区间包含零。通过仔细的观察表1- - - - - -4,得到了一些结论和总结如下。(1)在所有考虑设置,提出了贝叶斯方法的性能是相当满意的,他们的价值观的偏见和SD是合理的。此外,贝叶斯估计的结果变得越来越好随着样本容量的增加。(2)正如预期的那样,贝叶斯估计的性能在不同空间参数相似。(3)的方差 变得越来越小,贝叶斯估计方法执行得更好。(4)预测,提出了贝叶斯方法可以确定正确的模型在大多数情况下,因为比例值在表中对应的重要都是零,反是和PP值对应于不重要的则反是超过90%。功能部件(5),平均值和SE值的破坏变得越来越小的随着样本容量的增加。这表明功能系数 估计越来越好。此外,检查数据1- - - - - -4显示估计函数的形状系数接近相应的真线所有考虑设置下,同意被发现从表4。综上所述,上述调查结果表明,前面提出的贝叶斯估计过程和MCMC-based抽样算法可以恢复真正的信息部分功能的线性空间自回归模型。

5。结论和讨论

在这项研究中,我们提出一个线性空间自回归模型部分功能可以探索一个标量空间依赖反应变量之间的关系和预测变量包含多个标量协变量和函数协变量。基于贝叶斯自适应功能的主成分分析,套索方法开发了分析模型结合吉布斯采样器和pmmh算法。我们进行仿真研究,表明提出的贝叶斯方法的效率。结果表明,发达贝叶斯变量选择方法的高效和计算方便。

此外,有几个有趣的扩展,可以考虑在未来。考虑如下具体的扩展。(i)与经典意味着回归相比,分位数回归分析应该更健壮的非正规的错误和异常值。因此,利用分位数回归技术与空间分析功能数据依赖权证未来的调查。(2)一直是一个缺失的数据分析统计热点。因此,这也是值得研究的当前模型则反是失踪在不同missingness机制。我们离开这些主题为未来的研究。

数据可用性

没有数据被用来支持这项研究,计算机代码可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的主要人文和社会科学解决项目在浙江大学(2018 qn037)。