文摘

地理加权回归(吉尼斯世界纪录)模型是一个本地空间回归技术用于确定和地图空间变量之间的变化关系。在吉尼斯世界纪录模型中,带宽是非常重要的,因为它可以改变参数估计和影响模型的性能。在这项研究中,我们应用信息复杂性(ICOMP)类型的标准选择的固定带宽首次在文学。ICOMP-type标准使用衡量的复杂性度量模型中参数之间的关系。一个真实数据集的例子和仿真进行了研究。仿真结果表明,通过测定模型创建的带宽选择ICOMP-type标准方面表现出优越的性能。此外,当选择带宽根据ICOMP-type标准和创建的吉尼斯世界纪录模型是实际总生育率数据,看到的是空间分布的总生育率估计很符合实际的总生育率的分布。结果显示,ICOMP-type标准可以有效地使用而不是标准的古典文学在吉尼斯世界纪录带宽的选择模型。

1。介绍

空间回归分析已经成为在该领域的一个重要领域近年来的统计数据。在研究空间很重要,很明显,经典统计方法是不足以解释统计变化和估计统计推断。因此,空间统计方法在这个领域开始使用。空间统计方法包括空间模型,包含空间信息和考虑位置观测的影响。地理加权回归(吉尼斯世界纪录)方法是一个当地地理(空间回归技术用于模型关系1]。吉尼斯世界纪录可以生成估计其他点的位置是已知的回归方法和参考点的位置和地理特性是已知的。不同于古典回归模型,通过模型中的系数不固定,每个空间点都有自己的系数(2]。在吉尼斯世界纪录方法中,所有参考点附近的邻居体重回归点确定估计的价值回归的参数点。这附近的体重通常是由使用欧氏距离核函数。带宽是距离度量或使用的邻居数量对于每一个当地的回归方程,和改变带宽是最重要的参数需要考虑在吉尼斯世界纪录的方法,因为它可以改变系数估计3]。随着带宽值增加,重量减少,当地减少参数的变化。因此,回归方程变成一个一般方程而不是一个地方。作为带宽值减少,体重增加和当地变化参数的增加。但在这种情况下,方程可能不给正确的结果,因为一些参考点会被考虑4]。研究改善吉尼斯世界纪录方法的准确性一般集中在带宽的校准5- - - - - -7]。这些方法主要集中在寻找合适的带宽值数据集和不关心空间数据集,高度和时间静止。带宽值可以是一个固定值或一个适应值的所有数据集,根据位置的分布密度的数据(8]。交叉验证(CV)、广义交叉验证(GCV) Akaike信息准则(AIC)和贝叶斯信息准则(BIC)的方法找到最优带宽值在吉尼斯世界纪录方法(9,10]。郭(4)建造了一个森林情节与集群空间模型树的位置调查不同的核函数和不同带宽的影响在模型性能和系数估计方法的吉尼斯世界纪录。曹et al。6使用吉尼斯世界纪录方法]选择带宽,简历,和最小的空间误差拉格朗日乘子检验统计量校准方法。Yacim和Boshoff11)定义的五个不同的吉尼斯世界纪录模型通过选择不同的核和带宽住宅数据样本和比较模型的表现。Koc和Akın12)选择了带宽与简历标准和申请吉尼斯世界纪录模型在不同的内核函数固定带宽。元等。13)检查AIC的影响及其不同的带宽在吉尼斯世界纪录结果。胡锦涛et al。(14]介绍了一个二维矩阵带宽吉尼斯世界纪录模型中的参数估计。Punzo et al。15)检查当地的差异主要社会人口的影响,经济和制度因素的土地消费使用的带宽调整AIC吉尼斯世界纪录的方法。很明显,带宽的选择有很强的影响通过测定模型的描述和预测能力。一般来说,简历和AIC用于带宽选择文学。

在这项研究中,我们建议使用信息复杂性(ICOMP) Bozdoğan提出的标准16,17在吉尼斯世界纪录模型中的带宽的选择。ICOMP使用一个基于信息理论的一般模型复杂性范大白鹅的广义协方差复杂性和Kullback-Leibler距离(18,19]。ICOMP-type标准的目的是达到最优模型的复杂性和健康之间的平衡。ICOMP旨在建立这种平衡,考虑复杂性度量衡量模型中的参数是相互关联的。因此,尽管这是一个衡量基于Akaike信息标准,与AIC不同,它直接惩罚协方差模型的复杂性,而不是惩罚独立参数的数量。ICOMP-type标准的使用带宽的选择在吉尼斯世界纪录模型会增加信心选择带宽由于其理论基础,并将给文学带来一个新的视角。

研究组织如下。节2,我们提出的模型和方法。首先,我们解释了地理加权回归和应用ICOMP-type标准回归模型。节3,我们现在使用ICOMP-type仿真结果对带宽的选择。节4,一个真正的数据集的总生育率。有从这项研究中获得的结论部分5

2。材料和方法

在本节中,我们介绍了地理加权回归方法和信息复杂性的标准。首先,地理加权回归模型是一种当地的空间回归技术产生预测其他点的位置和属性的值是已知的(1]。不同于线性回归模型,通过模型中的系数不是常数。创建每个空间点的系数(2]。吉尼斯世界纪录模型是由

在方程(1), 是位置的纬度和经度坐标空间 是因变量, 是自变量, 是吉尼斯世界纪录的系数回归模型, 是错误的 位置被认为是正常独立同分布随机变量平均值为零且恒定方差

加权最小二乘方法提供一个估计的吉尼斯世界纪录的基础参数。通过测定模型的参数估计,得到如下: 在哪里X独立变量的矩阵,由+ 1列, 是因变量矩阵,然后呢 是一个对角矩阵的 值,如下所示(1]。 在哪里 邻里之间的比例回归点和参考点。 使用全局模型计算,箱式车,指数,高斯,bi-square, tricube [20.]。高斯函数是常用的高斯核函数(21,22),而 在下列方程计算。 在哪里 带宽值, 回归点之间的距离吗 和参考点 , 通常是欧几里得距离,如以下所示计算方程,在哪里u和v点坐标。

的值 带宽参数可以为整个模型常数在吉尼斯世界纪录模型也可以是变量根据点密度的位置。最优值的带宽可以由交叉验证(CV)、广义交叉验证(GCV) Akaike信息准则(AIC),并纠正Akaike信息准则(AICc)方法(23]。交叉验证准则给出如下(24]。 在哪里 的拟合值吗 通过省略 点的过程(1]。

吉尼斯世界纪录被定义为广义交叉验证标准(25] 在哪里 的拟合值吗 使用的带宽 ,n是样本容量,tr (年代)表示这顶帽子矩阵的跟踪1]。

Akaike信息标准和纠正Akaike吉尼斯世界纪录被定义为信息标准 在哪里n是样品的尺寸, 估计标准偏差的误差项,和tr (年代)表示这顶帽子矩阵的跟踪26]。

第二,信息的复杂性(ICOMP)标准衡量由Bozdoğan [27另类投资会议的基础上。与AIC-based信息标准,ICOMP接近两Kullback Leibler之和(28距离,测量模型缺乏配合和模型的复杂性的准则函数使用一个熵的测量估计协方差矩阵模型的参数。因此,模型不仅考虑复杂性的概念模型中的自由参数的数量也是相互依存的参数估计。因此,ICOMP提供的通用模型选择准则可以通过理解之间的关系结构选择模型中的参数估计(29日]。ICOMP-type标准提供最合适的平衡模型和拟合优度的复杂性(30.]。在几个配方ICOMP准则可以被定义。信息的配方标准如下(31日]。 在哪里n是样品的尺寸, 是最大化似然函数,k是变量的数量,C是一个实值复杂性度量, 是估计模型的参数向量的协方差矩阵29日]。

3所示。模拟研究

仿真研究理解带宽信息复杂性的性能标准。模拟设计以同样的方式如下: 在哪里 , , , 已经生成。经度和纬度的空间坐标位置。样本大小是n= 300,核函数是高斯。在表1,最优带宽的值选择不同的方法。

ICOMP-type信息标准选择带宽值为2811.487。这是发现ICOMPPEULN执行更好的信息标准最低的带宽的选择。在吉尼斯世界纪录模型创建的固定带宽的选择,通过模型建立与ICOMP-type GWR-ICOMP-type,通过模型建立与CV带宽选择作为GWR-CV, GCV带宽选择的吉尼斯世界纪录模型建立是作为GWR-GCV,通过模型建立与AIC带宽选择被视作GWR-AIC模型,通过模型建立与AICc带宽选择作为GWR-AICc。绩效评估模型的表2

在表2,GWR-ICOMP-type模型进行最好的最高的。R2值为0.9901和最低的信息准则AIC = 169.0912。

4所示。实际数据的应用程序

在这项研究中,总生育率数据被用于81个省2020年土耳其。总和生育率是指儿童的平均数量在15 - 49岁的女人。获得的数据可在[32]。一组6持续变量用于这项研究和描述为因变量(Y):总生育率,和独立变量:国内生产总值(gdp) (x1),平均年龄的母亲省、(2009 - 2020)(x2),文盲的数量(x3),女性高等教育的数量(xGDP的4),失业率(%)(x5)。此外,坐标(经度、纬度)土耳其的81个城市(见[33])是用来适应吉尼斯世界纪录。总和生育率的空间分布在土耳其2020如图1

土耳其的总生育率最高的省份是Şanlıurfa 3.71在地图上显示为红色。这个省随后Şırnak 3.22和2.88 Ağrı和锡尔特。该省最低的总生育率Karabuk了1.29,在地图上所示深蓝色。这个省与1.31 Zonguldak和Kutahya紧随其后。首先,总生育率影响因素在土耳其与多元回归建模方法。此外,通过测定模型用于确定是否有一个位置的影响。

3提供了多元回归模型的系数。根据多元回归模型,国内生产总值(gdp)平均年龄的母亲的省份,与高等教育的女性人数和失业率对总生育率有显著影响。测试通过测定模型的拟合优度为实验分析是很重要的。这个测试被称为全球测试不稳定的1]。

在表4,非平稳的全球测试结果符合吉尼斯世界纪录总生育率数据模型。因此,我们可以申请吉尼斯世界纪录方法总生育率数据。通过测定模型中的最优带宽的选择总生育率数据表5

的ICOMPPEULN标准,ICOMP-type之间的信息标准最低标准,选择了最优带宽。吉尼斯世界纪录模型被发现显著的多元回归模型和选定的固定带宽值。

这些模型是GWR-CV模型与简历的带宽值为1.6477分,GWR-GCV模型与带宽GCV得分值为1.6526,GWR-AIC模型带宽值为16.0042,GWR-AICc模型带宽值为14.9964,和GWR-ICOMP-type带宽值为0.4111。模型性能表中给出6

在表6,见过最高的GWR-ICOMP-type模型表现最好的结果。R2和模型信息最低标准的价值观。空间分布的总生育率估计如图2

在图2后,选择与ICOMP-type带宽,空间分布的总生育率估计在吉尼斯世界纪录模型。在图2,看到分布的总生育率估计很符合实际的总生育率的分布如图1

5。结论

吉尼斯世界纪录的带宽模型的选择是非常重要的增加模型的效率和准确性,以及带宽的选择可以被视为一种模型选择问题。当带宽很大,更多的数据将被包含在回归。因此,差异很小,而偏差将是巨大的。如果使用一个小的带宽,回归将局限于当地和参数估计将取决于观测接近回归点。因此,参数估计的方差将增加,但偏差小,可以发现更多的异常。在这项研究中,我们应用ICOMP-type标准选择带宽首次在文学。我们发现在仿真设计的带宽选择ICOMP-type标准增加了模型的性能和通过模型的预测精度。当吉尼斯世界纪录模型与实际建立了不同的带宽总和生育率数据,得出最佳的性能最高的是GWR-ICOMP-type模型R2和最低标准的信息。此外,ICOMP-type标准检查时,看到ICOMPPEULN标准选择最合适的固定带宽模型与最小的信息标准。空间分布的总生育率估计GWR-ICOMP-type模式似乎很符合实际的总生育率分布。因此,ICOMP-type标准的使用带宽的选择可以提高吉尼斯世界纪录模型在预测精度和模型的性能。

数据可用性

支持本研究使用的数据是可用的https://data.tuik.gov.tr/

的利益冲突

作者宣称没有利益冲突。