文摘

在医疗研究中,老年人医疗支出数据通常是半连续和右偏态,这涉及一个质点在零和可能出现异方差性。大部分零值的问题使传统的回归技术基于高斯,γ,或逆高斯分布,这可能导致理解的标准错误参数和高估他们的意义。应对问题的一种常见方法是使用zero-adjusted模型。然而,由于right-skewness非零的反应,传统zero-adjusted模型如zero-adjusted伽马,zero-adjusted逆高斯分布,和经典托比特书可能不执行。在这里,我们首先概括这三个类型的传统的right-skewness zero-adjusted模型来解决这个问题在卫生保健。广义zero-adjusted模型非常灵活和包括zero-adjusted威布尔,zero-adjustedγ,zero-adjusted逆高斯分布,和经典的托比特书模型作为他们的特殊情况。使用中国纵向健康长寿的调查,我们发现,根据AIC,南方浸信会,和异常的标准,zero-adjusted广义伽马模型是最好的其中一个广义模型准确地预测零成本的可能性。为了描述预测影响金额支出,我们进一步讨论了均值的情况下,分散的非零金额支出和模型的概率为零的ZAGG使用合适的链接预测变量的函数,分别。我们的分析显示,年龄、健康、慢性疾病、家庭收入、和住宅的主要影响因素为老年人医疗支出,但是保险并不重要。我们所知,小研究集中在这些情况下,这是第一次。

1。介绍

人口老龄化是人类社会发展的普遍规律。根据联合国的定义,如果超过总人口的10%的一个国家或地区60岁以上老年人或超过7%是老年人超过65。国家或者地区已进入老龄化社会。目前,世界上大多数国家,包括美国,英国,日本,即将经历人口老龄化的影响。中国也不例外,面临着复杂的老化情况。中国60岁以上的人口比例从1999年的10%增加到2019年的18%,近一倍在未来二十年。老年人的生理功能的弱化自然会增加疾病的几率,从而增加对卫生服务的需求,进而带来了大量的为老年人健康和医疗保障问题。中国卫生委员会的统计数据显示,大约有17%的老年人消耗近70%的医疗费用。此外,人口的老龄化也将不可避免的带来了人口的预期寿命的增加。经验表明,慢性疾病是自然与衰老有关。 Therefore, the ageing population will result in a substantial increase in the prevalence of various chronic diseases. Ingmar et al. [1]发现超过60%的65岁以上有三个或更多共存慢性病在德国。在中国超过1.8亿老年人患有慢性疾病,和多种疾病的共存是常见的。据统计中国的卫生和计划生育、慢性病的医疗支出占超过70%的医疗支出。然而,由于中国现有的医疗保障体系的缺陷,自付医疗费用相对较大,和医疗保障不足2,3]。当老年人的现金支付医疗开支达到或超过他们的支付能力,一些老年人不生病后去看医生。与其他疾病相比,慢性疾病有阴险的发病特点和漫长,这不仅会大大增加老年人的医疗支出4,5),但也会导致一些老年人无法得到治疗轻微疾病。因此,准确预测老年人医疗支出不仅有助于老年人合理安排自己的消费支出和改善他们的健康状况也有利于国家更有效地分配医疗资源。

然而,由于不同的个人经济状况不同的老年群体,他们会有不同的医疗支出在他们生病。这些现象会导致大量的零消费支出在老年人的医疗支出数据6,7),这也将导致右偏态分布的问题医疗消费数据。因为质点的零偏态,这些问题很难考虑泊松等传统回归模型,OLS和伽玛模式。忽视这些现象会导致misspecified回归估计和高估或低估的影响。为了预测更准确地说,老年人的医疗费用需要提出新的模型。本文的目的是提出一种广义zero-adjusted模型来更好地适应半连续的数据,探索老年人的医疗费用的影响因素,用这种类型的模型来预测老年人的医疗消费的数量,并比较结果与传统模型。

本文的具体贡献包括以下几点:(1)三种类型的广义zero-adjusted模型如zero-adjusted广义伽马模型,zero-adjusted广义逆高斯模型和广义zero-adjusted托比特书医疗支出预测模型提出了包括许多传统模型和没有被用于健康经济成本数据建模。(2)选择最好的模型zero-adjusted广义伽马模型根据不同标准和探索的边际效应预测的医疗支出。(3)发现了医疗支出的色散和解释变量之间的关系由于异质性的方差。

本文的其余部分组织如下:给出详细的文献和相关工作2。传统zero-adjusted模型和广义zero-adjusted模型中突出显示3。大量实验结果和比较不同模型提出的部分45。讨论部分所示6。最后,结论进行了总结,提出了未来的研究部分7

有很多文献关于造型的医疗费用,尽管卫生经济学家或卫生服务研究面临着一些困难。发表的一种造型方法涉及的医疗支出成本直接使用普通的二乘回归(8,9]。虽然使用的普通最小二乘模型,这种方法被批评,因为严格积极的健康支出的分配通常是倾斜,kurtotic (thick-tailed)和heteroskedastic,表现出非常数的方差与支出增加(10]。这些属性的传统方法,如普通最小二乘法(OLS)估计有偏见和效率低下。因此,做了大量的工作,造型医疗支出的问题。为了解决医疗支出的右偏态数据,琼斯改变了因变量使用日志转换减少极端的观察和对偏态的影响和改进的拟合优度11]。曼宁和Mullahy假定医疗支出分配给一个解释变量的指数函数和日志使用普通最小二乘法和γ模型与一个日志链接找到一种更健壮的替代方案比OLS回归估计量(12]。然而,这样的转换可能在heteroskedastic错误问题转化规模(13,14]。交替,不断壮大的文献使用固有的非线性规范模型的医疗支出,这得益于估计影响的自然规模成本。广义线性模型(GLM)和指数条件意味着模型被认为是。首次提出了广义线性模型Nelder Wedderburn在上个世纪70年代,已经广泛应用于许多领域曾提议(15]。广义线性模型假设因变量服从指数分布的一种家庭,其中包括许多常见分布如泊松和正常和应该随机误差项的方差不需要平等。在漠视,家庭,平时做出假设的函数形式分布的均值和方差。虽然广义线性模型可以有效地处理异方差性的问题,这也许未能解释明确问题的偏态和肥尾,有影响的效率和鲁棒性估计(16]。更灵活的分布更大范围的估计偏斜度和峰度系数进行了探讨。曼宁等人提出了广义伽马模型(药物)来解决医疗成本的问题。药物模型包括重要参数分布嵌套和特殊情况,如γ(GA)和对数正态分布(LN)分布。每个模型被选中模型医疗成本在很多文献[14]。因为药物也是一个特殊的极限情况的第二类广义β(GB2),琼斯调查GB2作为比较的一部分,许多不同的造型我们医疗成本的方法。Mullahy [16)考虑使用Singh-Maddala分布(SM)为了控制成本数据的沉重的右手尾,也是在GB2嵌套。

在医疗支出的审查方法而言,托比特书回归使用单一分配被认为是用于建模的方法之一(17]。在托比特书回归,有一个假设的反应变量基于zero-truncated正态分布。显然,常数线性回归方差被认为在这个设置,和响应变量是右偏态,医疗支出数据的不足。因此,高斯假设可能并不适合与托比特书模型拟合医疗支出。介绍了审查伽马回归克服扭曲的本质反应(18]。不幸的是,托比特书模型还不能处理多余的0 0,这是一个现象,有比从底层分布在医疗支出数据。从数据生成过程的角度,断断续续的医疗支出数据应该被认为是由两个不同的随机过程。首先,病人可以选择是否去看医生根据自己的健康状况、疾病的严重性,财政负担和其他原因,治理0的发生。其次,病人享有更多的医疗服务和更高的收入可能会付出更高的医疗支出比不太愿意使用这些服务,导致非常不对称的非零医疗支出数据。因此,一个由两部分组成的混合模型是理想的选择对于处理这类数据,模型的概率分别任何医疗服务使用和支出水平条件使用[19]。大量的论文之前被显式地致力于改变不同分布在第二个过程,和二项分布或经常使用逻辑回归模型在第一过程。对数正态分布分布往往是选择积极的医疗支出数据模型(20.]。然而,许多替代分布是用来放松log-symmetry条件强加的对数正态分布分布,因为对数正态分布分布并不足以适应右偏态和重尾特征数据21,22]。我们所知,有许多研究两部分混合模型用于医疗保健,但该方法已经被应用于许多其他领域。海勒等人两部分模型用来预测索赔总数。一部分是负二项分布的造型索赔计数,,另一个是逆高斯发生的索赔金额。估计总索赔金额(23]。柴等人分析了半连续动脉钙化评分通过引入两部分斜对数正态分布(24,25]。刘等人发现,广义伽马模型提供了一个优越的日常饮酒的适合他们的分析通过比较广义伽马,log-skew-normal和box-cox-transformed两部分模型(26]。

近年来,已经有使用Tweedie指数的增加家庭模型适合半连续数据(27]。Tweedie家族的分布属于指数家族与方差和复合Poisson-gamma解释概率质量为零。Tweedie等拟合模型的主要优势是为了避免两部分模型拟合的频率和数量。它是一个单一分布。释放等人使用Tweedie模型预测保险索赔金额(28]。Christoph F。K显示的更好地适应Tweedie模型通过比较它与两部分模型和托比特书模型(29日]。然而,还有另一个问题,提出Tweedie不允许安装明确作为解释变量的函数,根据史密斯和约根森(27]。

作为一种替代方法,最近的一项研究发现zero-adjusted回归模型,混合离散和连续分布。零调整回归模型的离散分布是由伯努利分布。相比之下,连续分布可以表示为任何与积极的连续分布范围和右偏态。zero-adjusted模型可以被看作是一种由两部分组成的模型。zero-adjusted模型更侧重于零值的概率。当观察到零值的概率远远大于或小于标准正态分布,γ,威布尔,等等,zero-adjusted模型可能会建立。这些可以让零发生的概率预测更加实际。多个应用程序的zero-adjusted伽马(ZAGA)和zero-adjusted逆高斯(ZAIG)回归模型可以发现在保险索赔30.,31日]。然而,似乎并没有太多的工作在卫生经济成本数据建模。本研究试图利用zero-adjusted模型预测医疗支出。在这篇文章中,提出了三种类型的广义zero-adjusted模型,由托比特书的经典模型,ZAGA模型和ZAIG模型,可以提高预测的准确性。据我们所知,几乎没有文献研究这些广义zero-adjusted模型,特别是在卫生保健领域。

3所示。方法

3.1。拼接分布

本研究旨在用模型来预测老年人医疗支出和发现影响成本的因素尽可能准确。处理多余的零和正偏态的一种方法是应用zero-adjusted模型。zero-adjusted模型可以看作一种拼接的分布。克鲁格曼等人提出了一个拼接方法创建新的发行版(32),它已经应用于造型重尾操作风险(33]。的密度函数n -组件拼接分布定义如下(32]:

在这里 是积极的重量加起来吗

的函数 是合法的和所有的概率密度函数在区间 : 的时间间隔 互斥: 的时间间隔 也的顺序。也就是说, 如果 对所有 有一个拼接的优势分布使质点分布的夹杂物。

3.2。Zero-Adjusted模型

zero-adjusted模型可以被视为一种n分拼接分布时n= 2。支出金额为零,第一部分和第二部分非零支出,假定有一个连续分布,提供巨大的右偏态。让 的支出年纪大的人, zero-adjusted分布的密度函数可以写成: 在哪里 是一个连续的密度,右偏态分布,然后呢 医疗支出的概率是零。zero-adjusted的累积分布模型(祖阿曼)可以表示为 在哪里 是一个指标函数。

3.3。离散的攻击

假设一个年长的人的概率是伯努利分布。让 是一个二进制变量表示结果的发生为老年人医疗支出在一年 积极的医疗支出的概率,在人 可能是一个常数,如方程(3)或者是一个随机变量分布如下:

我们考虑老年人的医疗支出影响因素和协变量纳入分对数函数的链接 :

的预测 任何形式的函数相关因素,但通常被认为是一个线性系统 , 向量的因素和吗 是参数。根据方程(6),我们可以预测的概率为老年人医疗支出并确定其医疗决策的影响因素。

3.4。连续Zero-Adjusted模型的一部分

拼接分布的另一个优点是,他们允许我们模型不同部分的响应变量分布。有许多候选人分布的非零重尾分布的建模的医疗支出 ,如γ、逆高斯,对数正态分布(LN),威布尔(魏)和log-skew-normal。在这项研究中,我们考虑了两种规格的拼接分布。第一个规范使用广义伽马分布(GG),其中包括标准伽马,逆伽马,威布尔和对数正态分布分布特殊情况(21,26]。另一种是广义逆高斯分布(演出),其中包括逆高斯分布作为特例和伽马分布和逆伽马分布极限情况(34,35]。托比特书分布也呈现为基准比较,和我们广义传统托比特书模型。

3.4.1。伽马分布(GA)和逆高斯分布(IG)

有很多工作要处理这个问题的偏态和异方差性转换数据。数据转换似乎更均匀、对称的。然而,同方差性几乎是实现事实上,导致偏见的估计(36,37]。相反,我们使用伽马和逆高斯分布,属于广义模型考虑异方差性和保留原来的美元规模的数据。此外,γ和逆高斯模型能适应偏态的支出(38]。遗传算法模型和搞笑模型都包含在广义线性模型,它主要由三部分组成:(1)系统部分:系统的部分是一个线性组件同样可以像传统的线性模型: 在哪里 是一个列向量的协变量的观察 , 是一个列向量的参数,然后呢 是一个列向量的预测吗 (2)功能:链接的链接功能 通常是定义了一个单调和微分相结合预测和系统部分,描述了一个响应的期望值 与线性预测: 在哪里 通常是定义了一个对数函数。(3)随机配件:响应变量 是独立的,从家庭这意味着有一个指数分布方差和均值之间的关系。指数的家庭的一般形式 在哪里 被称为正则参数,代表了位置,而 是色散参数,代表了规模。许多发行版除了GA和搞笑模型属于指数分布的家庭,例如,正常,威布尔、泊松分布、负二项分布,等等。因为偏态和异方差性的结果,伽马分布的密度和逆高斯分布

逆高斯分布:

假设γ和逆高斯分布的均值 伽马分布的方差 , , 伽马分布的偏斜 ,和过度峰度是 伽马分布适合积极倾斜的数据。与此同时,逆高斯分布的方差 ,逆高斯分布的偏斜 ,多余的峰态 逆高斯分布也适合高度积极倾斜的数据。我们可以看到它的响应是一个函数的方差的意思。注意,漠视逆高斯分布的方差函数增加更快意味着比γ的漠视。

3.4.2。广义伽马分布(GG)

虽然标准γ模型是相当强劲,当我们分析了积极的医疗支出([39]),效率低下,数据是heteroskedastic和严重右偏态([14])。广义伽马可用在其他连续分布处理值只有在积极的价值观。广义伽马分布的密度参数化的函数 ,是由(14,21] 在哪里 因为 ,方程(12)可以理解为标准正态分布(z)规模对数转换 如果 是一个随机变量分布密度(12),那么它的意思了

另一个广义伽马分布的时刻th时刻=

而且,方差

标准伽马,逆伽马、威布尔和对数正态分布分布是广义伽马分布的特殊情况。例如,广义伽马分布密度降低到标准伽马分布形状参数 和尺度参数 ,。即。,the density follows as ,的意思是 ,方差是 ,和逆伽马分布也得到。广义伽马分布减少逆伽马分布定义为罗伯特(40),如下所示。

,在哪里 当参数 在方程(12)被固定在一个特殊的值,例如, ,密度(12)降低了威布尔分布的概率密度函数。此外,如果参数 ,密度(12)减少对数正态分布,即

3.4.3。广义逆高斯分布(演出)

我们介绍了演出因为演出右偏态分布,单峰分布,更广泛的形状。标准伽马是演出的一个案例。因此,演出可能是一个更灵活的选择标准版的γ(39]。的概率密度函数模型参数化的意思是,分散和形状参数。广义逆高斯分布的参数化,用 ,是由 ,在哪里 , 在上面的方程(15), 是修改后的第二类贝塞尔函数40]: 通过这种参数化,的意思 和方差 演出的偏态

与大多数的保险损失模型,我们的一般方法可以确定每个风险类的分布不仅基于均值参数,这是传统的协变量的模拟方面,还用解释变量的分散和形状参数,演出的形状分布描述。这可能被视为一个非常有用的属性。此外,演出是一个非常大的家庭,包括许多著名的分布根据估计的色散值和形状参数的建模功能的风险因素是众所周知的。例如,可以看到, 因此,伽马演出的一个特例 根据约根森(35), 作为 ,对所有 ,当 , 有极限分布 对所有

3.4.4。托比特书分布

托比特书模型第一次被介绍给模型因变量的大部分由托宾(017]。托比特书的经典模型假定反应是连续的,审查和正态分布背后潜在的因变量 我们感兴趣的潜变量的设计 作为一个线性回归模型: 在哪里 , 是一个外生和可观察到的解释变量。具体来说,如果潜在的变量 值等于零审查,如老年人医疗支出, 成为零。然后,审查观测样本的概率 在哪里 是标准正态累积分布。我们可以现在noncensored截断期望值的观察 在哪里 是标准正态分布的密度函数。托比特书的经典模型是合适的,当反应有两个礼仪:一个是错误的 是正态分布,另一个是负的反应被审查

3.4.5。新型的广义托比特书分布

托比特书的经典模型是极其敏感的潜在假设常态和方差齐性。因此,经典的托比特书模型不能适应,除非真的是正常和审查分布的数据。然而,这些并不在真实数据(41,42]。许多研究人员声称,一个大质量为零是审查观察时没有审查,尤其是卫生支出数据。我们提供了另一个广义托比特书模型与广义托比特书选择模型不同的赫克曼(43]。赫克曼选择模型被认为是广义托比特书模型和主要连接两个潜在的结果通过逆米尔斯比率。然而,响应变量是假定为正态分布。在本文中,我们主要是广义的一部分潜在的 大于零。我们选择了学生t户型为了比较经典的托比特书模型。的学生t家庭模型引入了兰格et al。43),是由假设定义的 ,在哪里 有一个标准 分布与 的自由度。在这项研究中,PDF学生t家庭是由分布 ,在哪里 , , 是β函数。请注意, 有一个标准 分布与 的自由度。这是显而易见的 比正态分布分布峰态较高,更适合造型尖峰的数据(43]。的过度峰度 分布

3.4.6。造型的概率为零支出和预期的非零支出方面的解释变量

我们专注于医疗决策影响因素和医疗支出的数量,但注意预测的准确性。的意思是 回归模型的医疗支出和色散的数量决定的 可能会影响预测的准确性。因此,我们在不同的情况下会考虑zero-adjusted回归模式。

案例1:当没有看到医生的概率是常数,模型(6)退化 在分散 被认为是一个常数,不影响预测变量, 是预测的向量, 向量的参数, 是一个错误。我们使用日志链接函数根据指数家族(38]。

案例2:零金额不是常数,这是影响预测变量,和分散 仍然是一个常数。然后,医疗支出和为零的概率意味着显示为 在哪里 , , 在方程(一样的21)和(22)。从理论上讲,影响决策的因素方程(23)和方程(24)是不同的。然而,许多研究认为他们是相同的,这是

案例3:的意思是 ,分散 ,和数量为零的概率 包括在zero-adjusted模型都预测因素的影响,是模仿的预测变量使用合适的链接功能: 我们可以选择相同或不同的预测 在方程(25)- (27)。有很多文献研究情况1和情况2,而且几乎没有讨论案例3我们最好的知识。在这项研究中,我们将分析3例,比较他们的结果。

3.4.7。最大似然估计

根据给定的zero-adjusted模型 独立观察 似然函数得到的 在哪里 , 是由对数似函数

我们希望最大化对数似 有关 然而,问题是,第二求和的对数方程(29日)解决困难。在本文中,我们使用一个算法Rigby和Stasinopoulos[提供的44)和基于惩罚似然估计。

3.5。模型验证和验证
3.5.1。图形验证

有一些方法用于验证和选择最佳的模型在模型拟合后在医疗支出数据统计概率模型,主要包括两种类型的程序:图形和数值方法(45]。图形方法被用来验证模型是否描述了系统部分和规范化的分位数残差的独立性和他们的常态。在这项研究中,我们可以获得均值,方差,偏态,和峰度检查规范化分位数残差的独立性及其正常通过检查剩余与拟合值的阴谋,剩余密度图,以及qq情节(44]。评估模型的拟合优度,Akaike信息准则(AIC) [46)和施瓦兹贝叶斯准则(SBC) (47)被认为是作为验证的数值方法和选择最佳的模型验证模型。此外,本研究的一个目标是估计预期的医疗费用个人( )。平均预测误差可以认为测量预测结果之间的偏差和真实的反应,通常的均方误差(MSE)。

3.5.2。信息标准

比较模型并选择最好的拟合模型中,我们使用了AIC,南方浸信会,全球异常标准。Kullback-Leibler距离的AIC计算是基于信息理论,和南方浸信会是基于贝叶斯理论的整合的可能性,都实施适当的惩罚模型估计的平均对数似系数估计的数量。AIC和SBC值最低的一个模型将选择的可能。另类投资会议给出如下: 在哪里 的可能性, 是在模型中参数的数量。南方浸信会被定义为: 在哪里 在AIC和是一样的吗 是样本容量。所显示Rigby和Stasinopoulos44]参数GAMLSS模型,每个模型可以评估其安装全球异常(GD)给出的 在哪里

3.5.3。偏见和准确性

偏差测量的平均预测值的偏差 的真正价值 大量的重复抽样过程。偏差通常被定义为后 :

均方误差可以被认为是衡量预测的偏差,被定义为

我们可以证明最小MSE MSE是通过样本值 ,在哪里 表示估计和 是真正的价值和 是样本容量。均方误差的无偏估计量的偏差。

3.5.4。样本外分析

还有最后一步检查适当的估计模型和模型的泛化能力。我们应用引导过程进行调查统计分析结果将如何推广到另一个数据集。给定一个数据集 包含 样品,我们可以样品并生成另一个数据集 从数据集中样本是随机选择的 并把数据集 ,然后样品是回初始数据集 ,所以下次样品可能仍然吸引。后重复这个过程 次,我们能够得到一个数据集 组成的 样本。很明显,一些样品的数据集 多次出现在吗 ,而其他样本可能不会出现。一个样本的概率从来没有选择 抽样 ,和它的限制是 约有36.8%的样本数据集 引导抽样方法未出现在采样数据集 通过这种方式,我们可以使用 随着训练集和 作为测试集。在实际应用中,1/3的样本量通常被选为测试集和2/3作为训练集。

4所示。实证分析

4.1。数据描述

本文的目的是发现在中国老年人医疗支出的影响因素和预测中国纵向健康长寿的使用数据量调查(CLHLS)。这是全国代表性调查小组研究,包含对年龄在65岁或以上覆盖超过一半的县市来自23个省份,城市,在中国的自治区。自1998年开始调查以来,这是重复遵循同一组老年人每两到三年,直到2018年已经进行了八个波。调查问题包括健康状况、生活质量,老年人的医疗保健和安全需求。我们使用最新的数据在2018年的调查中,这是一个混合的横断面数据集收集了从1998年到2018年。总的来说,样本由15874个人组成。我们最终选定6832个样本删除数据后失踪,没有回应。在下面,我们描述了变量保留进行分析。我们开始为了响应变量,医疗支出,紧随其后的是另一个主要的独立变量,如收入、健康和教育。

4.2。变量的描述

老年人医疗支出的分配与整个示例如图1。我们可以发现有一个大的零,和医疗成本的直方图是右偏态和大量脂肪的尾巴。从经验累积分布(图2),它可以看到右上角部分的医疗支出数据严重偏离直线。因此,OLS回归模型不适合数据,必须考虑和其他转换模型。直方图如图1提出了一个混合点分布和连续分布的积极的一面。因此,托比特书模型可能导致偏见推断由于存在零观察远远超过预期。在托比特书配方。zero-adjusted模型为我们提供一个可行的框架,充分处理超过0。

在这项研究中,我们感兴趣的揭示了医疗消费行为影响因素。除了响应变量,我们包括一组解释在回归,影响医疗支出。典型变量,从现有文献是年龄、性别、家庭收入、婚姻和教育(1- - - - - -5]。我们结合所有这些变量,并添加了其他几个变量分析,显著提高zero-adjusted的估计模型。这些变量描述老年人的特点,如保险、健康状况、作用有限,个人教育、住宅,和心脏病。

卫生服务利用的安徒生行为模型通常提供了一个框架,住院治疗的研究,概述了三个因素:诱发,启用,需要因素(48]。根据这一点,我们评估健康状况和功能障碍的影响,需求因素和相关social-demographic因素,诱发和促成因素,在住院的利用率。使用的变量的完整列表和他们的描述性统计提出了表1。我们把变量医疗支出、教育和家庭收入数值。为方便计算,我们医疗支出和家庭年收入除以1000。所有其他变量分类,进入虚拟变量的回归。

的密度分布 ,为非零的医疗支出在图3。在这项研究中,六个右偏态分布被认为:正常,学生tγ,逆高斯分布,广义伽马和广义逆高斯分布。正态分布也呈现为基准比较,右偏态分布。所有的候选发行版随后被安装在一个训练集的随机子样品的70%。图3建议正态分布的直方图最适合非零医疗支出和其他右偏态分布似乎更好。的拟合值正常,逆高斯分布,广义伽马,和广义逆高斯分布低估了实际价值较低的医疗支出。然而,他们在其他点显示更好的选择。伽马分布的拟合值高估了较低的分。因此,似乎没有明显的证据显示直方图的哪一个是最好的。我们必须结合其他统计指标选择最好的模型,也是在以下部分中完成。

5。结果

根据上面的经验中,我们选择了4872个样本作为训练数据集。表2上市的边际影响评估结果的培训上面讨论的模型。我们选择十预测根据格罗斯曼的健康和卫生保健需求模型。托比特书的估计模型非常不同于其他值范围和符号,AIC的最大价值,南方浸信会,和全球异常。这表明托比特书模型拟合数据非常糟糕。新的广义托比特书模型和其他zero-adjusted模型更相似。许多估计共享相同的标志和类似的价值观,导致了相似的结论。标准错误的参数,托比特书的错误模型明显高于其他人。所有zero-adjusted模型较低标准错误的参数。此外,AIC、SBC和全球异常(GD) zero-adjusted广义伽马模型和zero-adjusted广义逆高斯模型明显小于其他模型。然而,zero-adjusted广义γ的值是最小的模型。 The smaller these values are, the better the goodness-fit of the model is. Therefore, the ZAGG model was the best model we chose.

评估模型,我们创造了分位数残差图。如果数据的模型都是足够的,残差近似标准正态分布的随机样本(38]。图4情节规范化分位数残差并展示了这些模型之间的残差差得多。新的广义托比特书模型的残差显示双峰kurtoses, ZAGA和经典托比特书呈现尖峰特征模型,以及ZAIG模型的残差似乎右偏态。ZAGG的残差和ZAGIG似乎相似,但ZAGG模型表现出更好的模型图4

我们使用蠕虫情节进一步研究这些模型的残差。蠕虫情节的介绍了残差范Buuren和弗雷德里克·[49)来识别区域内(时间间隔)的一个解释变量的模型不能充分适应数据。这些点在蠕虫情节,比如图5,显示有序残差多远(近似)预期值由水平虚线表示。水平线的点越近,越近的残差的分布是一个标准的正态分布。此外,如果模型是正确的,我们期望大约95%的点隔两个椭圆曲线在图外和5%5。更高比例的点外的两个椭圆曲线表明,模型的拟合分布不足以解释变量的响应。拟合曲线的形状的点蠕虫反映不同模型中的不足。一个线性趋势(正面或负面),二次形状(U或逆U),或立方形状(S型)表示方差的问题,偏态,分别或峰度的残差。反过来,这突显出拟合分布的问题。图5显示的蠕虫模型的拟合曲线,除了zero-adjusted广义伽马模型s形,也建议ZAGA模型通常是一个更好的选择。

验证后的1960个样本测试数据集,两个托比特书模型和ZAIG模型的均方误差值更大了。ZAGG和ZAGIG模型再次产生了非常相似的结果。ZAGIG MSE值最低为671.3679。然而,ZAGG略比ZAGIG更高的值为675.1498。考虑到拟合优度,我们选择了ZAGG模型进行进一步的研究。

我们选择ZAGG模型与不同的参数π,σ,ν和使用默认日志链接函数发现为老年人医疗支出影响因素。表3显示了不同参数的结果使用整个人口的6832年的数据。的预测因子的对数平均医疗消费共享几乎相同的标志,有相似的价值观的三个模型。年龄、健康和慢性病的主要预测因素影响医疗支出。随着年龄的增加,老年人的医疗支出减少。部分原因可能是80岁以下的老年人有一个严重的疾病(如癌症的风险高于老年人至今已经有80多年的历史了。在经历这一年龄阶段,大多数高岁老人健康状况都很好。老年人健康状况良好相对较少的医疗支出。作为一种慢性疾病,心脏病显著增加老年人的医疗费用。与老年人居住在城市相比,老年人医疗支出的生活在城市和农村地区相对较小,这可能与医疗资源相对缺乏的中国的城市和农村地区。家庭收入越高,老年人的医疗支出。 The predictor of medical insurance value was negative but not significant, which implied that medical insurance maybe reduced the medical expenditure of the elderly and released their financial burden. However, the effect was not obvious.

ZAGG的场景:(I)模型的比例p零的医疗支出和尺度参数年代有关方差都是常数。因为分对数链接函数使用默认情况下在回归模型中,零医疗支出的比例π ,这是非常接近零成本0.2147的人口比例。

ZAGG的场景(II)模型:零发生的医疗支出变化和预测的影响。我们发现一些预测医疗决定分享不同的迹象。例如,更高的家庭收入值降低的几率为零的医疗支出。也许,高收入家庭的老年人更容易获得医疗资源,和医疗服务的利用率相对较高。老年人行动限制通常是健康状况不佳,所以他们的医疗支出更多。

ZAGG的场景(III)模型:到目前为止,我们只模仿了π作为解释变量的函数,但有次的假设一个常数尺度参数不适当的根据方程(14)。在这些场合,造型年代作为解释变量的函数可以解决这个问题。从数据我们可以得出这样的结论6- - - - - -8,几乎所有的逐点的95%的置信区间内的蠕虫阴谋失败,表明这三个模型似乎是足够的。此外,负斜率的线形图6显示方差太低,合身的比例太高了。左弯下腰建议反面的s形拟合分布太轻了。

Kolmogorov-Smirnov测试是一种非参数检验方法,可以用来比较两个样本的累计经验分布。的 ( )统计数据是用来比较的最大值之间的差异两个样本的经验分布。如果这个值太大,我们相信这两个分布是不同的。因此,我们使用了两个跟踪Kolmogorov-Smirnov测试来验证ZAGG模型和经验分布之间的一致性。结果显示在表的最后一行3。从结果,p值都大于0.05,这意味着我们不能拒绝零假设,几乎没有区别ZAGG模型和经验分布。

6。讨论

本文探索和实证验证zero-adjusted模型与半参数配方使用CLHLS调查数据估计医疗支出。针对传统托比特书的局限性,zero-adjustedγ,zero-adjusted逆高斯模型,我们推广的三个模型来提高预测的准确性,发现影响老年人医疗决定的因素。zero-adjusted广义伽马模型优于zero-adjusted广义托比特书和zero-adjusted广义逆高斯模型。因此,ZAGG模式提供了一个有趣的替代造型医疗利用支出数据包括许多传统模型如zero-adjusted威布尔模型,zero-adjusted的对数正态模型,和zero-adjustedγ模型。ZAGG模型包括log-additive组件意味着和色散的医疗支出,支出发生时,以及物流附加组件的概率为零支出。模型组件独立估计,可以配备相同的协变量的设置。在本文中,我们首先选择ZAGG模型与不同的参数π,σ,ν和使用默认日志链接函数发现为老年人医疗支出影响因素。有很多文献因素对参数的影响π,但几乎没有讨论工作因素对参数的影响σν。我们发现一些因素可能影响的分布形状和规模改变ZAGG模型,然后影响模型的准确性。这也是本文的贡献。

我们的实证应用程序集中在评估的预测精度和预测因素影响医疗支出。我们发现ZAGG ZAGIG给类似的结果。此外,ZAGG感激这一事实ZAGIG的泛化误差是671.36,这是不到ZAGG的均方误差。然而,ZAGG模型似乎全球异常方面的表现更好,AIC和南方浸信会。其中一个模型是否优于其他仍然是一个悬而未决的问题,需要根据不同的问题和情况来决定。ZAGG和ZAGIG模型,分别扩展ZAGA和ZAIG模型,许多传统zero-adjusted模型是特殊形式的广义模型。此外,这两种参数估计广义模型增加了困难。例如,标准的参数错误时不可靠的QR分解方法,可以解决不了海赛矩阵。在本文中,我们报告了QR-based标准错误使用基于可能性置信区间法引入Rigby和Stasinopoulos44,50,51]。

虽然ZAGG模型是应用程序和计算复杂,仍有一些优势。ZAGG模型的一个好处是,混合模型的三个组件为分析师提供三方解释,估计医疗决策的影响因素,预测的医疗费用的因素,以及影响因素的色散支出金额。规模分散估计可以用来提供更多的保守估计参数时不太强劲。ZAGG模型的另一个优点是,回归方法并不意味着一个“黑盒”方法来解释个人协变量的影响。边际效应的解释模型是相对明确。

我们惊讶地发现,基本医疗保险没有显著影响老年人的医疗支出。主要原因是基本医疗保险覆盖近95%的人口在中国到目前为止,导致医疗保险的影响(没有明显的差异2,52- - - - - -54]。与高收入家庭老年人卫生保健花费更多,这说明相对不公平的现象,穷人补贴富人在中国医疗服务的利用率。与此同时,城市和农村地区的医疗支出相对较低,这也表明,医疗资源的分布是不平衡的。

最后,要注意我们的研究的局限性。本研究的一个限制是它没有考虑指标之间的因果关系和响应预测,因为我们感兴趣的医疗支出和瓦解的重要预测因子影响支出。这个因果关系要么是可能的解决方案来研究只有真正的外生影响的独立或应用工具变量技术。另一个限制是,zero-adjusted模型似乎是两阶段模型,并存在各种各样的模型在连续的部分。在本文中,我们比较只有几个模型。相反,其他类型的倾斜分布可以考虑进一步的研究。最后,我们研究两阶段模型用于预测医疗支出的金额。我们把两个部分是独立的。然而,可能存在的关系。就可能有更多的机会发展的模型,考虑到相关,如相关函数。 Moreover, it should be noted that if the relationship were considered, the difficulty of parameter estimation would increase, and the effects of individual explanatory variables could not be interpreted conveniently.

7所示。结论

在本文中,我们预测老年人的医疗费用和探索的边际效应预测在中国,使用CLHLS调查数据。针对传统托比特书的局限性和zero-adjusted模型,这些模型我们推广。这允许我们使用更加灵活的模型估计的医疗支出。zero-adjusted广义伽马模型是最好的适合这些数据。我们专注于zero-adjusted广义伽马回归模型揭示影响医疗数量的重要因素。从这个工作可以得出几个结论。健康状况、家庭收入、住所和慢性疾病的老年人明显影响医疗支出,而基本医疗保险的影响并不显著。我们使用一种物流模式发现的因素影响了老年人的医疗决定。我们发现老年人在高年龄组发生零医疗金额越低,这表明他们更健康。此外,本文准确估计老年人医疗支出为零的比例使用logit模型。 In the ZAGG model, we found that the scale dispersion was also affected by the explanatory variables, which could improve the robustness of the standard errors of parameters.

我们所知,这是第一次使用zero-adjusted广义伽马模型预测医疗支出。当前的方法似乎是有效的。然而,值得注意的一些限制,如因果关系预测和响应的相关性zero-adjusted模型两个部分。这些限制在不久的将来需要进一步调查。

数据可用性

本文中的数据来自中国纵向健康长寿调查(CLHLS)在2018年。

的利益冲突

作者宣称没有利益冲突。