文摘

研究员和分析师估算通常感兴趣的干预或治疗的影响,总体层面发生,影响到一个单位,如国家和地区。因此,在实践中比较案例研究将是他们的第一选择。然而,比较案例研究可能无法产生估计是无偏和一致的作用,在某些情况下;没有合适的控制单元,类似于治疗。计量经济学文献已采取综合控制方法和面板数据方法这一问题。在这项研究中,我们开发了一个主协变量回归估计量,利用横向相关性,以及时间依赖性,繁殖的动态处理一个事件或政策的缺失。从理论的角度来看,我们引入统计文献维减少因果推论。从技术的角度来看,我们把垂直回归和水平回归。我们构造了一个年度的38个州小组,评估在加州99号提案对啤酒销售的影响,利用主协变量的回归估计量提出了这里。我们发现,加州的烟草控制程序有重大的负面和健壮的当地啤酒消费的影响,表明政策制定者可以减少香烟和酒精的使用在公共使用一个共同的行为干预。

1。介绍

随机对照试验被认为是作为科学研究的金标准,比较结果变量在治疗组与对照组(1- - - - - -3]。他们产生无偏和一致的估计干预或治疗的效果,并提供最高水平的证据在因果关系解释(4,5]。然而,随机对照试验他们的缺点6- - - - - -8]。例如,他们是一项非常耗时的任务,花费很多钱(9]。除此之外,一些研究不可能在伦理上使用随机对照试验(10]。

相反,研究员和分析师通常执行一个比较案例研究来评估一个事件或政策的影响,特别是当干预或治疗发生在一个单一的单位总体来讲,等国家和地区(11,12]。在比较案例研究,研究和分析比较的动态聚合结果的处理单元的一组控制,不受影响的事件或政策,并获得平均处理效应估计的治疗在此期间引入一个干预或治疗后(13- - - - - -17]。例如,卡和克鲁格测量的有效性最低工资失业,通过比较与宾夕法尼亚州新泽西,基于数据在快餐店18]。

然而,比较案例研究有一定的局限性,这将损害他们的信誉的干预和结果之间的因果关系,以及限制他们的应用在实践中19]。例如,主题研究和分析选择一个单位没有经历一个事件或政策,这是作为美国的反事实的20.]。在某些情况下,研究和分析可能找不到一个合适的控制单元的反事实的影响(21]。此外,研究和分析通常使用一个小样本大小的比较案例研究,所需的添加剂技术解释干预或治疗效果的意义(22]。

在本文中,我们应对这些挑战。首先,我们开发一种新颖的方法来估计的平均处理效应的比较案例研究,这是一个数据驱动的方法,形成了一个比较单位的治疗。文献计量经济学提倡两个项目评价的替代方法设置只有一个单元接收一个干预或治疗(23,24]。综合控制方法构造的反事实的治疗使用类似的组合不受事件影响的单位,或政策(25]。面板数据的方法利用横向关联形成一个比较单元的处理(26]。虽然乍一看不同,这两种方法是相当类似的模式在数据中,他们采用复制结果变量的动力学的治疗没有干预或治疗(27]。在这里,我们主要介绍协变量的回归统计文献维减少做出因果推论的比较案例研究。主协变量的回归是一个方法,我们回归结果变量的集合对特征变量的集合,尤其是后者的数量大或者是共线。主协变量的回归也称为技术选择特征变量(28]。

第二,我们建议引导测试解释意义的影响。我们首先重建一个新的对照组的引导技术,然后估计一个事件或政策的影响的基础上,引导样本。我们重复这个过程1000倍以上,并获得一个经验分布的影响。使用经验分布,我们可以计算出实证标准误差的影响,并作出有效的解释意义。引导测试这里提出可以用数据是否在个体水平或在总体层面上,它不需要有大量的单位在对照组。

最后,作为一个说明性的例子中,我们估计99号提案啤酒销售的影响。存在广泛共识流行病学家,吸烟和饮酒有积极的协会,虽然仍然unclear28相关联的原因。估计这一政策的效果要求我们生产的反事实的加州;也就是说,加州99号提案的缺席情况。我们使用的主要协变量的回归估计量在本研究开发的繁殖加州动力学利用横向相关性和时间依赖性。估计结果表明99号提案在加州啤酒销售带来了负面的影响。这个结果也有技术含量的一个重要含义的问题,表明政策制定者可以减少吸烟和酒精的销售使用一个常见的干预。

本文的其余部分组织如下:部分2解释背后的主要思想比较案例研究主要为因果协变量的回归。节3校长,我们使用了协变量的回归估计量来评估加州烟草控制项目的效果,对当地啤酒消费。部分4总结道。

2。方法

在比较案例研究,研究员和分析师通常比较影响一个单位一个事件或政策与其他单位不受影响。这些影响单位也被称为控制单元有关计量经济学文献中,这被称为的反事实的处理单元。因此,它是相当重要的研究员和分析师找到一个比较合适的单位,类似于之前的治疗单位介绍干预或治疗的比较案例研究,这直接影响结果的可信度。在本节中,我们提出一个新方法,这是画在文献计量经济学和计算机科学,构建的反事实的处理单元。

2.1。一个激励模型

在本节中,我们解释背后的想法我们的新方法。假设我们有 单位。不失一般性,也假设第一单元经历一个事件或政策在特定时间。因此,我们有 控制单元,即 剩余的单位。

潜在的结果,将观察到的单位 在时间 如果单位 之前,期间未曝光的引入一个干预或治疗。让 潜在的结果,将观察到的单位 在时间 如果单位 暴露期间后,引入一个干预或治疗。让 是单位的实际观察结果 在时间 的比较案例研究。因此,我们有 为单位 在时间 期间之前介绍的干预或治疗。我们还假设一个干预或治疗发生在时间

基于以上这些定义,我们可以获得一个事件或政策的动态效应的结果感兴趣的比较案例研究使用以下方程: 在哪里 表示一个事件或政策的影响第一单元 ,期间后,引入一个事件或政策。

因为 第一单元 期间干预或治疗的介绍后,为了获得 ,我们需要估计 第一单元 期间后,引入一个干预或治疗。

计量经济学文学主张两种方法估计 (23,24]。Abadie等人建议使用加权平均控制单位的估计 (25),也就是说, 在哪里 代表了体重,通过最小化之间的距离特征变量的第一个单元和控制单元。

另一方面,萧和周推荐研究员和分析师使用线性回归,它利用横断面第一单元和控制单元之间的相关性,来估计 (26]。线性回归适合以下模型: 在哪里 是常数项。 代表了回归系数。 误差项。

方程(1)和(2)也都写使用以下功能:

我们可以配合上面的函数使用一些标准的评估方法,尽管函数形式 是未知的。在本文中,我们主要介绍协变量的回归统计文学上面的降维估计函数形式,这对第一单元背景缺失的状态在缺乏一个干预或治疗。接下来,我们将详细解释主要协变量的回归是如何工作的。

2.2。简要介绍主要的协变量的回归

在本节中,我们简要介绍主要的协变量的回归。假设 两个矩阵,顺序 ,分别在哪里 代表的数量的观察, 表示结果变量的数量和特征变量的数量,分别。在主成分回归, 组件可以被表示为一个矩阵的加权组合 使用以下公式: 在哪里 是一个 组件得分矩阵, 是一个 矩阵组件的重量。组件的分数在解释过程中发挥作用的 ,即。 在哪里 矩阵的权重 结果变量 组件。

使用方程(6),我们得到的预测结果变量: 在哪里 的估计是 , 的预测

到目前为止,我们简要介绍主要的协变量的回归。接下来,我们说明了如何使用主协变量的回归估计量来估计一个事件或政策的影响。

2.3。实现主协变量的回归估计量

在前面的小节中,我们描述了校长协变量的回归。现在,我们说明了如何利用主协变量的回归估计量来估计一个事件或政策的效果比较案例研究。首先,我们训练的主要协变量回归模型基于数据的单位在一个事件或政策套索技术。在这一步中,我们将处理单元的值称为结果变量,当我们将对照组的值称为特征变量。然后我们使用训练主要协变量回归模型推导出丢失的处理单元的状态后,引入一个干预或治疗。最后,我们将值的观测值相比,和获得一个事件或政策的动态效应。

2.4。推理比较案例研究

大样本推断是不适合比较案例研究,有少量的单位包括。Abadie等人建议研究员和分析师执行一系列的安慰剂的研究来解释结果的重要性。然而,先前的研究指出,安慰剂的研究结果可能会扭曲由于控制单元的大小。在这里,我们提出了引导测试比较案例研究,重建对照组和生成一个经验分布的影响,一个事件或政策的结果。

3所示。估计99号提案啤酒销售的影响

3.1。背景

在公众意识吸烟的健康风险的急剧增加在过去的十年里,加州政府在1989年推出了一个烟草控制程序,也就是说,99号提案,新一波的antitobacco立法在美国州和联邦层面。99号提案旨在减少吸烟的行为通过提高香烟税。先前的研究已经报道,99号提案静态意义和负面影响在加州烟草销售。然而,证据在99号提案是否影响当地啤酒销售仍然是未知的。考虑到抽烟和喝酒总是在一起,不仅是调查烟草控制程序对啤酒消费量的影响很有趣但也有技术含量的一个重要含义的问题。也就是说,如果我们找到一个负面联系加州99号提案和本地啤酒销售,然后它允许决策者减少香烟和酒精使用的使用一个共同的行为干预。

3.2。数据和样本

为了评估99号提案的影响啤酒销售,我们构造了一个年度面板包括38个州在美国,从1984年到1997年。我们排除了其他国家,因为这些国家通过一个类似的烟草控制程序期间1989年至1997年。作为加州的烟草控制项目始于1989年,我们的研究期间包含99号提案的引入,前5年和9年之后。我们的兴趣的结果变量是年度人均啤酒消费在国家层面上,在我们的测量数据,人均销售加仑。使用数据和前一节中描述的技术,我们创建了加州的反事实的。计量经济学文献后,我们的名字加州的反事实的合成。我们估计99号提案的动态影响啤酒销售的加州人均啤酒消费水平差异及其反事实的,也就是说,加州合成后的几年里99号提案的引入。

3.3。结果

面板在图1情节的动力学人均啤酒消费量在加利福尼亚和合成加州的深红色的线代表加州和光线红线代表加州合成。这个面板显示,加州的合成提供了一种比较适合单位加州99号提案的效果评估人均啤酒销售。之前,加州政府启动了烟草控制项目,啤酒消费的时间路径在加州几乎完全覆盖着,在加州的合成。从这个小组中,我们也看到,水平的啤酒消费量仍类似于加利福尼亚和合成加利福尼亚在1980年代末。然而,他们在1990年代初开始发散,99号提案已经通过了两年了。观察到的滞后效应可能是由于加州的烟草控制程序首先减少烟草的使用,逐渐促进公共卫生行为,因此导致了使用酒精下降。换句话说,啤酒消费量的减少可能的副作用加州的烟草控制项目,对这个项目在一个相对长期的。此外,该面板显示,啤酒销售持续下降后99号提案的引入,但更大的减少在加州比合成加州。在1996年,啤酒消费的差异之间的两个国家到达最大值。人均啤酒消费量是加州合成高大约4点相对于加利福尼亚。

面板B在图1,策划的动态差异之间的人均啤酒销售加利福尼亚和合成加州,保证了我们的发现。这个面板显示,加州99号提案的当地啤酒消费有持久的影响。即差距已经拉大多年来99年引入命题之后,即使在1997年减少差距,去年在我们的研究中。

3.4。推理加州99号提案的影响对当地啤酒消费

为了解释的意义估计结果,我们进行了引导测试。首先,我们画,更换,38个州,整个观测为每个州在1984年和1997年之间,从我们的原始样本,形成一个新的样本。我们命名新的样本引导样品。然后我们估计加州烟草控制项目的影响人均啤酒销售基于引导样本。上述过程重复1000次,并提供一个经验分布的影响,99号提案对啤酒消费。

2情节引导测试的结果。红色阴影代表经验分布的影响,加州的烟草控制项目人均啤酒销售。dash红线是经验分布的均值。固体红线是99号提案的估计效果获得原样品。这个数字显示,效果的经验分布,加州的烟草控制项目对当地啤酒消费是远离零,而两个竖线是彼此接近,表明99号提案有统计学意义和显著的负面影响在加州人均啤酒销售。

3.5。敏感性分析

我们在前面说过,比较案例研究的主要问题是主体的选择比较单位的研究员和分析师,这可能伤害的可信度评估的比较案例研究。虽然一个数据驱动的方法可以缓解问题,观察到的结果可能是为特定的比较单元完全存在于原样品。因此,为了增加我们的信心,99号提案有实质性的负面影响啤酒消费量在加利福尼亚,以及解释我们的结果不是由一个特定的控件状态包含在我们的示例中,我们通过迭代执行leave-one-state-out测试应用的主要协变量的回归估计量构造38合成加州州基于38次级样本,每个样本都包括一个国家依次从原始样本。

3礼物leave-one-state-out测试的结果。在面板,我们画出38个合成加州州。这个面板显示,所有的时间路径的人均啤酒销售38合成加州州彼此接近,表明合成的创建加州不敏感的选择控制州用于合成加州。在面板B,我们加州动态添加到面板a这个面板显示,38合成加州州人均啤酒销售有不同的趋势从加州1990年之后,99号提案的引入后的第二年。这个观察,从面板B,进一步增加我们的信心,加州的烟草控制程序有一个滞后和实质性的负面影响当地啤酒消费。

4所示。结论

仅仅当一个单位经历事件或政策,为了评估事件或政策的影响,第一个和研究员和分析师预期的选择是比较案例研究。然而,在实践中,实现比较案例研究的局限性。一方面,研究员和分析师很难找到一个合适的比较单元。另一方面,控制单元的选择用于形成一个比较单元适用于治疗单位取决于个人研究员和分析师的经验。也就是说,不同的人持有不同的选择,这可能会导致杰出的估计结果的影响相同的干预或治疗。这严重降低了估计的比较案例研究的结果的可信度。

在本文中,我们开发了一种新方法估算的平均因果效应比较案例研究,即主要协变量的回归估计量。这个新的估计量避免控制单元的主题选择研究员和分析师,并采用数据驱动程序创建一个比较单元适合处理单元,该复制结果变量的动态处理单元在一个事件或政策。我们还解释了长期短期估计量的实现细节。此外,我们提出了引导测试解释的意义估计结果在一个小样本,尤其是在比较案例研究,大样本推论技术通常是不合适的。

作为一个说明性的例子中,我们估计加州烟草控制项目的效果,对当地啤酒消费。流行病学研究报道称,香烟和酒精总是走在一起,即使他们之间这种联系的确切性质仍鲜为人知。先前的研究还评估了在加州99号提案对香烟消费的影响。然而,证据在加州99号提案的啤酒销售仍不清楚。我们的研究结果提供的证据表明,加州的烟草控制计划对当地啤酒消费量大幅和持续的负面影响。在引导测试中,我们还观察到一个统计上显著的负99号提案对人均啤酒销售的影响。此外,使用leave-one-state-out测试,我们理解,我们合成的建设加州对控制单元的选择不敏感,。

我们的研究有助于对因果推论的文学比较案例研究。我们提供一个比较新颖的方法构建反事实的处理单元,采用主协变量的回归预测治疗的潜在后果。另一方面,我们的工作扩大覆盖面的机器学习的应用。据我们所知,这是第一主协变量回归应用于因果推论比较案例研究。

当然,我们的研究有一定的局限性。在本文中,我们只考虑一个特殊的环境中,只有一个单位暴露在事件或干预。在现实的话,可能会有一组单位暴露在事件或干预。这里提出我们的方法不能直接应用于这些设置。然而,我们可以使用控制单元构建的反事实的每个处理单元基于回归树模型,并为每个处理单元估计个体效应。除此之外,我们的方法很大程度上依赖于跨单位相关信息,不考虑结果的时间依赖性的治疗单位。未来的研究应该努力构建的反事实的处理,同时使用它们。对于潜在的应用程序,也可以使用的方法在能源领域,例如,分析的影响,为新能源产业补贴政策的设计装机容量。我们使用这种方法来研究监管政策变化对电网的影响成本监控和审计成本。初步结果表明,监管政策明显影响成本监控和审计成本。 Additionally, the approach proposed in this paper also is applied in the fields of economics and management, where often there exists many issues related to causal inference. For example, economists often want to understand the effect of job train program on income. Thus, our approach would had a larger range of the potential application.

数据可用性

对应的数据可从作者在合理的请求。

附加分

通信和申请材料应该写给Jiayang香港。

信息披露

本文没有反映出官方声明或意见的组织。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

所有作者同样导致了本文。Weibing丁和杰李概念化提供的学习和监督。滇金和Jiayang香港收集数据,进行统计分析,起草了手稿。Weibing丁和杰李的解释结果。所有作者提供了重要的反馈草稿和批准最后的手稿。

确认

我们承认资金从中国国家电网公司科技项目(批准号B311JH21000D)。谢谢朗程,李魏魏,汇为他们有用的评论这篇文章的早期版本。此外,Jiayang香港想感谢,特别是,耐心,关心,支持从肖颖周。