美国行政索赔数据中子宫内膜腺癌鉴别算法的开发与验证

抽象

背景。子宫内膜腺癌是最常见的子宫内膜癌。然而，在管理数据库中识别子宫内膜腺癌的诊断代码尚未得到验证。客观的。为了开发和验证的算法识别健康保险索赔数据库子宫内膜样腺癌的发生。方法. 为了在HealthCore综合研究数据库（HIRD）中确定女性中的潜在病例，使用已发表的文献和医疗咨询来开发算法。算法标准为2010年1月1日至2014年8月31日期间至少有一个住院诊断或至少两个门诊诊断子宫癌（国际疾病分类，第九次修订，临床修改（ICD-9-CM）182.xx）。在符合这些标准的妇女中，我们获得了病历，两名临床专家对病例状况进行了回顾和判断，以确定诊断。然后估计算法的正预测值（PPV）。结果. 根据330例子宫内膜腺癌的潜在病例，PPV估计为90.8%（95%CI 86.9-93.6）。符合该算法的妇女，但在复查病历后，发现没有子宫内膜腺癌，诊断为子宫肉瘤、子宫横纹肌肉瘤、子宫内膜间质肉瘤、卵巢癌、输卵管癌、子宫内膜增生、平滑肌肉瘤或结肠癌。结论。包括用于子宫内膜腺癌一个住院或两个门诊ICD-9-CM诊断代码的算法具有高的PPV。结果表明，索赔数据库可以用来可靠地识别在追求高PPV研究子宫内膜癌的病例。

1.介绍

子宫内膜癌的发病率在美国超过了其他子宫癌的发病率，并且在过去十年中稳步上升[1个]。子宫内膜腺癌是最常见的组织部位和类型的子宫癌，2016年美国估计有10470人死于子宫内膜腺癌[2个]. 行政数据库通常用于研究罕见的情况，如子宫内膜癌。然而，在行政数据库中鉴别子宫内膜腺癌的诊断代码的准确性尚未得到评估。一个问题是，现有的ICD-9-CM诊断代码（182.xx）不能区分子宫内膜癌和子宫肉瘤。本研究的目的是开发并验证一个利用健康保险索赔数据库识别子宫内膜腺癌的算法。

2.方法

该研究使用了来自HealthCore综合研究数据库(HIRD)的行政索赔。HIRD包括居住在整个美国大陆的个人，是商业保险人口的人口统计学代表。它包含来自健康计划成员的纵向医疗和药品索赔数据。会员登记、医疗保健(专业和设施索赔)、门诊处方药使用、门诊实验室检测结果数据和医疗保健使用可能会随着时间的推移而被跟踪。自2006年以来，该数据库包含了超过7000万人的登记记录，记录描述了综合医疗和药学福利的时期。

以确定潜在的子宫内膜腺癌的患者，我们需要至少一个住院诊断或子宫癌的至少两个门诊诊断1 2010年1月之间（国际疾病分类第9版，临床修正（ICD-9-CM）182.xx）8月31日2014年这两个门诊诊断不可能发生在同一天，但可以通过任何持续时间，因为他们在研究期间内发生分离，只要。该指数日期被定义为诊断为子宫癌的日期。我们要求妇女有至少12个月的连续保健计划资格的指数日之前，他们在此基准期没有癌症诊断（ICD-9-CM 140.xx-209.xx）的历史。

我们确定了潜在的病例，寻求医疗记录来验证算法。对于这些患者的样本，我们要求特定提供者提供一份单一的医疗记录，并编辑了个人识别信息。为了增加选择的医疗记录包含裁决所需数据的可能性，我们将潜在的医疗记录来源排列如下：（1）将子宫癌列为主要诊断的住院治疗；或（2）对子宫癌有一个以上索赔的医务室（按与子宫癌相关的ICD-9-CM编码）。

每个记录由两名医生（马塞拉·卡门博士，妇科肿瘤，和布鲁斯Patsner博士，妇产科方面的专家），以确定诊断是否由算法识别的事件表示子宫内膜样腺癌的发生独立审查。审阅者中使用的结构式问卷来记录的关键临床发现（例如，活检结果，诊断程序和处理，阶段，预先存在的癌）和最终判断的情况下的状态（已确认子宫内膜癌，不子宫内膜癌，和非可评估）。对于子宫内膜癌，我们考虑了ICD-9-CM code182.xx证实当病历包括由治疗医疗服务提供者的记录子宫内膜癌诊断的文件，如果有来自子宫内膜活检阳性结果，病理报告，手术过程（S），或治疗药物，审判委员会认为是子宫内膜癌是一致的。确诊病例患者谁见了筛选标准，并通过病历审查被证实为子宫内膜腺癌的一个事件案例。未经证实的病例患者谁见了筛选标准，但谁不符合标准的验证。

我们计算阳性预测值（PPV）作为算法识别的病例中被确认为真实病例的比例。对记录进行审查但发现不足以确定病例状态的患者（例如，仅限于乳房X光检查）排除在外。用二项比例方程计算PPV的95%置信区间（CI）。我们还计算了按诊断年龄（30-44岁、45-64岁和65岁以上）和符合子宫癌诊断算法标准（住院患者与门诊患者）的护理设置分层的PPV。

这项研究得到了批准，新英格兰机构审查委员会(New England Institutional review Board)也批准放弃对患者进行病历审查的授权。

三。结果

我们确定了在此基准期4766个个人谁是自己的指数日之前2010 01月01日和31日之间达到筛选算法子宫内膜腺癌2014年8月，并有至少12个月的连续基线招生，也没有癌症的诊断。在这些女性中，我们选择了759案件由临床专家评审的候选人中随机抽取（图1个)。在这759例病例中，我们能够获得330(43%)符合算法的妇女的医疗记录(平均年龄63.4岁，标准差10.3)。在美国人口普查居住地区，44%的人居住在中西部，20%的人居住在东北部，25%的人居住在南部，11%的人居住在西部。53%的女性病例来自医院，47%的病例来自门诊(见表)1个)。我们假设这330个病例是759个病例中的一个随机样本，因为年龄和美国居住地区的分布与我们无法获得医疗记录的患者样本相似。


特征	耐心（％）

年龄（岁）
平均值（标准差），中位数	63.4（10.3），62
类别
<40	1.4个
40–49岁	8.1
50–59	26.1
60 - 69	32.1条
70–79	21.4条
≥80	10.9条

美国居住区
中西部	44.0分
东北	20.3款
南	24.8
西	10.9条

医疗记录的类型审查
住院	53.4条
门诊护理	46.6

临床判定后，286名妇女被确诊为子宫内膜腺癌，29名妇女被归类为子宫内膜腺癌以外的疾病，15名妇女被发现不可评价，导致PPV为90.8%（95%CI 86.9-93.6）。临床评估者之间未经机会调整的总体一致性粗略水平约为93%，Cohen's kappa为0.70。根据未显示子宫内膜癌或活检报告阴性的子宫内膜活检结果，确定记录为假阳性。由于活检或病理报告中缺少文件，记录被认为是不值钱的。29例假阳性中，子宫内膜增生占17%，子宫内膜间质肉瘤或卵巢癌占7%，横纹肌肉瘤、输卵管癌、平滑肌肉瘤、结肠癌、髋关节疾病、胸部肿块或子宫切除术占3%。最后，34%的假阳性病例没有可识别的替代诊断。在使用两项门诊诊断标准确定患有子宫癌的妇女中，PPV为91.6%（95%CI 88.3-94.8）。两次门诊诊断的平均持续时间为50.8天，标准差为119.9 天，中位数为10.5天。使用单一住院诊断确定患有子宫癌的妇女的PPV较低，为85.4%（95%CI 74.5-96.2）（表2个). 65岁及以上妇女的PPV高于30-44岁妇女和45-65岁妇女的PPV（表2个)。


	确诊子宫内膜癌	没有子宫内膜癌	Unevaluable	PPV公司	95％CI

总体	286个	29个	15个	90.8%	86.9至93.6

索赔诊断位置
门诊	251个	23个	德意志北方银行	91.6%	88.3 - -94.9
住院患者	35岁	6个	三	85.4%	74.5-96.2

年龄段
30-44年	八	1个	0个	88.9%	68.4 - -99.9
45 - 64岁	110个	13个	八	89.4％	84.0 - -94.9
65年以上	168个	15个	7个	91.8%	87.8至95.8

4.讨论

据我们所知，这是第一项在美国行政索赔数据库中验证子宫内膜腺癌识别算法的研究。我们计算PPVs作为HIRD中观察到的子宫癌索赔代码准确性的度量。然而，其他有效性的测量，包括敏感性和特异性，不能从我们的数据中计算出来，因为我们的研究样本只包括有感兴趣诊断代码的患者。总的来说，HIRD包含了大量相对健康的劳动人口。子宫内膜癌算法在其他人群中的表现可能不同，特别是子宫内膜癌的患病率不同。

在许多情况下，研究人员会寻找一种具有高PPV的算法[三]。识别子宫内膜腺癌的行政索偿算法的总PPV为91%，表明约9%的索偿中识别的病例未被病历审查证实。我们发现我们的算法在门诊病人和65岁以上的老年妇女中表现得更好。尽管ICD-9-CM诊断代码不能区分子宫内膜腺癌和其他相关诊断，但由于其他子宫癌(如子宫肉瘤)的发病率相对较低，在行政诉讼中使用这些代码似乎有助于识别子宫内膜腺癌。我们没有包括ICD-9-CM 179。xx，对于子宫恶性肿瘤，部分未指定，在算法的基础上，临床医生参与审判过程的建议。因此，该算法可能没有检测到任何接收此非特定代码的情况，这可能会牺牲一些灵敏度。这种权衡(特异性相对于敏感性的增加)可能适合于寻求高PPV的研究(例如，具有效果比率衡量的比较研究)[三,4个]。然而，病例识别仍不完善，在比较研究中，因治疗组的不同而有所不同。因此，在行政诉讼中使用这种或类似算法的研究应考虑定量偏差分析方法，以评估误分类对结果的影响[5个]。

在其他方面，敏感性也可能是不完整的。任何只有一个门诊诊断或没有子宫癌诊断的病例都不会被算法识别。（我们发现，在使用至少一个住院诊断或至少两个子宫癌门诊诊断的算法标准筛选潜在子宫内膜癌诊断的5909名妇女中，大约4.3%的妇女在整个研究期间只有一个子宫癌门诊诊断）。这可能是由于子宫内膜腺癌患者未被诊断，或终止工作，因此，在第一次门诊诊断后，由于健康状况恶化（因此未能满足至少两次门诊诊断或一次住院诊断的标准）而导致的健康保险。

当考虑将该算法应用于其他研究人群时，应认识到PPV可因研究设置（例如流行率）而变化[6个]。这样，PPV在本研究中观察到的施加于其他设置或研究人群的算法时，其中子宫内膜腺癌是更多或更少的常见可能不相同。此外，诊断模式和类型的子宫癌患病率会随时间而改变。因为HIRD包含在美国的少数低收入者，谨慎的假设，算法的性能将转化为美国医疗覆盖人口保证。

最后，未来需要进行验证，以评估新的诊断代码和编码系统的性能，如《国际疾病分类》，第十版（ICD-10）。ICD-9-CM 182.xx结果与ICD-10近似转换的正向映射可能更具特异性（ICD-10c54.1-子宫内膜恶性肿瘤，C54.2-子宫肌层恶性肿瘤，C54.3-子宫底恶性肿瘤，C54.9-子宫体恶性肿瘤，未明）。最具体的代码（C54.1）的反向映射只捕获ICD-9-CM 182，因此我们不太可能仅基于编码转换就发现更多的误报。

5个。结论

这项研究为子宫内膜腺癌的基于索赔的鉴定提供了一个准确度的估计，包括在ICD-9-CM系统中编码的数据。

数据可用性

用于支持本研究结果的HealthCore集成数据库数据尚未提供，因为作者无权共享数据。

附加点

此前帖子或演示文稿。研究结果在2016年爱尔兰都柏林国际药物流行病学会议(ICPE)上发表。

的利益冲突

RY，GB，和SL是HealthCore公司，其收到的资金从辉瑞公司为这项研究的员工。DE是HealthCore，公司的雇员在该研究进行的时间。LR是辉瑞公司SG和BP的雇员进行了补偿，作为临床顾问由辉瑞公司

致谢

我们要感谢博士。卡门和Patsner他们在审理子宫内膜癌和子宫内膜增生的情况下工作。这项研究是由辉瑞公司资助

参考文献

A. S. Felix, J. K. Bower, R. M. Pfeiffer, S. V. Raman, D. E. Cohn，和M. E. Sherman，“子宫内膜癌诊断后心血管疾病的高死亡率:来自监测、流行病学和最终结果(SEER)数据库的结果，”国际癌症杂志卷。140，没有。3，第555-564，2017。视图:发布者网站|谷歌学者
A.-Q。Tran和P. Gehrig，“子宫内膜癌的最新进展”，F1000Research，第6卷，第81页，2017年。视图:发布者网站|谷歌学者
“使用预测价值来调整因结果状态的错误分类而产生偏差的相对风险估计，”美国流行病学杂志，第117卷，第1期，第98-105页，1983年。视图:发布者网站|谷歌学者
J、 Chubak，G.Pocobelli和N.S.Weiss，“电子医疗数据算法精确性度量之间的权衡”临床流行病学卷。65，没有。3，第343-349.e2，2012。视图:发布者网站|谷歌学者
T、 L.Lash，M.P.Fox，R.F.MacLehose，G.Maldonado和L.C.McCandless，“定量偏差分析的良好实践”国际流行病学杂志，第43卷，第6期，第1969-1985页，2014年。视图:发布者网站|谷歌学者
S、 Lanes，J.S.Brown，K.Haynes，M.F.Pollack和A.M.Walker，“在医疗数据库中识别健康结果”药物流行病学与药物安全卷。24，没有。10，第1009至1016年，2015年。视图:发布者网站|谷歌学者

癌症流行病学杂志

抽象