混合效应模型与审查的协变量，艾滋病毒/艾滋病研究中的应用

抽象的

当集群之间存在较大差异时，混合效应模型被广泛用于建模集群数据，因为混合效应模型允许特定于集群的推断。在一些纵向研究(如HIV/AIDS研究)中，一些时变协变量由于检测限制可能被左删或右删，可能在感兴趣的时候丢失，或者可能测量误差，这是常见的。为了解决这些“不完全数据”的问题，一个常见的方法是建立基于观测协变量数据的时变协变量模型，然后使用拟合模型来“预测”截尾、缺失或测量错误的协变量。在这篇文章中，我们回顾了在纵向和生存反应模型中处理截尾协变量的常用方法，并主张采用非线性机制协变量模型(如果这种模型可用)。

1.介绍

混合效果模型广泛用于聚类数据的分析，特别是分析纵向数据或生存数据。在纵向研究中，随着时间的推移，重复测量一些变量，并且这些变量可以作为响应或协调因子使用，这取决于研究目标。常见问题是，由于检测限度，可能留下或向右进行禁用，可能缺少感兴趣的时间，或者可以用错误测量。例如，在艾滋病毒/艾滋病研究中，由于较低的检测限制，可以缩短病毒载荷值，并且可能丢失或用大量误差测量或测量。在统计分析中，必须针对正确的统计推理解决这些“不完整的数据”问题。在本文中，我们考虑这种情况，当这些未完全观察到的和时变的变量被用作纵向响应数据的混合效果模型中的重要协变量时时间 - 事件时间响应数据。为了简化讨论，我们专注于带有左审查的时间依赖的协变量，因为类似的方法/模型可以用于协变量中的右审查或缺失数据或测量误差。

在近年来的文献中，带有左截的纵向数据受到了越来越多的关注(例如，[1-8.])。共同的方法是假设基于观察到的数据，例如线性混合效应模型的感兴趣的协变量的经验模型。然后，在审查这些值时，经验模型用于“预测”真正的协变量值，假设拟合模型继续保持未观察到的删象值。这种方法的潜在问题是假定的基于验证的经验协变量模型由于这些“太小以观察”值可能不同的数据生成机制，所观察到的数据可能不会持有审查的协变量值。例如，在艾滋病研究中，由于可能不同的病毒载荷的可能不同的疾病状态，检测极限下方的病毒载量低于检测极限下方可能与上述检测极限（观察值）相差不同[6.］．此外，无法基于观察到的数据验证对缩象值的假定模型和分布。

最近，孔和楠[4.]提出了一种基于类似于权利的诸如官方生存数据的想法的有趣方法，即，它们使用类似于COX模型的想法，用于对纵向数据进行持续审查的持续审查的生存数据。yu等人。[6.]提出了一种将截尾值视为点质量的方法。虽然这两种方法没有对截尾值做分布假设，但如果截尾值确实遵循与观测值相似的参数分布，方法可能不是有效的。

在一些应用中，如艾滋病毒病毒动力学和药代动力学建模，可以基于底层导出机械或科学模型数据生成机制．这些模型通常是非线性并且是基于一组近似描述真实数据生成机制的微分方程推导出来的，因此这些模型在生物学或科学上是合理的(例如，[9.那10.])。此外，根据许多数据分析，这些机制模型已被证明可以很好地拟合观测数据[11.］．由于这些机制模型基于基础的真实数据生成机制，因此它们应该持有审查值，即使未观察到这些值。因此，这些模型可以用于更好地“预测”的未观察到的官方标志。在本文中，我们将对这些方法进行审查。该方法由艾滋病毒/艾滋病数据集说明。

2.混合效果模型与审查协变量

在本节中，我们将关注纵向响应的广义线性混合效应模型和事件时间响应的生存模型，这些模型带有左截尾数和时间相关的协变量。这些方法可以以概念上简单的方式扩展到其他类型的回归模型。

2.1。通过截面的协变量的广义线性混合模型

我们首先考虑在张等研究之后，在纵向研究中，在纵向研究中具有左截取和时间依赖的协变量的广义线性混合模型（GLMM）。[7.］．让为个人衡量兴趣的反应当时那．让是一个重要的时间相关协变量，受左截尾、测量误差和丢失数据(假设丢失是随机的)影响。我们表示未观测到的真值通过在存在审查或缺少数据或测量误差的情况下。让成为已知的检测极限这样- 如果不能观察到值（检测到）（即，留下审查），让是审查指标如果和否则。让成为其他协变者的矢量。

考虑以下GLMM：在哪里是已知的链接功能，是未知的参数，是一个子集那包含随机效果，和是一个未知的协方差矩阵。我们假设回复遵循指数家庭的分布，例如正常或泊松或二项式分布。当协变量时被删除或丢失或丢失或用错误测量，我们可能会假设一个实证模型基于观察到的-数据，如线性混合效应(LME)模型。然后，我们假设LME模型对截尾值或未观测值继续保持不变，并进行似然推断。然而，如节中所述1，这种方法可能是有问题的，因为缩象值可能不遵循基于观察到的数据获得的相同模型。

当机械或科学模式可用于协变量时那such as in HIV viral dynamics, the scientific model should hold not only for observed data but also for unobserved data (e.g., censored or mismeasured or missing data), so that the model can be used to provide better “predictions" for the unobserved true covariate values. Such a scientific model is often非线性．对于个体间差异较大的纵向数据，通过在非线性模型中引入随机效应来解释重复测量的个体间差异和个体内相关性，我们得到了非线性混合效应(NLME)模型。因此，我们假设协变量遵循以下NLME模型: 在哪里是一个已知的非线性函数、向量含有随机效果，向量包含固定参数，是时候真正的协变量那是一个未知的协方差矩阵，和’是随机误差(测量误差)。

注意,当是一个线性函数（如此模型（2）是一种LME模型），协变态模型（2)是基于观测到的协变量数据选择的经验模型。在更一般的意义上，经验模型还包括半参数或非参数混合效应模型。在文献中，这种经验模型通常用于处理截尾、缺失数据和测量误差(例如，[1那2那11.])。当协变量时不是正常的，例如二进制或计数，可以认为广义线性混合模型可以被认为适合观察到的协变量数据，这仍然是经验模型。这些经验模型可以为未观察的数据提供差的“预测”，例如被审查的数据。

2．2．含截尾时变协变量的生存模型

对于带有时间依赖的协变的生存模式，协变量也可能被审查。此外，COX模型的参数估计和推断要求在事件时间上获得协变量值[11.］．但是，这通常不是这种情况，因为在所有事件时间都不太可能获得协变量值。因此，这导致缺少协变量问题。协调因子也可以用错误测量，即观察到的协变量值可能不是真正的值，而是具有错误的值。在所有情况下，一种常见的方法是基于观察到的协变量数据来模拟协变量过程，然后使用拟合的协变量模型“预测”被审查或缺失的协变量值。如前一节所述，机械或科学协变量模型可以比经验协变态模型更好地“预测”，如张和吴[8.］．

在这里，我们考虑具有可能对事件时间的权利审查的生存数据的COX模型。对于个人那我们定义是观察到的事件时间的最低限度和正确的审查时间和定义成为审查指标如果事件时间是正确的审查和除此以外，．让成为个人的危险功能当时．含时变协变量的Cox模型可表示为在哪里是回归系数的矢量和是（未指定的）基线危险功能。

当时间依赖的协变量时被遗断或丢失或用错误测量，对Cox模型的推断可能是具有挑战性的。与前一节中的GLMM类似，共同的方法是模拟时间依赖的协变量基于观测到的协变量数据，假设拟合的协变量模型对截尾的协变量值成立。同样，如果审查后的协变量值与观察值表现得非常不同，这样的经验方法可能会有问题。如果有一个机制协变量模型，这个问题就可以解决。我们可以再次考虑机械性NLME模型(2）为了解决协变者中的审查。

3.统计推断

对于参数估计和推断，常用的方法有两种:两步法和联合似然法。下面我们将简要回顾这两种方法。

3.1。两步方法

要估计模型中的参数，简单的方法将是所谓的两步法:在第一步，我们根据观察到的协变量数据拟合协变量模型，然后在第二步，我们拟合响应模型分别地，剔除或缺失的协变量值由第一步的预测值替代。

具体地，考虑GLMM响应模型（1)及协变量模型(2）。在第一步中，我们适合NLME Covariate模型（2)，并得到参数的估计和经验贝叶斯估计随机效应．当时协变量的预测值是由然后，在第二步中，我们将以下GLMM使用标准的完整数据方法适合拟合GLMM的标准完整数据方法如果是协变量在时间被审查或丢失或缺失价值那其值由预测值施加．

具有上述简单两步方法的明显问题是估计不确定性在第一步中，在第二步中被忽略。参数估计的标准错误可能被低估，导致对参数的误导性推断．要解决此问题，我们可以使用引导方法在响应模型中获取更可靠的标准错误[11.］．从上述拟合模型中生成样本的参数自助法可以用于产生更可靠的估计标准误差。然而，两步方法可能不是有效的，因为协变量数据和响应数据并没有同时使用。

如果响应数据是生存数据，那么两步方法中提到的问题仍然存在。此外，在这种情况下，纵向协变量数据可能被死亡或辍学等事件截断。在这种情况下，两步法可能会导致有偏估计。

3.2。联合可能性方法

比两步方法更理想和形式的方法是基于响应和协变量的“关节似然”使用似然方法。然后，两个模型中所有未知参数的最大可能性估计（MLES）获得同时地基于所有观察数据的联合可能性。如果所有假定的模型和分布保持，则MLES是最有效的估计。让是响应和协变量模型中所有未知参数的集合，让表示一般密度函数。给出了观测数据的联合对数似然在哪里是来自指数家庭的密度函数，，和是协变者的审查指标。

评估日志可能性中的棘手集成可以计算地具有挑战性，特别是当随机效应的维度时更高。通过治疗随机效应作为“缺失数据”，我们可以使用EM算法来寻找mle。让为协变量向量的截尾分量．通过治疗作为“缺少数据”，张等人。[7.]提出了一种蒙特卡洛EM算法，其中通过GIBBS采样器与抑制采样方法结合使用E-Step。蒙特卡罗EM算法仍然是计算密集的，但是可行的。或者，我们可以使用计算上更有效的拉普拉斯近似或线性化方法来使用为了近似推理[11.］．

对于生存响应模型，联合日志可能是由在哪里与存活函数定义为．统计推断可以再次基于蒙特卡罗EM算法，尽管由于COX模型中的非参数基线危险，计算可能会更令人繁琐。

例子

在下文中，我们展示了来自艾滋病毒/艾滋病研究的两个例子。在第一个例子中，我们考虑一个泊斯通普遍的线性混合模型，官方协变量。在第二个例子中，我们考虑一个COX生存模型，具有缩小的协变量。在两个示例中，时间依赖的协变量受到缩小审查，并由NLME模型建模以解决审查以及缺少的数据和测量误差。该方法由Monte Carlo EM算法实施R. R代码可根据要求提供。

4.1。通过截面的协变量的广义线性混合模型

我们考虑艾滋病纵向数据集，并研究病毒载荷（VL）如何随时间涉及CD4计数在抗HIV治疗期间。病毒载荷通常具有较低的检测极限，使得不能观察到低于极限的病毒载荷值，即，可以缩短病毒载荷。此外，病毒载荷可能丢失或用误差测量。作为插图，我们查看CD4计数（）作为响应和vl作为时间依赖的协变量（），我们塑造纵向CD4计数为泊松GLMM：在哪里那’是随机效应，而TR表示治疗指标。由于VL可能被保留删失并且可能被测量有误差，我们考虑以下机理NLME模型，它在生物学上是合理的[9.那10.]：在哪里那是随机效果，病毒载荷值是改变了。假设随机效应遵循均值为0和非结构化协方差矩阵的多元正态分布。作为比较，我们还基于经验LME模型(ELM)拟合观察到的VL数据: 未知的参数使用张等人所述的蒙特卡洛EM算法估计。[7.］．

数字1显示NLME和ELM模型适合观察到的两个随机选择的受试者的病毒载量，其中次数重新安装在其中．两种协变量模型的拟合曲线不同。特别是，基于NLME模型的预测线很好地拟合了未经删失的病毒负荷;对于截尾段，直线遵循力学模型，保持整体的非线性趋势。另一方面，经验LME模型使拟合直线与未删失的病毒载荷有明显的偏差，并对删失后的病毒载荷施加线性或二次曲线。这种协变量模型拟合之间的差异，特别是在截尾部分，导致了响应模型中不同的参数估计。桌子1总结了响应CD4模型的参数估计，分别基于NLME和ELM模型来安装Covariate V1。正如我们所看到的，参数估计结果不同。例如，估计那根据NLME协变态模型，测量CD4和VL之间的关联在5％水平上显着，但基于ELM协变量模型并不重要。基于NLME模型的结果应更加可靠，因为它为删除的病毒负载提供了更可靠的预测，因为NLME模型可以比ELM方法基于基于底层数据，因此NLME模型可以更好地预测未检测到的未检测到的官方义的值。- 对观察和未观察的协变量值相同的生成机制。删除/缺失值的百分比越高，NLME模型执行越好。这是通过张等人的仿真研究证实。[7.］．


响应模型参数	nlme协变态模型			榆树协变量模型
响应模型参数	估计	SE	p值	估计	SE	p值

4.2。恢复调查群的救生模型

作为另一个例子，我们再次考虑上述数据集，但现在我们专注于第一个CD4：CD8下降的发生。这里的目的是确定是否以及如何如何以及如何如何与治疗和病毒载有关的时间。我们考虑以下COX生存模型，暂时达到第一个CD4：CD8下降：对于此数据集，威布尔分布似乎为观察到的事件时间提供了合理的拟合，因此我们考虑了事件时间的参数威布尔分布。对于病毒载荷，我们使用第一个示例中描述的相同的NLME和ELM模型。

数字2显示两个随机选择的受试者，基于与机械NLME协变量模型和经验LME模型（ELM）的联合COX生存模型以及相应的估计危险功能和生存概率函数的关节COX存活模型的拟合线。．我们看到机械式NLME模型和经验LME模型导致不同的危险和生存估计。基于NLME的联合模型预测了单调增加的危险，表明事件的风险增加。另一方面，基于LME的模型预测了更多曲线风险功能。桌子2给出了生存模型的参数估计结果。在这里，差异似乎相对较小，但正如所讨论的，预测的危险和生存概率可能是相当大的。由于NLME协变量模型是基于合理的生物学理由推导出来的，它们比ELM协变量模型对截失(未观察到的)病毒载量提供更好的“预测”，对每个个体的危险和生存概率提供更可靠的预测，基于类似于表的原因1，这也得到了Zhang和Wu [8.］．


COX模型参数	nlme协变态模型			榆树协变量模型
COX模型参数	估计	SE	p值	估计	SE	p值

5.讨论

非线性机制协变量模型在处理协变量中的截尾和缺失数据方面非常有吸引力，因为基于这种模型的“预测值”比常用的经验协变量模型更可靠。这些非线性机制模型被广泛应用于HIV病毒动力学、药代动力学、生长或衰退以及其他一些领域[12.那13.］．然而，在许多情况下，可能无法使用这些机械模型。在这种情况下，替代方法是将截解的值视为“点质量”，以避免对缩官值的无可核碎的分布假设。当缩象值的百分比较高时，非线性机械变性模型的优点更为明显，如在张等人确认。[7.］．非线性机械协变量模型的局限性如下：（i）在许多应用中，这种机械模型可能不可用，并且（ii）计算可以具有挑战性，如下所述。

由于机制协变量模型通常是非线性的，计算是似然推理的主要挑战。虽然蒙特卡罗EM算法几乎总是可以使用，但它们可能会提供潜在的问题，如非常缓慢的收敛或甚至不收敛。此外，蒙特卡罗EM算法通常需要与EM算法e步生成蒙特卡罗样本的Markov Chain Monte Carlo (MCMC)方法相结合，使得计算更加困难。当随机效应的维数很高时，我们推荐近似方法，如Laplace近似和线性化方法，如Wu [11.］．这些近似方法可以计算得更有效并且提供合理的近似。

数据可用性

该数据集可根据请求使用。

利益冲突

作者声明他们没有利益冲突。

致谢

本研究部分由加拿大自然科学和工程研究委员会部分支持（NSERC）Discovery Grant No。22R80742。

参考

P. W.Bernhardt，H. J. Wang和D. Zhang，“通过多重归纳，协变量的生存数据柔性建模”，“计算统计和数据分析，卷。69，pp。81-91,2014。查看在：出版商的网站|谷歌学者|Mathscinet.
J.P.Hughes，“混合效果模型与审查数据申请艾滋病毒RNA水平”，“生物识别学，卷。55，不。2，pp。625-629，1999。查看在：出版商的网站|谷歌学者
L. Wu，“具有误差测量的审查和协变量的非线性混合效应模型的联合模型，应用于{艾滋病}研究，”美国统计协会杂志，卷。97，没有。460，pp。955-964，2002。查看在：出版商的网站|谷歌学者|Mathscinet.
S. Kong和B. nan，“半造影方法与经检测限进行协变量，”Biometrika，卷。103，没有。1，pp。161-174,2016。查看在：出版商的网站|谷歌学者|Mathscinet.
F. Vaida和L. Liu，“带有截尾音响应的正常混合效应模型的快速实现”，中国计算与图形统计学报，卷。18，不。4，pp。797-817，2009。查看在：出版商的网站|谷歌学者|Mathscinet.
R.Fu和P. B.Gilbert，“具有COX模型的纵向和生存数据的联合建模和两相抽样”，终身数据分析。国际期刊专门用于统计方法和申请的时间 - 事件数据(第23卷)1，页136-159,2017。查看在：出版商的网站|谷歌学者|Mathscinet.
H.张，H. Wong和L. Wu，“纵向模型中被审查和中脱离协变量的机械非线性模型，在{艾滋病}研究中应用，”医学统计，卷。37，不。1，pp。167-178,2018。查看在：出版商的网站|谷歌学者|Mathscinet.
H. Zhang和L.Wu，“一种机械非线性模型，用于存活模型中的截断和MIS测量的时变协变量，具有艾滋病毒/艾滋病的应用，”皇家统计社会，C，接受，2018年。查看在：谷歌学者
A. S. Perelson，A. U. Neumann，M. Markowitz，J.M. Leonard，以及D. D. D.T.Ho，体内HIV-1动力学：病毒群岛清除率，感染细胞寿命和病毒生成时间，“科学(第271卷第1期)5255，页1582-1586,1996。查看在：出版商的网站|谷歌学者
H. WU和A. A. Ding，“体内人口HIV-1动态：适用的模型和来自艾滋病临床试验的病毒学数据的推理工具，”生物识别学，卷。55，不。2，pp。410-418，1999。查看在：出版商的网站|谷歌学者
L.吴，复杂数据的混合效应模型，卷。113份关于统计和应用概率的专着，CRC印刷机，Boca Raton，FL，2010。查看在：出版商的网站|Mathscinet.
j·k·林赛,医学统计学中的非线性模型，卷。26牛津统计科学系列，牛津大学出版社，牛津，2001年。查看在：Mathscinet.
M. Davidian和D. M. Giltinan，重复测量数据的非线性模型，查普曼霍尔，伦敦，1995年。

概率与统计学报

生物统计学的新进展

抽象的