连续变量的关联度量与机会修正

摘要

本文研究了连续变量关联测度的机会校正问题。利用皮尔逊积差相关的线性变换集作为机会函数的校正域。这组测量的例子有Tucker的同余系数，Jobson的系数和Pearson的相关性。定义了线性变换集上的一个等价关系。描述了概率函数修正的不动点。证明了每个线性变换都映射到其等价类中的不动点。

1.介绍

在统计的各个子领域中，关联度量通常用来表示一个数字中两个变量之间的关系强度。个体测度用于总结研究的部分内容，而关联测度矩阵可作为多元数据分析技术(如回归分析和成分分析)的输入[1，2］．在本文中，我们研究了量化两个连续变量之间关联的度量。这些度量的例子有Tucker的同余系数、Jobson的系数和Pearson的积差相关。后一系数通常被用来衡量两个连续变量之间的线性相关性。

Pearson的相关性是一种有多个有趣的解释的措施[3.］．例如，平方相关可能被解释为两个变量的共同方差的百分比。然而，对于许多其他关联度量，只有极端值才有明确的解释。许多联想度量具有最大价值统一性，表明联想是完美的。然而，在不同的情况下通常会达到零值。例如，Pearson相关系数和Jobson系数在统计独立性下为零，Tucker同余系数在两个变量的内积为零时为零。

如果两个变量在统计上是独立的，则关联度量值为零可能是可取的[4- - - - - -6］．如果一项测量在统计独立性下没有零值，则文献中的标准方法是由于偶然性将其校正为关联[7- - - - - -9］．校正后的机会，一个措施有一个表格在哪里是衡量的价值在概率和1的分母中1)为的最大值．在本文中，我们只考虑具有极大值统一的测度。此外，我们假设以避免不确定的情况．转型（1)在独立时设置度量值为零，而在统一时保留最大值。

转型（1)的研究几乎只涉及二元变量的关联度量。二元变量的度量也称为系数表。几位作者证实了这一点纠正后措施变得等同于（1）.例如Fleiss [8]，偷法[6]，Albatineh等人。[7，沃伦[9，表明Dice、哈曼和Rand的测度经过chance校正后成为Cohen的kappa。此外,大杂院[10)所有的特征转化为加权kappa的措施[10，11按公式(1）.

上述结果为各种机会修正措施提供了新的解释。此外，如果不同的测量方法在经过偶然性校正后重合，那么为手头的数据分析任务选择最佳偶然性校正测量方法的任务就会变得更容易，因为可供选择的测量方法更少。此外,大杂院[9，10，12]学习转型（1)作为一个数学函数。这些研究揭示了文献中不同的关联度量是如何相互关联的，也提供了解释机会校正度量的新方法。

在本文中，我们研究了连续变量的关联措施的机会校正。几个结果测度被推广到更复杂的连续变量情况。此外，各种各样的新结果说明了某些度量是如何关联的，并提供了解释它们的新方法。例如，我们表明皮尔森的相关性可以解释为一个机会校正的测量，这是一个新的结果。

论文组织如下。在部分2，我们介绍了关联措施的符号和定义，我们指定了机会功能校正的域。在部分3.，我们简要讨论了该领域中基于度量的统计推断。在部分4，我们定义了机会函数的校正，并给出了它的一些性质。本节给出的一些结果推广了warren [9为…采取措施表。在部分5，我们考虑几个属于相同等价类的关联度量族。在部分6，我们刻画了函数的不动点在(1）.最后,部分7包含一个讨论。

2.一组关联度量

由于文献中许多关联度量被提出作为样本统计[13，14，我们将在这里作为样本统计来研究这些度量。对于某些测度，可以通过将样本方差和协方差替换为相应的总体参数(不包括退化情况)来得到总体当量。

假设我们有得分两个变量上的对象（受试者，个人）和．单个分数表示为．让求和是短的．的平均分数是由不偏不倚的样本方差由和的平方均值是由样本统计数据类似地定义。的无偏样本协方差和是由关联措施可以定义为来自长度的成对成对的函数进入实数。套装将作为域名使用。对于文献中的许多度量，上域要么是区间或间隔．关联度量被定义为一个函数，所有这些措施的集合都表示．属于皮尔逊相关系数是多少皮尔森相关性是两个变量之间线性相关性的常用度量方法。

在下面，我们感兴趣的是．肯德尔和斯图尔特[15，p。492]讨论置换分布．确切的分布可以通过考虑所有分数的排列，同时保持分数固定的。在分数的排列下,只有是一个随机变量。对于每一个排列，我们都可以计算．期望然后可以定义为所有值的平均值．肯德尔和斯图尔特[15，p。492]显示从只是是在排列下的随机变量，我们可以写作为线性变换；那是，,在那里函数是否不受分数排列的影响或者．更一般地，我们可以考虑该集合给出的的元素的线性变换，和和函数是否在分数的排列下保持不变或者．其中1为中措施的最大值．自从皮尔逊相关性属于，集合是非空的。其他关联措施的例子载于本节5．

而不是考虑，我们也可以考虑集合给出的措施的线性变换，和和是不受分数置换不受影响的功能或者．引理1显示,和是等同的。

引理1。．

证明。考虑(7）.我们可以写作为,在那里因此,它如下．此外，我们可以写作作为,在那里和载于(9）.因此,它如下．因此,．

引理1表明了等于线性吗．引理的证据1说明。的任何元素可以用作发电机．例如，我们有．套装作为下一节中机会公式的修正域。在[5，7，9，10，16］．

3.统计推断

在本文中，我们主要给出了(10)和(11）.在本节中，我们将简要讨论基于该家族成员的统计推断。在这里提出的框架中，如果变量在置换下不是不变的，则认为它们是随机的[14，17］．因此，数量的唯一随机变量10）.一种对(10)可以基于对数量的排列检验．此外，在(10)可以通过引导程序获得。

应该注意的是，对于皮尔逊相关系数来说，只有当变量在排列下不不变时，它们才是随机变量的假设是不寻常的。正如一位评论家指出的那样，根据皮尔森的相关性，人们通常会假设和遵循双方正态分布。在这种情况下，数量，，，，，和都是随机变量。

4.改正的机会

方程(1）呈现措施的公式校正后的机会。的措施，则机会函数的校正定义为引理2显示了，对于测量，公式（13）变成公式（14）.

引理2。让和．一个人

证明。使用身份（8），我们有措施身份使用身份（15式(13）并将所有术语除以结果,我们获得或等价地，公式(14）.

公式(14)表示元素如果它们有相同的比率，则在校正后重合元素的这种性质将在下面重复使用。在[7为聚类分析的验证指标。此外，对于关联度量表格中，在[9］．

功能在(13）是一个地图来如果关闭下．引理3.证明了这是事实。

引理3。 关闭下．

证明。让和．的公式载于(16）.我们可以写作为,在那里因此,．

让,让和，并考虑线性变换．由于我们要求所有关联措施都有最大值1，因此我们有限制．因此,也是一个因素．引理4显示,和纠正后恰恰恰当。引理证明4的特殊情况措施可在Warrens [9］．

引理4。让,让,并考虑．一个人．

证明。自,存在和这样．因此,我们可以写作为,在那里使用这些量，比率(17)等于自比(17）是相同的和，这就引出了．

假设我们有几个关联度量在经过偶然性校正后重合。引理5结果表明，关联测度的算术平均值与经过偶然性校正后的测度趋于一致。引理证明5的特殊情况措施可在Warrens [9］．

引理5。让和为这样算术平均恰逢校正后的机会。

证明。我们可以写作为,在那里使用这些量，比率(17)等于这个方程的右边说明了这一点是加权平均值使用重量．自都是相同的，是一样．因此,．

5.等价类

比率（17)将关联度量划分为在函数方面进入等价类在(14）.我们有下面的定义。两项措施据说是相当于（14),用，如果它们的比率相同(17）.可以证明是否存在等价关系；那是，是反身，对称和传递的。

的等价关系分解元素转换为等价类，每个类对应(17）.我们考虑一些例子。让是一个在上的分数排列下保持不变的函数或者，再考虑一下家庭如果，（24)与恒等系数相同[6，14，17］．如果，（24)与乔布森系数相同[18]，与机会校正的恒等系数相同[6，17］．我们可以写(24),,在那里使用和在(26），比率（17)等于因此，(24），无论规格如何，属于以比例为特征的等价类（27）.此外，(24)在为偶然校正后吻合。

接下来，考虑家庭如果，（28)与Tucker的同余系数相同[14，19，又称比例系数[6，14］．如果，（28)与机会校正的比例系数相同[6，17］．我们可以写(28),,在那里使用和在(29），比率（17)等于因此，(28）属于以比例为特征的等价类（30.）.此外，(28)在为偶然校正后吻合。

接下来，考虑家庭如果，（31)与(7）.我们可以写(31),,在那里使用和在(32），比率（17)等于因此，(31）属于以比例为特征的等价类（33）.此外，(31)在为偶然校正后吻合。

例子中的例子（24), (28)和(31)说明，许多措施从文献属于集合．此外，该示例表明，等价类具有无限的元素。由于多个措施在校正后恰好恰当，因此功能在(14)不是单射的。自不是内射，它不是可逆的。此外,为，我们一般来说，．因此,一般来说,不是线性映射。前题4和5表明,如果定义域是仅限于特定价值的等效类（17）.这个等价类中的所有关联度量和它们的线性组合被映射到一个形式为14）.在下一节中，我们将描述这些所谓的不动点。

6.不动点

一种方法被称为固定点如果成立。使用和在(18），我们有因此,．换句话说，就是函数是幂等待的。IDEMPotent函数具有至少一个固定点。认为不是一个固定点吗．自是幂等的吗．因此,元素不固定的点被映射到不固定的点。

在本节的其余部分中，我们将描述．让是一个在上的分数排列下保持不变的函数或者，并考虑集合给出的元素是表格的关联措施,在那里是变量的样本协方差吗和．引理6显示,不动点的集合是．

引理6。套装不动点的集合是．

证明。（)让．然后, 对于一些．使用在(16),我们得到因此,，接下来就是是一个固定点。
（)让和是一个固定点。然后,，或等效等同部分和“不”- 在平等的两侧，我们获得了身份使用身份，我们可以写作为因此,．这就完成了证明。

由于点不是固定点映射到不动点，我们有；也就是图像固定点在吗．它从引理中遵循6皮尔森的相关性在(7）和jobson的系数在(25的两个不动点．属于以比率为特征的等价类的所有度量(33）被映射到Pearson的相关性。属于以比率为特征的等价类的所有度量(27)映射为乔布森系数。

7.讨论

在本文中，我们研究了连续变量关联测度中机会作为数学函数的修正。这个函数不是单射的，一般来说也不是线性映射。所有非函数不动点的关联度量被映射到不动点。值得注意的不动点是Jobson系数和Pearson相关系数。这两个系数都是关联度量的不同等价类的不动点。两类关联测量的特点都被提出。

结果表明，Jobson系数和Pearson相关性都可以解释为机会校正的度量。对于皮尔森的相关性来说，这种解释是新的。在Rodgers和Nicewander中讨论了其他13种观察皮尔森相关性的方法[3.］．还有新的是，有无数的措施，成为Jobson的系数，无数的系数，与Pearson在纠正后的相关性相互作用。Jobson系数和Pearson相关性之间的数据分析选择可以基于Zegers中讨论的度量标准尺度[6，17］．

利益冲突

作者声明本文的发表不存在利益冲突。

承认

作者感谢Heinz Holling教授对本文早期版本的有益评论和宝贵建议。

参考文献

J. C. Gower，“多元分析中使用的潜在根和向量方法的一些距离特性”，Biometrika，第53卷，325-338页，1966年。查看：出版商的网站|谷歌学术搜索|Zentralblatt Math.|MathSciNet
J. C. Gower和P. Legendre，《不同系数的度量和欧几里得性质》，杂志的分类，第3卷，第2期。1，第5-48页，1986。查看：出版商的网站|谷歌学术搜索|MathSciNet
J. L. Rodgers和W. A. Nicewander，“研究相关系数的13种方法，”美国统计名人，卷。42，没有。1，pp。59-66,1988。查看：出版商的网站|谷歌学术搜索
r .出现过度使用名义数据，荷兰格罗宁根国立大学，1983年。
M. J. Warrens，“关联系数 $2 \times 2$ 不依赖于边际分布的表和属性，”精神病虫，第73卷，第2期4，页77 - 789,2008。查看：出版商的网站|谷歌学术搜索|MathSciNet
f·e·席格斯关联系数的一般家族，布姆克，格罗宁根，荷兰，1986。
A. N. Albatineh, M. Niewiadomska-Bugaj，和D. Mihalko，“相似性指数和偶合性校正”，杂志的分类，第23卷，第2期。2，页301 - 313,2006。查看：出版商的网站|谷歌学术搜索|MathSciNet
J. L. Fleiss， "衡量两个法官对某一特质的存在或缺失的一致性"生物识别技术。生物计量学会杂志第31卷第1期3，第651-659页，1975。查看：谷歌学术搜索|MathSciNet
M. J. warren， "关于相似系数 $2 \times 2$ 桌子和纠正机会，“精神病虫，第73卷，第2期3，pp。487-502，2008。查看：出版商的网站|谷歌学术搜索|MathSciNet
m·j·沃伦的《机会修正措施》 $2 \times 2$ 与加权卡帕相吻合的桌子，”英国数学和统计心理学杂志号，第64卷。2，页355-365,2011。查看：出版商的网站|谷歌学术搜索|MathSciNet
m·j·沃伦斯，《二次加权kappa的一些矛盾结果》精神病虫第77期2, pp. 315-323, 2012。查看：出版商的网站|谷歌学术搜索|MathSciNet
M. J. warren，“关于关联系数，对偶然性的校正，和对最大值的校正，”现代数学边疆杂志，第2卷，第2期4，pp。111-119,2013。查看：出版商的网站|谷歌学术搜索
M. J. warren，“修正的Zegers-ten Berge系数是科恩加权kappa的特殊情况，”杂志的分类第31卷第1期2，pp。179-193,2014。查看：出版商的网站|谷歌学术搜索
F. E. Zegers和J. M. F. F. Ten Berge，“一个公社会的一系列关联系数，”精神病虫，第50卷，第5期。1，页17-24,1985。查看：出版商的网站|谷歌学术搜索|MathSciNet
M. G. Kendall和A. Stuart，高级统计理论，第二卷:推理和关系查尔斯·格里芬，伦敦，英国，1973年。
a . N. Albatineh，“聚类分析中相似指数家族的均值和方差”，统计计划与推理杂志号，第140卷。10，页2828-2838,2010。查看：出版商的网站|谷歌学术搜索|Zentralblatt Math.
F. E. Zegers，“一组用于度量尺度的机会校正关联系数，”精神病虫第51卷第1期4，第559-562页，1986。查看：出版商的网站|谷歌学术搜索
J. D. Jobson，“调查问卷项目的平等系数，间隔尺度”教育与心理测量第36卷第2期2，第271-274页，1976。查看：出版商的网站|谷歌学术搜索
U. Lorenzo-Seva和J. M. F. ten Berge，“Tucker的同余系数作为一个有意义的因素相似指数，”方法，第2卷，第2期2，页57-64,2006。查看：出版商的网站|谷歌学术搜索

概率与统计杂志

摘要