研究文章|开放获取
Matthijs j .大杂院,亚历山德拉de Raadt, ”订购某些相似的第一特征向量矩阵的性质”,数学杂志, 卷。2015年, 文章的ID582731年, 5 页面, 2015年。 https://doi.org/10.1155/2015/582731
订购某些相似的第一特征向量矩阵的性质
文摘
Russell-Rao系数矩阵的系数显示,两个骰子不对称系数顺序信息潜变量模型可以获得最大的特征值对应的特征向量。
1。介绍
统计和数据分析的一个重要的角色是扮演的相似性系数。相似系数是衡量两个数据向量的相似性或协会,如得分模式,变量和物品。例如,在生态生物学相似系数是用于测量两种类型之间的共存的程度在不同的位置。在许多研究包含二进制数据向量:疾病的存在与否;是否存在物种的特征;“是”或“否”回答调查问卷;在高风险测试通过或失败。来表示两个二进制向量相似度的一个数字,各种相似性系数提出了(1- - - - - -3]。的例子是Jaccard系数(4),Russell-Rao系数(5),骰子系数(6),和简单的匹配系数(7,8]。在选择系数,测量必须考虑的环境中它是一个部分的数据分析研究[9]。因为有太多的相似系数为二进制数据可供选择,重要的是,不同的系数及其属性有更好的理解。
而不是研究个体的属性系数(10- - - - - -13)也可能的一项研究系数矩阵的性质(14]。系数矩阵作为输入使用各种技术的多元数据分析,包括要素或成分分析(15,16)、分层聚类分析和技术分类和不同分析(17]。此外,探索性数据分析方法如主坐标分析和对应分析(多个)可以被定义为eigendecomposition某些系数矩阵(15,16,18]。知道什么信息将会是很有趣的,如果有的话,是反映在系数矩阵的特征向量,是基于二进制向量的相似系数。
在本文中,我们展示了系数矩阵,顺序信息潜变量模型可以获得最大的特征值对应的特征向量。因此可以发现有意义的各种模型,利用特征向量的排序。首先理论感兴趣的结果。他们表明,一些系数矩阵比其他人有更多的有趣的特征向量。系数矩阵基于一些系数可能因此导致更有趣比其他系数矩阵对应的数据分析解决方案。此外,潜在的结果可以提高解释的数据分析使用这些系数矩阵作为输入。
本文组织如下。符号和两个潜变量模型是在下一节介绍。节3几个订购一个最大特征值所对应特征向量的性质。结果提出了部分的插图4。部分5包含一个结论。
2。潜变量模型
假设包含的数据二进制向量的长度。它可能认为分数的二进制向量实现潜变量模型。在本节中,我们介绍两个模型在非参数项目反应理论的背景下(19,20.]。在项目反应理论向量通常被视为项,例如,包含反应(通过,失败)的高风险测试科目。的项目将被索引和。
让表示一维潜变量,让是它的概率密度函数。让表示对应的响应函数响应1项。响应的无条件概率1项然后由 接下来,假设当地独立;也就是说,有条件地的反应在物品是随机独立的一个主题。项目的联合概率和的一个值然后由。相应的无条件概率 我们假设在整个论文。
接下来,我们定义了潜变量模型。模型都单调响应函数和频繁的上下文中应用测量能力。第一个模型的特点是需求(3)和(4)。第一个要求是是单调递增;也就是说, 为。第二个要求是条目可以是有序的,这样nonintersecting;也就是说, 为。假设的情况下(3)和(4),加上当地独立的假设和一个潜变量,称为双单调性模型在非参数项目反应理论(19,20.]。一个著名的结果是,如果双单调性模型,然后可以订购物品等 为, 为和(19,20.]。第二个模型的特点是需求(3)和(7)。响应函数可以满足各种订单总额的积极性[21]。如果函数订单2是完全积极的,物品可以订购吗 适用于和。施里弗(22]证明了以下结果为一组响应都是单调递增的函数,满足总订单2的积极性。如果订的向量,这样(3)和(7),然后 适用于和。
我们结束这一节参数满足需求的例子(3),(4)和(7)。著名的模型领域的项目反应理论是拉希(23)模型。这一单参数的响应函数是由物流模型 在哪里是一个位置参数。在项目反应理论的背景下的参数通常被称为一个难度参数(19,20.]。的函数形成一个位置的家庭。
3所示。点属性
在这一部分中,我们将订购属性三个系数矩阵。系数矩阵的大小是 矩阵的一个元素是两个二进制向量Russell-Rao系数和(5,10]。一些数据分析矩阵的属性讨论了在大杂院14]。矩阵的元素和条件概率讨论和应用在骰子6]。调和平均数的两个条件概率等于骰子系数(6]。矩阵也被称为条件在Post和Snijders邻接矩阵(24]。
一个特定的结果将用于定理的证明2,3,4下面是Perron-Frobenius定理(25,26]。更准确地说,只有以下Perron-Frobenius定理的较弱的版本将被使用。
引理1。如果一个方阵严格的积极元素,特征向量对应的最大特征值严格的积极元素。
在定理的证明2,3,4我们使用某些特殊矩阵。让表示上三角矩阵的大小()与单元元素和对角线上方和所有其他元素为零。它的逆矩阵与单位矩阵对角线上元素和元素邻边和对角线上方。的例子和的大小是 此外,让单位矩阵的大小,让表示斜块矩阵的大小对角线元素和。的例子和的大小是 我们首先考虑矩阵。让最大的特征值对应的特征向量矩阵的。定理2显示,可以订购,这样如果二进制向量(3)和(4),那么这种排序反映在相应的元素。
定理2。假设的向量,不失一般性,可以作为第一,可以下令,(3)和(4)举行。的元素的对应于这些向量满足。
证明。自非奇异的,是一个特征向量对应于当且仅当是一个特征向量对应于。定理的条件下,的元素积极的元素吗严格来说是积极的。应用程序的引理1然后收益率特征向量的(或)严格积极元素。然后从身份之前的断言。
剩下的我们显示的证据有积极的元素和严格的积极元素。矩阵有元素
为和和
为和。这个定理的条件下属性(5)和(6)第一物品。由(6),我们有,矩阵除了积极的元素吗为。然而,(5),我们有这是
为。因此,矩阵有积极的元素。此外,由于最后一行和最后一列中的元素严格正的,它遵循的元素吗严格来说是积极的。
一个类似的结果的矩阵。让最大的特征值对应的特征向量矩阵的。定理3显示,可以订购,这样如果二进制向量(3)和(4),那么这种排序反映在相应的元素的。
定理3。假设的向量,不失一般性,可以作为第一,可以下令,(3)和(4)举行。的元素的对应于这些向量满足。
证明。证明类似于定理的证明2。矩阵有元素 为和和 为和。这个定理的条件下属性(5)和(6)第一物品。由(6),我们有,矩阵除了积极的元素吗为。但是,(5),我们有,它遵循 为
最后,定理4下面提供了一个排序矩阵的性质。订购模型适用于略强于考虑定理2和3。定理4显示,可以订购,这样如果二进制向量(3),(4)和(7),那么这种排序反映在相应的元素的。
定理4。假设的向量,不失一般性,可以作为第一,可以下令,(3),(4)和(7)举行。的元素的对应于这些向量满足。
证明。证明类似于定理的证明2和3。让表示的转置。矩阵有元素 为和和 为和。这个定理的条件下属性(5)和(8)举行。由(8),我们有,矩阵除了积极的元素吗为。然而,通过(5),我们有,它遵循 为。
4所示。一个说明
在本节中,我们考虑一个例子从教育考试说明的一些结果部分3。反应的数据包括1000人的五项考试(法学院入学考试)。测试的目的是测量一维潜变量。这个例子是一个数据集的一部分由烈性黑啤酒和利伯曼(27]。数据集分布与R包Rizopoulos写的“中心思想”(28]。
需求(3),(4)和(7对现实生活的)不能直接检查数据。然而,它可以表明,拉希模型(9)这些数据符合很好。使用子程序的“中心思想”包安装拉希模型和所谓的两个参数逻辑模型(19,20.]。拉希模型中的项目可以在不同的位置。在更一般的两个参数模型也允许在斜率不同的条目。对这些数据的两个参数模型有四个额外的参数。日志可能的模型和分别和相应的测试有一个似然比的价值。因此,额外的斜率参数统计不是必要的。
需求(3),(4)和(7)也可以通过验证研究如果条件(5),(6)和(8)举行。正确响应的比例,,,,分别对项目1到5。检验条件(6)和(8),我们假设项目要求的比例是正确的反应,从简单到困难的项目(1、5、4、2和3)。换句话说,在我们假设以下的东西是命令,这样条件(5)持有。
研究条件(6)我们可以检查矩阵Russell-Rao系数。这个矩阵是由考试的数据 主对角线上的元素的比例是正确的反应。如果我们忽略主对角线上的元素可以验证,每一列的其他四个元素严格减少。因此,条件(6)持有。
因为条件(5)和(6)保持所有五个考试项目此前从定理3对项目进行排序是反映在最大的特征值对应的特征向量。最大的特征值是并给出相关的特征向量。因此项目排序反映在特征向量的元素。
来验证是否条件(8)我们可以检查矩阵骰子的系数。这个矩阵是由考试的数据 如果我们忽略主对角线上的元素可以验证,剩下的四个元素在第一,第三,第四列严格增加。此外,第二和第五列中的元素大致增加。在这两个列有一个异常。我们可以得出这样的结论:条件(8)持有约。
如果五个考试项目满足条件(5)和(8)它遵循定理4对项目进行排序是反映在最大的特征值对应的特征向量。最大的特征值是并给出相关的特征向量。因此项目排序反映在特征向量的元素。
5。结论
相似性系数为二进制向量是经常用于统计分析对象之间的结构。常用的例子是Russell-Rao系数(5)和骰子系数(6]。自从选择系数取决于上下文的数据分析的研究,很重要的是,不同的系数和它们的属性是众所周知的事情。
在本文中,我们表明,序数潜变量模型的信息反映在相对应的特征向量的系数矩阵的最大特征值与Russell-Rao系数(定理3)和两个不对称系数用于骰子(6](定理2和4)。等知名系数Jaccard系数(4)和简单的匹配系数相似的排序属性不能被发现。结果可能表明Russell-Rao系数、骰子系数可能导致更清楚地解释的产出如果用作输入聚类方法或主坐标分析。然而,关于这个主题的更多的研究是必要的。
利益冲突
作者宣称没有利益冲突有关的出版。
引用
- a . n . Albatineh m . Niewiadomska-Bugaj, d .米豪尔科“相似性指数和修正机会协议。”杂志的分类,23卷,不。2、301 - 313年,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- f . b . Baulieu”,基于分类存在/没有不同系数,”杂志的分类》第六卷,没有。2、233 - 246年,1989页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . j .大杂院”关联系数表和属性不依赖于边际分布,“心理测量学,卷73,不。4、777 - 789年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- p . Jaccard,”奥拉的分布在高山地带,“新植物学家,11卷,不。2,37-50,1912页。视图:谷歌学术搜索
- p·f·罗素和t·r·饶”的栖息地和物种协会按幼虫马德拉斯东南部。”疟疾研究所印度杂志》上,3卷,第178 - 153页,1940年。视图:谷歌学术搜索
- l . r .骰子”措施的生态物种之间的联系,“生态,26卷,不。3、297 - 302年,1945页。视图:出版商的网站|谷歌学术搜索
- r·r·索和c·d·麦切纳,“统计方法来评估系统的关系,”堪萨斯大学科学通报,38卷,第1438 - 1409页,1958年。视图:谷歌学术搜索
- m . j .大杂院”相似系数为2×2表和修正的机会,“心理测量学,卷73,不。3、487 - 502年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j·c·高尔半岛和p·勒让德,”指标和欧几里得不同系数的性质”,杂志的分类,3卷,不。1,5-48,1986页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . j .大杂院”的相似措施二进制变量(存在/没有),“杂志的分类,25卷,不。2、195 - 208年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . j .大杂院”相似措施的不确定性为二进制(存在/没有)数据,”杂志的分类,25卷,不。1,第136 - 125页,2008。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
- m . j .大杂院”纠正Zegers-ten Berge系数是特殊情况科恩加权kappa的”杂志的分类没有,卷。31日。2、179 - 193年,2014页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . j .大杂院”属性数量的分歧和分配分歧,”国际遥感杂志》上36卷,第1446 - 1439页,2015年。视图:谷歌学术搜索
- m . j .大杂院”Robinsonian相异、连续的产权和潜变量模型,”先进的数据分析和分类,3卷,不。2、169 - 184年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j·c·高尔半岛”,一些距离潜伏根的性质和向量方法在多变量分析中,“生物统计学53卷,第338 - 325页,1966年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . j . Greenacre对应分析的理论和应用、学术出版社,纽约,纽约,美国,1984年。视图:MathSciNet
- 墨金,数学分类和聚类提供参考,多德雷赫特,荷兰,1984年。
- a . Gifi非线性多变量分析威利奇切斯特,英国,1990年。
- w . j .范德林登和r·k·哈姆布赖顿现代项目反应理论的手册施普林格,柏林,德国,1997年。视图:出版商的网站|MathSciNet
- k·Sijtsma和i . w . Molenaar非参数项目反应理论的介绍、鼠尾草出版物,加州千橡市,美国,2002年。
- 美国《总积极性》,斯坦福大学出版社,斯坦福,加州,美国,1968年。视图:MathSciNet
- b·f·施里弗”多重对应分析和命令潜伏结构模型,”Kwantitatieve Methoden21卷,第131 - 117页,1986年。视图:谷歌学术搜索|MathSciNet
- g .拉希概率模型对一些智力和成绩测试,数学研究心理学,丹麦教育研究所,哥本哈根,丹麦,1984年。
- w . j . Post和t . a . b . Snijders”二分数据的非参数模型展开。”Methodika7卷,第156 - 130页,1993年。视图:谷歌学术搜索
- f·r·Gantmacher矩阵理论,切尔西,纽约,纽约,美国,1977年。
- c·r·拉奥线性统计推断及其应用威利,纽约,纽约,美国,1973年。视图:MathSciNet
- r·d·烈性黑啤酒和m . Lieberman n分布拟合响应模型得分项,“心理测量学,35卷,不。2、179 - 197年,1970页。视图:出版商的网站|谷歌学术搜索
- d . Rizopoulos“中心思想:R包潜变量建模和项目反应理论分析,“杂志的统计软件,17卷,不。5,页1 - 25,2006。视图:出版商的网站|谷歌学术搜索
版权
版权©2015 Matthijs j . de Raadt大杂院,亚历山德拉。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。