研究文章|开放获取
r·拉贾拉姆b·卡斯特拉尼a·n·威尔逊, ”推进夏侬熵来衡量系统的多样性”,复杂性, 卷。2017年, 文章的ID8715605, 10 页面, 2017年。 https://doi.org/10.1155/2017/8715605
推进夏侬熵来衡量系统的多样性
文摘
从经济上的不平等和物种多样性权力法律和多个趋势和轨迹的分析,多样性系统科学是一个主要问题。挑战是如何衡量它的一部分。香农熵被用来重新考虑多样性概率分布,基于概念的信息。然而,香农的方法有两个主要的局限性。首先,它不能用于比较不同水平的多样性分布的规模。第二,它不能用于比较多样性分布到整个地区。为了解决这些局限性,我们引入一个重正化的基于概率分布的概念基于案例的熵 作为累积概率的函数。给定一个概率密度,措施的多样性分布的累积概率,通过计算长度或支持的等效均匀分布具有相同的香农信息的条件分布到累积概率。我们说明我们的方法的效用renormalizing和比较三个著名的能量分布在物理学中,也就是说,麦克斯韦玻耳兹曼,“bose - einstein”,费米狄拉克分布亚原子粒子的能量。比较表明,是一个巨大的改善因为它提供了一个无标度的比较这些分布和多样性也允许这些多样性分布的对比部分。
1。系统的多样性
统计分布起着重要的作用在任何科学分支,研究系统由许多相似或相同的粒子,对象,或演员,无论是材料还是无形的,人类或非人类。的一个关键特性,决定了这种系统的特点和范围的潜在行为多样性的程度和分布,也就是说,系统的组件在多大程度上占领国家具有相似或不同的特性。
在页面中列出的一系列调查(1,2),包括的区别和多样性和复杂性,多样性的系统科学是一个重要的利害关系,是使经济上的不平等,扩大贸易投资组合的国家,测量各生态系统物种多样性的崩溃,或确定最优效用/网络的鲁棒性。然而,一个重要的重大挑战在文学的多样性和复杂性,这页还指出[1,2),是:测量的问题。虽然统计分布直接反映扩散的关键参数(如质量、年龄、财富、或能量)提供这种多样性的描述,很难比较不同分布的多样性,甚至相同的分布在不同的条件下,主要是因为不同的尺度和参数。同时,许多措施目前多样性压缩成一个单一的分数或不直观1- - - - - -4]。
首先,出于测量在生态学和进化生物学多样性的例子(3,4),我们试图解决这些挑战。我们开始有一些定义和评估我们的先前的研究。
首先,在术语的定义,我们遵循生态文学、定义多样性相互作用的“丰富”,“平衡”概率分布。丰富是指一个系统的许多不同类型的多样性。例子包括(a)不同层次的家庭收入在一个城市,(b)不同物种的数量在一个生态系统,(c)的多样性一个国家的出口,(d)不同节点的分布在一个复杂的网络,(e)的各种健康趋势为特定疾病跨越时间/空间,或(f)的文化或种族多样性组织或公司。在所有这些情况下,更大的多样性类型的数量(这些类型离散或连续),一个系统的丰富程度越大。在目前的研究中,例如,丰富被定义为不同能量状态的数量。
反过来,均匀度指的是一致性或“等概率出现这样的状态。在上面的例子中,均匀度将被定义为(a)一个城市,家庭收入是均匀分布的,(b)一个生态系统,物种的多样性是在数量上相等,(c)一个国家出口的均匀分布,(d)复杂网络中所有节点有相同的发生概率,(e)所有可能的健康趋势等概率的一种疾病,或(f)一个公司或组织,人们不同的文化或种族背景是均匀分布的。在目前的研究中,例如,均匀度被定义为均匀或“等概率出现的所有可能的能量状态。
更具体地说,稍后我们将会看到,我们定义一个概率分布的多样性随着同等数量的等概率的类型必须保持相同数量的香农熵(即。,the number of Shannon-equivalent equiprobable states). Given such a definition, a system with a high degree of richness and evenness would have a higher degree of,而一个系统与一个低程度的丰富度和均匀度会有一个低程度的。反过来,一个系统丰富但是低均匀度高(如skewed-right系统与长尾)的情况下会有一个较低的程度比系统丰富和高均匀度高。
1.1。当前研究的目的
最近,我们介绍了一种新颖的方式代表多样性统计分布(5,6],它克服了这些困难,并允许多样性在任何给定的分布系统(或累积部分)直接与任何其他系统多样性的分布。实际上,这是一个重正化可以应用于任何概率分布产生的直接表示分布的多样性。因我们的工作领域的复杂系统,这种方法是基于的概念基于案例的熵,(5]。这种方法有两个主要优势在香农熵,正如我们上面提到的,这是一种最常用的措施的多样性概率分布和计算的平均数量的不确定性(或信息,这取决于一个人的角度)出现在一个给定的概率分布。首先,可以用来比较不同级别的规模分布;其次,可以用来比较的部分整体分布。
后发展案例为离散分布熵的概念和形式主义(5),我们首先应用比较复杂在一系列复杂系统(6]。在工作中,我们调查了一系列系统所描述的各种skewed-right概率分布,提出选择例子展示行为通常表明复杂性,如紧急集体相变或转折点。我们发现这种系统遵守一个明显的“限制法律限制多样性”(6),这限制了大多数情况下这些复杂系统的简单类型。事实上,对于这些类型的分布,分布的多样性被发现无标度规则,或更多的病例属于最简单的或少等概率的多样性的类型。发现这种情况不管最初的分布符合幂律或长尾,使其从根本上不同于著名的(但往往误解)帕累托原则7]。
在下面,我们继续探索的使用案例比较系统的熵所描述的统计分布。然而,我们现在在以下方面超出我们之前的工作。首先,我们扩展形式主义为了计算案例连续和离散分布的熵。第二,我们扩大我们的注意力从复杂性/复杂系统的多样性任何类型的统计上的分布式系统。我们开始探索系统,丰富多样性的分布不是一个类型的复杂性的函数。
第三,我们使用的离散指数有一定程度的主观性,例如,家庭收入如何被扔进垃圾箱,分布的多样性,有什么影响?因此,我们想看看为分布的计量单位普遍认可。
第四,我们没有强调如何在香农熵是一个重大进步吗。众所周知,而已经被证明很有用,它压缩测量多样性成一个数字;它也不直观;,正如我们上面提到的,它不是无尺度,因此不能用于比较不同系统的多样性;既可以用来比较的部分在系统整个系统的多样性。
因此,当前研究的目的,作为一个示范的效用是renormalize和比较三个身体重要的能源分布统计物理:概率密度函数的能量系统由玻尔兹曼,“bose - einstein”,费米狄拉克统计数据。
2。Renormalizing概率:案例熵和多样性的分布
的数量基于案例的熵(5),,renormalizes多样性的贡献任何概率分布,通过计算真正的多样性等概率的分布(称为Shannon-equivalent均匀分布)具有相同的香农熵作为。恰恰是等概率的类型的数量在离散分布的情况下,或长度,支持,或程度的变量在连续分布的情况下,这是需要保持香农熵的值相同的整个或任何部分的分布累积概率。我们选择Shannon-equivalent均匀分布有两个原因:(我)首先,众所周知,在有限测度空间均匀分布最大化熵:即具有最大熵的均匀分布在所有概率分布的一组有限的勒贝格措施(8]。(2)第二,Shannon-equivalent均匀分布,根据定义,计算值的数量(或范围的值)需要提供相同的信息与原始分布如果我们假设所有的值(或范围的值)也同样可能。
因此,均匀分布renormalizes不同的影响发生的相对频率(或概率)的值在不丢失信息的前提下(或熵)。换句话说,如果所有选择的随机变量是等可能的,值的数量(或长度,如果它是一个连续随机变量)所需的随机变量保持相同数量的信息作为给定的分布是一个多样性的措施。从某种意义上说,每一个新值(或类型)算作增加了多样性,只有新值具有相同的发生概率作为现有值。多样性必然需要等概率的随机变量的值从低概率,例如,意味着这些价值很少发生不能视为随机变量,因此同样的其他值较高的概率。因此,通过选择一个等概率的分布归一化(或统一),我们正在计算真正的多样性,也就是说,等概率的类型必须匹配的数量相同数量的香农信息为给定的分布。
这个计算(就像我们展示了在其他地方(5])能做的部分的累积概率分布。这意味着比较各种分布的实际上是一个比较分数的变化的多样性贡献值的随机变量。
以来,无论规模和单位的原始分布,和两个不同来,一个可以画出一条曲线与多分布在同一坐标轴。因此为我们提供了一个无尺度衡量比较分布熵的不漏掉任何信息,但通过renormalizing变量为等概率的值。更重要的是,它还使我们能够比较不同部位相同的分布、整体或部分。也就是说,我们可以生成一个与曲线的分布(正火加起来的概率在这部分)和比较部分的曲线整个曲线或另一部分的功能依赖在是相同或不同的。从本质上讲,有能力在“分形”或自相似分布进行比较。
在[5),我们展示了如何执行的重正化离散概率分布,数学和经验。在这篇文章中,我们介绍说,我们做的如何是一个进步,提供一个无标度概率分布的比较和对比部分地区也有分布。更重要的是,我们将演示如何作品连续分布,通过分析麦克斯韦玻耳兹曼,“bose - einstein”,费米狄拉克分布亚原子粒子的能量。我们开始与一个更详细的审查。
3所示。基于案例连续随机变量的熵
我们的动力让提前在香农熵来自多样性进化生物学和生态学的研究,在那里它被用来衡量真正的物种多样性(类型)在一个特定的生态系统的研究(3,4,9,10]。我们在这里展示,也可以用来测量的多样性任意连续随机变量的概率分布。
概率密度函数随机变量的在测量空间,Shannon-Weiner熵指数是由
然而,问题与香农熵指数,我们发现在我们的抽象和介绍,是,虽然被用于研究一个系统的多样性,它不能被用来比较在概率分布的多样性。换句话说,不是乘法:值一倍并不意味着实际的多样性增加了一倍。为了解决这个问题,我们转向了真正的多样性测量(3,11,12),提供的等概率的值的范围出相同的值:
的效用比较多样性在概率分布是,,一倍的价值意味着等概率的范围的值的数量增加了一倍。计算这样的等概率的值的范围这将给香农熵的值相同观察到的分布。我们说两个概率密度和是Shannon-equivalent夏侬熵的如果他们有相同的值。然后基于案例熵的值的范围Shannon-equivalent均匀分布的。我们也注意到香农熵可以重新计算通过使用。
为了测量分布的多样性,我们接下来需要确定部分对整体的贡献多样性累积概率。换句话说,我们需要能够计算出多样性的贡献一定的累积概率。为此,我们替换与,给出的条件熵,只有部分的分布累积概率(用)是观察与发生的条件概率密度一个给定的累积概率。也就是说,
的价值对于一个给定的累积概率的价值是Shannon-equivalent的数量等概率的能量状态(或变量的值呢一般设在)被要求解释信息的累积概率内的分布。如果,然后是这样的数量Shannon-equivalent整个分布等概率的能量状态本身。
我们可以简单地计算分数或案例熵多样性的贡献
在这一点上,重正化(的函数)成为规模独立的两轴之间的价值观和的图与通过和。因此,不论原始分布的范围和规模,所有的发行版都可以绘制在同一图及其多样性的贡献可以比较无标度的方式。
形式主义来检查的有效性,我们计算一个均匀分布的简单例子的时间间隔。直观地说,如果我们选择那么,由于分布的均匀性,我们期望本身。换句话说,部分的多样性简单地等于,即区间的长度,因此,与曲线是直线斜率等于。这可以显示如下:
与我们制定完成,我们将为粒子由玻耳兹曼能量分布,“bose - einstein”,费米狄拉克统计数据。
4所示。结果
4.1。玻耳兹曼分布的一维
我们首先说明重正化将它应用于一个相对简单的例子:理想气体的温度。的动能这种气体的粒子所描述的玻耳兹曼分布(8]。在一维,这是 在哪里波尔兹曼常数和吗。
的熵可以显示吗的能量,因此真正的多样性是由
累积概率从来然后由
因此,可以计算的作为
方程(9)是用于一维玻耳兹曼情况下消除参数完全(11)获得一个明确的关系和。是指出,在大多数情况下,两者兼而有之和只能通过相关参数化。其他量中引入部分3可以计算如下:
我们注意到,在13),温度因素消掉了,这表明多样性的分布对理想气体一维温度无关。的结果图的函数如图1。值得注意的是在传递到达当,这表明大约分子的气体包含在较低的多样性能量的概率状态温度(在这里,多样性被定义为等效等概率的能量状态的数量必须保持相同数量的香农熵)。因此,一维玻耳兹曼分布遵循一个有趣的现象,我们已经确定了在一个广泛的skewed-right复杂的系统,它(我们在引言中简要地讨论了)我们的电话受限制的多样性,更从技术上讲,60/40规则(6]。温度独立与玻耳兹曼分布曲线,表明增加的影响分布的均值转移到更高的能量和增加其标准差,但不改变其形状特征。尽管如此,我们的结果的关键是温度的独立性玻耳兹曼分布的一维曲线验证我们的重正化保存原分布的基本特征。
4.2。玻耳兹曼分布在三维空间中
我们现在的计算身体更重要的情况下的玻耳兹曼分布在三维空间(8]: 的额外因素在哪里占的密度状态。
累积概率从来可以计算如下:
我们希望,(15)的性质累积概率。
然而,很难解决(15)直接的。因此,我们计算在参数形式作为参数。同时,分析形式是不可能的,所以就用Matlab计算,,分别为:
因此,也可以只计算参数和参数形式吗这不同来。图2显示了曲线从而计算出玻耳兹曼分布在三维空间中。
虽然这个分布的温度独立从图不会立即明显2之后,一个相同的逻辑对于一维情况下,预计分布多样性是一样的。在一维情况下,因为变化不影响原始分布特征的形状,我们希望重整分布与温度无关。事实上,这确实是如此。这是见图2覆盖计算的结果K,K和5000 K。同样值得注意的是,就像我们的一维情况下,曲线遵循规则的受限制的多样性(6:不管温度,超过60%的分子的低40%多样性能量的概率州(在这里,多样性被定义为等效等概率的能量状态的数量必须保持相同数量的香农熵)。
此外,值得注意的是,如我们所料,添加更多的自由度增加了平均能量的一个因素每度,同时保持相同的形状分布的能量。因此,目前的结果仍将适用于气体分子与更高的自由度;也就是说,多样性的分布总是同样的对理想气体,是否单原子或多元。
4.3。大规模的“bose - einstein”分布和无质量的玻色子
我们现在继续考虑第二个示例分布。“Bose - einstein”分布给出了能量概率密度函数大量玻色子在玻色温度作为 在哪里是归一化常数和 在哪里是黎曼ζ函数。在以下的计算中,我们使用氦的玻色温度,K。
无质量的玻色子,如光子的能量概率密度函数是13] 重要的是要注意,“态密度”因素所示(17)和(19)在不同的能量分布结果,尽管这两种类型的玻色子服从相同的统计数据。
条件概率,条件熵,真正的多样性,基于案例对这些分布熵不能计算分析但可以数值计算。这样计算的结果,使用Matlab软件,如图所示3。
与玻尔兹曼分布,我们发现多样性的分布两个玻色子系统是独立的温度。尽管两种类型的玻色子的曲线非常相似,很明显,多样性的分布在一定程度上有所不同。氦- 4玻色子,略大的一部分粒子多样性低能量状态中包含比光子,的情况原子中包含约多样性最低的州,而约为光子。换句话说,使用,我们能够识别,即使在这种情况下,直觉可能表明它是真实的,常见的模式内和跨不同的能源系统,以及它们的变化。这一点,我们搬到我们最后的能量分布。
4.4。费米狄拉克分布
最后我们用来说明我们的方法是费米狄拉克分布地理分布: 在哪里再次是归一化常数和吗费米能量(13]。在下面,我们计算电子,钠分布的电动汽车。再一次,,不能计算分析,所以我们依靠使用Matlab数值计算。
费米狄拉克分布与前面的例子的不同之处在于,它不是简单的比例的变化的能量。相反,它的形状变化,从skewed-left分布改变,用一把锋利的截止在费米能级低的温度下,光滑、skewed-right分布在高温下。因此,与玻耳兹曼和“bose - einstein”分布的情况不同,人们所预料的多样性等费米子电子的分布依赖于温度。图4将计算的结果进行比较的函数对电子温度的钠K(空间)的温度,K(代表地球上的温度),K(太阳表面的温度),和K(太阳核心的温度)。
这个数字表明,多样性的程度是最高的在低温下费米子;例如,在K,完全等概率的多样性最低的国家是需要包含的粒子,而只有约在K。它还表明,钠电子,多样性曲线在地球上正常温度(K)在非常低的温度几乎是一样的。即室温钠电子的费米气体的分布多样性非常类似于一个“费米冷凝物。”
5。使用比较和对比系统
为所有三个分布与重整化完成,我们寻求证明,尽管有些从表面上看,该实用程序比较和对比系统,考虑到众所周知的结果这三个经典的能量分布。首先,这是通常的假设,在高的极限“bose - einstein”和费米狄拉克分布减少玻尔兹曼分布,所以玻色子和费米子的物理性质在这个限制应该是理想气体。
在数据5和6,我们显示的比较这三个温度6000 K和能量分布K(包括无质量的玻色子的“bose - einstein”分布进行比较)。看来,这些数据通过6000 K,“bose - einstein”分布氦- 4和3 d玻耳兹曼分布是不可区分的。同时,费米狄拉克分布显然不是减少了玻耳兹曼分布甚至在K,它似乎倾向于它。
麦克斯韦玻耳兹曼(a)能量密度曲线3 d,“bose - einstein”氦,“bose - einstein”光子和费米狄拉克Na 6000 K
麦克斯韦玻耳兹曼(b)能量密度曲线3 d,“bose - einstein”氦,“bose - einstein”光子,费米狄拉克Na 15000000 K
麦克斯韦玻耳兹曼3 d (a)和曲线,“bose - einstein”氦,“bose - einstein”光子,费米狄拉克Na 6000 K
麦克斯韦玻耳兹曼3 d (b)和曲线,“bose - einstein”氦,“bose - einstein”光子,费米狄拉克Na 15000000 K
然而,多样性分布的比较表明,即使概率密度函数的能量似乎一致,显著的物理系统之间的分歧。图7比较所有的多样性曲线计算在目前的工作。
很明显从图7的分布多样性为“bose - einstein”和经典理想气体和费米狄拉克分布明显不同。因为这些重整分布独立的温度,这表明,没有限制的“bose - einstein”分布的光子成为完全的波尔兹曼分布。甚至更突出的,多样性的分布在一个玻色子系统的系统只服从费米狄拉克统计方法在极高的温度下,类似太阳的核心。在较低温度中,费米气体有更高程度的多样性比所有其他的系统。这是因为,在较低的温度下,大部分的费米子还没有超越障碍产生的费米能级,因此都局限于低端的能量。
因此,从通常的概率分布转换到基于案例的分布熵(与)已经允许我们直接无标度比较,麦克斯韦玻耳兹曼的方式,“bose - einstein”,费米狄拉克能量分布相似或不同内部(作为温度的函数)和分布。看来,除了极高的温度,费米狄拉克分布有较大的价值比其他人。这意味着有更多的Shannon-equivalent为费米狄拉克分布等概率的状态的能量比别人。投机性的解释可能是,泡利不相容原理不允许超过一个费米子占据相同的量子态,从而限制费米子的积累在同一状态(即。,更多的多样性)。
6。结论
我们希望本文所示,香农熵被用来思考概率分布的多样性,它所面临的两个主要的局限性。首先,它不能用于比较不同级别的规模分布。第二,它不能用于比较的部分分布到整个。
为了解决这些局限性,我们引入了重整化的基于概率分布的概念基于案例的熵 (如累积概率的函数)。我们开始解释为什么我们重新思考概率分布的多样性,基于Shannon-equivalent均匀分布,来自Jost和其他人的工作的概念真正的多样性在生态学和进化生物学4,9,10]。用这种方法,我们回顾了我们的建设案例熵。给定一个概率密度,措施的多样性分布的累积概率,通过计算长度或支持的等效均匀分布具有相同的香农信息的条件分布累积概率。
与我们的概念化的完成,我们用它来renormalize和比较三个身体物理学重要的能量分布,也就是说,麦克斯韦玻耳兹曼,“bose - einstein”,费米狄拉克分布亚原子粒子的能量。我们选择这三种分布有三个主要原因:(我们想看看适合连续分布;(),重点是类型的多样性,而不是他们的等级次序的复杂性;和(),单位的顺序测量既客观又被广泛接受。根据我们的结果,我们得出的结论是,是一个巨大的改善有用,因为它提供了一个直观的、无尺度比较对比的概率分布和还允许部分分布。
获得的重正化将为不同的分布有不同的形状。事实上,双峰、右偏态或其他类型的分布将导致一个不同的与曲线。未来有两个有趣的调查论文,即(一)原分布的形状如何影响与曲线和(b)我们能否考虑到重建的原始形状分布与曲线。因为的无标度特性相比,所有的发行版都可以在相同的情节没有引用原来的尺度。在未来的工作中,我们将尽力连接的形状与原分布曲线的形状。这将允许我们的定位部分原分布(不论其规模),多样性是集中的地方,和部分稀疏的地方,即使原始分布不能绘制在同一图由于巨大的变化在他们的尺度。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者要感谢以下同事:肯特州立大学((苏珊)院长斯托克Kevin Acierno)和迈克尔·球(计算机服务),和()卫生和基础设施的复杂性集团的支持。他们也要感谢艾玛Uprichard和大卫·伯恩和ESRC研讨会系列的复杂性和方法在社会科学(中心跨学科方法,华威大学,英国)的机会通过这些想法的初步框架。
引用
- 美国大肠页面,区别:多样性的力量创造了更好的组织,公司,学校和社会》,普林斯顿大学出版社,2008年。视图:出版商的网站
- 美国大肠页面,多样性和复杂性》,普林斯顿大学出版社,2008年。
- m·o·希尔,多样性和均匀度:一个统一的符号和它的后果,”生态,54卷,不。2、427 - 432年,1973页。视图:出版商的网站|谷歌学术搜索
- l . Jost“熵和多样性,”Oikos,卷113,不。2、363 - 375年,2006页。视图:出版商的网站|谷歌学术搜索
- r·拉贾拉姆和b·卡斯特拉尼”,基于熵的测量比较分布的复杂性,“自然史统计力学及其应用卷。453年,35-43,2016页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- b·卡斯特拉尼和r·拉贾拉姆”,过去的幂指数定律:复杂系统和限制的法律限制多样性,”复杂性,21卷,不。2、99 - 112年,2016页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m·e·j·纽曼,“权力法律、帕累托分布和Zipf定律,“当代物理学,46卷,不。5,323 - 351年,2005页。视图:出版商的网站|谷歌学术搜索
- m·c·麦基时间的箭头:热力学行为的起源1992年,德国施普林格1 -。视图:出版商的网站
- t·伦斯特省和c . a . Cobbold”测量多样性:物种相似性的重要性。”生态,卷93,不。3、477 - 489年,2012页。视图:出版商的网站|谷歌学术搜索
- j·贝克和w . Schwanghart”,从完整的库存比较物种多样性的措施:更新,“生态学与进化方法,1卷,不。1,38-44,2010页。视图:出版商的网站|谷歌学术搜索
- r·h·麦克阿瑟“物种多样性的模式”,生物评价40卷,第533 - 510页,1965年。视图:出版商的网站|谷歌学术搜索
- r·皮特“物种多样性的测量,生态系统的年度审查5卷,第307 - 285页,1974年。视图:出版商的网站|谷歌学术搜索
- c . h .天山和j . h . Lienhard统计热力学,1979年半球。
版权
版权©2017 r·拉贾拉姆等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。