在全熵解决方案到广义问题的最大熵依赖性

摘要

最大熵的方法是解决广义时刻问题的强大工具，这包括确定随机变量的概率密度从知识的期望值几个函数的变量。在实际操作中，这些期望值是由经验样本确定的，这就留下了解决方案对样本依赖性的问题。本文的目的是采取几个步骤来分析这种依赖性。

1.介绍和预备

要说明概括的时刻问题是什么，让是一个概率空间，让是一个度量空间，与有限或有限的措施。让是一个-值随机变量，使其分布具有相对于测度的密度广义矩问题包括确定密度这样在哪里是可测量函数的集合吗和给定实数，我们设和照顾自然的需要．下面是一个典型的例子。表示一个正的随机变量(停止时间，也许是总风险严重程度，我们可以计算由某些蒙特卡罗程序在有限数量的点．我们需要解决的问题相当于从这些有限的变换参数值集合中求出拉普拉斯变换．

实际上，最后一个问题在银行和保险业是很有兴趣的，在那里密度是必要的，以计算风险溢价和各种类型的监管资本，样本可能很小，估计反映了这一点。我们引导读者到Gomez-Gonçalves等[1]，其中在风险建模和拉普拉斯变换反演的背景下解决了这个问题。

让我们用问题的解决方案（1）通过最大熵方法获得，如部分所述3.下面，当右侧的瞬间完全已知时。如在许多情况下，那些时刻将经验估计（2）下面，预期获得的最大分布将取决于样品用于计算．我们用强调其对实证时刻的依赖．

我们在本说明中解决的问题是融合到以及计算的平均值振荡的关于相对于的平均值的振荡．

当我们有样本的时候，经验广义矩(样本平均)由在准确的时刻上下波动；因此，我们期望最大熵过程的输出能以某种方式反映这种可变性。

为此，在下一节中，我们回忆起（短）历史调查的熵概念的概念，在以下部分中，我们介绍了最大熵方法的基础知识。

节4我们接受了这项工作的主要主题：可变性它通过．我们证明了点向和内收敛到最大熵密度从确切的数据中获得，我们将研究如何偏离根据真实和估计(样本)矩之间的差值。我们也检查了期望值的偏差，比如从．由经验矩重建的密度依赖于样本似乎是直观的，但maxentropic密度的行为随着样本量的增加，也不期望值随密度的波动似乎不在之前进行过。

2.密度的熵

由于熵似乎有几个概念，本节的目的是指出，它们都是一个单一定义的主题的变化。让我们从解释密度的熵开始。让衡量．假设,让表示它的密度。熵（当我们想要强调我们写的密度时）定义为每当是可积的,或者,如果不。叫做熵(对）和叫做熵．实际上，我们也可以定义为如下。当概率度量不一定有密度吗关于， (3.)将被修改如下: 当是用概率度量来表示的吗,都和等于一个度量吗，密度分别为和；然后(3.）可以写成我们称它为熵关于．

评论．对于我们将要处理的应用，表示一个封闭的凸子集,将是勒贝格惯用的方法。我们也提到过是离散测度，那么积分就会变成和。

表达方式（3.)似乎在19世纪最后25年玻尔兹曼的著作中首次出现。这里定义了，在哪里是被解释为有位置的粒子的数量吗和速度内．这个函数恰好是玻尔兹曼提出的气体演化动力学的李雅普诺夫函数，气体演化到平衡时，气体也随之增长。不久之后，吉布斯使用了相同的函数，但现在定义为的点表示系统的关节位置和动量粒子。这次,为在指定的“体积”单元内找到系统的概率。受热力学早期工作的推动，假定在平衡状态下，系统的密度产生了熵的最大值．这些注释解释了方法的名称。

表达方式（3.)(用倒装符号)以信息内容密度的名义出现在信息传输领域；这就是为什么它有时被称为香农-玻尔兹曼熵。此外,表达式(5）在密度的（kullback-）的名称下出现统计文献关于密度，表示为和等于．看到封面和托马斯[2]或kullback [3.来详细研究熵函数的性质。

在发表了这些历史评论和阐明了这些等效定义之后，我们提到，我们将主要使用(3.)．在下面的内容中，我们将利用(3.)和(5)，我们将其归纳如下。

定理1。通过上面介绍的符号，一个人得到以下内容：（一世）这个函数是严格凹的。(2)对于任何两个密度和，,当且仅当乙醯。(3)对于任何两个密度，这样是有限的，一个人（Kullback的不平等）

读者旨在封面和托马斯[2]或kullback [3.为证明。

3.标准最大熵法

在这里，我们回顾了一些关于标准最大熵(SME)方法的著名结果以及一些历史评论。尽管核心思想似乎是在Esscher的工作中提出的[4]，在那里他介绍了现在被称为esscher转换的内容，直到20世纪50年代中期，它是通过Kullback的工作成为统计中使用的方法的一部分[3.］．它似乎是由Jaynes首先作为一种变分程序来表述的[5]解决在找到概率密度的（逆）问题中(在机械系统的相空间上)，满足以下积分约束: 在哪里是随机变量的某些函数(物理学家称之为“可观测值”)的观测值(测量值)吗．这个问题出现在许多领域;看到卡普尔(6]和Jaynes [7例如,]。

通常,我们将和照顾自然的需要．它实际上需要一个标准的计算来判断当问题有一个解时，它是类型的其中的时刻数显式出现。写作通常是一种习惯，在哪里是一个维向量。显然，归一化因子的一般形式是使用此符号可以将解决方案的通用形式重写为在这里中的标准欧几里得标量积,这个向量有分量吗．此时，我们提到了许多应用数学或物理教科书中出现的简单思想证明并不是真正的。这是因为这组密度没有开放．有许多可选择的证明。例如，ciszar [8Cherny和Maslov [9］．

(10.)，接下来的内容如下。如果在定理的表述(ii)中1我们把指数族中的任何一个成员，不平等变得这意味着如果我们找到一个最小值使不平等成为定理的平等1我们得出结论（10.）是所需的解决方案。这种直链论证似乎首先在米德和帕帕那立康中提出[10.]并在Borwein和Lewis中完全严格阐述[11.］．向量可以找到最小化双熵的方法: 在哪里是- 使用组件，以及明显的依赖性在是通过最小化程序吗．我们补充说，从技术上讲，最小化在的范围内吗它是一个内部非空的凸集，通常最小值是在其内部实现的。在许多应用中是．为了记录，我们陈述二元论证的结果如下。

引理2。通过上面介绍的符号，如果最小化器(12.)位于…领域的内部,然后

证据如下。请注意，如果是(的最小值12.)，一阶条件为，其中明确指出(10.)满足约束条件(7)．由于这种密度的熵由右侧给出（13.)，一定是密度使熵最大化。

4.数学的补充

在本节中，我们收集了一些关于我们需要如下。

命题3。根据上面介绍的符号，假设矩阵我们用哪个来表示协方差相对于密度计算是严格正定的。让我们假设集合是一个开放的集合。然后得到如下结果:（1)这个函数以上定义为log-convex;那是，是凸的。（2） 与一种需求不多少多次是不断差异的。（3)如果一个组,然后是否连续可微（4）雅各比比亚的在等于（负）协方差矩阵计算

前两个断言在柯巴克的书中得到了证明。实际上，它的对数凸性是Hölder不平等的结果，而涉及系统估算程序。第三次从微积分中的逆函数定理丢弃。看到弗莱明[12.，最后一个是由。的雅可比矩阵得出的等于的Hessian矩阵的逆的负，即(减去)协方差矩阵．作为项目（4）的简单后果3.我们有以下与下一节的参数相关的结果。

定理4。使用上面介绍的符号，设置，下面的断言成立。的变化作为到上是（谁）给的更重要的是，使用(10.)，并再次达到条款，

用素描证明…15.)我们按下列步骤进行。让；然后现在，忽略了二阶的条款，分子近似为分母是我们用了最小值这个事实因此在忽略二阶in项后，所期望的结果很容易就会消失．

5.样本依赖

在本节中，我们将讨论一个示例的大小随机变量的．在这里，我们将涉及波动围绕其密度的波动意味着。以下是从大量的强烈律法的应用获得的。

定理5。假设是可叠现的，意思和协方差矩阵．然后，每个人， (2的无偏估计量和

现在考虑以下内容。

命题6。将经验时刻定义为(2)．表示由如本节所解释的拉格朗日乘子2．然后,当，因此（作为。）．

如果和是由（10.)，分别对应于和,然后逐点的每而且几乎肯定．

证据取决于下列论点。从定理5和4我们得到第一个断言。其余的都是由密度对参数的连续依赖性得出的．同时，取极限为在(15.），我们获得了另一个融合的证明到．

下一个结果是关于收敛的到在．

定理7。随着上面介绍的符号，一个人有

证明。证明是连续依赖的结果关于它的论点，身份(13.“定理中的项目（iii）1与扮演的角色和扮演的角色．在这种情况下碰巧是如前所述，倾向于什么作为．

要继续，请考虑以下内容。

定理8。使用上面介绍的符号，可以得到以下结果:（1) 是一个无偏见的估计．（2）对于任何有界的波莱尔可测函数，

这个证明是从(15.)．等式两边乘以然后对然后调用Cauchy-Schwartz不等式得到不平等。

什么有趣的关于（2）定理8是将其与切比雪夫不等式结合得到收敛速度的可能性。这一点不难证实在哪里欧几里得范数在哪里和

推论9。用定理中引入的符号8和上面的两条线，

评论．如果我们把，我们得到了的衰变速度的一个简单估计收敛到零，或收敛的速度到如果你喜欢。关于均值附近的波动，考虑以下两种可能性。

定理10。用定理中引入的符号4在身份(15.），一个人有在法律上,．同样，对于任何有界，波莱尔可测，在法律上。上图中,，，在哪里和．

这些断言的证明涉及到对向量变量应用中心极限定理．

最终意见．Gomez-Gonçalves等人的论文中有一些数值结果说明了这里的结果[1］．在那里，它们以各种尺寸的样本显示图形方式，对应于各种尺寸的样本，并了解它们如何在样本量增加时缩小到真实（或精确）密度的曲线图。

相互竞争的利益

作者宣布他们没有竞争利益。

参考文献

E. Gomez- Gonçalves, H. Gzyl, and S. Mayoral，“损耗数据分析:利用最大熵方法重建密度时的样本依赖性分析”，保险:数学和经济学， vol. 71, pp. 154-153, 2016。视图:谷歌学术
T. Cover和J. A. Thomas，信息理论的要素， John Wiley & Sons，纽约，纽约，美国，第2版，2003。视图:出版商网站|Mathscinet.
s . Kullback信息论与统计学，多佛出版社，纽约，纽约，美国，第二版，1968年。
F. Esscher，《论集体风险理论中的概率函数》Skandinavisk Aktuarietiskrift.，第15卷，175 - 195,1932年。视图:谷歌学术
E. T. Jaynes， "信息理论和统计力学"物理评论， 1957年，第106卷，第620-630页。视图:谷歌学术
N. Kapur，科学与工程中的最大熵模型， Wiley Eastern，新德里，印度，1998年。
e . t .我们概率理论：科学逻辑，剑桥大学出版社，英国剑桥，2003。视图:出版商网站|Mathscinet.
I. ciszar，“概率分布和最小化问题的i -发散几何”，年报的概率，卷。3，不。1，pp.146-158,1975。视图:出版商网站|谷歌学术
A. S. Cherny和V. P. Maslov，《关于各学科中熵函数的最大化和最小化》，概率论及其应用， 2003年第3卷，第447-464页。视图:谷歌学术
L. R. Mead和N. Papanicolaou， "力矩问题中的最大熵"数学物理学报，卷。25，不。8，pp。2404-2417，1984。视图:出版商网站|谷歌学术|Mathscinet.
J. M. Borwein和A. S. Lewis，凸分析与非线性优化，CMS书籍在数学，Springer，纽约，纽约，美国，2000。视图:出版商网站|Mathscinet.
W.弗莱明，多元函数，Springer，柏林，德国，1987年。视图:Mathscinet.

概率与统计杂志

摘要