文摘
我们首先确定的渐近线覆盖Holder-Zygmund类型的数字空间上定义的数据集合管。其次,一个完全离散和有限的开发提供显式算法的方案覆盖物的基数是附近渐近覆盖数。给定任意Holder-Zygmund类型函数,附近的一个球的中心覆盖也可以计算离散有限的方式。
1。介绍
数据处理在数字时代经常处理高维数据块源于测量数量有限的情况下,遵守一些连续的物理模型。实现和数值评估需要估计的准确性离散化对底层模型。作为基本工具提供准确性担保,我们将地址覆盖物的函数空间理论和机器学习相关信息。
离散数学中一个标准的概念,覆盖数 最小半径的球吗覆盖一个紧凑的度量空间。一个任意的元素可以用附近的中心保持精度。因此,覆盖物也近似理论不可或缺的一部分,尤其是是一个函数空间。覆盖数据捕获的复杂性和近似方面用于许多领域,如信息理论,统计,非参数密度估计和机器学习。有估计的asymtotics涉及数字的标准函数空间(cf。1,2]),但一些机器学习等领域涉及数据躺在一些总管,这自然目标函数是定义在多方面的。澄清术语,我们考虑平滑空间集合管上有点不标准的函数空间。它可能覆盖一些紧凑的黎曼流形上的一个函数空间数量可以被覆盖的组装标准函数空间在欧式空间来源于图表。然而,同样重要的是要得到明确覆盖物的基数是附近的基准覆盖数。我们认为明确的覆盖物可能难以构建使用图表由于接口问题,因此我们不会追求这个方向,相反,我们将采取更多的全球方法。
一般来说,仍有许多离散和连续空间的需求计算覆盖物(3]。作为一个重要的额外要求,任何覆盖函数的空间需要有一个算法方案来确定一些函数的中心附近的一个有效方式。乍一看,后者似乎很简单,我们可以采取的中心距离最小。然而,最终确定两个函数之间的距离是一个连续的操作,和一个有限的方法特别感兴趣。
在本文中,我们首先确定的asymtotics覆盖数的单位球Holder-Zygmund类型空间在一个潜在的光滑紧凑的黎曼流形(没有边界和非负曲率里奇)。事实上,我们确定的asymtotics度量熵 ,这是需要列举的比特数覆盖(cf。1])。此外,我们计算一个显式的覆盖,这样 在哪里构建覆盖的基数和吗意味着左边可以通过一个通用的有界常数乘以右边。因此,我们的报道是最优的对数因子通过熵度量。我们允许底层歧管未知的计划,相反,通过有限采样来表示。这个抽样必须仔细选择和获取一个有限方案的关键。我们的中心覆盖可以决定通过一个有限的过程,我们可以测量任何距离的函数在一个有限的方式。这些中心
的结构覆盖物在周期性光滑空间,例如,我们指的是(4,5]。的概念熵熵也密切相关的数据;参见[6- - - - - -8]。
本文的概述如下。节2我们介绍了设置,定义Holder-Zygmund类型空间,并确定熵度量的单位球。一个显式的覆盖计算3。
2。覆盖数字Holder-Zygmund类型空间
我们首先解决设置和本文中使用一些技术假设列表。让是一个维空间紧凑,连接黎曼流形与非负里奇没有边界和曲率,测地线距离,被规范化黎曼体积测量;拉普拉斯算子的形式吗,对应的特征值以nonincreasing顺序排列,所以呢。读者不熟悉这里使用一些从微分几何可能仅仅认为“好”的歧管没有边界,如球体,真正射影空间,Grassmann歧管(真正的),或更一般的紧凑均匀空间。上面的属性确保某些估计热内核上(见[9,10]),使用在一系列的论文(9,11- - - - - -13)开发光滑函数近似方案总管。在这里,我们将利用这些近似方案,但我们会保持在最低水平的技术细节。
让是一个正整数,大部分的时间我们将限制自己,在那里是一些非负整数。的空间扩散多项式到学位是 稍后,我们将使用上述条件这一事实意味着以下估计克里斯托费尔功能: (cf。9- - - - - -11]),集成和正规化。这里的象征表明每一方是由一个通用的有界正的常数乘以另一边。
在传统情况下,多项式近似的精度密切相关的光滑函数。因此,近似本身的准确性是现在被认为是平滑度的测量。这个观点特别有用在我们的设置,因为定义平滑以古典的方式需要更多的技术细节。在这里,我们定义的Holder-Zygmund类型空间的订单通过,其标准是由 与。因此,包含在Holder-Zygmund类型空间当且仅当它可以近似在速度。由于特征函数我们已知的顺利和考虑吗规范,每个函数有一个连续的代表和点评价是有意义的。单位球用。计算其覆盖数量,我们首先建立密实度。自不是有限维,不是在Holder-Zygmund类型空间紧凑,但我们认为这是一个子空间的。
引理1。一组紧凑的。
密实度的嵌入可以源于(4)由抽象参数涉及柯尔莫哥洛夫数字(cf。6])。在这里,我们提供一个简单的初等证明为了完整性。
证明。我们的目标是验证任何序列必须有一个在这组聚点。因为每个空间是有限维的,有吗,这样。后者意味着是有界的所有和。因此,有这样的子序列收敛到。对于任何,我们可以递归构造这样 和子序列的。为这建筑收益率子序列的,这样我们得到 因此,是柯西序列,因此,收敛一些吗。标准的计算表明,是一个聚点的和包含在,总结了证据。
我们现在可以得到的渐近线报道的数量在。
定理2。如果是固定的,,然后 持有,不依赖于通用的常量。
类似的结果可以导出相似的概念,如不同类型的函数空间的宽度(cf。14- - - - - -16])。定理2及其证明,而古典,可以来源于[17]。指导感兴趣的读者,我们将提供证明的轮廓是基于一般的巴拿赫空间结果,也用于(18定理4.1)。让巴拿赫空间,让是一个序列的线性无关的元素的线性跨度是稠密的以及定义与。让是一个nonincreasing正数序列。完整的近似空间 类似引理的证明1这个空间紧凑的收益率,我们可以制定结果从巴拿赫空间理论,回到洛伦兹(17]。
定理3(见[19定理3.3])。让是一个nonincreasing正数这样的序列,因为和一个常数。为,让。如果表示报道的数量在,然后一个,, 在哪里。
在这一点上我们的准备工作已经完成。
定理的证明2。我们的目标是应用定理3与功能系统和被关闭在。在那里,应该开始设置的指数,所以我们组,。定义序列,我们需要一些准备。前面已经指出,整合(3)/收益率。通过使用我们得到,, 因此,有常数,因为,这样的定义,,,,导致 也收益率 自,因为我们可以应用定理3。根据(18引理4.1),,这样的选择在(9)意味着(7)。
备注4。定理的证明2发现(7)也持有在更弱的条件下,我们只有用事实有一个序列线性无关的功能,所以多项式空间(2)满足。
3所示。附近的最优覆盖
本节我们致力于构建覆盖的单位球Holder-Zygmund类型空间,基于局部总和内核开发的一系列论文(9,11- - - - - -13]。我们首先需要一些准备。一个波莱尔概率测度在被称为正交测量的订单如果 请注意,我们设定收益率是一个常数这样对所有和所有(cf。11,定理]);参见[20.]齐次空间。正交措施的存在证明了有限的支持相当一般光滑的黎曼流形(11),施工过程概述。事实上,的支持可以选择要包含在任何足够致密有限采样的,所以可以确定了和非负权重令人满意的。给出了球面上的例子,例如,在21]。
结果在11)收益率,我们甚至可以选择一个序列正交的措施这样分别。对于论文的其余部分,我们将假设这估计是和我们定义,, 在哪里是一个无限可微和nonincreasing函数为和为。虽然我们不会明确在本文中使用它,我们想要指出,许多有利的性质虽受所谓的本地化的内核;也就是说,固定和所有与, 参见[12,13]。稍后,我们将适用 (cf。11])。这些估计是用于(12,13)描述Holder-Zygmund类型平滑的。
定理5。假设是正交的家庭秩序的措施,分别。然后,对所有,一个 泛型常量不依赖于哪里或。另一方面,如果,有通用的常量没有根据这样成立,那么。
接下来,通过使用并应用正交的性质一个简单的计算收益 对于一些固定,我们定义实际的近似 换句话说,我们替换在(18)与一些网格。我们定义以下集合: 导致一个覆盖的在。
定理6。固定和,一个应用离散化(19)。然后,有一个常数这样,,成立。因此,对于,集导致一个覆盖的在。它的基数满足 通用常数并不取决于在哪里。
定理的证明6。三角不等式的收益率
从定理5意味着,我们只需要照顾术语在最远的。量子化(19)立即收益率
因此,(18)和(16)意味着
因此,我们导出了估计。
解决(21),我们应用(23),它的收益率
根据(13定理5.1),成立。自包含在球的半径1中,我们看到了吗
因此,可能值的数量固定最多是,在那里是一个积极的常数。注意,我们可以假设因为,否则,将是零。自,我们有。因此,我们有一些积极的常数。通过使用,我们获得
总结了证据。
根据定理2和6,覆盖数的和数量的引起的球满足 因此,我们的方案是最优的对数因子通过熵度量。
我们的研究结果也与多方面的学习领域,其中一个函数必须从有限的训练数据重建(cf。22- - - - - -25])。当我们的方案的实际应用,我们首先获得一组样品足够覆盖我们还需要函数值,这完全构建训练数据。接下来,我们计算一个正交的措施对于一些最大这样;参见[11,21)的算法。在这里,我们需要采样点分布式和更大的吗需要更多的样品。一个元素这是关闭,仅仅是由的计算只需要的知识和在有限集;看到(14)和(19)。换句话说,我们不需要知道整个歧管但只有有限的训练数据的抽样抽样的目标函数,更精致,抽样的形式,拉普拉斯算子。那些形式,然而,没有明确知道,除了一些特殊情况,如球体,射影空间,Grassmann歧管,和更多。幸运的是,近似的形式在流形学习是一种常见的过程。计算方案是基于图的拉普拉斯算子修建从训练数据,至少在适当的假设下,收敛的拉普拉斯算子对多种数据的基数增加时(cf。26- - - - - -28)和引用)。这些计划大约样本训练数据上的头几个特征函数。因此,我们建议的方法确实是完全离散,计算可行的即使形式已知的不明确。事实上,廖本身可以是未知的。只要满足理论假设,它仅仅是通过一个有限样本表示。
注7。技术在管汇上的假设和功能系统意味着某些估计热内核上(见[9,10),主要用于确保本地化属性(15)(cf。12,13])。我们的假设也暗示交措施的存在这对所有和一个常数。这些东西导致Holder-Zygmund类型的特征空间的在定理5。此外,家庭可以选择在有限的支持下,事实上呢(cf。11])。定理5和确实是两个主要成分结果噗的定理6。
注8。读者熟悉的近似方案开发9,11- - - - - -13)可能希望呈现的结果可以推广到更广泛的度量空间上一类Besov空间。这确实是真的,但需要更多的技术细节,不会导致一个完全离散方案。这里,我们旨在强调的主要思想保持最低级别的技术细节和关注的发展完全离散的覆盖算法。描述的更一般的方法将其他地方。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
马丁艾莉被维也纳科技基金资助(WWTF)通过项目vrg12 - 009。弗兰克Filbir研究部分由德意志Forschungsgemeinschaft 883/3-1格兰特。两位作者感谢h . n . Mhaskar许多富有成果的讨论。