文摘

本文详细介绍实现的混合高斯过程(MGP)模型和发展其应用贝叶斯优化(BayesOpt)。本文也为MGP找到其混合组件开发技术,介绍了另一种基于狄利克雷分布的控制网络。BayesOpt使用合成MGP模型明显优于基于高斯过程回归的优化效率测试调优的hyperparameters常见的机器学习算法。这表明成功的方法,这意味着一个有前途的未来MGP广泛应用的模型和BayesOpt基于它。

1。介绍

贝叶斯优化(BayesOpt)是一种高效的优化方法昂贵的黑盒目标函数。无法访问这些功能是昂贵的评估和分析由于其复杂的结构。他们经常出现的属性如被嘈杂的和有多个当地的最适条件。随机搜索的简单方法是不恰当的,和衍生算法梯度体面不可靠以及效率低下是由于吵闹的和昂贵的目标函数的性质。为了解决这些问题,BayesOpt提供derivative-free方法通过建立代理模型的目标函数,并决定使用贝叶斯统计评估(1- - - - - -3]。能够优化昂贵的黑盒derivative-free功能带来BayesOpt广泛应用自1960年代(4,5]。广泛用于设计工程系统在机器人技术,计算机图形学中,和传感器网络6- - - - - -8],它最近成为极受欢迎的调优hyperparameters机器学习算法(9,10]。

BayesOpt属于代理模型方法。这背后的中心思想更一般的类的方法是使用一个行为端正的函数,估计目标函数基于有限数量的抽样数据,廉价的评估(11,12]。代理在BayesOpt使用的大多是高斯过程回归(GPR) [13]。它使用一组参数的协方差函数的波动(内核)描述目标函数,使回归使用贝叶斯定理。当结合其他方法来帮助找到内核参数,探地雷达提供了令人满意的结果。但它可以进一步提高了泛化的混合高斯过程(MGP)模型。这种泛化的主要动机是目标函数的行为很可能在整个输入空间不一致;因此,一个单一的探地雷达和一组固定的内核参数通常不适用于建模整个目标函数。MGP模型克服了这个问题通过自组织几个GPs与不同的内核参数,允许内核input-dependent [14]。

MGP模型的一个变体的知名专家(我)的混合物模型雅各布斯et al。15),首先引入Tresp (14]。它组成的混合模型是一个input-dependent控制网络和多个GPs作为混合组件。每个医生专攻某一区域的输入空间由于其独特的内核参数,代表当地的专家在我的模型中。控制网络学习专业化的专家从训练数据和估计每个专家对新输入的参与。通过这种机制,MGP模型将整个目标函数的回归成几个区域由每个子任务执行专家,分别实现总体结果比任何个人探地雷达(14]。用探地雷达与MGP代理模型,BayesOpt可以更准确地估计目标函数,加快其收敛找到最优。

本文首先简要回顾BayesOpt使用探地雷达,然后详细描述了MGP模型与另一个控制网络修改拉斯穆森和Ghahramani [16]随着方法找到当地的专家。基于前面的讨论,clustering-assisted方法实现MGP BayesOpt介绍。最后,MGP的性能模型和BayesOpt基于它进行测试和讨论。

2。背景审查

2.1。高斯过程回归

高斯过程回归(GPR)是最常用的代理在BayesOpt回归模型。它使用高斯过程(GP)建立统计推断,假设目标函数的值形成一个多元高斯分布与特定的均值向量和协方差矩阵(17]。

这个词 表示的意思是向量,通常选择一个常数值,通常为零或采样值的平均值。矩阵 协方差矩阵,由协方差函数也称为内核。内核模型每对点之间的相关性,基于他们的位置。均值向量和内核完全定义的属性GP (18,19]。

以下事实指出,近在输入空间通常具有较强的相关性,内核值总是正的,减少渐近零随着空间距离的增加。有两个主要的两种类型的内核。第一个类型是高斯内核(也称为权力指数),减少的相关性在高斯函数的形式。

这个词 是函数的方差值之前,然后呢 输入空间的度量。这样的指标并不一定是各向同性和欧几里得,通常需要在表单中 ,在哪里 在分母称为长度尺度。第二种类型叫做Matern内核将在以下表格20.]: 在哪里 伽马函数和吗 是修改后的第二类贝塞尔函数。额外的积极的参数 特征的光滑回归模型作为GPs基于Matern内核 次可微的均方意义上(20.,21]。此外,在极限 趋于无穷时,Matern内核收敛于高斯内核,相对应,GPs与高斯核光滑函数。在实践中,高斯内核可能高估了目标函数的光滑;因此,Matern内核经常被使用的情况下目标函数的可微性是已知或假定在一定程度上。

在测量噪声的情况下,上面的内核仍然保持任何不同的双点(即 )噪音不会导致相关。然而差异增加了噪声的方差。因此,协方差矩阵可以表示在以下表格20.), 噪声的方差。

回归,探地雷达首先结合采样点与点评价医生的先验分布。然后,评价是通过寻找给出的价值评价的后验分布采样数据点根据贝叶斯定理。合成后验分布可以由(1下面是)和(20.,22]:

2.2。选择内核参数

探地雷达的参数在内核中,尤其是长度尺度,极大地影响性能的回归。的长度尺度描述逆速度沿着每个轴功能变化。小长度尺度表示的函数变化迅速沿着这个轴,而一个大尺度范围假定函数是奉承和流畅。基于不同的假设,因此不同的长度尺度,回归给出了截然不同的结果如图1。如果一个假设的实际功能是由采样点,长度尺度可以选择使用最大似然估计(标定)。在这种方法中,长度尺度是最大化的配置下的观察结果的可能性(之前23),即

他们发现的长度尺度各向异性。一个也可以假设长度尺度各向同性,即相同的长度范围是共享的所有轴和标定退化最大化 这种假设显然是不太全面但更合适当有相对较少的采样点。这尤其当采样点的数量没有明显大于输入空间的维数,因为函数的假设被分解和大中型企业可能更易陷入过度拟合。通常情况下,目标函数是随机取样前几次使用BayesOpt满足应用探地雷达的最低要求。还建议使用各向同性探地雷达应用各向异性GPR之前有足够的点。

2.3。获取函数

找到目标函数的后验分布后,收购BayesOpt使用一个函数来评估在这个位置是多么理想的样品。两种最常用的采集功能改进的概率(π)24和预期的改进(EI)25]。π的计算的概率值比当前最佳基于探地雷达发现的后验分布。EI修改π,考虑潜在的改进但可能支持的规模探险的抽样,因为它不考虑风险。根据实验由吴et al。26),EI总体优于PI找到全局最优;因此,它是为本文选择收购功能。EI定义如下(25]: 在哪里 表示当前最优值 是后验分布的概率密度的代理回归模型。你可以结合(5)评估EI封闭形式描述的克拉克(27]: 在哪里 (或 如果降到最低)。指出样本下,最大化获取函数。取样后,探地雷达和收购功能通过更新到新的数据点。这个过程是对一定数量的重复迭代,和最终的最佳采样数据集之间的最佳点。

2.4。混合高斯过程

探地雷达使用的某些配置内核参数通常通过程序优化,假设一个全球的行为函数在每个维度。在大多数情况下,这是不够的,整个目标函数模型,因为函数通常在不同的地区有不同的行为。例如,目标函数可以有一个地方峰值变化很快 - - - - - -但是慢慢的轴 - - - - - -轴和其他地方的另一个表现相反,或者目标函数可能是一个驼峰包围着一个巨大的平坦区域。取代探地雷达的主要动机的混合高斯过程(MGP)模型是解决这些场景通过允许input-dependent参与内核参数。MGP模型是一个变动的专家(我)模型和探地雷达的泛化。它由一组GPs与不同的内核参数的专家和一个控制网络,以确定使用哪个专家对于一个给定的输入(15]。控制网络和混合组件是迭代训练利用期望最大化(EM)算法最大化观测数据的可能性。与原方法相比引入Tresp [14),MGP模型介绍了略微修改获得更好的性能。

2.5。找到当地的专家

没有指定专家的方法寻找Tresp [14]。考虑到函数的行为都是区域性的,需要找到优化了某些地区的当地专家。在这里,介绍了改进的最大似然估计方法来找到专家。对于每个地区 优化,整个数据集分为两组,区域内的点 和那些没有 当地的探地雷达的内核参数是最大化的集合的概率数据点在这个地区其他条件数据点,即 这是最大化下的区域观察后的可能性。这是一个合理的方法的专家MGP模型根据整个数据集,进行回归和探地雷达优化(11)对应的专家最准确地预测本地数据。当该地区覆盖了整个数据集,(11)退化(8)和方法成为大中型企业。

区域生成本地专家不一定是相互排斥的控制网络将自动分配任务。然而,他们预计将详尽的否则回归以来发现可能导致严重的区域。一种简单的方法来满足这一需求通过标定优化是使用探地雷达(GPR将称为全球本文余下的GPR)以及优化的某些地区。最后,为了避免过度拟合,必须确保区域优化形状规整,包含足够的点。

2.6。使用EM迭代学习

找到医生专家后,模型通过使用EM迭代学习算法训练。新兴市场包括两个步骤,估计和M E一步一步最大化。在E步骤中,根据当前形式的GPs,每个数据点的潜变量估计使用贝叶斯定理: 的离散变量 表示加入GPs和符号 代表一个高斯分布的概率密度的意思 和方差 评估在 不同的方法在Tresp [14)是原始论文使用另一组GPs模型后验分布的方差,而(12)使用的方差计算(5)。原来的方法有一些优点,但是(12)计算理论上更便宜、更合法。高斯混合模型与EM,潜变量的先验概率估计的控制网络,而不是混合权重。这个词 的估计概率回归任务被分配到吗 th专家评估的控制网络 在M步骤中,控制网络和GPs更新基于E步骤中计算结果的可能性最大化。而程序更新控制网络将在后面介绍GPs的更新是通过放大的噪声方差协方差矩阵的对角根据潜在变量。 在哪里 是一个对角矩阵的条目(14]:

和E M一步一步进行交替,直到收敛。

然而,也有一些的实施中发现的问题。第一个是Tresp[中提到14),计算概率密度已知数据点可能会导致严重的过度训练。这个问题是通过使用所有的训练数据,除了解决 在计算(12)。然而,这就引出了第二个问题数值不稳定的预测价值可能是数万个标准差远一些GPRs和概率密度的真正价值成为电脑的零。这个问题可以通过使用近似解决如泰勒展开式为良好的回归提供准确的结果,同时保持它可计算的回归问题。另一个问题是,他们并不能保证收敛。这是可以理解的,他们是一个混合模型的最大似然估计的性质,可以是振荡两点之间有相似的可能性(28]。为了解决这个问题,可以计算后验密度的对数为每个EM迭代:

如果他们仍然没有一定数量的迭代收敛后,简单地选择对应的迭代步骤后密度最高。

3所示。方法

3.1。学习另一种控制网络

我的门函数模型评估expert-membership新输入的回归。在最初的论文中,这是通过使用高斯过程分类(29日)(GPC)和一个softmax函数。这个方法是发现是不够理想的。原因之一是,GPC需要把expert-memberships对于每一个数据点,而一些点,而等效概率数GPRs,使其不恰当的标签他们与任何模型。另一个问题源于这样一个事实,一些数据点,在一个地区被一个当地的探地雷达,可以很好地适应另一个探地雷达对其他地区进行了优化。结果,一个数据点,看似属于GPR被许多数据点,支持另一个探地雷达可能是这类问题的一个标志。因此,它可能需要考虑周围的状态数据。最初的方法是在函数的成功实现相当陡峭,如Tresp[的阶跃函数14)和spike-shaped函数Stachniss et al。30.),突然改变标签是有意义的。然而,对于大多数功能,原来的方法可能会导致错误的分类,因此不是很理想。同时,达到x6.9级GPC使用M GPRs回归和计算是相当昂贵的。

为了解决这些问题,另一个控制网络修改拉斯穆森和Ghahramani [16使用)。对于每个数据点,分配概率假定遵循对称的狄利克雷分布在前: 在哪里 浓度参数和概率吗 必须积极和总和。先验概率找到赋值的数据点在一个特定的配置可以使用标准的狄利克雷积分计算(31日]。 在哪里 专家赋值,也称为指示符变量,对吗 th数据。这个词 职业的数量吗 th专家,数据点的数量分配给这个专家。使用(17),一个可以计算一个指示符变量的后验概率分布的休息。 其中下标 除了表示所有索引 请注意,后不接受任何位置信息;因此,占领的地方估计数字是用来构造控制网络。这是通过使用一个内核平滑拉斯穆森和Ghahramani [16)给邻近点更高的重量。

修改从促进et al。31日),(19)使用后验分布计算(12)。这是集成控制网络的更新到EM学习算法。该方法成功地解决了原控制中发现的问题,网络的指标变量的概率以及周围的数据。长度尺度 在内核中平滑特征的平滑控制网络。优化 是很困难的,因为这可能会过度拟合。我们建议预设一个各向同性 和使用数据归一化在每个维度上的顺畅。

集中参数控制的先验分布,从而影响控制网络。占的变化 ,一个可以使用贝叶斯方法找到后 和样本分布。方法介绍了拉斯穆森(32),之前的 被认为是一个逆伽马及其后采用以下形式: 在哪里 表示测试功能。采样后可以使用自适应抽样(ARS)拒绝方法[33]。允许 改变使闸门网络更健壮。然而,函数(21)不是严格log-concave在尾端概率密度几乎是零。一个可能需要做一些近似处理。

3.2。完整的算法MGP

总结,一个人可以成功地实现后的MGP步骤提出了算法1

输入:抽样数据,优化区域,这个词 在平滑。
1后的样品 使用(21)和农业研究所。
2找到全球探地雷达和当地专家使用(11)。
3初始化控制网络(所有专家等概率为好)。
4重复
5计算数据点的概率密度下每一个医生。
6估计潜在的变量使用(12)。
7更新GPs使用(13)。
8更新限制网络使用(18)。
9 / 控制网络平均采样后的 /
10 =更新的均方根偏差控制网络。
11到 <宽容;
输出:训练有素的GPs控制网。

对于任何输入评估,使用(18)计算分配概率,然后使用(5分别为每个GPR)回归。

在实践中,一个可以进行EM直到收敛没有(13),这是保持GPs固定,在应用EM(之前13)。这是因为更新后重新计算概率密度GPs是最耗时的步骤。因此,一个更好的控制网络首先可以显著加快培训。但最重要的是,需要确保有足够的数据来执行MGP;否则,这可能会导致过度拟合。

3.3。Clustering-Assisted BayesOpt方法

上述MGP介绍的一个主要缺点是,如果当地的专家只能指定区域优化是已知的。如果函数的行为模模糊糊地知道提前或者有很多采样数据点,可以手动选择区域。但是对于一般的优化任务,这个很难做小而闻名的目标函数和数量量是有限的。

通过研究一般BayesOpt优化,可以发现当地专家优化器主要是感兴趣的对当地峰值采样密度高的地方。利用这个特性,当地专家构建BayesOpt MGP可以使用clustering-assisted方法决定的。首先过滤掉的数据值低于平均水平(如果最小化或以上平均)然后density-based集群适用于其他点。聚类步骤建议在每个输入数据进行规范化维度。每个集群周围发现了对应于一组采样可以找到当地的峰值和当地专家使用(11)。当后来的采样往往躺在更高的山峰,平均每次迭代后的采样值增加。因此,降低峰值较低的价值,将逐渐被过滤掉(一旦集群大小太小),只留下最高峰站。

如果没有发现集群,这意味着BayesOpt没有发现任何峰或没有足够的点附近的峰来适应当地的专家,全球GPR MGP只使用不造成任何不良后果。最坏的情况下,可能会导致聚类方法是找到一个集群的过滤后的数据点是高价值点和低价值的混合整个数据集。在这种情况下,探地雷达通过计算(11)不能反映函数的任何区域的行为但只是过度学习这个子集的数据。这是一个罕见的场景但仍值得关注。一个解决方案是解决这个问题k最近的邻居为每个集群没有分类数据。这可能增加每个集群的数据过滤掉。

3.4。完整的算法MGP-Based BayesOpt

BayesOpt使用MGP模型结合了GPRs回归概率后参与的控制网络。因此,收购函数EI MGP-based BayesOpt成为每个探地雷达的EI的线性组合:

这相当于边缘化采集功能和(22不限于EI)。如果没有额外的当地专家发现在聚类步骤中,(22)退化的EI单一全球探地雷达。该算法对MGP-based BayesOpt如下总结和说明。

4所示。实验

4.1。MGP回归测试

第一个实验是测试的回归性能与全球相比MGP探地雷达在2 d玩具的功能。玩具的功能包括两个钟形当地山峰,其中一个峰是敏感的 - - - - - -轴,另一个是 - - - - - -轴。函数是随机抽样的100倍和当地专家们发现通过手动选择每个峰的区域,然后应用(11)。虽然玩具功能的评价是准确的,一个小假设噪声测量执行更新的GPs。内核类型用于MGP Matern内核 ,因此至少一次可微的。MGP的回归结果是采取的期望值后(14]:

从图可以看出2MGP模式训练使用的算法1大大优于全球GPR回归曲线与实际曲线几乎重叠。由于控制函数,分配每个模型对该地区的excel,每个峰被分配到相应的当地专家,导致优秀的回归性能。这种再现结果Tresp [14),表明方法的成功找到当地专家和替代控制网络。

4.2。测试Hyperparameter调优

机器学习算法的hyperparameter优化问题是一个典型的例子优化昂贵的黑盒derivative-free功能。指定的机器学习模型hyperparameters前培训,极大地影响了模型的性能。培训过程可能非常计算昂贵,训练模型的性能通常是嘈杂的随机性通常参与模型的训练和测试。

基于MGP模型的成功实现,算法2应用在测试BayesOpt MGP hyperparameter优化四个常见的机器学习算法。选择这些算法是优化后的大型旨在改进平均高度可调(11]。XGBoost是一个促进树模型,其正则化主要是控制的收缩率和两个处罚条款。使用的弹性网是一个线性模型 惩罚来减少过度拟合。支持向量机(SVM)分类器使用内核,其性能由正则化参数和内核决定系数。多层感知器(MLP)是一个人工神经网络,在正则化项,学习速率和隐层大小一起导致其性能。实验是测试的效率MGP-based BayesOpt优化实用back-box derivative-free函数使用探地雷达与BayesOpt相比。上面的四个算法在不同的数据集,训练和hyperparameters的配置进行了优化的两种类型的贝叶斯优化器,分别。目前找到的最适条件每个优化器的值被记录在每个迭代比较优化的效率。考虑MGP需要足够的数据来找到当地的专家,同时优化从5 presampled数据集组成的随机采样使用探地雷达几迭代BayesOpt紧随其后。对于每一个测试模型的信息表1

输入:pre-sampled数据、目标函数 流畅,
迭代的次数 ,最小尺寸的集群。
迭代1 = 1 :
2规范输入空间中的数据。
3过滤数据值低于平均水平。
4执行density-based集群的数据点。
5应用k最近的邻居分类取消选择数据点。
6拒绝集群小于最小大小。
7使用算法1火车MGP。
8 / 优化的区域集群 /
9样品位置,最大化获取函数(22)。
10添加的采样点数据。
11结束
输出:价值和最好的采样点的坐标。

的比较优化效率呈现在图3。可以看出MGP模型优于GPR BayesOpt多亏了更精确的模型的目标函数。最重要的中长期规划XGBoost测试和调优的维度比较高。这是合理的调优的更高维度给予更多的空间,而其他模型收敛过快MGP的最适条件,即使没有使用。这样的结果是集群的成功辅助方法寻找专家的山峰。有趣的是,这是在测试XGBoost和MLP GPs用于每个优化迭代次数增加减少紧随其后。这对应于低峰值将会被过滤掉的设计较小的评估价值。

应用前presampling MGP是很重要的。可以看出如果MGP-based BayesOpt没有一定数量的presamplings应用,其性能是不能保证优于BayesOpt使用探地雷达(见图4)。通过检查优化过程,发现在MGP未能超越探地雷达的情况下,MGP停留在局部最优(通常是第一个找到峰值)全球最佳时间迭代之前,这可能是导致过度拟合的现有数据。MGP的使用是基于假设目标函数的行为是有利的采样数据。这种假设显然MGP时分解应用到优化的目标函数差。BayesOpt剥削和探索的一种权衡,MGP赞成前者通过增加代理模型的复杂性,导致过度拟合的风险更高,落入局部最适条件。MGP-based BayesOpt绝对是一个很好的补充GPR-based BayesOpt在大多数情况下,可以提供更准确的估计。但是过度拟合的高风险意味着它不能完全替代GPR-based BayesOpt,特别是当输入空间采样。

在实际优化问题,建议带足够的样品之前使用探地雷达应用MGP降低过度拟合的风险。一个也可以结合MGP和探地雷达在一起切换回探地雷达代理模型每几个迭代使用MGP-based BayesOpt。这种周期性的降低模型的复杂性使得更鲁棒优化的方法,有更准确的造型,同时减少过度拟合的风险。在我们的测试使用探地雷达每第三个迭代MGP-based BayesOpt,被困在当地的现象最适条件不再是观察和结合方法总是优于GPR-based BayesOpt。

5。结论

本文阐述了动机取代GPR BayesOpt MGP和提供了一个实现它的详细介绍。该方法寻找当地的专家,替代控制网络,clustering-assisted方法被证明是成功的,结果在实验部分。MGP是一个强大的候选人比GPR实现更好的回归性能。BayesOpt基于它明显优于使用探地雷达尤其是对目标函数在较大的输入维数。唯一的缺点潜在的过度拟合优化时相对较少的数据可以解决更多presampling或定期切换回探地雷达,是一个很好的补充GPR-based BayesOpt。尽管MGP在计算上更昂贵的比一个探地雷达,它仍然是快得多比大多数机器学习算法和训练可以显著提高BayesOpt的效率。同时,新兴市场的许多步骤可以并行训练,包括评估的每个数据点的概率密度。完全优化算法MGP无疑可以加快它的实现,具有较高的应用价值。

都解释的方法与细节,结果清楚地说明和分析是令人满意的。希望未来的工作可以提高MGP开发或寻找更多的应用程序。

数据可用性

所有的数据、模型和代码生成或使用在研究出现在提交文章。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

智慧化了的中心思想和主要部分软件,进行了实验和分析的一部分,修改了手稿,完成本文;林祖嘉提供数据,造成软件的一部分,其余部分完成实验和分析。其余作者同样导致了精炼的想法和设计实验。结果和讨论的所有作者写这篇文章的初稿。