文摘

再邻国(资讯)是一种非常流行的基于实例的分类器由于其简单性和良好的实证性能。然而,大规模的数据集是一个大问题来构建这些人地区分类器也快,紧凑。这项工作提出了一种分类算法的设计和实现索引数据结构,这将使我们能够构建快速、可伸缩的解决方案对大型多维数据集。我们提出一种新颖的方法,其利用通航小世界(新南威尔士州)大规模数据集的距离图表示。我们的方法显示分类加速为平均水平的2 - 4倍和99时间与渐近接近1-NN相比,分类精度的方法。我们观察到两个数量级更好的分类方法使用交换内存时时间的情况下。我们表明,新南威尔士州图用于我们的方法优于其他邻近图分类精度。我们的研究结果表明,该算法可用于大规模快速申请和健壮的分类,特别是当搜索索引已经构建的数据。

1。介绍

邻近图是一个实际的类图的应用程序在多个领域。例如,他们用于运动规划,迅速探索随机树(1,2和最小生成树聚类3]。最重要的是,他们的核心 搜索时间为大规模多维数据索引、数据结构 代表数据集的基数。

基于实例的分类(IbC)方法存储物品(实例)从训练数据集分类器的一部分。与其他方法如决策树、人工神经网络、IbC算法不事先估计分类器训练数据的功能;相反,他们存储训练数据和从考试中获得一个类标签的看不见的样品在测试时间(最近的邻居4]。这种方法很容易采用看不见的数据通过扩展的列表存储样本。

在纯IbC的方法,我们可以确定再邻居(资讯)与不同的变化5- - - - - -7),分段函数(例如,样条函数(8]),内核接近者,如径向基函数(RBF)插值方法。样条函数和内核近似是常用的解决方程的数值方法。同时,然而,被认为是一个很好的依据小说机器学习方法(5)和复杂的应用机器学习任务的有效工具9]。

决策树、支持向量机(SVM),自组织映射(10学习矢量量化(),11),和RBF网络(12)也可以归因于基于实例的方法。等广泛的解释,然而,我们避免这些方法不需要原始样本进行分类存储。

在本文中,我们解决问题的分类速度在IbC的上下文中使用距离图。大型数据集通常出现在互联网服务的内容推荐任务:搜索、网上商店、流媒体、社交网络。分类伴随建议在情绪分析等任务(13]或auto-labelling [14]。因此系统每天处理数百万甚至数十亿的请求,这使得一个毫秒算法开销规模小时,每天天的CPU时间。这是一个值得注意的财务负担。

再邻居方法估计类标签的一个基于标签的测试样本训练集的最亲密的邻居。距离定义度量函数。为了避免计算的距离测试样本中的每一项训练数据,索引是就业。这允许实现次线性分类时间与各种数据结构,如树、图、反向指标。

基于索引使用的数据集通常可以表示度量空间。因此,添加节点的距离度量,需要边来表示亲密的社区,我们可以受益于greedy-like搜索算法遍历图,初步了解所需的方向查询示例。

在基于实例的方法,算法执行时间取决于存储实例的数量,而基于模型的方法取决于模型参数的数量。因此,IbC应该提供渐近,几乎快方法即使对于非常大的数据集,这需要构造附加结构导航数据,如搜索指数。我们考虑的情况下创建索引是不可缺少的,尽量减少分类墙。更具体地说,我们展示如何通航小世界(新南威尔士州)[15)和层次通航小世界(HNSW)图(16可以利用机器学习]属性。我们建议改善新南威尔士州和HNSW索引数据结构,导致平均可持续2 - 4倍的加速比1-NN分类基准。

这项工作的贡献可以概括如下:(我)我们提出一个新的基于实例的分类方法,利用属性新南威尔士州和HNSW索引数据结构的实现2 - 4次1-NN分类加速。(2)我们建议的方法显示二阶时间改进使用内存交换文件。

剩下的纸是组织如下。部分2讨论了不同的索引策略对于大型多维数据集。部分3涵盖了算法结构和理论依据提出的想法。部分4描述了实验装置、数据集、硬件和比较的方法,其他方法的方法。部分5是我们实验的数值结果。评估在这一节中,提出了分类器的速度和准确性,以及新南威尔士州图与其他邻近图。部分6分析获得的数据和状态条件,使用我们的方法是有益的和讨论有趣的属性。部分7关闭本文主要结果的一大亮点。

我们的实验,结果,和代码可在GitHub库(https://github.com/IUCVLab/proximity-cut)。

本节概述大型数据集索引的问题是如何解决的行业现在认为索引应用基于实例的学习。

出现大规模多维数据索引的问题一起有效的文档嵌入使用人工神经网络方法(17- - - - - -19]。互联网成为了一个无尽的数据来源,包括网页、维基百科文章(https://dumps.wikimedia.org/)、科学论文(https://en.wikipedia.org/wiki/Web_of_Science)和图像(https://en.wikipedia.org/wiki/Google_Photos)构成的集合 在每一个项目。当代自然语言处理的研究还需要更大的数据集来证明鲁棒性(20.]。由于没有确切的边界,我们解决这些大小一样大。如此规模的搜索可以不再是详尽。实用的,它需要次线性时间。一个无序的集合,这意味着,在经典计算机上,我们需要用近似方法,也称为近似近邻搜索(ann)。精确和近似近邻搜索是许多基于指标的机器学习算法的核心工具,包括资讯分类,k - means, k-centroids, DBSCAN聚类。我们将讨论三种方法构建大型数据集指标保证快速的网络。在本文中,我们假定数据可以表示为一个矩阵或向量空间取决于索引方法。

2.1。树的基础

avl树的发明和b树搜索树来建立一个强大工具 指数数值数据。利用(21]和KD-trees [22)已被用于索引多维矢量数据。不幸的是,他们的使用仅限于低维度,因为他们受到的诅咒维度。例如,索引 与kd tree项目将使用最多 第一维的向量,而当代深模型生产100 - 1000维的向量,如768 -维伯特嵌入在17]。对于这样大的向量,搜索过程不会账户大部分维度。因此,它不能保证低距离查询获得“邻居。“为了解决这个问题,作者的骚扰(https://github.com/spotify/annoy)应用随机预测而不是预先定义的向量维度和多个搜索树,这被证明是一个有效的方式来降低数据维度为大型数据集(23]。树的集合可以实现人工神经网络精度高与一个小的搜索时间。然而,它有一个显著的内存开销,每棵树消耗内存数据集的大小成正比。

2.2。基于反向索引

一个反向索引文件(IVF)是一种有效的文本索引的方法,它利用人类语言和离散词代表的统计特性。从多维矢量数据是连续的,各种基于指标的离散化方法,如矢量量化和向量聚类,用于准备所谓vocabularies-finite向量的集合,表示数据集群(24,25]。目前的讨论工作方法避免试管婴儿遭受自然语言处理的问题。词的频率自然语言是不同的,导致倾斜的指数。拟议的方法包括不同的k - means实现产品形成一个词汇和量化技术更好的空间分区(24]。虽然试管婴儿是一个快速和可伸缩的方法人工神经系统与前途的搜索速度和精度,它需要大量的额外的内存26]。

2.2.1。接近基于

邻近图是图顶点的距离度量定义(27]。在实践中,可以定义度量不了所有的人对顶点,和边缘图当且仅当存在(或有更高的概率如果)其顶点满足特定的几何要求;例如,如果他们在度量空间接近。建立一个邻近图与数据项顶点可以被理解为构建道路网络。它允许旅行搜索算法从任意顶点的方向搜索查询通过遵循一些贪婪策略。

有多种类型的确定性和概率距离图,包括最小生成树(MST),相对邻近图(RNG),加百列图表,德劳内三角剖28]。其中,有一组数据结构基于小世界的概念图。小世界(SW)网络的主要特性29日]相对于其他图形是一起边缘连接紧密的社区与当地道路(比较),还包括“遥远”边缘与航班(比较)。在这个例子中,“遥远”意味着边缘连接near-clique集群不共享任何节点。这样的“遥远”的存在边缘导致 预期的最短路径长度(边数)任意两个顶点之间的证明(30.]。新南威尔士州和HNSW图(16]地方图顶点到一个度量空间,引入高效greedy-like算法遍历图。作者声称他们的数据结构接近德劳内剖分在高维度和提出一个新颖的方法构建西南图在度量空间,也 施工时间复杂度和 内存开销, 代表数据向量的维数。

3所示。方法

这项工作是致力于IbC的改进方法。给定一个多维数据集,我们可以实现好的结果与资讯分类器:使用现有的搜索指数,我们可以保证 搜索时间不牺牲准确性。使用这些方法有竞争力和在近期应用研究[5,9]。不过,我们必须考虑速度方面的理论复杂性和墙,作为大规模服务敏感甚至一毫秒的时间开销在一个函数。邻近图(新南威尔士州和HNSW在我们的例子中)建立在未标记的集合达到预期对数最近的邻居greedy-like算法的搜索时间。因此使用基于索引,资讯分类器可以运行在对数时间,很难改善的理论的复杂性。相反,我们的行动集中在利用标签信息来减少实际计算时间和保存分类精度。

我们的工作仅限于假设数据集有一个属性的一个度量空间,有高概率的最近的邻国(的度量)的一个项目属于同一类项目。这种假设有时被称为紧性假设[31日]。这种假设一般都基于指标的机器学习方法,包括无监督(例如,k - means和DBSCAN)和监督(例如,资讯和线性模型)的方法。

该方法的核心理论思想在于距离图切可以用来近似类边界。一个图形是一个顶点的边缘在源和目标属于不同的类。图实例图1

我们方法的大纲如下:(我)在资讯分类一样,我们接受紧性假设。这允许进行假设类卷是关闭的 (2)资讯分类器分配一个类一个看不见的示例基于隐式类与邻国边界估计投票。边界估计可以替换为速度边界检测、基于约旦曲线定理(32和它的扩展33]。(3)拟议的边界检测技术是基于遍历新南威尔士州和HNSW图与贪婪算法(定向搜索)。该算法产生near-shortest路径之间的出发点和看不见的示例中,所示 长(30.]。

进一步段落扩大上市的想法。

约旦曲线定理保证如果有两类 在一个类被一条封闭曲线,那么任意两点之间的路径属于不同的类边界相交这个奇数次,至少一次。我们应用多维的后果33]的定理紧性假设:对于任意路径(边缘序列)的距离图,单类边界可以用来指示类变化。不需要一个精确的交叉点的位置。这足以解释边顶点有不同的标签,也就是说,这属于图。方法也适用,即使类不是单个集群而是一组断开连接的集群。

速度的特点,我们的实现来自新南威尔士州和HNSW图的两个属性。首先,在小世界图(根据定义),预计两个任意顶点之间的最短路径长度对数。因此,任何查询搜索算法可以从一个随机图节点开始,找到最近的节点查询节点 时间平均最短路径。其次,贪婪的定向搜索算法在一个密集的足够的新南威尔士州图生成路径 边的概率 ,所示的实验(15和理论证明30.]。贪婪在这里被定义为从邻国,选择下一个顶点,这样它是最接近(在度量空间)的目的地。欧几里得和角指标向量空间数据集是最受欢迎的。换句话说,如果算法搜索查询节点 从节点 ,在每一步,应该搬到这样的一个邻居 ,有最小的距离 的指标。保证这个搜索上述属性,平均而言,将成功地收敛 时间。

总而言之,对于一个分类任务,不需要类边界估计。相反,它足以检测内的事件。这个有用的观察允许减少计算开销,这对于大型系统是有价值的。新南威尔士州的实现中,我们使用这两个属性图有效地获得路径图,把它们与约旦曲线定理。

一个正式的描述我们的方法如下:让一个类是一组卷在一个多维度量空间。正如我们前面所提到的,我们近似类边界图。内如果发生在一个路径属于削减。因此,我们提出以下的分类算法。给定一个样本向量需要分类,搜索与随机从一个图的顶点指数从均匀分布。一个顶点的选择过程不影响结果任何卖空路径在新南威尔士州图对数长度。然后,对给定的向量图节点贪婪地遍历,以及算法停止如果不能找到一个更近的邻居。如果类标签可用于所有顶点,只需要最后的边境发生的(如果有的话)指定一个类的样本。

该算法适用于二进制和多类问题。推广应用one-vs-all多级来自技术:最后的边界可以被视为从美国“所有”类,“一”类。

新南威尔士州图表总结了建议的方法的算法1,这是一个近似等同于1-NN分类。唯一的区别为HNSW实现需要开始在顶层图和在较低的水平,直到重复相同的算法 收敛性。这也意味着,顶点的选择 HNSW图是确定的。

归一化特征的欧氏距离作为度量在测试中如果其他没有明确提到。在许多实际应用这个选择是合理的,因为它抓住了人类感知的“亲密关系”:一个价值的重大变化特性或无关紧要的多个特性的变化不应显著影响的距离度量。

输入: ——数据索引; ——样品分类
结果: 标签
随机顶点从 ;
;
重复
;
;
/ /最接近x的邻居d
;
;
;
/ /直到我们不能接近x
直到 ;
返回

新南威尔士州图允许使用该算法资讯一起投票过程。分类可以多次运行,达到更好的精度。在HNSW图的情况下,在网上搜索过程总是使用一个预定义的起点。因此应用投票将不会带来任何好处。

4所示。实验

我们实现我们的方法来改善原始新南威尔士州和HNSW图搜索过程。我们的实验研究方法从三个观点:(我)新南威尔士州图网络质量与其他邻近图相比,(2)分类精度与1-NN相比,(3)时间改善基线相比与HNSW 1-NN分类。

我们理解图像质量标准作为一个能够提供一个更好的人工神经网络逼近问题。应用邻近图之间总是会有取舍的速度附近勘探和检索的实际比例的邻居(可称为回忆度量)。实验表明,图像的选择是好的。另外两个标准是致力于方法评估的准确性和时间。1-NN分类作为基线。第一个原因是,该方法是一种近似的分类技术,所以我们评估我们的解决方案相比,最好可以实现nonexhaustive 1-NN NHSW分类方法完成。我们的目标是实现更好的实际时间与可接受的精度损失。第二个原因是,根据1-NN结果,可以很容易地推断一个任意的时间成本资讯分类方法。

比较图类型与所有图表类型在我们的方法使用调查28),我们运行实验3 UCI数据集的一篇论文中提到:皮肤病(https://archive.ics.uci.edu/ml/datasets/dermatology),Isolet (https://archive.ics.uci.edu/ml/datasets/isolet)和图像分割(https://archive.ics.uci.edu/ml/datasets/Image +分割)。Nonnormalized欧几里得距离用于Isolet和原始图像分割复制精度的结果。皮肤病学数据集,它包含分类和数值特性,我们实现和使用异构价值差异度量(HVDM)中定义34(实施https://github.com/IUCVLab/proximity-cut/blob/master/modules/tools/hvdm.py)。这组实验,新南威尔士州实现使用了从我们的仓库。

通过建设,HNSW图包含了新南威尔士州图0级的一个子集。因此,所有剩余实验进行了hnswlib实现,新南威尔士州图提取父HNSW图。

速度和精度分类1-NN分类器相比,在中型路标数据集(35]43类(图片大小256 -维表示,10%的测试集)和两个大型二进制分类数据集希格斯( 项目)和超对称性理论( 项目)(36测试集(5%)。详细的加速数据测量使用另一个中型植被类型数据集(37]。

在这项工作中,我们不要声称发明或改进现有的分类算法(s)。这些类型的工作需要详尽的测试所有边际情况。我们的目标是应用先进的索引基础设施和显示我们能从中获得什么(加速)和成本(精度)。新南威尔士州和HNSW的时间复杂度特征已经被研究了15,16和证明30.),在本文中,我们专注于实际的改善。由于算法时间取决于数据集维数和大小,讨论这两个方面。

所有实验在64位Windows笔记本电脑使用一个CPU核心。笔记本AMD Rizen 3 3200 u芯片2 2.6 GHz频率和物理内核。6 GB RAM是安装在机器与3.5 GB用于实验。Python实现发射与Python 3.7.4 Jupyter笔记本。用GCC来编译c++实现7.4.0使用Windows子系统为Linux (Ubuntu 18.04)。

5。结果

5.1。图比较

新南威尔士州的选择图验证了与其他邻近图比较准确的结果,即相对邻近图(RNG),加百列图表,和最小生成树(MST)。我们比较我们的结果对实现从[28在UCI数据集提出。作者故意只集中在分类精度和省略速度比较。因此,我们可以比较我们的结果的准确性。Isolet,我们的方法优于RNG图分类准确率为88.5%对88.1%。皮肤病学数据,同样达到了95.65%的准确率提高图表,可以非常小的数据集的结果,几乎完全图。图像分割数据,我们的方法实现了87.5%的准确率仅略逊于1-NN(90.3%)和提高(88.8%)。详细的结果表1

5.2。平均分类精度和时间

在新南威尔士州和HNSW图、施工阶段取决于hyperparameter ,的线性影响图的边的数量。根据原始文件,增加该参数可以带来更好的精度结果支付额外索引内存。我们比较这个参数如何影响基线1-NN分类和两个大型数据集的方法。结果在图提供2

我们还研究了数据集大小和图像边缘密度由新南威尔士州hyperparameter控制 影响分类的平均时间和准确性。我们比较基线1-NN分类方法的三个数据集不同hyperparameter值。比较精确地数字,我们的方法显示可持续加速图形。时间和准确性结果表2

新南威尔士州和HNSW图是由一个确定的过程,但它们的属性取决于插入的顺序和数据集的结构本身。这样的搜索和分类时间图表只能估计的预期值。我们使用一个中型植被类型数据集分布比较分类倍。虽然基线1-NN分类和NSW-based方法显示类似的传播时间增长,HNSW-based方法显示了极好的数字。视觉对比,请参考图3

5.3。服务可靠性的比较

索引结构中使用不同的搜索任务来提高服务的质量。经常评估的服务可靠性 百分位数。因此,我们准备了一个百分比表示比较的方法1-NN基线,这显示了NSW-based 1.5 - 2倍加速实现和4 + * NSW-based比较。数字表3

6。讨论

图的比较实验表明,NSW-based分类精度优于稀疏加布里埃尔和MST图在所有实验。同时,生成的分类器显示了行为非常类似于RNG-based实现的实验。考虑到这一点,我们指的是(38),即尽管二维情况下RNG建设要求 操作, - - - - - -尺寸和非欧几里得的度量空间需要 操作。新南威尔士州构造图 这是一个重要的获得对大规模数据集。

比较该方法的精度对基线1-NN分类表明,提出的方法是略低于基线,HNSW-based实现比1-NN鹿百分比在所有测试点。但我们也发现NSW-based实现渐近趋于基线(见图2)与图形密度的增长,所定义的 hyperparameter。体积小的数据集,NSW-based实现显示显著的加速,因此使用 神经网络分类器, 建立在该方法将为较小的时间达到渐近更好的精度。HNSW-based实现同时显示了所有图形大小和密度一致的加速。损失精度可以用这一事实来解释我们的方法只返回一个近似的最后一步最近的邻居。因此,在未来的研究,改进的算法在最后搜索更好的近似迭代可以解决在精度与基线同时保留同样的时间。我们也可以说,加速都观察到的实验数据和图形密度的大小。一般的观察是,加速往往是大的小数据集,但是 - - - - - -规模数据集,它仍在显著水平。

我们分别站的加速值与高密度超对称性理论数据集(= 128),它显示了新南威尔士州和巨大的148.1倍1.17倍提高改善HNSW(见表2)。实验进行了多次与不同系统参数显示相同的结果。我们发现这种行为完全取决于使用交换内存。小路标数据集,翻图密度(参数 )意味着线性绝对时间增长1-NN分类,而对于超对称性理论,我们观察3-order时间增长16倍密度相比增长( = 8,128)。我们发现,在测试机,只能分配过程 3.5 GB的物理RAM,而所需的数据结构几乎5 GB的虚拟内存。因此,数据被丢到硬盘的重要组成部分。这减慢索引构建阶段和分类。HNSW图架构使用指数较小的部分内存根据施工过程图水平较高。因此,只有最后一个步骤的算法需要0级图遍历,尽管水平较高的数据可以很容易地融入物理RAM。这使得HNSW-based分类非常有前途的低物理RAM。

考虑到潜在的服务质量,我们国家,新南威尔士州和HNSW-based实现该方法的表现类似的速度和高百分比分类的平均时间。我们也注意到,这加速并不取决于图形密度如表所示3

总之,我们定义两个潜在的应用方法。首先,新南威尔士州和HNSW-based算法可以作为专门为各种规模的数据集分类器来提高绝对分类时间仍然牺牲几个百分点的准确性。NSW-based分类器,在这种情况下,将提供增长渐近准确密度图,HNSW-based版本将是极其容易当RAM不符合数据集,并使用交换文件。其次,对于中小型数据集,NSW-based资讯实现可以提供更好的为同一分类精度。

我们想说,虽然我们讨论了竞争索引方法(体外受精、树木)的部分2,我们不能实现我们的方法使用这些数据结构,因为他们并没有产生图减少我们使用我们的方法。

7所示。结论

在本文中,我们介绍了基于实例的分类的新方法。改善现有新南威尔士州和HNSW数据结构的方法更快的分类看不见的东西。它简化了原来的搜索算法和连接与约旦曲线定理。方法实现可持续4 x加速在真正的中等规模的数据集和超过2 x加速对于大型的数据集使用生产hnswlib c++库,同时保留渐近接近准确性。它还显示极好的时间改进如果用于交换文件。

我们分析了解决问题的方法的执行时间,我们可以说,它提供了更好的可靠性 分类时间百分比1-NN分类相比基线。

我们未来的研究可以针对改进近邻估计最终的搜索算法,提高分类精度,同时保持时间更小。

数据可用性

机器学习分类数据集(图像分割Isolet皮肤科,植被类型,苏西,和希格斯粒子)用于支持这项研究的结果已经存入UCI库(https://archive.ics.uci.edu/ml/datasets/dermatology,https://archive.ics.uci.edu/ml/datasets/isolet,archive.ics.uci.edu/ml/datasets/Image +分割,https://archive.ics.uci.edu/ml/datasets/HIGGS,https://archive.ics.uci.edu/ml/datasets/SUSY,https://archive.ics.uci.edu/ml/datasets/covertype)。这些先前的研究(和数据)是在相关地方引用文本中引用(28,36,37]。路标的机器学习分类数据集用于支持这项研究的结果已经存入INI基准的网站https://benchmark.ini.rub.de。这些先前的研究(和数据)是在相关地方引用文本中引用(35]。代码相关的合成数据集生成用于支持这项研究的结果已经存入GitHub库https://github.com/IUCVLab/proximity-cut

的利益冲突

阿Mehmood Khan充当编辑传统和深度模型的复杂度和鲁棒性权衡特殊问题。

确认

这个研究财务分析中心支持的俄罗斯联邦政府(协议号70-2021-00143 dd, 01.11.2021 IGK 000000 d730321p5q0002)。