一个新的体积CNN对3 d对象分类基于联合多尺度特征和子卷监督学习方法

文摘

发展低成本RGB-D和激光雷达三维(3 d)传感器允许实时3 d模型更容易的取得。但是,使复杂的3 d功能发展是至关重要的3 d对象分类。现有的体积分布CNN方法取得了显著进展,但他们产生巨大的计算开销,限制了全球特征提取高分辨率的3 d对象。在本文中,一种低成本的3 d体积深卷积神经网络提出了基于联合3 d对象分类多尺度分层和子卷监督学习策略。我们提出深层神经网络输入3 d数据,预处理的实现节约内存八叉树表示法,我们建议全层八叉树深度限制在一定水平基于预定义的输入体积分辨率存储高精度轮廓特征。从多层次多尺度功能连接网络内八叉树的深度,以自适应生成高级全球功能。子卷监督战略的方法是训练网络团体为了学习当地的3 d对象的特性。我们的框架已经评估两个公开的3 d库。实验结果证明该方法的有效性,提高分类精度相比,现有的体积的方法,和内存消耗比率和运行时显著降低。

1。介绍

三维(3 d)对象有一个普遍的意义在计算机视觉领域的应用包括人机交互和自动车辆机器人(1]。深度学习(DL)在2 d领域取得了令人印象深刻的成功(2- - - - - -4)与各种应用,如人脸识别和图像分类。在人类的视觉,无论我们在现实世界中看到的是三维空间内,所以3 d数据可以提高计算机建立应用程序的性能5]。在过去的几年里,有几位3 d数据库发布到公共6- - - - - -8]。这些已经打开门计算机视觉研究人员处理现实世界的对象,和DL-based 3 d形状分析研究已成为可能,包括3 d分类、分割、检索和3 d重建。然而,与常规采样2 d图像,三维形状不规则三角形网格或点云;这对美国有线电视新闻网是一项具有挑战性的任务中提取不同特征(9),可以描述的形状和部分3 d对象。摘要3 d对象分类任务被认为是采用体积深卷积神经网络(CNN)使用3 d CAD模型。图1显示了一个3 d对象分类的一般框图。

cnn的最早尝试之一,认识到一个3 d对象被曝使用RGB-D图像的深度信息10]。近年来,已发表的论文数量为3 d对象使用CNN-based方法分类任务。其中,2 d - base CNN方法获得声望,现有2 d - base CNN框架可以直接使用,需要计算成本降低;除此之外,他们取得了更精确的结果当一个3 d对象将2 d图像(11- - - - - -14),通常被称为多视图CNN。然而,多个3 d对象的预测到2 d网格抛弃固有信息,这些都是不符合复杂的3 d视觉任务。获取完整的3 d对象的几何特性,体积与周期性的网格式表示数据提供了非常全面的信息,3 d数据可以直接发送到体积cnn。体素中常用的利用3 d模型体积表示和直接喂给cnn。3 dshapenets [15)是第一个提出的体积cnn吴et al .,他们发布了一个丰富的三维CAD模型库ModelNet数据集(6]。3 dshapenets采用卷积深度信念网(CDBN)从2 d DL三维分布,并申请了三个不同的应用程序,包括3 d对象分类,预测下一个视图,和检索任务。类似的方法被用于(16],它提出了一个浅体积CNN名叫VoxNet实时3 d对象识别任务从三个不同的领域。VoxNet实现更快的识别功能和超过3 dshapenets ModelNet40数据集对象的识别任务。在以下,几个方法建议使用体积cnn (17- - - - - -20.),取得先进的3 d对象分类任务的性能。尽管分布的有效性cnn,他们产生一个巨大的计算开销由于不必要的边界体素的卷积操作数据与许多网络参数。在2 d cnn, 256×256图像分辨率通常被认为是作为DL-based图像分类的输入,但是考虑到256年的3 d对象³计算体积分辨率是禁止的。虽然基于gpu的计算能力cnn最近已显著提高,相比之下,训练时间和计算问题分布三维容积数据的主要约束,限制使用的大容量决议和更深层次的网络。octree-based体积表示的研究者开始流行,因为它减少计算开销(21- - - - - -24]。然而,八叉树表示执行最好保持3 d对象的细节和3 d对象的表面的平滑度相比,体素表示。

在这篇文章中,我们还考虑到低成本的八叉树作为一个3 d对象的体积表示,历史悠久的不同的3 d数据应用程序(25- - - - - -29日]。这八叉树表示形成的递归分解数据树的根压将3 d总额划分为多维数据集类似于四叉树结构(30.]。稀疏对象插入到数据立方体占领的张量在CNN执行,和成平方计算成本上升。我们提出一种新的多尺度体积深卷积神经网络(MS-VDCNN)基于关节残余和子卷监督学习方法使用一个八叉树数据张量作为网络的输入。相比普通八叉树表示法,我们建议保留完整的层级八叉树深度一定最小八叉树级别,根据预定义的体素决议。通过这一现象,所有体积特性将被冻结,直到系统定义的最低八叉树。这个预订将有助于解决信息丢失而功能从1 d八叉树转换成3 d体积空间在我们的网络。浅多任务学习框架采用降低训练误差和优化系统。这剩余学习块连接多级conv.特性来提高性能。此外,子卷受雇监督使用层切片策略对象体积分为子卷部分,和网络是训练有素的切片数据张量学习地方特色。这种方法可以与人类视觉策略相比,它有能力识别对象部分通过观察它。 Our key contributions of this paper are threefold: proposing a unified volumetric framework, effective octree structures, and an investigation of optimal training samples. These can be summarized as follows:(我)我们提出一个统一的基于gpu的MS-VDCNN容积对象的分类。这个方法的目的是充分利用多层次特性更高分辨率的输入样本(3 d对象)利用残余的分层学习方法。子卷监督学习策略应用于解决过度拟合问题,提高网络性能。(2)我们MS-VDCNN直接输入八叉树数据张量和生成特征图基于关节残余和子卷监督学习方法。是由最优八叉树表示保留完整八分仪根据预定义的样品一定八叉树深度分辨率。这样,八叉树编码存储高精度八叉树的开始全球功能分区,有助于提高网络的性能。这种方法看起来可能增加内存消耗比率略相比普通八叉树表示,但它仍然比完整的体素的方法(图将消耗更少的内存2)。(3)输入量的影响决议和multiorientation效应研究采用广泛的实验ModelNet40数据集。基于实验结果,最佳体积分辨率和视图定义的数量,进一步提高网络性能的分类精度和损失评估。我们建议MS-VDCNN达到更高的分类精度相对于其他单一体积cnn。

(一)

(b)

本文的其余部分组织如下:部分2提出了基于CNN早些时候相关的3 d对象分类工作。节3我们建议的方法,包括体积point-octree表示和网络体系结构进行了讨论。部分4给出了实验结果。最后,部分5总结我们的结论和未来的工作。

从激励的结果通过DL方法2,3,31日)在二维领域,最近,DL也吸引了三维计算机视觉的注意社区为了学习3 d数据的复杂的结构。一套3 d深层神经网络已经发表,在过去的几年里,几个3 d视觉应用,包括3 d对象分类、形状检索和分割一部分。然而,DL网络的性能强烈依赖于三维数据的代表性,CNN的设计框架,和网络参数的泛化。在本节中,一些现有的DL模型,包括形状描述符,体积,2 d预测,和多视图和点云的方法,将进行3 d对象分类。

3 d形状描述符提供了一些关键属性的三维形状。基于特征提取的类型,可以分为全局和局部描述符描述符。整个三维形状信息可以通过全局描述符提取;相比之下,当地描述符代表了表面与低级别的功能。全局描述符不能保存当地的细节。因此,局部描述符通常用于火车CNN框架生成高层特征学习的等级区别的特征的三维形状三维计算机视觉应用程序(32,33]。刘等人。34)提出了一个当地的3 d形状描述符提取底层视觉特征编码到bag-of-words(弓)从200多视图的三维形状。此外,深层信念网络(DBNs)输入每个形状的弓范例学习高层语义特征的分类和检索任务。实验结果表明,训练模型实现更好的结果与经典的弓相比功能。汉et al。35]提出了深刻的空间性(DS)作为一种无监督学习框架学习使用深层神经网络全球和地方特色。空间背景提取器和深背景学习者这个框架的两个主要组件。空间关系在当地区域编码的空间上下文提取器,和深背景学习者被全球和地方特色训练使用耦合Softmax层提出的。3 d对象面临的低级特征用于分类和检索任务semisupervised或无监督的方式。最近,一些更先进的方法发表包括敌对攻击体积数据(36)和能源模型生成体积形状模式(37]。然而,descriptor-based cnn呈现3 d数据的抽象形式可能不是有效的监督学习。这就是为什么描述符的功能主要是用于一个无监督或semisupervised方式(38- - - - - -41]。

3 d数据投影是另一个表示的三维数据,一些关键属性的原始三维原始数据投影到二维空间。施等。13)提出了3 d DeepPano对象识别和检索任务。一个二维圆柱投影的原则方向3 d对象提取二维全景。曹et al。42)提出了两种互补的预测在一个球形领域,这产生圆柱形补丁。第一个商店投影深度变化,第二轮廓信息编码在不同角度的投影。提出的2 d CNN输入一组圆柱补丁作为3 d对象的特性。训练模型应用3 d对象分类。这个投影方法的主要优点是使用2 d DL直接为3 d应用程序(12]。这种方法的性能高度依赖的类型使用投影法。然而,这种形式并不适合3 d视觉任务,因为信息丢失的投影(43]。

多视图cnn是另一个流行的3 d视觉方法的应用程序。3 d对象表示为一组2 d图像允许学习的多个特性采用现有的2 d DL架构。对于计算机视觉应用程序,一个3 d物体的表面信息提供了非常高级的特性,可以用多个二维视图生成的3 d对象。苏et al。11)提出了一种多视图卷积神经网络(MVCNN) 3 d对象识别。从ImageNet pretrained模型44)调整在ModelNet40数据集使用2 d视图(12或80呈现的图像)的每一个3 d对象作为输入功能。由MVCNN ModelNet40数据集上的分类结果实现了先进的性能。MVCNN进一步提高了约翰et al。45提出一个多视图对象识别任意相机轨迹。一个图像序列分解为一组对,每一对是独立分类。马等人提出了一种新颖的多视图模型(46]提取相关性multiviews方法通过结合cnn与长期短期记忆(LSTM)。哈等人介绍3 d2seqviews [47]全球功能通过聚合生成连续的观点和执行比其他correlation-based马方法等。46]。一般来说,multiview-based cnn提供更好的表现相比与其他3 d表示方法。因此,视图的数量仍然是一个开放的问题多视图表示视图可能导致underfitting不足问题,和太多的观点可能会增加计算成本48]。

一个点云代表3 d对象几何作为一组非结构化的3 d点。然而,点云cnn越来越受欢迎,因为他们可以直接输入点云数据,做了很多工作在多个计算机视觉任务(例如,对象识别和3 d重建)(49- - - - - -51]。在这一领域,PointNet [50),先锋深网框架,是训练有素的无序点集在3 d环境中执行分类和分割任务。有效PointNet达到最先进的性能。七等人提出PointNet + + (52]PointNet是递归地应用于输入点集的嵌套分区。PointNet + +框架考虑点集的分区,从PointNet提取地方特色。PointNet + +执行比PointNet和获得的三维点云的基准。在以下几个点云cnn已经出版,他们有改进的3 d分类性能,例如,Kd-network [49]介绍了kd tree结构的点云数据;PVNet [53)学习3 d几何特性从云层和呈现的图像;relation-shape CNN (RS-CNN)引入了上下文shape-aware学习54];3 d胶囊(55)提出了一种新的模块,即ComposeCap、点云分类地图空间相关特性。然而,点云cnn面临一些困难,因为空间不规则和排列不变的属性(1]。可能需要额外的处理来生成高质量的表面特征由于缺少连接信息。

体积表示给完整的3 d几何对象。3 dshapenets [15)是一个非常早期的尝试体积cnn对3 d形状分析使用3 d CAD模型,和ModelNet公布的数据集6)已经成为3 d对象分类的基准。从2 d DL CDBN采用输入一个二进制体素张量与体积解决30×30×30。然而,3 d对象的结构和几何性质可以改变不同的表征。利用这些属性,VoxNet [16)提出了对3 d对象识别三个表征,包括3 d CAD模型、RGB-D数据,激光雷达点云。VoxNet是一种浅体积网络构造使用五层CDBN实时3 d对象的识别任务。VoxNet输入32×32×32体元数据。Sedaghat等人介绍了orientation-boosted体元网(19)生成一个对象的正确方向,然后预测对象类层次的并行任务。最近,王等人提出NormalNet [17]reflection-convolution-concatenation (RCC)模块。这种方法可以比作一个融合网络,体素和像素点的法向量作为输入30×30×30和美联储的决议到网络中。高级功能是生成的连接层与三种不同姿势的3 d对象。CNN最近的基于3 d体积架构(14- - - - - -16,18,19,56)显著提高分类性能最先进的3 d对象。然而,基于减少之间的差距2 d的cnn和体积cnn对3 d对象分类,Voxception-ResNet (VRN) [56)取得了显著改善《盗梦空间》通过利用建筑Resnet[紧随其后57]。VRN是很深的框架与最近的体积相比网络;它包含45层参数约18米。然而,分布容积表示占领和nonoccupied空间存储到数据张量和管理给他们一个3 d CNN,这是非常困难的。这可能会限制生产的高分辨率特性,因为他们的高计算成本。

Octree-based体积cnn最近在各种应用程序中使用的三维形状分析,因为与丰富的对象边界信息的无损压缩地标相比,立体像素网格表示(25,58,59]。萧贝尔Octree-based点云压缩提出了et al。60),点云编码基于局部表面近似比以前进步的方法的压缩率。增加几何分辨率,莱恩et al。24)提出了一种新的压缩技术的增强体元数据稀疏的八叉树给光滑的表面和更大的几何细节。变分范围内数据融合提出了动态八叉树分割重建基于卷的对象(61年]。类似的方法提出了Tatarchenko et al。22];生成深八叉树提出了卷积译码器来重建高分辨率的三维形状。最近,格尔et al。23)提出了一个新颖的八叉树表示生产高分辨率喂养建议OctNet体积特性,这是申请3 d分类、定位估计,和分割任务。而不是普通八叉树结构,最大八叉树深度仅限于深度3,可相比之下,8×8×8的决议。然而,这些浅八叉树被放置在常规电网。OctNet输入高分辨率几何三维张量消耗更低的内存空间的体积数据,和分类精度沙石ModelNet10数据集与其他体积相比明显改善方法。然而,我们也认为八叉树表示,但我们不限制最大八叉树深度OctNet [23),而我们继续八叉树分割,直到达到最大深度依照普通八叉树表示。我们的MS-VDCNN优于OctNet ModelNet (6)数据集。

3所示。方法

我们建议MS-VDCNN使用八叉树表示形式作为其输入。张量建立八叉树数据,一个三角形网格或点云预处理之外的网络。所有培训模型是挤满了标签的列表(如数字号码。0,1,2,…,n−1)及其相应的目录。同样的过程也适用于测试数据集进行预处理。CNN操作八叉树体积数据执行使用八叉树卷积层,与一个3 d和2 d卷积内核过滤器应用于non-octree 3 d数据。我们MS-VDCNN可以在两个CPU和GPU执行环境。数据预处理方法,MS-VDCNN框架,和网络业务将在下面描述。

3.1。Point-Octree表示

我们的方法代表了一个3 d对象的表面几何正则点数据在三维空间。对3 d CAD模型(.obj / .OFF),我们应用光线拍摄的帮助下算法(62年)和16 k拍摄光线均匀3 d对象。然后,我们计算出光线在物体表面的交点和存储密度采样点。在一开始,我们按比例缩小的一个3 d对象(点云)均匀和发送到一个单位3 d边界立方体z设在对齐。减少计算的足迹,采样点被用来形成一个体积八叉树结构,而CNN操作只会进行非空的八叉树节点。这些非空的节点存在的边界面信息3 d对象。点云的边界数据集3 d对象分成8等份构造八叉树。因此,珍贵的几何性质和表面信息转化成最小的多维数据集。被占领或部分占领节点只进行递归细分的过程。我们继续这个细分过程迭代,直到它达到预定义的八叉树深度。输入体积分辨率可以与八叉树深度相比,即。,octree depths 4, 5, 6, 7, and 8, can be compared with voxel resolutions 16³,32岁³,64年³,128年³,256³_,分别。应用八叉树的分区过程只在非空的节点上生成的节点称为叶或子节点。图3描述了我们的3 d汽车对象的八叉树表示。细分过程如图3(一个)从深度0深度三个。对应于原始的轴,可以表示为子节点的位置轴,分别如下: 在哪里八叉树的深度和的值表明八分圆位置在多维数据集的深度d可以写成

(一)

(b)

如果关键数据都位于一个奇数编号的八分圆标签,即。1、3、5、7对应深度;否则,即使编号的位置将被发现,即0、2、4、6和表示从原点到最后的分区路径八分圆位置点的数据。

然而,发现同级节点顺序,每个新生成的叶八分圆与一个正整数数字标签。分配一个标签节点是一个非常简单的技术,所有非空的节点标签与积极的数字数字(如1、2、3、…,l为空节点)和零(0)。被占领的节点总数l,是叶节点的总数。标签过程如图3 (b)。所有标签的值深度都存储在一个向量可以写成

从方程(2)

最后,平均法向量计算在最好的叶子八分仪作为CNN的输入信号在哪里代表叶节点的值是最好的总节点数叶。从图3,我们可以看到一个3 d的八叉树表示汽车对象从深度0 ( )深度三个( )。给定一个边界框设置 ,由一个黑色节点图3 (b)在顶部。黑色节点定义节点是否占据了对象或部分被部分。在深度 ,被占领的节点的数量和总节点R_马克斯= 8节点。在下面,在第二深度( ),总节点数保持相同的数量 ,但R_马克斯增加3^{理查德·道金斯}深度(R_马克斯= 50),因为占领了节点的数量增加到5 ( )。

八叉树给动态分辨率(可能会增加、减少或保持相同)在内存空间的深度递归(图增加3 (b))。相比之下,体素增加分辨率记忆体和消费高于八叉树表示。然而,它是一项重要的任务来实现CNN操作八叉树结构数据,因为包含不同的分层树结构数据范围深度。我们解决这个问题通过保持相同数量的网络中隐藏的块和八叉树的深度。

此外,它不是简单的几何变换形状进行八叉树子卷监督。我们需要得到特征数据成raw-volume形状( )。在这个转换,信息损失可能发生深度。为了解决这个问题,我们建议保留的全层八分圆直到达到最小数量的八叉树的最大深度。这个预订方法可能会增加输入向量和计算开销的大小稍微比普通八叉树结构,但无损转换实现的。我们的方法仍然是有效的对3 d表示在更高的分辨率比完整的体素的方法消耗更少的内存空间和显著减少计算的足迹,节中描述2(图2)。训练多个网络与不同的八叉树深处,一个简单的条件逻辑函数设置为定义的深度数量,保留所有八分仪深度可由以下方程: 在哪里代表预期的完整的层级八叉树深度,是当前八叉树深度循环,然后呢预定义的输入音量决议。如果我们考虑体积分辨率高于16³直到第三个深度,那么所有节点将存储强行除非全层的数量值是2 。这种额外预定的节点不会影响八叉树分割过程。

最后,我们编码3 d物体表面的点集被分为八叉树的节点(在最好的叶子)的最大数量深度。最多的深度轮廓信息的精度决定。因此,平均法向量计算在最好的叶节点,和CNN投入这些法向量作为输入特性的3 d对象。虽然点编码到八叉树作为一种自上而下的方式,相反的过程生成高级功能的应用网络。CNN操作进行优化利用point-octree表示,美联储及其生成的高级功能将进一步FC层3 d对象分类的任务。图4展示了几个与point-octree表示三维模型和原始模型与对应ModelNet40数据集。

3.2。建筑MS-VDCNN

我们MS-VDCNN前馈监督CNN使用多尺度残余和子卷3 d对象的监督学习策略分类的任务。

MS-VDCNN分为两个分支:主干学习全球功能从整个形状利用剩余的学习策略和子卷的第二个分支是监督学习地方特色从对象部分。学习的想法子卷的部分可以与人类视觉系统感知相比,我们也常常识别对象的评估一个特定的部分。此外,子卷学习不利于过度拟合训练数据,帮助继续学习过程。由于只考虑子卷的部分输入,很难overfit训练数据。提出了一种多尺度剩余块形成一个高级精确特性结合低级特征从层级内的八叉树深度网络。

的conv.和FC是主要的层网络。图5描述的体系结构组成的MS-VDCNN multi-octree-conv块(MOC)多尺度剩余块(MSRB),一个典型的conv.层(Tconv),和FC层。商务部包括两个串联octree-conv层,和一个功能通道( )第二个octree-conv增加两次。我们使用一个共同的内核大小的所有八叉树卷积层设置为3步的1。可以编写卷积操作如下: 在哪里卷积操作和吗是n^th通道的特征向量深度。邻近的八分圆的是由。设置为0,如果吗不可用相应的八叉树深度,卷积操作将被转化为矩阵的乘积。商务部的数量将取决于八叉树的深度。不同级别的八叉树,MS-VDCNN的长度将会改变。在图5第五深度,MS-VDCNN设计八叉树数据,它可以相比体素;但是一个单位的商务部应该添加或省略如果八叉树的深度是或多或少1。这商务部块将有助于产生高层没有区别的特性减少了八叉树深度和保持不变的特性。批正常化(BN)和非线性整流激活函数(ReLU)应用于每个octree-conv层。商务部的最后conv.块的输出提供给max-pooling大步的层2。max-pooling操作应用独立通道特性图,解决了地图downsampled 2倍。八叉树数据张量将downsampled深度。池操作将从每8选择最大八分仪值相邻叶八分仪,可以写从方程(6),

MSRB由max-pooling, Elitwise连接,ReLU层。简而言之,我们的MSRB融合块 ,在特征向量是两个或两个商务部conv.层之间的融合。剩余连接如图6。池层将从以前的conv.调整特征向量层。这种适应是需要匹配的八叉树深度与当前特征向量。然后,从多分辨率特征向量融合的多尺度信息MSRM生成高层可区分的特征。MSRB的最后输出的大小对应于体素可由O-V转换层。典型的卷积层也应用于MS-VDCNN的主要分支,在二维卷积操作过滤器(图3 d71)使用一步。这个典型的卷积是常用的2 d图像处理,而采用3 d过滤器执行3 d体积数据张量。所有卷积操作在GPU计算有效。我们重塑了特征向量(n c h )(n (c h ),在fc - 1直接喂它。我们有三个FC层主要分支长度为512,512年,分别和40。去年FC层的长度取决于对象的类别的数据集(例如40 ModelNet40和10为ModelNet10数据集)。我们应用下降50% fc - 1枭龙和FC-2之间。应用于子卷的监督张量数据张量4 d数据顺序被切成八部分。在图所示的切片技术5。这些新生成的八层将被用来预测对象类使用子卷监督学习方法。Softmax层应用在每个FC的切片层,它同时计算平均分类精度和损失。这个培训子卷的部分对象可以轻松享受收益综合信息准确性。然而,预测准确性的主要分支是更真实,因为它利用整个物体表面的信息。最后,我们收集FC-3预测的对象类标签,和40之间的最高预测节点是最终的类的对象。

此外,MS-VDCNN评估的性能,我们将Softmax损失定量计算的负对数似函数。多级损失函数可以写成在哪里是地面真理的类N类。的是预测目标类的概率函数将Softmax函数,在哪里是输入数据和分对数分数比分被称为网络的每个类。

4所示。实验

本节演示的实现3 d MS-VDCNN分类任务,与现有的方法比较结果。我们认为ModelNet [6基准数据集。咖啡(63年深度学习框架是用于实现MS-VDCNN。最初,我们4-networks,包括MS-VDCNN I, II, III, IV,根据输入的决议(16³,32岁³,64年³,128³分别)。我们训练有素的所有的网络使用英特尔Xeon-X5650桌面PC和一个特斯拉K20c GPU (5 GB)。

4.1。数据准备

3 d CAD模型从ModelNet6)的数据集,包括ModelNet40 ModelNet10,被认为是。modelNet40数据集包含12311 CAD模型(9843模型训练和2468模型的测试)的40个类别,和ModelNet10含有4899室内模型3991(908模型测试和培训)。3 d网格预处理(.obj / .off)我们point-octree节中描述3.1。最初,我们准备4套八叉树数据集从ModelNet40四个不同的八叉树深度4、5、6和7,与体素决议16³,32岁³,64年³,128³,分别。之前我们做了一个八叉树表示,我们旋转三维模型统一12旋转和它保持一致z设在。对于一个公平的比较,我们遵循最初的训练和测试泼给定的数据集(6]。增强训练数据集上的所有网络训练ModelNet40;这些总共有147732 3 d模型。训练和测试的增广数据集进行3 d样本,118116年和29616年分别。

4.2。培训计划

我们在上述训练4 MS-VDCNN网络桌面电脑。我们MS-VDCNN前馈监督深卷积神经网络训练与一个端到端的时尚和优化的随机梯度下降势头为0.9 (SGD)方法。最初的学习速率是设置为0.1,下降了大约10 10时代因素。所有网络的批量大小设置为32和优化在大约45时代。因此,我们观察到学习行为上存储的训练数据集和权重的间隔5时代。我们分类的准确性和计算损失的训练和测试数据集2000年区间迭代。在测试期间,所有增强测试样本的主要样本分别喂给MS-VDCNN在一个批处理,平均分类精度(平均实例精度)计算。

起初,我们训练网络Model40数据集使用12每个3 d对象绕水平轴旋转,观察八叉树深度的影响。我们有最好的八叉树深度后,我们准备了几个数据集通过增加每个3 d对象的旋转并记录有效的分类精度。我们应用转移ModelNet10和使用学习方法从ModelNet40 pretrained模型。

4.2.1。准备3 d对象分类和结果分析

执行3 d对象分类,我们训练网络内从头ModelNet40数据集。类似于体积网络3 dshapenets [15]和VoxNet [16),我们每个3 d增强12构成的数据集对象和不同输入决议从16³到128年³。我们专注于提高分类精度和观察到的影响在更高的分辨率。MS-VDCNN-I包含一个商务部块和块的其余部分类似于网络如图5。商务部块的数量是增加了一个块通过增加输入分辨率的两倍。八叉树深度的增加是增加体积的技术决议八叉树表示。MS-VDCNN-I有深度的一个商务部块4,MS-VDCNN-II有两个商务部深度5块,MS-VDCNN-III有四个商务部块深度6,MS-VDCNN-IV有5个商务部深度7块。每个商务部块包含两个octree-conv。和一个max-pooling层。

培训和测试精度的时代是显示在图8。在培训期间,一个时代需要训练有素的包含118116个样本。我们批量大小32个样本为所有网络,和我们的小GPU 5 GB记忆可以很容易地计算它们。在数据8(一个)- - - - - -8 (d),分类精度映射在训练是由我们四个MS-VDCNNs,和它们之间的对比测试精度是绘制在图9(一个)。我们看到最高的分类精度是通过MS-VDCNN-IV(0.9233),与八叉树深度7设计;它可以与128年相比³立体像素分辨率。在图8,几乎所有的网络优化只是20世纪后,我们结束了训练40时代,大约。

(一)

(b)

(c)

(d)

(一)

(b)

图9

分类精度的比较ModelNet 40: (A) cnn的性能在时代、MS-VDCNN-I MS-VDCNN-II, MS-VDCNN-III,和MS-VDCNN-IV是专为输入决议16³,32岁³,64年³,128³ _,分别;和最大VoxNet分类精度和3 dshapenets显示一个静态值收集从相应的论文。VoxNet和3 dshapenets使用32³立体像素网格和(b)的学习速率地图MS-VDCNNs时代。

体积CNN,体积分辨率downsampled max-pooling层每个CNN操作后我们MSRB块从先前的CNN高级特性由连接特性输出。这一过程将一直持续到所有卷积块,直到它到达FC。我们子卷学习计划有助于提高预测概率的实际观察标签从对象的部分通过学习信息。这种策略可能有助于产生一个更准确的预测所需的类的分数。

图9(一个)描述了测试的准确性通过我们MS-VDCNNs时代和比较与其他两个先进的体积方法(3 dshapenets和VoxNet)对3 d对象分类。精度的情节,可以看出我们MS-VDCNNs表现在所有决议,甚至较低输入分辨率(16³),比32³由VoxNet和3 dshapenets使用。最好的分类精度为92.33%,通过我们MS-VDCNN-IV(于),而使用输入分辨率为128³。图9 (b)显示了学习行为在培训期间由我们MS-VDCNN时代,它几乎达到零(0)40时代后,我们决定停止训练。

然而,在深度6,分类精度的增加率是相对放缓。这小模棱两可之间可以找到一些类的对象在更高的分辨率,因为视觉相似之处(23]。这个问题可以通过使用多尺度学习[成功解决64年),它结合了低收入和高级特性。在表1,我们可以看到示例精度与多尺度学习深度5增长了0.3%,而在深度6(图精度大大提高10)。此外,我们提出的方法提高了样品比体素表示精度0.9%。在体素表示有一些冗余信息,它编码占领和nonoccupied空间,但八叉树编码非常精确的信息编码只占据空间的体积。此外,评估我们的框架的性能,计算了log-loss使用方程(8)来衡量预测的不确定性。如果预测的概率增加,那么log-loss函数应该下降。从理论上讲,一个log-loss零(0)将是一个完美的CNN指标框架。


表示方法		多尺度	精度(%)

体积分辨率32³	八叉树	没有	91.1
	体素	没有	90.3
	八叉树	是的	91.4
	体素	是的	90.5

它还表明参数选择推广网络。图11显示了对数计算我们的损失MS-VDCNNs (ModelNet40数据集)是用于生成精度阴谋(图8)。我们可以比较数据的准确性和损失之间的关系图8和11。Log-loss减少(图9)作为预测概率收敛精度的实际标签产生的收益在如图所示的时代8。

(一)

(b)

(c)

(d)

然而,我们进行了几个实验增强数据集观察影响样品的数量在不同的观点。一般来说,一个3 d对象的观点强烈依赖于他们的方向,表面和边界信息分类应用程序的强大的功能。我们应用几个旋转方位轴的每个对象,我们准备6-augmented从ModelNet40视图数据集3、6、9、12、24日和30日。我们在所有的数据集训练MS-VDCNN-IV独立。一般来说,DL需要更多的训练样本,并增加视图是最常见的实践提高精度(17,20.,48]。然而,太多的观点相似的外观对象之间可能会产生错误的类别信息。图12演示了准确性情节的时代在培训期间增广数据集。我们的网络优化也明显快大型数据集,和一个小数量的时代需要训练(数字12(一个)- - - - - -12 (f))。迄今为止最好的准确性通过我们MS-VDCNN 92.93%使用24视图(图13),其中0.6%的准确率提高12-view相比,和log-loss计算在图0.3214。然而,0.15%的准确率比24-view获得30-view损失,我们认为这可能发生,因为每个类的不变的样本数量不足。

(一)

(b)

(c)

(d)

(e)

(f)

表2显示了我们的方法之间的比较结果和最近其他方法包括容量、多视图,输入点表示。总的来说,通过多视图三维对象分类性能和点云cnn比体积cnn,除了VRN合奏(56]。我们建议网络优于单一类型之间的体积方法在ModelNet40数据集使用少量的参数表所示(约6.2米)2。的总参数NormalNet(6.5米)17接近我们的,但这个网络的性能比我们的模型(91.9%比92.93%)。我们还测试了MS-VDCNN ModelNet10低规模数据集。它实现了95.3%的准确性使用从ModelNet40 pretrained模型时,最好也在其他体积3 d cnn报道在表2,除了VRN集合体(56]。我们略有MS-VDCNN实现更好的性能比单一VRN模型(约18米参数)(56ModelNet40和ModelNet10);因此,VRN集合体的性能可能不适用在一般情况下(56]。


网络类型	方法	输入	大小	Pretrain	增加	ModelNet40 (%)	ModelNet10 (%)

单一的体积	MS-VDCNN(我们的)	体积	6.2米	ModelNet40	24	92.93	95.3
	3 dshapenets [15]	体积	38米	ModelNet40	12	77.32	83.5
	VoxNet [16]	体积	0.92米	- - - - - -	12	83年	92年
	Voxception [56]	体积	- - - - - -	ModelNet40	24	90年	93.28
	OctNet [23]	体积		- - - - - -		86.5	90.9
	VRN [56]	体积	18米	ModelNet40	24	91.33	93.61
	Aniprobing [14]	体积	- - - - - -	- - - - - -	60	85.6	- - - - - -
整体体积	NormalNet [17]	体积+规范:向量	6.5米		20.	88.8	93.1
	VRN合奏(56]	体积	90米	ModelNet40	24	95.54	97.14
	FusionNet [20.]	体积+多视图	118米	ImageNet ModelNet40	60	90.80	93.1
点云	PointNet [50]	点	0.45米	- - - - - -	- - - - - -	86.2	89.2
	PointNet + + (52]	点	- - - - - -	- - - - - -	- - - - - -	- - - - - -	90.7
	3 d胶囊(55]	点	- - - - - -	- - - - - -	- - - - - -	92.7	94.7
	RS-CNN [54]	点	1.41	- - - - - -	- - - - - -	93.6	- - - - - -
多视图	MVCNN [11]	多视图	- - - - - -	ImageNet	80年	90.10	- - - - - -
	马等。46]	多视图	- - - - - -	ImageNet	12	91.05	95.29
	3 d2seqviews [47]	多视图	- - - - - -	ImageNet	12	93.40	94.71

最后,我们提出了MS-VDCNN方法高度能够运行在一个小GPU能力(5 GB)更高的分辨率可以实时的选择操作,因为高分辨率可能提供更多的对象之间的区别的特性相似的外表(23]。此外,MS-VCDNN还可以执行在小规模数据集(即更好。,ModelNet10) where an increase in the number of views and resolutions improve the performance.

测量的有效性提出MS-VDCNN point-octree,我们比较了内存消耗和平均时间为一个完整的通过。我们跑500向前或向后通过GPU计算时间和内存消耗是多少(绘制在图2)。批处理大小为32。我们MS-VDCNN point-octree工作更快,消耗更少的内存时在所有分辨率输入分辨率等于或高于16³( )相比完整的体素的方法。由于我们GPU内存限制(5 GB),我们不能继续在更高的分辨率高于32³通过完整的体素的方法,我们使用虚线显示预期的估计在情节(数字2(一个)和2 (b)分别对记忆和运行时)。然而,我们的GPU容易适合多达128³输入分辨率使用point-octree MS-VDCNN。这些结果表明了该方法的有效性,大约快7倍和四倍比完整的体素的方法更少的内存消耗更高的分辨率。

5。结论和未来的工作

我们提出了一种新颖的point-octree-based体积深卷积神经网络对3 d对象分类。我们考虑了3 d对象表示CNN的挑战,介绍了最优point-octree表示我们提出MS-VDCNN多尺度分层和子卷学习策略提高了网络的性能。我们提出三维深度学习框架关注全球和地方特色,它学会了稀疏的几何结构完整和部分3 d对象的一部分。实验结果显示,增加决议和训练样本的输入有一些效果提高分类精度。我们的方法显著提高分类性能ModelNet数据集,它运行快7倍和四倍更少的内存消耗,大约,相比完整的体素的方法。在未来的工作中,我们想扩大我们的实验,其他3 d数据库调查在其它3 d计算机视觉问题学习特性在更高的分辨率是至关重要的,如多视图的三维重建和三维分析。

数据可用性

开源ModelNet公共数据集被用来支持这个研究在arXiv.org.gt;csgt;arXiv: 1512.03012。源文本内的数据集在相关地方引用的引用的部分4.1和引用6]。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分由上海市科学技术委员会项目(没有。18510760300),安徽省自然科学基金(批准号1908085 mf178),安徽省优秀青年人才支持计划项目(批准号gxyqZD2019069)。

引用

e·艾哈迈德·a·圣人,a . e . r . Shabayek k . Cherenkova和d . Aouada“深度学习进步在不同的3 d数据表示:一项调查显示,“2019年,http://arxiv.org/abs/1808.01462v2。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”先进的神经信息处理系统f·佩雷拉,c . j . c . Burges l . Bottou和k·温伯格,Eds。,页1097 - 1105,柯伦Associates Inc .)、红钩,纽约,美国,2012年。视图:谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“更深的曲线玲珑,”2019年2月,http://arxiv.org/abs/1409.4842。视图:谷歌学术搜索
w·魏,t·w·鑫可以l .竞争h .永乐和l .霁”通过深度图像目标识别特征自适应联合稀疏表示,“计算智能和神经科学卷,2019篇文章ID 8258275、9页,2019。视图:出版商的网站|谷歌学术搜索
a . Voulodimos n . Doulamis a Doulamis, e . Protopapadakis“深度学习计算机视觉:简要回顾,“计算智能和神经科学ID 7068349条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
a . x, t . Funkhouser l . Guibas et al .,“ShapeNet:一个信息丰富的3 d模型库,”2019年2月,http://arxiv.org/abs/1512.03012。视图:谷歌学术搜索
s . Choi徐瑞秋周,美国米勒诉Koltun”,一个大型数据集对象的扫描,”2019年5月,http://arxiv.org/abs/1602.02481。视图:谷歌学术搜索
美国歌曲,s·p·利希滕贝格,j·肖,”太阳RGB-D: RGB-D现场了解基准套件”学报2015年IEEE计算机视觉与模式识别会议(CVPR),页567 - 576,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
i . k .伤势严重,l .你和j·j·张,“调查的2 d和3 d形状描述符,”学报2013年10日国际会议计算机图形学中,成像和可视化,页1 - 10,洛杉矶类似,美国,2013年8月。视图:出版商的网站|谷歌学术搜索
r . Socher b . Huval浴,c·d·曼宁和a . y . Ng”Convolutional-recursive深度学习3 d对象分类,”学报》第25届国际会议上神经信息处理系统太浩湖,页656 - 664年,NV,美国,2012年12月。视图:谷歌学术搜索
h·苏s Maji、大肠Kalogerakis和e . Learned-Miller“视点卷积神经网络对3 d形状识别,“2018年12月,https://arxiv.org/abs/1505.00880。视图:谷歌学术搜索
z谢,k, w•山l . Liu y,和h黄”投影特性与多视点图像深度学习3 d形状,”计算机图形学论坛,34卷,不。7日,1 - 11,2015页。视图:出版商的网站|谷歌学术搜索
史,美国白、z周和x呗,”DeepPano:深度全景表示三维形状识别,”IEEE信号处理信件,22卷,不。12日,第2343 - 2339页,2015年。视图:出版商的网站|谷歌学术搜索
c·r·齐h·苏·m·NieBner戴,m .燕和l . j . Guibas”体积和多视点cnn对象分类3 d数据,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页5648 - 5656年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
z . Wu Shuran歌,Aditya斯拉et al .,”D ShapeNets:深表示体积形状,”学报2015年IEEE计算机视觉与模式识别会议(CVPR),页1912 - 1920,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
d . Maturana和s·谢勒VoxNet: 3 d卷积神经网络实时目标识别,”学报2015年IEEE / RSJ智能机器人和系统国际会议(——)德国汉堡,页922 - 928,,2015年9月。视图:出版商的网站|谷歌学术搜索
f . m . c . Wang Cheng Sohel, m . Bennamoun和j·李,“NormalNet:分布CNN对3 d对象分类和检索,“Neurocomputing卷,323年,第147 - 139页,2019年。视图:出版商的网站|谷歌学术搜索
智,y刘、李x和y,“向实时3 d对象识别:一个轻量级体积CNN框架使用多任务学习,”计算机与图形学卷,71年,第207 - 199页,2018年。视图:出版商的网站|谷歌学术搜索
n . Sedaghat m . Zolfaghari大肠Amiri, t . Brox”Orientation-boosted体元网3 d对象识别,”2018年11月,http://arxiv.org/abs/1604.03351。视图:谷歌学术搜索
诉对冲基金和r·德FusionNet: 3 d对象分类使用多个数据表示,“2019年3月,http://arxiv.org/abs/1607.05695。视图:谷歌学术搜索
w·t·霍尔凯尔f . Tombari s .大型和n .布”octree-based高效变分范围内数据融合方法,”2016年8月,http://arxiv.org/abs/1608.07411。视图:谷歌学术搜索
m . Tatarchenko a Dosovitskiy, t . Brox“八叉树生成网络:有效的高分辨率三维卷积架构输出,”2019年2月,http://arxiv.org/abs/1703.09438。视图:谷歌学术搜索
g·格尔、a . o . Ulusoy和a .盖革”OctNet:学习深在高分辨率三维表示,“学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,嗨,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
莱恩和t。卡拉,“有效的稀疏体素八叉树,”IEEE可视化和计算机图形学,17卷,不。8,1048 - 1059年,2011页。视图:出版商的网站|谷歌学术搜索
a . Miller,诉Jain和j·l·芒迪的观点,“实时渲染和三维容积数据的动态更新,”学报》第四车间在图形处理Units-GPGPU-4通用处理,1页,新港海滩、钙、美国,2011年3月。视图:出版商的网站|谷歌学术搜索
f . Calakli和g . Taubin SSD:顺利签署距离表面重建,”计算机图形学论坛,30卷,不。7,1993 - 2002年,2011页。视图:出版商的网站|谷歌学术搜索
福尔曼和m . Goesele”与多尺度融合深度地图,”《2011年SIGGRAPH亚洲会议,页148:1-148:8、香港、香港,2011年12月。视图:出版商的网站|谷歌学术搜索
b . Ummenhofer和t . Brox全球,密集的多尺度重建十亿点,”国际计算机视觉杂志》上,卷125,不。1 - 3、82 - 94年,2017页。视图:出版商的网站|谷歌学术搜索
f·施泰因布吕克,j . Sturm和d·克莱莫”体积CPU实时3 d绘图,”学报2014年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,页2021 - 2028,香港,香港,2014年5月。视图:出版商的网站|谷歌学术搜索
s . Har-PeledQuadtrees-Hierarchical网格的几何近似算法美国数学学会,卷。173年,普罗维登斯,RI,美国,2011年。
j .倪t·龚y顾,j .朱和x粉丝,“一种改进深残余网络语义单眼视觉机器人,同步定位和映射方法”计算智能和神经科学2020年5月,//www.newsama.com/journals/cin/2020/7490840/。视图:谷歌学术搜索
郭y、m . Bennamoun f . Sohel m . Lu j .广域网和n·m·郭”的全面绩效评估3 d局部特征描述符,“国际计算机视觉杂志》上,卷116,不。1,第89 - 66页,2016。视图:出版商的网站|谷歌学术搜索
r . Rostami f·s . Bashiri b . Rostami和z Yu”调查数据驱动的三维形状描述符”,计算机图形学论坛,38卷,不。1,第393 - 356页,2019。视图:出版商的网站|谷歌学术搜索
z刘、陈,美国布鲁里溃疡,和k·李,“高层语义特征基于深度的三维形状的信念网络,”学报2014年IEEE国际会议多媒体和世博会(ICME),页1 - 6,成都,中国,2014年7月。视图:出版商的网站|谷歌学术搜索
韩z z . Liu C.-M。疯人et al .,“深度空间性:非监督学习spatially-enhanced全球和当地的3 d功能的深层神经网络耦合Softmax,”IEEE图像处理,27卷,不。6,3049 - 3063年,2018页。视图:出版商的网站|谷歌学术搜索
w·w·黄,b . Lai徐,z,“3 d体积与内省神经网络建模,”人工智能学报AAAI会议33卷,第8488 - 8481页,2019年。视图:出版商的网站|谷歌学术搜索
j .谢z郑,r .高,w . Wang研究所。朱,y . n .吴”学习3 d形状描述符网络合成和分析,”学报2018年IEEE / CVF计算机视觉与模式识别会议,页8629 - 8638,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
j·汉韩z z . Liu,疯人,美国布鲁里溃疡,和c·l·p·陈,“无监督学习的3 d地方特色基于小说排列图形从原始像素点策略,”IEEE控制论卷,49号2、481 - 494年,2019页。视图:出版商的网站|谷歌学术搜索
j .汉韩z z . Liu C.-M。疯人、美国布鲁里溃疡,和c·l·p·陈,“网卷积限制玻耳兹曼机无监督学习的特性与结构保存在3 d网格,”IEEE神经网络和学习系统,28卷,不。10日,2268 - 2281年,2017页。视图:出版商的网站|谷歌学术搜索
j .汉韩z z . Liu C.-M。疯人,美国布鲁里溃疡,和李x”,非监督学习的3 d当地特性圆卷积限制玻耳兹曼机,”IEEE图像处理,25卷,不。11日,第5344 - 5331页,2016年。视图:出版商的网站|谷歌学术搜索
p . Papadakis Pratikakis, t . Theoharis, s . Perantonis”全景:基于全景三维形状描述符为无监督3 d对象检索”国际计算机视觉杂志》上,卷89,不。2 - 3、177 - 192年,2010页。视图:出版商的网站|谷歌学术搜索
z曹、问:黄和r .恋人“3 d对象分类通过球面投影,”《2017年国际会议上3 d视觉(3 dv)青岛,页566 - 574年,中国,2017年10月。视图:出版商的网站|谷歌学术搜索
a . Sinha j .呗,k . Ramani“深度学习3 d形状表面使用几何图像,”电脑Vision-ECCV 2016b . Leibe, j . Matas n·m·威林,Eds。,卷。9910,pp. 223–240, Springer International Publishing, Cham, Switzerland, 2016.视图:谷歌学术搜索
o . Russakovsky j .邓·h·苏et al .,“ImageNet大规模视觉识别的挑战。”国际计算机视觉杂志》上,卷115,不。3、211 - 252年,2015页。视图:出版商的网站|谷歌学术搜索
e .约翰、美国Leutenegger和a·j·戴维森”成对分解了活跃的多视点图像序列的识别,,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页3813 - 3822年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
c . Ma y郭、j·杨和w·一个“学习多视点与LSTM表示三维形状识别和检索,“IEEE多媒体,21卷,不。5、2019年5月,页1169 - 1182。视图:出版商的网站|谷歌学术搜索
刘韩z h . Lu z et al .,“3 d2seqviews:聚合顺序为3 d视图全球功能学习通过CNN分层聚合的关注,“IEEE图像处理,28卷,不。8,3986 - 3999年,2019页。视图:出版商的网站|谷歌学术搜索
j .赵谢x, x,和美国的太阳,“视点学习概述:最近的进展和新的挑战,”信息融合卷,38 43-54,2017页。视图:出版商的网站|谷歌学术搜索
r . Klokov诉Lempitsky,“逃避细胞:深Kd-networks识别的三维点云模型,”学报2017年IEEE计算机视觉国际会议(ICCV),第872 - 863页,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
r .问:查尔斯·h·苏·m·Kaichun和l . j . Guibas”PointNet:深入学习三维点集的分类和分割,”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页77 - 85年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
y, c .冯y沈,d .田”FoldingNet:点云auto-encoder通过深度网格变形,”学报2018年IEEE / CVF计算机视觉与模式识别会议2018年6月,页206 - 215。视图:出版商的网站|谷歌学术搜索
c·r·齐l .咦,h·苏和l . j . Guibas”PointNet + +:深分层特性学习点集在一个度量空间,”2019年2月,http://arxiv.org/abs/1706.02413。视图:谷歌学术搜索
h .你,y, r .霁,y高,“PVNet:联合卷积的点云网络和多视点三维形状识别,”2019年,http://arxiv.org/abs/1808.07659。视图:谷歌学术搜索
b . y . Liu风扇、美国香和c .锅”Relation-shape卷积神经网络用于点云分析,”学报2019年IEEE / CVF计算机视觉与模式识别会议(CVPR)美国长滩,CA, 2019年6月。视图:出版商的网站|谷歌学术搜索
a . Cheraghian和l . Petersson”3 dcapsule:胶囊架构扩展到三维点云进行分类,”学报2019年IEEE冬季会议上的应用计算机视觉(WACV)村,页1194 - 1202年,美国,2019年1月,你好。视图:出版商的网站|谷歌学术搜索
a·布洛克t Lim j·m·里奇和n .韦斯顿”生成和歧视的体素与卷积神经网络建模,”2019年2月,http://arxiv.org/abs/1608.04236。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”2019年2月,http://arxiv.org/abs/1512.03385。视图:谷歌学术搜索
d·米格尔“几何建模使用八叉树编码”计算机图形学和图像处理,19卷,不。2、129 - 147年,1982页。视图:出版商的网站|谷歌学术搜索
d·米格尔,“八叉树编码:表示一项新技术,由计算机操纵并显示任意的三维对象,“技术。代表,伦斯勒理工学院,特洛伊,纽约,美国,1980年,技术报告ipl - tr - 80 - 111。视图:谷歌学术搜索
萧贝尔r和r·克莱恩”Octree-based点云压缩”《Eurographics研讨会上点图片美国,波士顿,MA, 2006。视图:谷歌学术搜索
w·t·霍尔凯尔f . Tombari s .大型和n .布”octree-based高效变分范围内数据融合方法,”2016年英国机器视觉研讨会论文集21.1 - -21.12,页,纽约,2016年9月,英国。视图:出版商的网站|谷歌学术搜索
p . Alliez s Tayeb, c .蠕虫CGAL 4.14 3 d快速交叉和距离计算(AABB树):用户手册、4.14,2019,https://doc.cgal.org/4.14.3/Manual/packages.html PkgAABBTree。
y, e . Shelhamer j·多纳休et al .,“咖啡:快速卷积架构功能嵌入”诉讼的ACM多媒体(ACMMM)奥兰多,页675 - 678,美国2014年11月。视图:出版商的网站|谷歌学术搜索
y, y粉丝,x, y罗,j . Tang和p·刘,“多尺度合作微分进化算法,计算智能和神经科学ID 5259129条,卷。2019年,17页,2019。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学