真实场景中点集对象的识别

摘要

随着3D扫描仪、立体视觉等新型智能传感技术的出现，高质量的点云变得非常方便，成本也更低。基于点云的三维物体识别研究也得到了广泛的关注。点云是一种重要的几何数据结构类型。由于它的不规则格式，许多研究人员将这些数据转换成规则的三维体素网格或图像集合。然而，这可能会导致不必要的大量数据并导致问题。在本文中，我们考虑了现实意义上的物体识别问题。首先采用欧几里得距离聚类方法对真实场景中的目标进行分割。然后我们使用深度学习网络结构直接提取点云数据的特征来识别目标。理论上，该网络结构表现出较强的性能。实验中，训练集的准确率达到98.8%，实验测试集的准确率达到89.7%。 The experimental results show that the network structure in this paper can accurately identify and classify point cloud objects in realistic scenes and maintain a certain accuracy when the number of point clouds is small, which is very robust.

1.介绍

点云是点的集合。它包含丰富的信息，可以是三维坐标X，Y，Z、颜色、强度值、时间等。点云是几何数据结构的代表。在本文中，我们使用深度学习网络结构对真实场景中的每个点云对象进行特征提取和识别。

与其他方法相比，本文提出的点云场景模型中的大多数对象没有重复遮挡，欧氏距离聚类分割方法可以用于复杂场景中的对象分割n点需要尽可能多的原始特征信息，因此使用蒙特卡罗方法。使用本文提出的深度学习网络结构直接识别点云对象可以大大减少数据计算量（与主流方法相比，例如将点云转换为常规深度映射，多视图或体素网格）。点云不会引入量化伪像，可以更好地维持数据的自然不变性。实验结果表明，本文的网络结构能够在真实场景中准确地识别和分类点云对象，并且在点云数量较少的情况下保持一定的准确性，具有很强的鲁棒性。

本文提出的深度学习网络结构识别点云对象是一种系统的方法。的三维坐标n将点云对象的点输入到深度学习网络中，提取局部特征或全局特征并添加到其他维度中，对现实场景中的点云对象进行识别和分类。在将点云对象输入深度学习网络结构之前，对输入的每个点进行相同且独立的预处理，每个点云对象的每个点只包含三个坐标的信息。

本文中的真实场景如图所示1．本文真实场景的点云图如图所示2．数字3.是单点云对象分割后的真实场景，本文采用欧几里得距离聚类分割。将采用欧氏距离聚类方法分割的单点云对象输入到预先训练好的深度学习网络中，通过网络结构中的最大池化层提取单点云对象的全局特征。然后，通过全连接层连接的多层感知器对学习到的特征进行点云对象的分类和识别。

输入数据格式易于使用刚性或仿射变换，可以进一步提高实验结果。对于本文所采用的真实场景和网络结构，本文提供了理论依据和数值评价。

本文的主要内容如下:(一)采用欧氏距离聚类分割方法，将真实场景中的多个目标划分为聚类，进行统一的数据处理。采用蒙特卡罗抽样法对数据进行相同的独立处理，采用零均值和归一化处理。(2)采用深度学习网络架构，直接消耗不规则点集来完成识别任务。(3)对改进后的网络方法在真实场景中的目标识别精度进行了分析，并对网络方法的鲁棒性进行了评价。

本文的其余部分组织如下：第二节回顾了文献中针对不同形式的三维数据提出的各种方法;第三节描述了本文中提出的两个主要问题；第四节提出解决第一问题的解决方案第三节；第五节提出了第二个问题的解决方案第三节；第六节主要分析了实验结果和所提出的网络方法的鲁棒性;和第七节说明实验的不足之处，并建议下一步要做的工作。

三维物体识别主要有三种方法：基于三维体素网格、图像集合和点云数据。基于点云学习的方法目前正变得更加精确，如图所示4，并且这个数字正在急剧增长，如图所示5．除了这些方法外，还有一些其他的方法，如光谱卷积神经网络(CNN)、基于特征的深度神经网络(DNN)等。

基于图像数据采集的方法如下。主要研究是利用几何方法将一个三维物体转换成多个多视图的二维几何图像，并尽可能多地保留特征信息。此外，近年来许多深度学习算法大多基于二维图像，在二维图像上出现了许多优秀的研究成果。Qi et al. and Su et al. [1，2]尝试将一个三维点云对象转换为多个不同的二维图像，然后设计一种新的卷积神经网络算法结构，将多个二维图像的视图信息集成到一个紧凑的形状描述符中。Yi等人[3.]使用多个视图来表示图上的局部信息，通过参数化图的特征根所跨光谱域的核。实验表明，每个任务的所有基准数据集都达到了最先进的性能。

基于三维体素网格数据的方法如下:该方法通过对各种三维数据进行网格化或体素化，然后设计相应的三维卷积神经网络进行特征提取和识别。参考文献(1，4- - - - - -7]是一系列卷积神经网络算法，其输入数据是一个体素网格，但由于数据的稀疏性和三维卷积的特点，这些算法都消耗了大量的计算成本。对分辨率的要求很高。FPNN [8]及Vote3D [9]针对体素网格数据的稀疏性问题提出了不同的解决方案。然而，这两种方案都不是很理想，实验结果也不是很令人满意，因此处理数据量很大的点云数据仍然是一个很大的挑战。

基于点云的方法。这种方法主要包括两种类型。一种是将点云数据转换为多视图、多边形网络或体素网格，然后使用深度学习网络进行特征提取和识别(如上所述)。另一部分是直接处理点云数据。近三年来，该系统识别精度高，速度有一定的提高。Qi等[10.]首先直接处理点云数据，避免了数据不必要的巨大问题，很好地尊重了输入点的替换和变形。基于此，他们提出了一种新的神经网络结构PointNet [10.]和PointNet++[11.，直接处理点云数据。基于kdtree原理，Klokov和V. Lempitsky [12.]提出了一种不同于当前主流卷积结构的网络算法Kdnetwork。它在统一的二维或三维网格上使用光栅化，以避免三维模型和点云的不良缩放行为。识别任务的解释如下。Zaheer等人[13.]主要提出了一系列可以在集合上运行的置换不变函数。这一系列置换不变函数可用于各种位置。在处理点云数据的各种算法中，最好和最精确的是PointCNN[14.]山东大学研究人员基于卷积神经网络的卷积运营商提出。pointcnn使用χ转换为重量与点关联的输入功能，在分类和分段场景中非常好。

对于光谱CNN [15.- - - - - -17.]目前，这一系列方法仅适用于有机物等卷积神经网络。基于特征的DNNs（深度神经网络）[18.，19.]通常将一系列三维数据特征转换为合适的特征，然后使用全连接层对点云数据进行分类和识别。综上所述，CNN可以通过卷积、池化等一系列操作从原始数据中提取高级语义信息，最终生成有效的特征。旨在提高大型多类别复杂三维模型的分类精度。首先将三维多边形网格模型离散为三维点云数据，然后通过深度点云卷积神经网络的卷积和池化提取模型的深度特征，并利用多层感知器对模型进行分类识别。

点云数据集的生成:知识发现过程中的第一步[20.， Andreas Holzinger等人描述了自然点云的情况，然后提供了一些医学图像的基础，特别是皮肤镜、共聚焦激光扫描显微镜和全身摄影;他们描述了图论概念在图像分析中的使用，给出了一些关于皮肤癌的医学背景，并集中讨论了处理病变图像时的挑战和相关算法的讨论。从不同弱结构源中提取点云数据，并对其进行拓扑分析，得到可行的结果。这些结果的质量不仅取决于算法本身的质量，而且在很大程度上还取决于接收到的输入地图的质量，因此点云是必要的预处理步骤，影响实验结果的质量。

3.问题陈述

为了完成现实场景中点云对象的识别，需要解决两个关键问题。第一个关键问题:如何在真实场景中分离多个点云对象。由于输入到深度学习网络的对象是一个完整的点云对象，而现实场景中的每个点云对象都是聚类在一起的，因此需要设计一种算法，将场景中的多个点云对象分割为单个点云对象。它主要是根据每个点云对象具有不同纹理和颜色的信息进行分割并保存到每个单独的文件中，然后将每个单独的点云对象输入到经过训练的深度学习网络中进行分类和识别。

第二个关键问题是设计并提出一种新的点云数据深度学习网络结构，直接对其进行处理。在解决上述第一个关键问题后，我们将得到一个单点云对象进行预处理，然后将点云对象的每个点输入到经过训练的深度学习网络中进行分类和识别。点云是一种集合x，y,z坐标，以及颜色，法向量等特征通道特征信息。为了便于处理和清晰，本文只使用三个坐标将每个点作为深度学习网络的输入。

4.欧氏距离聚类分割与数据预处理

欧氏距离聚类分割和数据预处理分为两部分。首先介绍了欧氏距离聚类分割算法的工作原理(4.1节)．该方法在较少重叠的现实场景中具有更好的效果。其次，所有点云对象都是相同的和独立处理的。这些处理方法主要包括蒙特卡罗采样，零均值和标准化（第4.2节)．

4．1.欧氏距离聚类分割

欧氏聚类算法是多元统计中的一种重要分类方法，可应用于测绘领域点云数据的分割。该方法实质上是利用欧氏距离作为邻域之间的距离来完成聚类分割。由于点云数据是三维数据，可以提取更多的三维物体的成对信息。n维空间的欧氏距离是

在本文中，点云数据是三维数据，所以需要计算三维空间中的欧氏距离，公式如下:

本文首先计算点云数据中两点之间的欧氏距离，并以小于指定阈值的距离作为分类标准。然后迭代计算，直到所有类之间的距离大于指定的阈值，完成欧氏聚类。具体步骤如下:(1)利用八叉树方法建立点云数据的拓扑组织结构;(2)对每个点进行k近邻搜索，计算点与点之间的欧氏距离k相邻点，并对最小类进行分类;(3)设置某一阈值，迭代计算Step(2)，直到所有类之间的距离大于指定的阈值。对于真实场景，计算距离从场景中的每个点到所有其他点，然后计算密度，．最大密度点的欧氏距离为．比较和值，以较大的值作为一系列点云对象的中心点。选择适当的阈值r根据需要分割的场景不同，(1)使用上述方法寻找中心点在空间中，比较之间的距离n和，把要点放在上面谁的距离小于阈值r进入课堂一个；（2）找到任何点在，再次重复步骤（1）；（3）然后找到一个点，重复第1步，找到并将在一个；(4)当一个不再改变，整个搜索过程就完成了。真实场景的分割结果如图所示3.．

4.2. 数据处理

在真实场景上执行欧氏距离聚类和分割后，会有许多不同的点云对象，这些点云对象由不同数量的点组成。由于识别点云对象的网络的前提是：每个点云对象具有相同数量的点，因此需要使用采样方法对每个点云对象进行采样n点。的n采样后的点为零 - 均值和标准化。每个对象都被处理为统一格式并输入到网络算法。采样方法的选择至关重要。本文主要考虑的采样方法是Monte Carlo采样，下采样和均匀采样。这三种方法用于将相同的物体对1024分采样。取样后的结果和花时间采样的结果如图所示6．从图中可以清楚地看出，蒙特卡罗采样法和均匀采样法能够更好地显示点云物体的轮廓和形状。然而，当点云数量较多且每个点包含更多维信息时，统一采样方法需要更大的计算代价和时间代价。考虑到以上两点，本文的点云对象采样方法采用蒙特卡罗采样方法。

（一种）

（b）

蒙特卡罗抽样方法的主要内容是利用蒙特卡罗思想使一系列数据的近似值最大化。即对点云进行采样，采样后的点必须最大限度地保留原点云的信息。采样点数越多，逼近结果越准确，与原始点云中的点分布越吻合。对于本文的蒙特卡罗抽样理论，证明和算法实现如下。

对于任何给定函数，也可以说，任何点云对象都需要采样。我们需要近似这个函数的值。第一个要计算的积分是

由于没有办法用数学推导来解决这个方程，所以应该注意到x区间上的值，函数的乘积概率密度函数p可以用函数代替吗．所以整个积分可以写成在哪里的期望是，概率分布p对于随机变量x．所以均值在p分布等价于原始积分。此时，一系列采样点用于近似年代．从这些点，经验平均被计算为并且收集的采样点用于近似平均值：

下面的理论可以清楚地证明这种近似的合法性。很明显，估计是正确的，没有偏见的也就是说, 而上面的公式只需要满足每个个体变量的方差是有界的。此外，当我们考虑n增加，只要方差满足，方差将减小且必须收敛于0:

对于一个随机变量X，如果有一个已定义的函数F，

关于连续随机变量X为的累积分布函数，如果有一个函数定义在实轴上，对于任何实数都是非负的x，得到如下公式:

因此，概率分布的累积分布函数通常可以通过对概率密度函数进行积分得到。如果你需要n示例，重复以下步骤n次了。(1)计算机可以从点云数据中随机抽取一个值，表示为μ. （2）计算值x的，在哪里x样本点是从哪里来的．

零均值和归一化（可以获得更好的实验性能）是训练神经网络之前的必要步骤。通常，获得的样本数据具有多个维度。即，一个样本由多个特征表示。原始数据直接用于训练，它们对训练结果的影响不同。通过零均值和归一化，不同的特征可以具有相同的尺度。当使用梯度下降法更新参数时，不同类型的特征对参数的影响程度相同。零均值和正则化可以在训练期间加速权重参数的收敛。零均值是一组数据，每个数据都从该组的平均值中减去。假设数据样本数量为．数据的零均值如下:

为了将所有数据置于统一的标准下，我们使用最小-最大缩放将所有数据归一化为规范化数据在哪里，原始数据是X，原始数据的最大值为，原始数据的最小值为．零均值和归一化后的结果如图所示7．

（一种）

（b）

5.积分套装深入学习

关于点集的深入学习分为两部分。第一，5.1节介绍了深度学习处理点集过程中存在的两个主要问题:解和证明。第二,5.2节介绍了改进后的识别对象的网络结构。

5．1.点集的问题

点云中的所有数据都是来自欧洲空间的点的集合。这些欧氏空间的点集在算法处理过程中会遇到两个关键问题：点云的无序性以及旋转和平移的不变性。本文针对这两个问题给出了相应的解决方案。

5.1.1。无序

受采集设备和坐标系的影响，同一物体被不同的设备或位置扫描，三维点的顺序变化很大。点云数据与二维图像中的像素排列或体素网格中的体素排列有很大的不同。点云是一组没有固定顺序的点。当使用深度学习网络在点云上执行不同的任务时，无论以什么顺序输入到网络，输出的结果都必须是相同的。在RGB-D或灰度图像中，每个像素的相对位置是固定的，不存在无序的问题。然而，对于点云数据，有用于使用不同顺序将点输入网络的类型。因此，需要对输入的点云数据进行相应的处理。

针对点云数据的无序性，有三种解决方案。(1)按一定顺序输入点云数据。(2)借助递归神经网络，通过添加各种排列增加训练数据。(3)利用一些常见的对称函数集合每个点的信息。假设存在这样一种排序策略，它将定义一维空间和高维空间中的映射图。不难看出，当尺寸减小时，既需要序列稳定性又需要点摄动来保持空间的接近性，这在实际情况中是不可能完成的任务。因此，策略一无法解决点云数据的无序问题。基于递归神经网络的思想，希望通过随机排列序列来训练递归神经网络，作者已经说过OrderMatters中的顺序非常重要，不可忽视，虽然递归神经网络对相对较小的序列有很好的效果，但是扩展到数千个输入元素是困难的。为了利用对称函数解决点云数据的无序问题，该策略在PointNet分类网络中得到了验证[10.]效果很好。因此，本文采用的解决方案是利用对称函数解决点云数据的无序问题。使用的对称函数为以下公式：在哪里f ，特征提取层表示为h，使用最大池层的对称方法表示为，高维特征提取用表示γ．本文所使用的对称函数具有简单的模:用多层感知器来近似h，一个最大池函数和一个近似的变量函数f．通过收集h，深度学习网络可以通过学习不同对象的各种特征属性f．换句话说，上次更高维度的特征是选择每个维度中的最大特征值，以解决点云数据的无序问题，即，．

定理1。假设f是关于Hausdorff距离的连续集函数吗，，一个连续函数h和非对称函数，这样对于任何

正式，让我们，上是否有连续集函数问关于Hausdorff距离，，，对于任何W，，如果，然后．

5.1.2中。旋转和平移不变性

点云是一种几何对象。如果点云经过一定的几何变换(如旋转、平移等操作)，则点云分类和分割的语义标签必须是恒定的。因此，我们期望我们对点集的学习对这些转换是不变的。

对于点云数据的旋转和翻译的不变性，自然解决方案是将所有输入组与规范空间对齐，然后在特征提取之前。Jaderberg等。[21.]介绍了空间变换的思想，通过在GPU上实现的一个特殊定制层，通过采样和插值对齐2D图像。本文采用Qi等人提出的平差网络[10.]为了解决这一问题，本文证明了该解决方案的有效性。通过调整网络可以预测仿射变换矩阵，预测的仿射变换矩阵可以用于点云的输入。但需要注意的是，特征空间的变换矩阵具有更高的维数特征，这大大增加了优化的难度，因此有必要通过增加规则损失来降低优化的难度：平差网络的特征对准矩阵在哪里一个．上述公式的正交变换在很大程度上可以保护原始信息。

加入正则项后，不仅可以得到更稳定的解，而且可以在很大程度上减少参数。

网络结构调整示意图如图所示8.平差网络是一个子网络，用于预测特征空间中的变换矩阵。它通过从输入数据学习与特征空间维度一致的变换矩阵，将学习到的变换矩阵与原始数据相乘。数据特征中的变换操作空间使后续输入的每个点与输入中的每个点关联。通过这种处理，输入点云数据中包含的特征被分层抽象。调整网络由三个卷积层、一个最大池层和两个完全连接的层组成。卷积层1具有64 f特征映射，卷积核是；卷积层2有128个特征映射，卷积核为；卷积核3有1024个特征映射，卷积核为全连接层分别为512和256个节点。

5.2。网络体系结构

因为注意事图[10.]分类和分割网络取得了良好的效果，其特征提取能力非常强，这激发了我们对真实场景中点云对象的识别需求。本文借鉴了PointNet的分类网络。本文对该网络结构的调整使得该网络的特征提取能力进一步增强。实验结果表明，提出的深度学习网络结构可以提高点云目标分类和识别的准确率，同时也大大提高了训练集和测试集的准确率。网络结构如图所示9．输入数据是每个点云对象的一系列点集的三维坐标。最大池化层解决了点云数据的无序性问题，调整网络以解决点云对象的旋转平移不变性问题。点云对象的特征提取结构是通过多层感知器和调整网络的结合来完成的。max-pooling层也可以获得每个对象的全局特征。通过该过程，完成了现实场景中的点云对象识别。

特征提取的主要部分在图中9包括三个调整网络，一个最大池化层，三个多层感知器，通过的三维坐标输入n点。提取特征，通过最大池化层将提取的特征映射到列向量，完成点云数据的特征提取。为了完成点云数据的识别和分类任务，需要对深度网络架构提取的特征进行概率计算。因此，需要将最大池化层之后的全连接层连接起来，将学习到的特征表示映射到样本标记空间。图中，第一完全连接层包含512个神经元，第二完全连接层包含256个神经元，第三完全连接层神经元的数量为分类任务的类别数。每个神经元节点的dropout层设为0，概率为70%。这时，效果也是最好的。这可以缓解神经元之间复杂的协作适应，减少神经元依赖，避免网络训练。在这个过程中会发生过拟合。此外，还可以提高模型的泛化能力，降低模型的复杂性。

Softmax在深度学习领域有着广泛的应用。特别是在解决多分类任务时，分类器的最终输出单元需要使用Softmax函数进行数值处理，将多个分类的输出值转换为相应的概率。Softmax功能的定义为在哪里为分级器上一级输出单元的输出;我为类别的指标值;C为类别总数;为分类器上一个输出单元的输出元素的索引与所有元素索引之和的比值。

本文采用的损失函数如下: 在哪里为真实的分类结果;是Softmax函数的输出。通过上述公式计算交叉熵损失后，使用反向传播算法调整网络的权重。

6.实验

实验分为两部分。第一部分，6.1节提供详细的培训流程。第二,6.2节分析实验结果并测试网络的稳健性。

6．1.培训过程

在本文中，为了训练深度学习网络结构，我们选择了ModelNet [22.]数据集，作为网络学习的训练集和测试集。ModelNet数据有40种不同的3D模型，每个模型都有相应的编号，有3D对象的总和。然后我们将这些模型分为4个文件，每个文件64组，每个组32个模型。剩下的2048个模型文件用作测试集。它们以同样的方式被记录在文件中。这些文件被录入网络并进行训练。数字10.显示了ModelNet40中的一些模型文件和为培训而处理的点云文件。在深度学习网络算法的训练过程中，沿着上轴随机旋转点云，通过添加高斯噪声动态添加点云。

此外，您还需要设置网络的一些基本参数，并在培训完成后解释结果的评估指标。使用基于动力的随机梯度渐变方法优化网络。动量因子被设定为0.9，权重衰减为0.0005，初始学习率为0.001，辍学率为0.7。使用随机初始化初始化网络参数。完成训练后，获得了训练有素的网络参数，然后训练网络通过识别和分类任务来测试由机器视觉平台收集的数据。测试的性能指数使用精度率并定义如下：

深度学习网络训练服务器硬件配置如下:Ubuntu 18.04系统，8核16线程Inter Core处理器,2英伟达显卡, ，TensorFlow 1.7.0 [23.］．整个深度学习网络算法的训练过程记录如图所示11.在下面

（一种）

（b）

（C）

(d)

图11

整个培训过程。(a)训练过程的准确性(在训练集中)作为迭代次数的函数。训练集的准确率随着迭代次数的增加而增加。当准确率最终达到98.8%时，可以说训练过程已经完全学习了各种点云数据的特征。(b)交叉熵损失值。该值越小，预测偏差与实际偏差越小，模型的预测效果越好，交叉熵损失值随着迭代次数的增加而减小。(c)学习率训练过程中学习率的变化。随着迭代次数的增加，学习率以一定的衰减率递减。(d)在训练过程中，随着迭代次数的增加，学习率的衰减曲线。随着迭代次数的增加，学习率的衰减率也会增加。

由于深度学习网络的特殊性，对同一深度学习网络设置不同的参数会产生不同的结果。为了再现实验结果，将本文中深度学习网络训练前的参数设置记录在表中1．


	初始值	最终值

精度	0	0.988
叉损失	1.9408	0.024
学习速率	０．００１	0.0000133
衰减率	０．５	0.982

6.2。结果和分析

深度学习网络训练完成后，使用预置的测试集测试识别准确率。有三个主要指标:平均损失、平均准确率和平均分类准确率。试验结果如表所示2．


平均损失	0.5014

平均精度	0.897
平均分类精度	0.873

将本文的实验结果与更好的闲置资金方法进行了比较。比较结果如表所示3.．


方法	输入	ModelNet40 (%)

FPNN [8］	体积	68.20
3 dshapenets [22.］	体积	77.30
VoxNet [4］	体积	83
子卷(1］	体积	86.00
PointNet(香草)10.］	点云	87.20
PointNet [10.］	点云	89.20
这张纸	点云	89.70

本文的任务是识别现实场景中的点云对象。桌子4下面是对现实场景中可能出现的物体的识别精度的分析。


床上	吉他	杯子	瓶子	碗	窗帘

0.99	0.94	0.70	0.70	0.99	0．90
书架上	人	门	键盘	种植	钢琴
0.91	0.95	0.85	0.85	0．80	0.87
椅子	移动PC	灯	沙发	桌子上	衣柜
0.98	0.99	0.95	0.97	0.99	0．55

桌子4给出了在真实场景中识别点云目标的方法及识别的正确率。它对一些特征明显的物体有较高的准确率。总之，本文的方法可以在真实场景中准确地识别物体。数字12.在本文中，算法示出了真实场景中的点云对象识别的示例。识别实际场景中的对象，识别的主要信息和结果如图所示13.．

（一种）

（b）

（C）

(d)

(e)

(f)

为了测试本文网络算法的鲁棒性，我们通过逐渐减少每个点云对象的数量来测试点云对象识别的准确性。理想情况下，随着点云数量的减少，准确度尽可能保持。通过实验，我们发现随着点云的数量越多，点云目标识别的准确率逐渐降低，但识别的准确率保持在较高的水平。即使只有64个点的信息，准确率仍保持在60%以上。本文深度学习网络的鲁棒性测试如图所示14.．

7.结论

本文提出了一种利用欧氏距离聚类分割算法对真实场景中的点云数据进行聚类和分割，从而识别真实场景中的点集目标的新方法。有效地解决了复杂场景中多目标的聚类和分割问题。使用直接处理点云的深度学习网络大大减少了数据计算量。点云不引入量化伪影，能更好地保持数据的自然不变性。实验结果表明，本文的网络结构能够在真实场景中准确地识别和分类点云对象，并且在点云数量较少的情况下保持一定的准确性，具有很强的鲁棒性。对于任何具有全局特征和局部特征的点云对象，本文提出的算法主要提取全局特征，没有利用局部特征。在接下来的工作中，我们希望进一步改变网络结构来提取局部特征，进一步提高现实场景中点云对象识别的准确性。

数据可用性

用于支持本研究结果的数据可在以下网站上找到：http://openaccess.thecvf.com/content_cvpr_2017/papers/Qi_PointNet_Deep_Learning_CVPR_2017_paper.pdf

的利益冲突

本手稿的出版没有利益冲突。

致谢

本研究由中国河北省自然科学基金资助项目(No. 5130459);基金资助:河北省高校科技攻关项目(F2017402182);ZD2018207)。

参考文献

戚春荣，苏慧，聂锴，戴爱华，颜明志，“三维物体分类的体积和多视图cnn”，载2016 IEEE计算机视觉与模式识别大会论文集，第5648-5656页，拉斯维加斯，内华达州，美国，2016年6月。视图:出版商的网站|谷歌学者
H.Su、S.Maji、E.Kalogerakis和E.Learnd Miller，“用于三维形状识别的多视图卷积神经网络”，年IEEE计算机愿景国际会议的诉讼程序，第945-953页，智利圣地亚哥，2015年12月。视图:出版商的网站|谷歌学者
李磊，苏慧，郭旭东，“基于同步光谱的三维图像分割方法”，《中国图象图形学报》，vol . 21, no . 2, pp . 369 - 3722017 IEEE计算机视觉与模式识别(CVPR)会议论文集，第6584-6592页，檀香山，HI，美国，2017年7月。视图:出版商的网站|谷歌学者
D. Maturana和S. Scherer，“VoxNet:用于实时物体识别的3D卷积神经网络”2015 IEEE/RSJ智能机器人与系统国际会议论文集，第922-928页，IEEE，德国汉堡，2015年9月。视图:出版商的网站|谷歌学者
G.Riegler、A.O.Ulusoy和A.Geiger，“八进制网络：学习高分辨率的深度3D表示”，年2017 IEEE计算机视觉与模式识别(CVPR)会议论文集2017年7月，美国火奴鲁鲁。视图:出版商的网站|谷歌学者
T.Shao，Y.Yang，Y.Weng，Q.Hou和K.Zhou，“H-CNN：基于空间哈希的CNN三维形状分析”，2018年，https://arxiv.org/pdf/1803.11385．视图:谷歌学者
psi。王玉霞，刘玉霞。郭,彭译葶。Sun，和X. Tong，“O-CNN:基于八叉树的卷积神经网络用于3D形状分析”，美国计算机学会图形学报， 2017年第4卷，第72页。视图:谷歌学者
李勇，“基于fpga的三维数据域探测神经网络”，《计算机科学与技术》，第4期神经信息处理系统进展， pp. 307-315，西班牙巴塞罗那，2016年12月。视图:谷歌学者
王德志、波斯纳，“在线点云对象检测中的投票投票”机器人学报:科学与系统2015年6月，意大利罗马。视图:出版商的网站|谷歌学者
戚春荣，苏慧，莫克明，“基于点集的深度学习方法研究”，国立中山大学学报(自然科学版)2017 IEEE计算机视觉与模式识别(CVPR)会议论文集2017年7月，美国火奴鲁鲁。视图:出版商的网站|谷歌学者
齐春荣，李磊，苏慧，“基于度量空间点集的深度层次特征学习”，《中国科学(d辑)》，第3期2017 IEEE计算机视觉与模式识别(CVPR)会议论文集，pp。5099-5108，檀香山，嗨，美国，2017年7月。视图:谷歌学者
R. Klokov和V.Lempitsky，“逃离细胞：深度KD网络，用于识别3D点云模型，”2017 IEEE计算机视觉国际会议论文集，第863-872页，IEEE，威尼斯，意大利，2017年10月。视图:出版商的网站|谷歌学者
M. Zaheer, S. Kottur, S. Ravanbakhsh, B. Poczos, R. R. Salakhutdinov, and A. J. Smola，《深度集神经信息处理系统进展， pp. 3391-3401，加拿大温哥华，2017。视图:谷歌学者
李颖，布锐，孙敏，陈博，“PointCNN”，2018，https://arxiv.org/abs/1801.07791．视图:谷歌学者
J. Bruna, W. Zaremba, A. Szlam, Y. LeCun，“图的谱网络和局部连接网络”，2013，https://arxiv.org/abs/1312.6203．视图:谷歌学者
J. Masci, D. Boscaini, M. Bronstein，和P. Vandergheynst，“黎曼流形上的测地卷积神经网络”，出版IEEE国际计算机视觉研讨会论文集，第37-45页，智利圣地亚哥，2015年12月。视图:出版商的网站|谷歌学者
F. Monti, D. Boscaini, J. Masci, E. Rodola, J. Svoboda, M. M. Bronstein，“使用混合模型cnn的图和流形的几何深度学习”，刊于2017 IEEE计算机视觉与模式识别(CVPR)会议论文集2017年7月，美国火奴鲁鲁。视图:出版商的网站|谷歌学者
方耀荣，谢建军，戴国光等，“三维深部形状描述子”，年2015年IEEE计算机视觉和模式识别会议记录（CVPR），第2319-2328页，马萨诸塞州波士顿，美国，2015年6月。视图:出版商的网站|谷歌学者
郭凯，邹德华，陈旭东，“基于深度卷积神经网络的三维网格标注”，美国计算机学会图形学报，第35卷，第1期，2015年。视图:出版商的网站|谷歌学者
A.Holzinger，B.Malle，M.Bloice等人，“关于点云数据集的生成：知识发现过程的第一步”，年生物医学信息学中的交互式知识发现和数据挖掘， pp. 57-80，施普林格，柏林，德国，2014。视图:谷歌学者
M.Jaderberg，K. Simonyan，A. Zisserman等，“空间变压器网络”神经信息处理系统进展， 2017-2025，蒙特利尔，加拿大，2015年12月。视图:谷歌学者
Z. Wu, S. Song, a . Khosla et al.，“3D形状:体积形状的深度表示”2015年IEEE计算机视觉和模式识别会议记录（CVPR），第1912-1920页，波士顿，马萨诸塞州，美国，2015年6月。视图:谷歌学者
M.Abadi，P.Barham，J.Chen等人，“Tensorflow：大规模机器学习系统”，年第12届Usenix研讨会上关于操作系统设计和实施的研讨会（OSDI'16），第265-283页，Savannah, GA, USA, 2016年11月。视图:谷歌学者