基于卷积神经网络的三维模型检索方法

摘要

近年来，基于视图的三维模型检索成为研究热点。该方法将三维模型表示为二维投影视图的集合，允许使用深度学习技术进行三维模型分类和检索。然而，目前的方法在准确性和效率上都需要改进。为了解决这些问题，我们提出了一种新的三维模型检索方法，包括建立索引和模型检索。在索引构建阶段，投影库中的三维模型，生成大量视图，然后选择有代表性的视图，输入到一个学习良好的卷积神经网络(CNN)中提取特征。接下来，将根据特性的标签对其进行组织以构建索引。在此阶段，在保证足够的三维模型信息的前提下，大量减少了用于表示三维模型的视图。该方法减少了87.8%的相似度匹配。检索时，利用CNN和投票算法将输入模型的2D视图划分为一个类别，然后只选择一个类别的特征而不是所有类别的特征进行相似度匹配。这样就减少了检索的搜索空间。 In addition, the number of used views for retrieval is gradually increased. Once there is enough evidence to determine a 3D model, the retrieval process will be terminated ahead of time. The variable view matching method further reduces the number of similarity matching by 21.4%. Experiments on the rigid 3D model datasets ModelNet10 and ModelNet40 and the nonrigid 3D model dataset McGill10 show that the proposed method has achieved retrieval accuracy rates of 94%, 92%, and 100%, respectively.

1.介绍

近年来，三维(3D)模型被广泛应用于计算机辅助设计(CAD)、虚拟现实(VR)、3D动画电影、医疗诊断、3D网络游戏、机械制造等领域。特别是随着3D打印技术的发展，3D模型的应用已经成为各个领域不可或缺的技术手段。由于越来越多的3D模型和数字化工具正在为越来越多的应用程序开发，大量的3D模型已在Web上可用[1］.通过互联网，用户可以根据自己的需要免费下载3D模型。对这些模型进行修改和增量设计，不仅可以降低产品成本，缩短设计时间，而且可以有效提高产品的可靠性和质量。然而，从大量的可用模型中快速准确地找到所需的3D模型是非常困难的。三维模型检索技术可以解决上述问题;因此，该技术已成为研究热点。

三维模型检索的一个重要问题是将模型表示为描述符。描述符能够准确有效地描述三维模型，支持模型分类、索引构建和相似度匹配。三维模型描述符主要分为四类:基于几何的[2]，以统计分析为基础[3.]，基于拓扑的[4，以及基于投影视图的描述符[5］.基于几何的三维模型描述符将三维模型划分为多个网格，然后通过网格模型的不同数学变换提取三维模型的特征。前一种方法的最早工作是3D ShapeNets [6，学习卷积深度置信网络，输出二进制占用体素值的概率分布。之后，Maturana和Scherer提出了一种类似的方法，构建了用于实时对象识别的VoxNet [7］.Li等人采用现场探测神经网络(fpnn)来提取三维模型的特征。该方法首先将三维模型表示为体积场，然后利用场探测滤波器提取特征[8］.Wu等人提出了一种名为3D生成对抗网络(3D- gan)的新框架，它利用体积卷积网络和生成对抗网络的最新进展，从概率空间生成3D对象。该方法在三维物体识别方面取得了令人印象深刻的性能[9］.

基于统计分析的三维模型描述符是实现非刚性三维模型检索的一种很好的选择。最早的工作是三维形状描述符(SHP)的三维旋转不变球谐表示，它降低了描述符的维数，提供了更紧凑的表示[10]Sun等人提出了热核特征（HKS）描述符来描述非刚性三维模型的局部特征。该描述符基于扩散尺度空间分析，以三维表面的传热过程为特征[11］.HKS描述子在等距形变下是不变的，在模型的摄动下是稳定的。在非刚性三维模型检索中取得了良好的效果。但对三维模型的比例变化比较敏感。Aubry等人提出了波核特征(WKS)描述符来描述非刚性三维模型，它描述了量子力学在非刚性三维模型表面某一位置的平均概率。WKS描述符解释了不同空间尺度上的点与模型表面其余部分之间的关系，其判别能力比HKS描述符强[12］.Zeng等使用WKS和HKS表示三维模型，然后分别对HKS分布和WKS分布构建两个卷积神经网络，并使用多特征融合层将它们连接起来。这种多特征融合学习方法可以取得良好的性能[13］.

基于拓扑的三维模型描述符分析三维模型的拓扑结构，提取不同构件之间的拓扑连接和结构关系。目前这类方法主要包括属性邻接图(AAG) [14]、特征依赖图(FDG) [15、骨架图[16和Reeb图[17，18]目前，趋势是将三维模型的拓扑结构与多视图相结合。例如，Su等人提出了多视图CNN（MVCNN），它可以获取对象的多视图图像。该方法在基于草图的形状检索中具有MVCNN的潜在优势[19］.

基于投影视图的描述符是最有前途的，因为它们将3D模型转换为图像，从而允许用于检索的图像处理方法。在这种类型的描述子中，光场描述子(LFD)是最受欢迎的，因为它对变换、噪声和模型简并具有鲁棒性[20］.在LFD中，对一个3D模型进行投影，生成100张二值图像，这些二值图像以不同的视角呈现给每个模型。该描述符比其他描述符更好地表示3D模型，但由于用于匹配的图像数量较大，其时间复杂度较高。近年来，这些将投影视图与深度学习相结合的方法取得了良好的效果。在这些方法中，通过训练深度学习模型从二维视图中提取特征并进行分类。例如，Johns等人提出了将CNN带入通用多视图识别的成对方法，首先将图像序列分解为一组图像对，对每对图像独立分类，然后通过加权每对的贡献来学习一个目标分类器[21］.Ma等人提出了一种从二维投影视图中提取二维Zernike矩作为视图显著性的方法。然后使用视图显著性增强多视图CNN (VS-MVCNN)用于3D物体识别[22］.在DeepPano中，全景视图被用来表示3D模型，CNN被设计用来直接从全景视图学习深度表示[23］.类似的方法是PANORAMA-NN [24，它也使用了全景。此外，Hegde和Zadeh使用FusionNet结合二维投影视图的表示和模型体积的表示来学习新的特征，这比单独使用任何一种表示产生了明显更好的分类器[25］.Qi等对基于体素的cnn和用于三维物体分类的多视图cnn进行了全面研究[26]Elhoseiny等人探索CNN架构，将学习到的目标分类和姿势估计与多视图图像相结合，该方法将单个图像作为预测的输入[27］.Kanezaki等人通过聚合从不同视角捕获的多幅图像的预测来改进该方法[28］.

我们可以看到，许多方法已经被有效地应用于三维模型识别。然而，有几个问题需要解决。首先，当前的方法在将3D模型表示为2D视图时没有考虑2D视图的相似性。如果3D模型周围的摄像机是稀疏的，投影视图就不能完全描述3D模型。如果相机是密集的，就会产生冗余的视图，造成时间和空间的复杂性。其次，采用固定数量的投影视图进行相似度匹配，这也导致计算复杂度较高。针对上述问题，我们提出了一种新的三维模型检索方法，该方法在索引构建和模型检索两方面进行了改进。在索引构建中，首先利用所提出的投影方法将库中的三维模型转换为二维投影视图。然后利用该方法从这些二维投影视图中选择有代表性的视图K则。该方法可以减少冗余视图，提高检索精度和效率。然后，将具有代表性的视图输入到学习过的CNN中，提取特征，并按其标签组织为索引。在检索时，首先对输入的3D模型进行与索引构建相同的处理，以获得具有代表性的视图。然后通过CNN和投票算法将一个模型的所有代表性视图分类为一个类别，然后只选择一个类别的特征而不是所有类别的特征与这些具有代表性的特征进行相似度匹配。此外，我们提出了一种新的相似度匹配方法，在该方法中，检索视图的数量逐渐增加，直到有足够的证据来确定三维模型。因此，大大提高了模型检索效率。

2.拟议的方法

2.1.整体方案

如图所示1，所提方法的整个过程可分为三个步骤:(1)三维模型表示和CNN训练;(2)二维代表性视图提取和索引构建;(3)检索模型。在第一步中，首先将3D模型转换为2D投影视图，然后使用这些2D投影视图训练CNN。在这一部分，提出了一种投影生成视图的方法。在第二步中，首先使用与训练中相同的投影方法将3D模型转换为2D投影视图。这些视图然后被提出的方法选择基于K-平均值。选择最接近其自身类别中心的视图作为代表视图。最后，将这些代表视图输入到学习过的CNN中进行特征提取和索引建立。第三步，输入可以是图像或3D模型。如果输入是图像，则分类和检索将停止直接执行。如果输入是三维模型，则首先通过我们的投影方法和代表视图选择方法生成代表视图，然后将代表视图输入到学习的CNN中进行分类和特征提取。通过最后，通过可变视图匹配方法找到结果模型。

2．2.3D模型表示和CNN训练

目前，cnn已广泛应用于目标检测、场景识别、纹理识别和细粒度分类等领域。由于CNN在我们的任务中优于其他方法，并且从3D模型投射的视图足够大，可以学习到一个好的CNN，所以本文方法也使用了CNN。

2.2.1。三维模型的多视图表示

将三维模型表示为二维投影视图是一个关键步骤。获得投影视图的两个主要因素是投影方法和绘制模式的选择。通过实验，我们采用了基于区域划分的投影方法和基于多光源的渲染方法。具体步骤如下:(1）模型预处理:模型预处理的目的是将三维模型限制在单位球面上进行规范化。首先，通过收集模型的边界信息，遍历所有点的坐标，得到三个坐标方向上的最大值和最小值;然后计算模型的比例和位置中心。最后，对模型进行了翻译和缩放。模型预处理如图所示2．（2）投影点的选择:摄像机被部署在以3D模型中心为中心的球体上。球面被划分为四个均匀区域，每个区域的中心放置一个摄像机。任何其他摄像机都位于通过中心的等分线内。平分线之间的夹角是相等的。在等分线上放置的摄像机位于中心点和边界之间的中点。每个相机的镜头应该指向球的中心。摄像机在各个区域的位置如图所示3.．（3）模型渲染:为了增加投影视图中包含的信息量，减少模型阴影的负面影响，我们采用Phong Lighting模型[29来渲染模型。首先使用低强度的环境光，然后在(0,0,1)、(0,0,1)、(0,1,0)、(0,1,0)、(1,0,0)和(−1,0,0)点部署6个固定的弱光源。最后在每个相机的位置设置一个较亮的点光源，在获取视图时将其打开。六种弱光源及其位置如图所示4．

在该方法中，使用了40个投影视图。该方法与LFD的对比如图所示5，其中我们的方法生成的视图如图所示5(一个)LFD的结果如图所示5 (b). 我们可以看到，通过我们的方法获得的投影视图是一个信息熵为0.462的灰度图像。相比之下，LFD的投影视图是信息熵为0.287的二值图像。因此，我们的方法包含更详细的特性。

(一)

（b）

2.2.2。CNN的培训

近年来，cnn被广泛应用于图像分类。目前，有很多cnn，如VGG, GoogleNet, ResNet, DenseNet。据报道，ResNet在ImageNet上可以达到良好的性能。ResNet采用独特的“快捷连接”，有效避免梯度消失，保证训练精度[30］.在我们的实验中，ResNet50的性能优于其他类型的深度神经网络，因此将其用于特征提取和分类。ResNet50由49个卷积层和一个完全连接层组成。ResNet50的结构如表所示1．


层的名字	输出的大小	50-layer

Conv1	112年112年	77、64、大步走
Conv1	5656	3. 3 Max pool, stride 2
Conv2_x	5656
Conv3_x	2828
Conv4_x	14×14
Conv5_x	77
Conv5_x	11	平均池，1000-d fc, softmax

失败		3.8 10⁹

2．3.索引构建

建立索引对于提高模型检索效率具有重要意义。本节首先介绍了代表性视图的选择，然后介绍了基于CNN的索引构建。

2.3.1。代表性视图选择基于K则

二维视图编号和投影角度对三维模型的表示有影响。在现有的方法中，大量的摄像机均匀地分布在单位球体的表面上以获得二维视图。这种方法不考虑模型表面复杂性的差异。事实上，三维模型中曲面复杂度大的部分需要更多的视图来表示，而曲面复杂度小的部分可以用更少的视图来表示。当前方法投影的二维视图具有大量相似视图，这会导致大量冗余。因此，有必要从相似的观点中只保留一种观点，以使观点更具代表性。在本文中，我们提出了一种提取二维代表性视图的方法。在这种方法中K-该方法根据视图的相似性将视图分为不同的类别，然后从每个类别中选择一个具有代表性的视图，这样，不同的三维模型可能产生不同数量的三维视图。

聚类作为一种非监督分类方法，将没有标签的数据集划分为多个聚类[31］.一个广泛使用的聚类算法是K——(32］.它的优点是简单和局部最小收敛性。但是，它有一个缺点，集群的数量应该手动设置。对于每个三维模型，本文提出的方法基于K-means的实现如下:步骤1:将3D模型转换为40个2D投影视图，使用Section中提出的投影方法2．2.1步骤2:使用K则第三步:选择离所属类别中心最近的视图作为代表性视图

控件聚集2D视图时K-表示类别的数量K必须首先确定。根据实验，10-20个视图可以获得良好的性能。因此,K大致设置为10–20，然后是肘部[33]方法用于确定K．如果将3D模型的2D视图划分为K类别，K获得二维代表性视图来表示三维模型。

2.3.2. 基于CNN的索引构建

三维模型的索引是通过将二维代表性视图输入到ResNet50中，然后根据它们的类别组织输出特征来建立的。至于输入模型，其代表的观点首先生成。然后，将这些代表性视图输入到学习的ResNet50中。ResNet50第49层的输出就是这些代表性视图的特征，用表示．ResNet50第50层的输出就是这些代表性视图的标签。该方法将三维模型分类任务转化为视图分类任务。指标构建过程如图所示6．

２.４.模型检索

相似度匹配的任务是根据输入数据在数据集中找到最相似的三维模型。输入可以是图像或3D模型。如果输入的是一幅图像，则直接提取特征，通过学习的CNN确定类别。在某一类中，输出的3D模型由下式求得: 哪里()为计算欧式距离的函数，为输入图像的特征，的特点是j全景图我th模型, ，是一个类别中模型的数量，，和代表意见的数量是多少我模型。该模型为输出结果。

如果输入的是三维模型，则通过三个步骤实现模型检索:(1)生成二维代表性视图;(2)将这些视图输入CNN进行特征提取和分类。由于分类错误，模型的所有有代表性的视图可能不会被归为同一类别，因此我们采用投票算法将模型的视图确定为一个类别;(3)进行相似度匹配。为了提高匹配效率，我们提出了一种使用可变视图数的相似度匹配方法。

让表示类别向量c元素表示分类到的视图的数量c类别。初始化如下: 哪里是一个c -维向量对应的c模型库中的类别。将代表视图分配给c类别，这个向量被更新

最后，确定了模型的类别

分类后，在算法中总结了检索过程1．为了提高检索效率，我们设计了一种灵活的检索策略:(1)如果库中输入视图与模型视图之间的距离足够小，即，我们可以确保这个模型是我们需要的(输出模型);(2)如果有代表性视图属于同一类别中的同一模型，可以确保该模型是我们所需要的(输出模型);(3)如果有代表性的视图与同一类别的不同模型相匹配，则计算累积距离值。如果一个模型的累积距离值是最小的，那么该模型就是输出模型。

	输入：是输入模型的代表性视图的特征，，
	的特点是j全景图我数据集中的Th模型，
	是一个类别中模型的数量，
	代表意见的数量是多少我th模型,
	为最小距离，
是距离向量，，
	是计数向量，它用于记录被分类到每个类别的浏览次数，
	输出：，
	；
	；
	为
	｛
	；
	；
	为
	{
	（j= 1, 2，… ）;
	如果｛；返回；}
	；
	如果｛；；
	}
	}
	；
	为
	{
	如果（）｛；返回；}
	}
	｝
	如果（）；
	返回；

3.实验和结果

实验是在Intel i5 8400 + GTX 1060 PC机上进行的。该方法是在MXNET框架下实现的。利用ResNet50建立模型索引，实现模型分类。从模型分类和模型检索两个方面对该方法进行了评价。

３．１．模型分类评价

在本节中，我们将提出的方法与最先进的方法进行比较。评估基于以下3D模型数据库:McGill 3D Shape Benchmark [34](非刚性3D模型数据集)和ModelNet10和ModelNet40 [35](两个刚性3D模型数据集)。表格2显示这些数据集的详细信息。


三维模型数据集	模型	类

麦吉尔	255	10
ModelNet10	4899	10
ModelNet40	12311	40

我们遵循ModelNet10和ModelNet40中包含的培训和测试分割。ModelNet10由10个类别的4899个模型组成，其中3991个模型作为训练数据集，908个模型作为测试数据集。ModelNet40由40个类别的12311模型组成，其中9843模型作为训练数据集，2468模型作为测试数据集。麦吉尔有255个型号。随机选取179个3D模型进行训练，其余76个3D模型作为测试数据集。

使用ImageNet数据预训练的模型作为ResNet50的初始化参数。学习率设置为0.01。根据GPU大小和训练效率，将batch_size设置为32。为了使损失函数快速收敛，将历元设为200。

3.1.1。代表视图选择

在提出的投影方法中，每个3D模型被表示为40个视图。为了提高分类和检索的效率，采用本节提出的方法从40个投影视图中选择有代表性的视图2．3.1．代表性意见的数目K对分类精度有很大的影响。在实验中,K分别设置为5、10、20、30。所提方法给出的误分类模型不同K见表3.．


K	5	10	20	30

麦吉尔	0	0	0	0
ModelNet10	77	62	56	55
ModelNet40	212	191	182	183

在麦吉尔大学，随便吧K没有分类错误的模型。ModelNet10和ModelNet40中被错误分类的模型数量随着K变得更大。当K为5，误分类模型的数量最大。当K是20多个，错误分类模型的数量正在缓慢减少。根据这个结果，我们设置的范围K(10，20］.

所提方法在不同数据集和不同条件下的性能如表所示4．以ModelNet10为例，它的训练集中有908个模型，每个模型在代表性视图选择之前有40个2D视图。2D视图数为36320 (908 × 40)。代表性视图选择后，每个模型大约有14个2D视图，因此2D视图的数量为12742个。采用代表性视图选择方法前后，分类精度保持不变。


	麦吉尔		ModelNet10		ModelNet40
	之前	之后	之前	之后	之前	之后

的观点	960	362	36320	12742	98720	34526
精度	One hundred.	One hundred.	94.10	94.10	92.90	92.0

我们可以从Table上看到4我们的代表性视图选择方法不会导致McGill和ModelNet10的性能下降。在我们的代表性视图选择后，ModelNet40上的分类准确率仅下降0.9%。需要注意的是，我们的代表性视图选择可以将视图数量显著减少到1/3左右。视图数量越少，三维模型分类和检索的效率越高。下面的实验采用了具有代表性的观点进行模型分类和检索。对于每个模型，大约14个投影视图就足以获得良好的性能。

3.1.2。基于视图的分类算法比较

我们将提出的方法与几种传统方法进行了比较，结果如表所示5．我们可以看到，我们提出的方法在ModelNet10中取得了最好的性能，识别准确率为94.10%。在ModelNet40中，该算法的识别准确率为92%，仅比VS-MVCNN低0.9%。虽然VS-MVCNN的性能优于本文提出的方法，但它需要80个视图。


算法	的观点	ModelNet10	ModelNet40

DeepPano [23］	1	88.66	82.54
PANORAMA-NN [24］	1	91.10	90.70
成对[21］	12	93.20	91.10
FusionNet [25］	60	93.11	90.80
VS-MVCNN [22］	80	93.50	92.90
我们的	14	94.10	92.00

我们提出的方法在McGill中可以达到100%的识别准确率(如图所示)7）.这表明，该方法在刚性和非刚性三维数据集上都具有良好的性能。

3.1.3。分类结果分析

本文方法在ModelNet10中的混淆矩阵如图所示8．我们可以看到,该方法可以达到100%的精度类床,椅子,和监控,超过90%的准确性浴缸的类,书桌,沙发,和厕所,和不到90%的准确性类的梳妆台,night_stand和表(分别为88%,84%,83%)。桌类的准确性最差，15%的模型被误分类为桌类，2%的模型被误分类为床头柜类。原因是课桌课上的模型和课桌课上的模型非常相似。

从图中可以看出9梳妆台类和床头柜类的模特非常相似，这导致了错误的分类。这些模型的错误分类对用户来说并不重要，因为这两个模型要么是相同的，要么是非常相似的。

(一)

（b）

（c）

（d）

我们的方法的优点是，它可以获得较高的精度给定少量的视图。尤其是麦吉尔，识别准确率达到100%。原因是McGill上的类之间差异很大，多视图可以更好的从不同角度代表3D模型，导致性能优越。然而，在ModelNet10和ModelNet40上，所建议的方法在某些类上没有很好的性能，比如table类和desk类，或者night_stand类和dresser类。原因是ModelNet10和ModelNet40的类之间没有明显的区别。任何一种分类方法都很容易出错。

３.２．检索实验

我们的检索方法基于分类结果。在相似性匹配之前对输入进行分类。其优点是在一个类别而不是所有类别中计算输入和模型之间的相似性，因此可以大大减少搜索范围和计算复杂度。在下一节中，相似性分别在刚性数据集和非刚性数据集上对y匹配方法进行了评价和分析。

3.2.1之上。刚性数据集检索实验

我们的形状描述符与球面谐波描述符(SPH)进行了比较[10),最晚完成日期(20， 3D ShapeNets [6], DeepPano [23], PANORAMA-NN [24]， View interprediction GAN (VIPGAN) [36和Ma等人的方法[37］.平均平均精度(MAP)的结果如表所示6．可以看出，本文方法的MAP值明显高于其他方法。这有两个原因:(1)在检索之前先进行分类，因为所提出的分类方法的准确率足够高，可以保证较好的检索准确率;(2)采用投票机制。输入模型的某些视图由于高度相似，很容易被错误分类。通过投票机制，这些错误分类的观点可以被正确地重新分类。


算法	数据集
算法	ModelNet10	ModelNet40

主任(10］	45.9	34.4
最晚完成日期(20］	49.8	40.9
3 d ShapeNets [6］	69.2	59.9
DeepPano [23］	84.2	76．8
PANORAMA-NN [24］	87.4	83.5
VIPGAN [36］	90.6	89.2
马等人[37］	93.1	84.3
我们的	94.1	92.0

精度查全曲线如图所示10和11.我们可以看到，我们的方法优于其他最先进的方法。提出的方法的查准率查全率曲线是稳定的，而其他方法的查准率随着查准率的增加而逐渐下降。如图所示10例如，当召回率小于0.2时，PANORAMA-NN和Ma等人的方法优于我们的方法。然而，当召回率大于0.9时，两种方法的正确率迅速下降。特别是当召回率接近1时，Ma等人的方法的准确率下降到0.1。当召回率小于0.9时，deepppano和VIPGAN的精度-召回曲线与本文方法相似。然而，当召回率接近1时，其正确率迅速下降。SPH表现最差。LFD略好于SPH。3D ShapeNets是这八种方法中的一种。随着查全率的增加，三种方法的查准率从1下降到0。

3.2.2。非刚性数据集检索实验

使用的非刚性数据集是McGill。我们将我们提出的方法与热核特征(HKS)进行了比较[11]， wave kernel signature (WKS) [12]，该协会[38，基于鉴别自动编码器的形状描述符(DASD) [39，多特征融合学习(MFFL) [13]，基于学习的多池融合(LMPF) [40］.表格7显示由最近邻(NN)、第一层(FT)、第二层(ST)和贴现累积增益(DCG)测量的检索结果。


方法	神经网络	英国《金融时报》	装货单	常规心电图

香港(11］	0.8190	0.6220	0.7440	0.8270
周内(12］	0.9140	0.7750	0.8660	0.9140
CBoFHKS [38］	0.9010	0.7780	0.8760	0.8910
DASD (39］	0.9880	0.7820	0.8340	0.9550
MFFL [13］	0.9710	0.9050	0.9810	0.9630
LMPF [40］	0.9810	0.8610	0.9594	0.9579
我们的	1.0000	1.0000	1.0000	1.0000

我们可以从Table上看到7我们提出的方法在NN、FT、ST和DCG度量上取得了最好的性能。该方法在非刚性数据集上的性能优于刚性数据集。原因是我们使用训练有素的CNN对McGill的模型进行分类。分类准确率为100%，检索准确率也为100%。总之，我们的方法在刚性和非刚性数据集上都有很好的性能。

3.2.3。检索效率分析

实验表明，在三维模型检索中，相似度匹配消耗的时间最多。以ModelNet10为例，测试集中有908个模型，训练集中有3991个模型。每个模型有40个视图，因此测试集包含36320个视图，训练集包含159640个视图。如果使用所有视图进行相似度匹配，则时间复杂度较大。表格8显示ModelNet10中代表性视图选择前后视图数量的比较。


数据集	之前		之后
	总计	平均	总计	平均

测试集	36320	40	12742	14
训练集	159640	40	56613	14

我们可以看到，通过代表性视图选择，测试集的视图数从36320减少到12742，训练集的视图数从159640减少到56613。选取代表性视图后，视图数量减少了2/3，有效地减少了冗余视图，大大提高了检索效率。

在ModelNet10中，训练集由3991个模型组成，这些模型被分为10个类，每个类平均由399个模型组成。采用代表性视图选择后，相似度匹配数从638400 (40 × 399 × 40)减少到78204 (14 × 399 × 14)(减少87.8%)。

可变视图匹配方法可以进一步提高匹配效率。在这篇文章中,定义为同一模型的两个相邻投影点生成的两个视图的相似度。我们称之为为相邻视图距离。较小的是，精度越高。我们以ModelNet10为例进行分析根据我们的投影方法。相邻投影点如图所示12．

实验表明，任意两个视点的相邻视点距离是不同的。在同一类别中，选取最小邻接视距作为代表，形成邻接视距列表。表格9显示了当为每个类别选择不同数量的模型时的平均邻近视图距离。以浴缸类为例，当模型数为1时，最小相邻视距为1.705。当模型号为20时，平均邻视距离为1.995。桌类相邻视野距离最小，床类相邻视野距离最大。原因是模型的复杂性不同。表类中的模型比较简单，而床类中的模型比较复杂。Table的最后一行9显示模型号为20、10、5和1的所有类别的平均邻接视图距离。可以看出，当模型个数为1时，平均邻接视图距离最小，为1.6418。模型数为20时，邻接平均视距最大，为1.8572。为了提高三维模型检索的效率和精度，设置为1.5。


类别	型号
类别	20	10	5	1

浴缸	1.995	1.897	1.774	1.705
床上	2.304	2.259	2.221	2.186
椅子	1.627	1.546	1.430	1.351
桌子上	2.142	2.052	1.980	1.900
梳妆台	2.145	2.091	2.050	1.986
监控	1.700	1.666	1.637	1.581
Night_stand	1.995	1.920	1.857	1.741
沙发	1.948	1.900	1.859	1.796
表格	0.751	0.531	0.485	0.441
厕所。。。	1.965	1.895	1.820	1.731
平均	1.857	1.775	1.7113	1.641

在算法1，有三个条件来完成相似度匹配。三种情况下使用的视图数分别为1、5、14，即:设置为5。ModelNet10上的结果如表所示10,在那里是1.5。例如，在浴缸中，条件1下有3个模型。也就是说，这3个模型只需要使用一个视图就可以得到。条件2有4个模型条件3有43个模型。如果我们不使用变量视图匹配，所有模型将通过使用14个视图进行检索。在ModelNet10中，如果使用变量视图匹配，则所有视图的数量为10267(132 + 405 + 9730)，而传统方法的视图数量为12742。浏览次数减少了2475次。也就是说，每个模型检索的平均视图数减少到11个。通过变量视图匹配，每个模型的平均相似度匹配数约为61446 (11 × 399 × 14)。与仅采用代表性视图选择方法相比，相似度匹配的数量进一步减少了21.4%。


类别	条件1(1视图)	条件2(5次查看)	条件3(14次查看)	传统方法(14图)

浴缸	3.	4	43	50
床上	10	3.	87	One hundred.
椅子	18	16	66	One hundred.
桌子上	3.	3.	80	86
梳妆台	12	10	64	86
监控	8	4	88	One hundred.
Night_stand	10	15	61	86
沙发	11	5	84	One hundred.
表格	4	9	87	One hundred.
厕所。。。	53	12	35	One hundred.
模型	132	81	695	908
的观点	132	405	9730	12712

4.结论

随着三维模型数量的增加，检索精度和效率的下降成为三维模型检索系统面临的一个严重问题。提出了一种高效的三维模型检索方法。该方法在三个方面提高了效率:(1)利用CNN进行代表性视图选择和特征提取，构建高效指标。然后通过标签组织功能。通过这种方式，3D模型的表示效率更高，使用的视图数量也大大减少。(2)在检索前进行分类，减少相似度匹配的次数。在检索时，利用CNN和投票机制将输入模型的2D视图划分为一个类别，然后只选择该类别的特征，而不是所有类别进行相似度匹配。(3)提出了可变视图匹配方法。某些模型的检索可以提前终止。本文提出的方法在两个方面提高了准确率:(1)在检索前对输入模型进行分类。 Our classification method obtains good performance, so the retrieval accuracy and efficiency are guaranteed. (2) The voting mechanism is used to classify input 3D models. Through the voting mechanisms, the misclassified views can be reclassified correctly.

虽然所提出的三维模型检索方法在精度和效率上都有很大的提高，但相似的三维模型容易被误分类。因此，我们将在今后的工作中研究如何改进模型表示的判别。

数据可用性

先前报道的ModelNet10和ModelNet40数据用于支持这项研究，可在以下网站获得http://modelnet.cs.princeton.edu/．这些先前的研究(和数据集)在文中相关的地方被引用作为参考[20］.McGill 3D形状基准数据用于支持这项研究，可在以下网站获得http://www.cim.mcgill.ca/∼形状/基准．这些先前的研究(和数据集)在文中相关的地方被引用作为参考[19］.我们在论文中也称其为麦吉尔和麦吉尔10。

的利益冲突

作者声明他们没有利益冲突。

致谢

国家自然科学基金项目(no . 61673142);黑龙江省自然科学基金项目(no . JJ2019JQ0013);哈尔滨市优秀青年人才基金项目(no . 2017RAYXJ013);黑龙江省高校护理创新人才青年计划项目(UNPYSCT-2016034);黑龙江省教育厅基金项目(12511096)。

参考文献

P.Pal和K.K.Ghosh，“评估复杂产品实现过程的数字化工作，”国际先进制造技术杂志第95卷第1期9-12，第3717-3730页，2018。视图:出版商网站|谷歌学者
A. Zeng, S. Song, M. Niessner, M. Fisher, J. Xiao, T. Funkhouser，“3DMatch:从RGB-D重建中学习局部几何描述符”，出版计算机视觉与模式识别会议论文集，第1802-1811页，檀香山，HI，美国，2017年7月。视图:出版商网站|谷歌学者
医学博士。Ahrend, H. Noser, R. Shanmugam等人，“使用基于ct的3D统计建模开发通用亚洲骨盆骨模型”，骨科翻译杂志，第20卷，第100-106页，2020。视图:出版商网站|谷歌学者
“基于局部表面区域分解的CAD模型局部检索，”计算机辅助设计第45卷第5期11，第1239-1252页，2013。视图:出版商网站|谷歌学者
韩振宇，尚敏，刘振宇等，“基于RNN的序列视图的三维全局特征学习，”IEEE图像处理汇刊第28卷第2期2，页658-672,2019。视图:出版商网站|谷歌学者
Z. R. Wu, S. R. Song, a . Khosla等，“3D ShapeNets:体积形状的深度表示”计算机视觉与模式识别会议论文集，第1912-1920页，IEEE计算机学会出版社，美国马萨诸塞州波士顿，2015年6月。视图:出版商网站|谷歌学者
D. Maturana和S. Scherer，“Voxnet:用于实时物体识别的3D卷积神经网络”IEEE/RSJ智能机器人与系统国际会议论文集，第922-928页，汉堡，德国，2015年9月。视图:出版商网站|谷歌学者
李玉华，“三维数据的神经网络研究”，国立中山大学学报(自然科学版)神经信息处理系统（NIPS）进展综述， pp. 307-315，西班牙巴塞罗那，2016年12月。视图:谷歌学者
J. Wu, C. Zhang, and T. Xue，“Learning a probability latent space of object shapes via 3D generated -对抗性建模”，in神经信息处理系统（NIPS）进展综述，第82-90页，西班牙巴塞罗那，2016年12月。视图:谷歌学者
M. Kazhdan, T. Funkhouser，和S. Rusinkiewicz，“三维形状描述符的旋转不变球谐表示”，发表于几何处理研讨会论文集，第6卷，156-164页，德国亚琛，2003年6月。视图:谷歌学者
J. Sun, M. Ovsjanikov，和L. gubas，《基于热扩散的简洁和可证明的信息丰富的多尺度特征》计算机图形学论坛第28卷第2期5, pp. 1383-1392, 2009。视图:出版商网站|谷歌学者
M. Aubry, U. Schlickewei，和D. Cremers，“波核特征:形状分析的量子力学方法”，刊于IEEE国际计算机视觉研讨会论文集，第1626-1633页，西班牙巴塞罗那，2011年11月。视图:出版商网站|谷歌学者
曾辉，刘勇，李士生，纪勇。王旭东，“基于卷积神经网络的多特征融合的非刚性三维模型检索，”信息处理系统杂志第14卷第2期1，第176-190页，2018。视图:谷歌学者
N. Bore, P. Jensfelt, J. Folkesson，“通过邻接图查询3D数据”，出版计算机视觉系统国际会议论文集，第243-252页，哥本哈根，丹麦，2015年7月，《计算机科学课堂讲稿》。视图:出版商网站|谷歌学者
丁斌，张振中，于晓颖，杨博。“基于GA-ACO的三维CAD模型检索”IFOST会议记录，第2卷，第36-41页，蒙古，乌兰巴托，2013年7月。视图:出版商网站|谷歌学者
Liu H.， Xia J.， Chen J.， and J. Wang， " structural analysis of hierarchical intrinsic symmetry structure in 3D models， "计算机与图形学，第70卷，第8-16页，2018。视图:出版商网站|谷歌学者
“基于图的三维模型特征视图集提取与匹配”，《中国科学院大学学报(自然科学版)》，信息科学， vol. 32, pp. 429-442, 2015。视图:出版商网站|谷歌学者
N. Karmakar, A. Biswas，和P. Bhowmick，“基于Reeb图的3D数字物体铰接组件分割”，理论计算机科学，第624卷，第25-40页，2016。视图:出版商网站|谷歌学者
H. Su, S. Maji, E. Kalogerakis，和E. Learned-Miller，“用于三维形状识别的多视图卷积神经网络”2015国际计算机视觉会议论文集，第945-953页，智利圣地亚哥，2015年12月。视图:出版商网站|谷歌学者
D.-Y。陈,X.-P。田,Y.-T。Shen, M. ouhyyoung，“基于视觉相似度的三维模型检索，”计算机图形学论坛第22卷第2期3，页223-232,2003。视图:出版商网站|谷歌学者
E. Johns, S. Leutenegger，和A. J. Davison，“主动多视图识别图像序列的成对分解”计算机视觉与模式识别会议论文集，第3813-3822页，IEEE计算机学会出版社，美国内华达州拉斯维加斯，2016年7月。视图:出版商网站|谷歌学者
马艳霞，郑斌，郭玉林等，“基于视觉显著性的多视角卷积神经网络的三维物体识别”，《中国图象图形学报》中国图象图形技术会议论文集， pp. 199-209，施普林格，北京，中国，2017年6月。视图:谷歌学者
“三维形状识别的深度全景表示方法”，国家自然科学基金面上项目，2012.01 - 2012.12。IEEE信号处理信第22卷第2期12, pp. 2339-2343, 2015。视图:出版商网站|谷歌学者
K. Sfikas, T. Theoharis，和I. Pratikakis，“利用全景表示进行卷积神经网络分类和检索”，发表于第十届欧洲图形学三维物体检索研讨会论文集第1-7页，法国里昂，2017年4月。视图:谷歌学者
V. Hegde和R. Zadeh，“FusionNet:使用多种数据表示的3D对象分类”，在第六届学习表示国际会议论文集，第1-10页，加拿大温哥华，2018年5月。视图:谷歌学者
齐春荣，苏慧，戴爱华，颜明志，“三维物体分类的体积和多视图cnn”第29届IEEE计算机视觉与模式识别(CVPR)会议论文集，第5648-5656页，拉斯维加斯，内华达州，美国，2016年6月。视图:出版商网站|谷歌学者
M. Elhoseiny, T. El-Gaaly, A. Bakry等，“用于联合目标分类和姿态估计的多视角CNN模型的比较分析和研究”，发表于第33届国际机器学习会议(ICML)论文集，第1402-1422页，纽约州，美国，2016年6月。视图:谷歌学者
A. Kanezaki, Y. Matsushita，和Y. Nishida，“RotationNet:联合对象分类和姿态估计使用多视图从非监督视点，”在2018 IEEE/CVF计算机视觉与模式识别会议论文集，页5010-5019，盐湖城，UT，美国，2018年6月。视图:出版商网站|谷歌学者
吴思明、李世豪、刘志善、j.o。Kim说，“使用Phong反射模型改善环境光环境中的颜色稳定性，”IEEE图像处理汇刊第27卷第2期4，第1862-1877页，2017。视图:出版商网站|谷歌学者
何凯，张昕，任胜等，“基于深度残差学习的图像识别”IEEE计算机视觉与模式识别会议论文集，页770-778，拉斯维加斯，内华达州，美国，2016年6月。视图:出版商网站|谷歌学者
J.-Y。陈和h。他，“一种基于密度的快速数据流聚类算法，簇中心自定义，用于混合数据，”信息科学，第345卷，第271-293页，2016。视图:出版商网站|谷歌学者
Xu J.， Han J.， and F. Nie，“multi-view clustering”，in计算机视觉与模式识别会议论文集，第5356-5364页，拉斯维加斯，内华达州，美国，2016年6月。视图:出版商网站|谷歌学者
P. Bholowalia和a . Kumar，“ebok -means:一种基于肘部方法和k-means的WSN聚类技术，”计算机应用第105卷第1期9, pp. 17-24, 2014。视图:谷歌学者
K. Siddiqi, J. Zhang, D. Macrini, A. Shokoufandeh, S. Bouix, and S. Dickinson，“利用中间表面检索铰接三维模型”，机器视觉及其应用，第19卷，第4期，第261-275页，2008年。视图:出版商网站|谷歌学者
P. Shilane, P. Min, M. Kazhdan，和T. Funkhouser，《普林斯顿形状基准》形状建模应用论文集，第167-178页，IEEE计算机学会出版社，热那亚，意大利，2004年6月。视图:出版商网站|谷歌学者
韩振中，尚明，杨生。Liu，和M. Zwicker，“视图间预测GAN:通过学习全局形状记忆来支持局部视图预测的3D形状的无监督表示学习，”AAAI人工智能会议论文集，第33卷，第1期，第8376-83842019页。视图:出版商网站|谷歌学者
马春梅，“基于LSTM的三维形状识别与检索方法研究”，IEEE多媒体汇刊第21卷第2期5，页1169-1182,2018。视图:出版商网站|谷歌学者
acta optica sinica, 2010, 31 (3): 369 - 372 . acta optica sinica, 2010, 31 (3): 372 - 372欧洲图形学三维物体检索研讨会论文集，第107-120页，瑞士苏黎世，2015年5月。视图:谷歌学者
Xie J. Xie, G. Dai, F. Zhu, E. K. Wong, and Y. Fang， " Deep shape: Deep - learning shape descriptor for 3D shape retrieval， "模式分析与机器智能学报第39卷第3期7, pp. 1335-1345, 2017。视图:出版商网站|谷歌学者
“基于学习的多视图卷积神经网络多池融合的三维模型分类与检索，”信息处理系统杂志，第15卷，第5期。5，页1179-1191,2019。视图:谷歌学者

复杂性

摘要