复杂性 复杂性 1099 - 0526 1076 - 2787 Hindawi 10.1155 / 2020/9050459 9050459 研究文章 一个高效的基于卷积神经网络的三维模型检索方法 https://orcid.org/0000 - 0003 - 3262 - 0119 Lei https://orcid.org/0000 - 0002 - 5156 - 651 x Yong-jun 宋庆龄 计算机科学与技术学院的 哈尔滨科技大学 哈尔滨150080 中国 hrbust.edu.cn 2020年 11 6 2020年 2020年 03 02 2020年 19 05年 2020年 11 6 2020年 2020年 版权©2020年博丁等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

最近的3 d模型检索基于视图已成为一个研究热点。在这种方法中,3 d模型表示为2 d射影观点的集合,它允许深度学习技术用于三维模型分类和检索。然而,当前的方法需要改进在精度和效率。要解决这些问题,我们提出一种新的三维模型检索方法,包括索引构建和模型检索。在索引构建阶段,预计3 d模型库生成大量的视图,然后代表视图选择和输入相关卷积神经网络(CNN)提取特征。接下来,特点是组织根据他们的标签来建立索引。在这个阶段中,视图用于代表3 d模型大幅减少的前提下保持足够的信息的三维模型。这种方法减少了相似性匹配的数量增加87.8%。在检索,输入模型的二维视图分为类别与CNN和投票算法,然后只有一个类别的特点,而不是选择所有类别进行相似性匹配。通过这种方式,减少检索的搜索空间。 In addition, the number of used views for retrieval is gradually increased. Once there is enough evidence to determine a 3D model, the retrieval process will be terminated ahead of time. The variable view matching method further reduces the number of similarity matching by 21.4%. Experiments on the rigid 3D model datasets ModelNet10 and ModelNet40 and the nonrigid 3D model dataset McGill10 show that the proposed method has achieved retrieval accuracy rates of 94%, 92%, and 100%, respectively.

中国国家自然科学基金 61673142 黑龙江省自然科学基金 JJ2019JQ0013 中国哈尔滨杰出青年人才基础 2017年rayxj013 大学护理程序为年轻学者与黑龙江省创新型人才 unpysct - 2016034 教育部,黑龙江省 12511096
1。介绍

最近,三维(3 d)模型已经广泛应用于计算机辅助设计(CAD)、虚拟现实(VR), 3 d动画和电影,医疗诊断,3 d网络游戏、机械制造等领域。特别是,随着3 d打印技术的发展,三维模型的应用已经成为各领域不可或缺的技术手段。因为越来越多的3 d模型和数字化工具越来越多的应用程序正在开发中,大量的三维模型已经成为Web上可用( 1]。通过网络,用户可以免费下载3 d模型根据他们的需求。这些模型修改和增量设计不仅可以降低产品成本和缩短设计时间,而且有效地提高产品的可靠性和质量。然而,很难找到所需的三维模型快速、准确地从大量可用的模型。三维模型检索技术可以解决上述问题;因此,这种技术已成为研究热点。

三维模型检索的一个重要问题是代表模型描述符。描述符描述三维模型准确有效地支持模型分类、索引构建和相似性匹配。三维模型描述符可以主要分为四类:几何投影( 2),统计分析( 3),架构( 4),和射影基于描述符( 5]。几何投影的三维模型描述符,3 d模型分为许多网格,然后提取三维模型的特征是由不同的数学网格模型的转换。最早的工作方法是前3 d ShapeNets [ 6),学习一个回旋的深层信念网络输出概率分布的二进制入住率体素值。之后,Maturana谢勒提出类似的方法,构建VoxNet实时目标识别( 7]。李等人采用领域探索神经网络(FPNNs) 3 d模型的提取特征。在这种方法中,3 d模型是第一个表示为体积的字段,然后实地调查过滤器是用来提取特征( 8]。吴等人提出一个新的框架命名为3 d生成对抗网络(3 d-gan),生成3 d对象的概率空间利用最新进展体积卷积网络和生成敌对的网。这种方法达到令人印象深刻的表现3 d对象识别( 9]。

统计分析三维模型描述符是一个不错的选择对于非刚性的3 d模型检索。最早的工作是三维旋转不变的球面谐波表示的三维形状描述符(SHP),这减少了维度的描述符和提供了一个更紧凑的表示 10]。太阳等人提出了热内核签名(香港)描述符来描述地方特色的非刚性的3 d模型。它是基于扩散尺度空间特征分析和三维表面的传热过程( 11]。香港描述符下不变的等距模型的变形和稳定的扰动下。它取得了良好的性能在非刚性的3 d模型检索。然而,它的规模变化敏感的3 d模型。奥布里等人提出了波内核签名(星期)描述符来描述非刚性的3 d模型,它描述了平均概率量子力学的非刚性的3 d模型表面上的位置。工作站类型描述符解释点之间的关系在不同的空间尺度上和其他模型的表面,和歧视的能力比香港的描述符( 12]。曾庆红等人使用工作站类型和香港代表3 d模型,然后构造两个卷积神经网络分别为香港分布和星期分布,并使用multifeature融合层连接。这multifeature融合学习方法可以实现良好的性能 13]。

架构的3 d模型描述符分析三维模型的拓扑结构提取拓扑连接和结构不同组件之间的关系。目前,这类方法主要包括属性邻接图(亚美大陆煤层气有限公司) 14),功能依赖图(FDG) [ 15),骨架图( 16),和啤酒图 17, 18]。目前的趋势是将三维模型的拓扑结构和多个视图。例如,苏等人提出了多视图CNN (MVCNN),以多视图图像的一个对象。该方法的潜在力量MVCNNs sketch-based形状检索( 19]。

基于射影观点的描述符是最有前途的,因为他们将三维模型转化成图像,使图像处理方法用于检索。在这种类型的描述符,光场描述符(最晚完成日期)是最受欢迎的,因为它是健壮的转换,噪音,和模式简并度 20.]。最晚完成日期,3 d模型预计将产生100二进制图像,这是为每个模型中呈现不同的观点。这个描述符表示三维模型比其他描述符,但它的时间复杂度是沉重的,因为图像用于匹配数量大。最近,这些方法将射影观点和深度学习取得了良好的性能。在这些方法中,深度学习模型训练从2 d视图中提取特征,使分类。例如,约翰等人提出成对将CNN通用的多视图识别方法,首先将一个图像序列分解为一组图像对,每一对独立分类,然后学习对象分类器的加权每一对的贡献( 21]。马等人提出一个方法提取二维泽尼克时刻从2 d投影视图的视图凸起。然后用来提高多视图的视图特点是CNN (VS-MVCNN) 3 d对象识别( 22]。DeepPano,用于表示全景三维模型,和CNN的目的是学习深表示直接从全景( 23]。类似的方法是PANORAMA-NN [ 24),也使用一个全景。此外,对冲基金和德使用FusionNet结合的表示2 d投影视图和模型的代表性体积学习新特性,该收益率明显比使用分类器隔离(表示的 25]。七等人进行综合研究分布cnn和多视图cnn对3 d对象分类( 26]。Elhoseiny等人探索CNN结构结合对象分类和姿势估计学习和多视图图像,这个方法需要一个图像作为输入的预测( 27]。Kanezaki等人改善这个方法聚合来自多个图像捕获的预测从不同的观点 28]。

我们可以看到,许多方法已经有效地应用于3 d模型识别。然而,有几个问题需要解决。首先,当前的方法时不考虑二维视图的相似性将3 d模型表示为2 d视图。如果相机在3 d模型是稀疏,射影观点不能完全描述三维模型。如果摄像头是密集,冗余的观点将生成,导致沉重的时间和空间复杂性。第二,固定数量的投影视图是用于相似性匹配,这也会导致较高的计算复杂度。解决上述问题,我们提出一种新颖的三维模型检索方法,即改进的指数构建和模型检索。索引中的建筑,3 d模型在图书馆首先被转换成二维射影观点提出使用投影方法。然后从这些2 d代表视图选择方法基于射影观点<我talic> K则。这种方法可以减少冗余的观点和提高检索的精度和效率。之后,代表性的观点是输入了CNN来提取特征,由其组织为索引标签。在检索,输入3 d模型首先由相同的方式处理中使用的索引构建获得代表观点。那么所有代表视图的模型分为一类由CNN和投票算法,然后只有一个类别的特点,而不是选择所有类别与这些代表特征进行相似性匹配。此外,我们提出一种新颖的相似匹配方法,视图检索的数量逐渐增加,直到足够的证据来确定一个3 d模型。因此,模型检索效率大幅提高。

2。提出的方法 2.1。总体方案

如图 1该方法的,整个过程可以分为三个步骤:(1)三维模型表示和CNN培训;(2)2 d代表视图提取和索引构建;(3)检索模型。在第一步中,3 d模型首先被转换成二维投影视图,然后这些2 d射影观点用于火车CNN。在本部分中,提出了一种投影法来生成视图。在第二步中,3 d模型首先被转换成二维投影视图使用相同的投影法,用于训练。这些视图选择方法的基础上<我talic> K则。最接近中心的观点自己的类别选为代表的意见。最后,这些代表视图输入学习了CNN建立特征提取和索引。第三步,输入可以是一个图像或一个3 d模型。如果输入是一个图像,直接进行分类和检索。如果输入是一个3 d模型,代表观点首先生成投影方法和代表视图选择方法,然后代表视图输入学习CNN分类和特征提取。所有代表视图的三维模型可以分为同一类别通过投票算法。最后,结果模型是通过变量视图中找到匹配的方法。

检索过程。

2.2。三维模型表示和CNN培训

如今,cnn已经广泛用于目标检测,场景识别、纹理识别,和细粒度的分类。CNN也使用该方法,因为CNN优于其他方法在我们的任务中,3 d模型和视图投影可以学习好的CNN足够大。

2.2.1。三维模型的多视图表示

这是一个关键步骤来表示三维模型到二维射影观点。的主要两个因素获得投影视图投影方法的选择和呈现方式。通过实验,我们采用基于区域划分的投影方法和基于multilight渲染方法来源。描述的步骤如下:

模型预处理:模型预处理的目的是规范化的3 d模型通过限制单位球。首先,最大和最小值在三个坐标方向通过收集模型的边界信息和遍历所有点的坐标。然后,扩展和计算模型的中心位置。最后,模型转换和缩放。预处理的模型图所示 2

选择投影点:摄像机部署在球面上集中在中心的3 d模型。球面分为四个统一的区域,用一个摄像机部署在每个地区的中心。其他相机位于等分线穿过中心。之间的角平分线是相等的。摄像机放在等分线位于中间点和中心点之间的边界。每个相机的镜头应该指向球体中心。相机的位置在每个区域如图 3

模型渲染:为了增加投影视图中包含的信息的数量,减少负面影响的阴影模型,我们采用冯氏照明模式 29日]呈现模型。首先,使用低强度的环境光,然后6个固定弱光源点(0,0,1),(0,0,−1),(0,1,0)(0,−1,0)、(1,0,0)和(−1,0,0)的部署。最后,一个更光明的点光源设置在每个摄像机的位置,打开视图时获得。六个弱光源及其位置如图 4

模型预处理。

配售的相机。

配售的六个固定弱光源。

在拟议的方法中,40个射影观点。该方法的比较和最小的致命剂量如图 5,我们的方法生成的视图如图 5(一个)由最晚完成日期,如图 5 (b)。我们可以看到,我们的方法获得的投影视图是一个灰度图像信息熵为0.462。相比之下,最晚完成日期的投影视图是一个二进制图像信息熵为0.287。因此,我们的方法包含更详细的功能。

比较两种投影的方法。

2.2.2。CNN的培训

近年来,美国有线电视新闻网(cnn)被广泛用于图像分类。目前,有很多的cnn,如VGG, GoogleNet ResNet, DenseNet。据报道,在ImageNet ResNet可以实现良好的性能。ResNet采用一种独特的“快捷连接”,可以有效地避免梯度消失,确保训练精度( 30.]。在我们的实验中,ResNet50实现更好的性能比其他类型的深层神经网络,这是用于特征提取和分类。ResNet50由49卷积层和一层完全连接。ResNet50的结构如表所示 1

ResNet50的结构。

层的名字 输出的大小 50-layer
Conv1 112年<我nl我ne-formula> × 112年 7<我nl我ne-formula> × 64,跨步2
56<我nl我ne-formula> × 56 3<我nl我ne-formula> × 3马克斯池,跨步2
Conv2_x 56<我nl我ne-formula> × 56 1 × 64 3 × 3,64 1 × 1256年 × 3
Conv3_x 28<我nl我ne-formula> × 28 1 × 1128年 3 × 3128年 1 × 1512年 × 4
Conv4_x 14×14 1 × 1256年 3 × 3256年 1 × 1024 × 6
Conv5_x 7<我nl我ne-formula> × 7 1 × 1512年 3 × 3512年 1 × 2048 × 3
1<我nl我ne-formula> × 1 池,平均1000 - d fc, softmax

失败 3.8<我nl我ne-formula> × 109
2.3。索引构建

是非常重要的建立索引以提高模型检索的效率。在这一部分中,首先代表视图选择算法,然后介绍了指数构建基于CNN。

2.3.1。代表视图选择基于K < /斜体>——<斜体>

数量2 d视图和投影角影响的代表性的3 d模型。在目前的方法中,大量的相机表面均匀分布的单位球获得2 d视图。这种方式不考虑模型表面的复杂性的差异。事实上,3 d模型的一部分大表面的复杂性需要更多的视图来表示,而部分小的表面复杂性可以用更少的视图表示。2 d视图预计目前的方法有大量的相似的看法,导致大量的冗余。因此,有必要从相似的看法只保留一个视图使观点更具有代表性。在本文中,我们提出一个方法来提取2 d代表观点。在这种方法中,<我talic> K则采用观点划分为不同的类别根据其相似性,然后从每个类别选择一个代表性观点。通过这种方式,不同的3 d模型可能产生不同数量的3 d视图。

作为一种无监督分类方法,聚类分类数据集没有标签为几个集群( 31日]。一个广泛使用的聚类算法<我talic> K——( 32]。它的优点是简单和局部最小值收敛性质。然而,它有一个缺点,集群的数量应该是手动设置。对于每一个3 d模型,该方法基于<我talic> K——实现如下:

步骤1:将三维模型转化为40 2 d射影观点部分的投影方法 2.2。1

步骤2:集群使用的这些2 d射影观点<我talic> K则

步骤3:选择最接近中心的观点自己的类别代表观点

当集群的2 d视图<我talic> K则,类别<我talic> K首先必须确定。根据实验,10 - 20视图可以获得良好的性能。因此,<我talic> K大概是设置为10 - 20,然后手肘( 33)方法用于确定的最终价值<我talic> K。如果一个3 d的2 d视图模型分为<我talic> K类别,<我talic> K2 d代表观点获得了三维模型的表示。

2.3.2。索引构建基于CNN

3 d模型的指标是由输入2 d代表观点到ResNet50然后组织根据其类别的输出特性。至于输入模型<我nl我ne-formula> 模型 ,它的代表观点<我nl我ne-formula> W 1 , W 2 , , W n 首先生成。然后,这些代表视图输入ResNet50学习。输出ResNet50 49层的特性,这些代表观点,用<我nl我ne-formula> F 1 , F 2 , , F n 。输出ResNet50 50层的这些代表视图的标签。在这种方法中,转化为三维模型的任务分类的分类视图。索引构建过程如图 6

索引构建过程。

2.4。模型检索

相似性匹配的任务是找到最相似的3 d模型根据输入数据集。输入可以是一个图像或一个3 d模型。如果输入是一个图像,直接提取特征和类别决定通过CNN。在一个类别,输出三维模型是通过以下方程:<说p-formula> (1) = 参数 最小值 , j W , F j , 在哪里<我nl我ne-formula> ()函数计算欧几里得距离,<我nl我ne-formula> W 输入图像的特点,<我nl我ne-formula> F j 的特征是<我talic> jth的观点<我talic> 我th模型,<我nl我ne-formula> 1 ,<我nl我ne-formula> 是模型的数量在一个类别,<我nl我ne-formula> 1 j n ,<我nl我ne-formula> n 的数量代表的意见吗<我talic> 我模型。该模型<我nl我ne-formula> 是输出结果。

如果输入是一个3 d模型,该模型实现了检索的三个步骤:(1)生成2 d代表视图;(2)输入这些观点为特征提取和分类CNN。所有代表视图的模型可能不是因为误分类分为同一类别,所以我们采用投票算法来确定一类的视图模型;(3)进行相似性匹配。为了提高匹配的效率,我们提出一个相似匹配方法使用变量视图数据。

让<我nl我ne-formula> 类别 _ 向量 表示向量的类别<我talic> cth元素指示视图分为的数量<我talic> c类别。<我nl我ne-formula> Category_Vector 初始化如下:<说p-formula> (2) Category_Vector = 0,0 , , 0 , 在哪里<我nl我ne-formula> Category_Vector 是一个<我talic> c -维向量对应的<我talic> c类别的模型库。当一个视图是分配给代表<我talic> cth类别,这个向量更新<说p-formula> (3) Category_Vector c = Category_Vector c + 1。

最后,模型的类别是由<说p-formula> (4) c = 参数 马克斯 Category_Vector c c

分类之后,总结了算法的检索过程 1。为了提高检索效率,我们设计一个灵活的检索策略:(1)如果一个输入视图和视图之间的距离的一个模型库是足够小,也就是说,<我nl我ne-formula> < η 这个模型,我们可以确保是我们需要的(输出模型);(2)如果有<我nl我ne-formula> C 阈值 代表观点属于同一模型在相同的类别,我们可以确保这个模型是我们需要的(输出模型);(3)如果代表观点与同一类别的不同模型,计算累积距离值。如果累积距离值最小的模型,该模型是输出模型。

<大胆>算法1:< /大胆>相似匹配算法。

输入:<我nl我ne-formula> W l 是代表视图的输入模型的特点,<我nl我ne-formula> l = 1、2、3 , , p ,

F j 的特征是<我talic> jth的观点<我talic> 我模型的数据集,

是模型的数量在一个类别,

n 的数量代表的意见吗<我talic> 我th模型,

η 最小距离,

Distance_Vector 是距离向量,<我nl我ne-formula> Distance_Vector = 0,0 , , 0 ,

计算向量,是用来记录视图分为每个类别的数量,<我nl我ne-formula> = 0,0 , , 0

输出:<我nl我ne-formula> 搜索 ,

搜索 = 1 ;

η = 1。5 ;

1 l 14

{

k 最小值 = 0 ;

最小值 = 1000000 ;

1

{

= 最小值 j W l , F j (<我talic> j= 1,2,…<我nl我ne-formula> < η );

如果 < η {<我nl我ne-formula> 搜索 = ;返回;}

Distance_Vector = Distance_Vector + ;

如果 < 最小值 {<我nl我ne-formula> k 最小值 = ;<我nl我ne-formula> 最小值 = ;

}

}

k 最小值 = k 最小值 + 1 ;

1

{

如果(<我nl我ne-formula> = C 阈值 ){<我nl我ne-formula> 搜索 = ;返回;}

}

}

如果(<我nl我ne-formula> 搜索 = 1 )<我nl我ne-formula> = 参数 最小值 Distance_Vector ;

返回 搜索 ;

3所示。实验和结果

进行的实验是在一个英特尔i5 8400 + GTX 1060电脑。该方法是基于MXNET框架实现的。ResNet50用于构建模型索引和实现模型的分类。该方法是评估在以下两个方面:模型分类和检索。

3.1。模型分类评价

在本节中,我们比较该方法与最先进的方法。评估了以下三维模型数据库:麦吉尔3 d形状指标( 34)(一种非刚性的三维模型数据集)和ModelNet10 ModelNet40 [ 35(两个刚性三维模型的数据集)。表 2显示这些数据集的详细信息。

三维模型的数据集。

三维模型数据集 模型
麦吉尔 255年 10
ModelNet10 4899年 10
ModelNet40 12311年 40

我们遵循的训练和测试将包括在ModelNet10 ModelNet40。ModelNet10由4899年10分类模型,和3991作为训练数据集和908模型作为测试数据集。ModelNet40由12311年40个类别模型,和9843作为训练数据集和2468模型作为测试数据集。在麦吉尔,有255模型。179 3 d模型随机选择培训和其余76 3 d模型的测试数据集。

的数据模型pretrained ImageNet ResNet50作为初始化参数。学习速率是设置为0.01。batch_size是根据GPU大小设置为32和培训效率。为了使损失函数收敛快,时代是设置为200。

3.1.1。代表视图选择

在拟议的投影法中,每一个3 d模型提出了40的观点。为了提高分类的效率和检索,代表性的观点从40投影视图中选择的方法部分 2.3。1。的数量代表的观点<我talic> K在分类精度有很大的影响。在实验中,<我talic> K设置为5、10、20、30日分别。该方法的分类错误的模型不同<我talic> K如表所示 3

分类错误的模型给予不同的<我talic> K。

K 5 10 20. 30.
麦吉尔 0 0 0 0
ModelNet10 77年 62年 56 55
ModelNet40 212年 191年 182年 183年

在麦吉尔,等等<我talic> K是,没有更进一步的模型。被误诊的数量模型ModelNet10和ModelNet40减少<我talic> K变得更大。当<我talic> K是5,模型分类错误的数量是最大的。当<我talic> K超过20个,错误分类模型的数量慢慢减少。根据这个结果,我们设置的范围<我talic> K( 10, 20.]。

该方法的性能在不同的数据集和不同条件下表所示 4。以ModelNet10为例,有908模型训练集,每个模型都有40 2 d视图之前代表视图的选择。然后2 d视图的数量是36320 (908×40)。代表视图选择后,每个模型都有大约14 2 d视图,所以2 d视图的数量是12742。分类精度不变之前和之后使用代表视图选择方法。

观点和分类精度(%)。

麦吉尔 ModelNet10 ModelNet40
之前 之前 之前
的观点 960年 362年 36320年 12742年 98720年 34526年
精度 One hundred. One hundred. 94.10 94.10 92.90 92.0

我们可以看到从表 4我们代表视图选择方法不会引起性能下降在麦吉尔和ModelNet10。分类精度上ModelNet40后我方代表视图选择只减少了0.9%。应该注意的是,我们的代表视图选择可以显著降低视图来约1/3的数量。小数量的观点导致更高的3 d模型分类和检索的效率。以下部分实验采用代表视图模型分类和检索。对于每个模式,大约14射影观点足以获得良好的性能。

3.1.2。比较基于视图的分类算法

我们比较该方法与一些传统的方法,结果如表所示 5。我们可以看到,该方法取得了最佳性能在ModelNet10,识别精度94.10%。此外,它取得了ModelNet40识别精度92%,也就是比VS-MVCNN低0.9%。尽管VS-MVCNN优于该方法,它需要80的浏览量。

分类精度与其他方法相比(%)。

算法 的观点 ModelNet10 ModelNet40
DeepPano [ 23] 1 88.66 82.54
PANORAMA-NN [ 24] 1 91.10 90.70
成对[ 21] 12 93.20 91.10
FusionNet [ 25] 60 93.11 90.80
VS-MVCNN [ 22] 80年 93.50 92.90
我们的 14 94.10 92.00

我们的方法可以识别精度达到100%麦吉尔(如图 7)。这表明该方法表现良好刚性和非刚性的3 d数据集。

麦吉尔的分类结果。

3.1.3。分类结果分析

该方法的混淆矩阵ModelNet10如图 8。我们可以看到,该方法可以达到100%的精度类床,椅子,和监控,超过90%的准确性浴缸的类,书桌,沙发,和厕所,和不到90%的准确性类的梳妆台,night_stand和表(分别为88%,84%,83%)。表类的精度是最糟糕的,有15%的模型并被错误地归类为桌子的阶级和2%的模型并被错误地归类为night_stand类。原因是模型在表类和模型在办公桌类非常相似。

ModleNet10分类结果。

我们可以看到从图 9在梳妆台的模型类和night_stand类非常类似,导致误分类。这些模型的误分类为用户并不重要,因为两个模型都是相同或相似的足够了。

类似的模型在不同的类别。

我们的方法的优点是,它可以获得高精度给少量的观点。特别是在麦吉尔,识别精度为100%。原因是有伟大的麦吉尔的类之间的差异,和多个视图可以更好的代表从不同角度的3 d模型,导致性能优越。然而,在ModelNet10 ModelNet40,该方法没有良好的性能在某些类,如表类和办公桌类,或night_stand类和梳妆台类。原因是没有明显区别ModelNet10的类,以及ModelNet40。很容易犯错误分类方法。

3.2。检索实验

我们的检索方法是基于分类结果。输入前分类相似度匹配。的优势是输入和模型之间的相似度计算在一个类别,而不是所有类别,所以它可以大大减少搜索范围和计算复杂性。在下一节中,相似性匹配方法计算和分析了刚性数据集和非刚性的数据集,分别。

3.2.1之上。严格的数据集的检索实验

我们的形状描述符进行比较对球函数描述符(SPH) [ 10),最晚完成日期( 20.),3 d ShapeNets [ 6],DeepPano [ 23],PANORAMA-NN [ 24帧间预测GAN),视图(VIPGAN) [ 36和马等的方法 37]。意味着平均精度(MAP)的结果如表所示 6。我们可以看到地图的方法显然是高于其他方法。有两个原因:(1)分类检索,因为之前是由提出的分类方法的精度足够高,以确保良好的检索精度,和(2)采用投票机制。一些观点的输入模型由于其高相似很容易被误诊。通过投票机制,这些分类错误的观点可以正确地重新分类。

该方法和其他方法的比较(地图,%)。

算法 数据集
ModelNet10 ModelNet40
主任( 10] 45.9 34.4
最晚完成日期( 20.] 49.8 40.9
3 d ShapeNets [ 6] 69.2 59.9
DeepPano [ 23] 84.2 76.8
PANORAMA-NN [ 24] 87.4 83.5
VIPGAN [ 36] 90.6 89.2
马等。 37] 93.1 84.3
我们的 94.1 92.0

precision-recall曲线如图 10 11。我们可以看到,我们的方法优于其他先进的方法。precision-recall曲线的方法是稳定的,而其他方法逐渐减少与增加的回忆。把图 10作为一个例子,召回率小于0.2时,PANORAMA-NN和马等的方法比我们的方法执行。然而,召回率大于0.9时,两种方法的精确率迅速下降。特别是,马等的精确率的方法降低到0.1时,召回率接近1。DeepPano precision-recall曲线和VIPGAN相似时该方法的召回率小于0.9。然而,他们的精确率迅速降低时,召回率接近1。SPH执行最坏的打算。最晚完成日期是略优于主任。中间的3 d ShapeNets这八种方法。这三种方法的精确率降低和召回的增加从1到0。

ModelNet10 precision-recall曲线对各种方法的比较。

ModelNet40 precision-recall曲线对各种方法的比较。

3.2.2。为非刚性的数据集检索实验

使用非刚性的数据集是麦吉尔。我们比较热内核方法签名(香港) 11),波内核签名(星期) 12),CBoFHKS ( 38),歧视autoencoder-based形状描述符(DASD) [ 39学习(MFFL) [], multifeature融合 13),上优于多池融合(LMPF) [ 40]。表 7显示检索结果以最近邻(NN),第一层(英尺)、二线(ST)和折扣累积获得(常规心电图)。

麦吉尔的性能比较。

方法 神经网络 英国《金融时报》 常规心电图
香港( 11] 0.8190 0.6220 0.7440 0.8270
周内( 12] 0.9140 0.7750 0.8660 0.9140
CBoFHKS [ 38] 0.9010 0.7780 0.8760 0.8910
DASD ( 39] 0.9880 0.7820 0.8340 0.9550
MFFL [ 13] 0.9710 0.9050 0.9810 0.9630
LMPF [ 40] 0.9810 0.8610 0.9594 0.9579
我们的 1.0000 1.0000 1.0000 1.0000

我们可以看到从表 7我们的方法在神经网络达到最佳性能,英国《金融时报》,圣,常规心电图的措施。和非刚性的数据集上的该方法的性能优于刚性的数据集。原因是我们使用训练有素的CNN在麦吉尔分类模型。分类精度为100%,所以检索精度也是100%。总之,我们的方法获得良好的性能在刚性和非刚性的数据集。

3.2.3。检索效率分析

实验表明,相似度匹配中消耗时间最多的3 d模型检索。以ModelNet10为例,有908模型在测试集和3991模型的训练集,每个模型都有40视图,所以测试集包含36320的浏览量和训练集包含159640的浏览量。如果所有视图用于相似性匹配,时间复杂度很大。表 8显示的比较观点之前和之后的数量代表ModelNet10视图选择。

视图之前和之后的数量代表视图选择。

数据集 之前
平均 平均
测试集 36320年 40 12742年 14
训练集 159640年 40 56613年 14

我们可以看到视图测试集的数量从36320年到12742年减少和训练集的视图数量减少通过代表视图选择从159640年到56613年。认为数字是代表视图选择后减少了2/3,所以这种方法可以有效地减少冗余的观点和大大提高检索效率。

在ModelNet10,训练集由3991模型,这些模型分为10类,每个类组成的399年平均模型。应用代表视图选择后,相似性匹配的数量从638400减少399(40××40)到78204(399××14)(减少了87.8%)。

变量视图匹配方法可以进一步提高匹配效率。在这篇文章中,<我nl我ne-formula> η 的相似性定义为两种观点所产生的两个相邻投影点相同的模型。我们称之为<我nl我ne-formula> η 为相邻视图的距离。较小的<我nl我ne-formula> η 是,精度越高。我们以ModelNet10为例来分析<我nl我ne-formula> η 在我们的投影方法。相邻投影点在图所示 12

相邻投影点。

实验表明,任何两个视图的相邻视图的距离是不同的。在同一类别中,最小相邻视图距离是选为代表形成相邻的列表视图的距离。表 9显示了平均相邻视图距离时为每个类别选择不同数量的模型。把浴缸类作为一个例子,当模型数量是1,最小邻近距离是1.705视图。当模型数量是20,平均距离是1.995相邻视图。相邻视图表类的距离是最小的,床的类是最大的。原因是模型的复杂性是不同的。表类的模型很简单,虽然床类的模型比其他人更为复杂。表的最后一行 9显示所有类别的平均距离相邻视图与模型数量的20日10日5和1。我们可以看到,当模型的数量是1,平均距离最小为1.6418相邻视图。当模型的数量是20,相邻视图距离是最大的平均年龄是1.8572岁。为了提高三维模型检索的效率和精度,<我nl我ne-formula> η 设置为1.5。

平均距离相邻视图。

类别 型号
20. 10 5 1
浴缸 1.995 1.897 1.774 1.705
床上 2.304 2.259 2.221 2.186
椅子 1.627 1.546 1.430 1.351
桌子上 2.142 2.052 1.980 1.900
梳妆台 2.145 2.091 2.050 1.986
监控 1.700 1.666 1.637 1.581
Night_stand 1.995 1.920 1.857 1.741
沙发 1.948 1.900 1.859 1.796
0.751 0.531 0.485 0.441
厕所。。。 1.965 1.895 1.820 1.731
平均 1.857 1.775 1.7113 1.641

在算法 1,有三个条件完成相似性匹配。在三个条件下使用的视图数字是1,5日和14日,也就是说,<我nl我ne-formula> C 阈值 是设置为5。结果在ModelNet10如表所示 10,在那里<我nl我ne-formula> η 是1.5。例如,在浴缸里,有三个模型条件下1。也就是说,这三个模型可以通过只使用一个视图检索。还有4模型条件下2和43模型条件下3。如果我们不使用变量视图匹配,检索所有模型通过使用14的观点。在ModelNet10,如果我们使用变量视图匹配,所有视图的数量是10267(132 + 405 + 9730),而传统的方法是12742。观点的数量减少了2475人。也就是说,每个模型的视图检索的平均数量减少到11。通过变量视图匹配,平均每个模型的相似性匹配数量约61446(399年11××14)。只有使用代表视图选择方法相比,相似度匹配的数量进一步减少了21.4%。

数字在不同条件下的模型。

类别 条件1(1把) 条件2(5视图) 条件3视图(14) 传统方法(14视图)
浴缸 3 4 43 50
床上 10 3 87年 One hundred.
椅子 18 16 66年 One hundred.
桌子上 3 3 80年 86年
梳妆台 12 10 64年 86年
监控 8 4 88年 One hundred.
Night_stand 10 15 61年 86年
沙发 11 5 84年 One hundred.
4 9 87年 One hundred.
厕所。。。 53 12 35 One hundred.
模型 132年 81年 695年 908年
的观点 132年 405年 9730年 12712年
4所示。结论

与3 d模型的增加,检索准确性和效率的退化成为三维模型检索系统的一个严重的问题。提出了一种有效的三维模型检索方法。提高效率的方法在三个方面:(1)高效的索引构建通过代表视图选择和特征提取与CNN。然后特性是组织通过他们的标签。这样,3 d模型更有效的表示和使用视图的数量大幅减少。(2)相似度匹配的数量减少分类检索。在检索,输入模型的二维视图分为一类CNN和投票机制,然后,只有这类的特点,而不是所有类别,选择相似度匹配。(3)提出了变量视图匹配方法。的检索模型可以提前终止。我们建议的方法是改善的准确性在两个方面:(1)输入模型之前的分类检索。 Our classification method obtains good performance, so the retrieval accuracy and efficiency are guaranteed. (2) The voting mechanism is used to classify input 3D models. Through the voting mechanisms, the misclassified views can be reclassified correctly.

虽然拟议的3 d模型检索方法展示了伟大的准确性和效率的提高,类似的3 d模型容易被误诊。因此,我们将研究如何提高模型表示的歧视在我们未来的工作。

数据可用性

之前报道ModelNet10和ModelNet40数据用于支持这项研究和可用 http://modelnet.cs.princeton.edu/。这些先前的研究(和数据)援引文本中有关地方文献[ 20.]。麦吉尔的3 d形状基准数据是用来支持这项研究和可用 http://www.cim.mcgill.ca/∼形状/基准。这些先前的研究(和数据)援引文本中有关地方文献[ 19]。我们也把它叫做麦吉尔和McGill10在我们的纸上。

的利益冲突

作者宣称没有利益冲突。

确认

本研究在一定程度上支持中国的国家自然科学基金(61673142)、中国黑龙江省自然科学基金(JJ2019JQ0013),中国哈尔滨的杰出青年人才基础(2017 rayxj013),大学护理程序对于年轻学者与黑龙江省创新型人才(unpysct - 2016034),黑龙江省的基础教育部门(12511096)。

朋友 P。 戈什 K·K。 评估数字化复杂的产品实现过程的努力 国际先进制造技术杂志》上 2018年 95年 9 - 12 3717年 3730年 10.1007 / s00170 - 017 - 1442 - 3 2 - s2.0 - 85038352794 一个。 首歌 年代。 Niessner M。 费雪 M。 J。 Funkhouser T。 3 dmatch:学习当地的几何描述符从RGB-D重建 《IEEE计算机视觉与模式识别会议 2017年7月 美国檀香山,嗨 1802年 1811年 10.1109 / cvpr.2017.29 2 - s2.0 - 85040244040 Ahrend 医学博士。 强烈逆风 H。 Shanmugam R。 开发通用亚洲骨盆骨模型使用CT-based 3 d统计建模 骨科杂志》的翻译 2020年 20. One hundred. 106年 10.1016 / j.jot.2019.10.004 年代。 Z。 l 年代。 年代。 Y。 部分检索的CAD模型基于局部表面区域分解 计算机辅助设计 2013年 45 11 1239年 1252年 10.1016 / j.cad.2013.05.008 2 - s2.0 - 84879823036 Z。 M。 Z。 SeqViews2SeqLabels:学习3 d的全球特性通过聚合顺序视图通过RNN的注意 IEEE图像处理 2019年 28 2 658年 672年 10.1109 / tip.2018.2868426 2 - s2.0 - 85052842548 z R。 首歌 s R。 科斯拉 一个。 3 d ShapeNets:深表示体积形状 《IEEE计算机视觉与模式识别会议 2015年6月 波士顿,美国 国际工程师协会下属的计算机协会的新闻 1912年 1920年 10.1109 / cvpr.2015.7298801 2 - s2.0 - 84949636429 Maturana D。 谢勒 年代。 Voxnet: 3 d卷积神经网络实时目标识别 《IEEE / RSJ智能机器人和系统国际会议(——) 2015年9月 德国汉堡 922年 928年 10.1109 / iros.2015.7353481 2 - s2.0 - 84958159870 Y。 Pirk 年代。 H。 FPNN:实地调查3 d数据的神经网络 诉讼进展的神经信息处理系统(少量) 2016年12月 西班牙巴塞罗那 307年 315年 J。 C。 T。 学习概率的潜在空间对象形状通过3 d generative-adversarial建模 诉讼进展的神经信息处理系统(少量) 2016年12月 西班牙巴塞罗那 82年 90年 Kazhdan M。 Funkhouser T。 Rusinkiewicz 年代。 旋转不变的球面谐波表示的三维形状描述符 6 学报》研讨会上几何处理 2003年6月 德国亚琛 156年 164年 太阳 J。 Ovsjanikov M。 Guibas l 简洁而证实信息多尺度签名基于热扩散 计算机图形学论坛 2009年 28 5 1383年 1392年 10.1111 / j.1467-8659.2009.01515.x 2 - s2.0 - 70049104712 奥布里 M。 Schlickewei U。 克莱莫 D。 波内核签名:量子力学形状分析方法 《IEEE计算机视觉国际会议研讨会 2011年11月 西班牙巴塞罗那 1626年 1633年 10.1109 / iccvw.2011.6130444 2 - s2.0 - 84856637531 H。 Y。 年代。 J.-Y。 X。 卷积神经网络基于特征融合的非刚性的3 d模型检索 杂志的信息处理系统 2018年 14 1 176年 190年 N。 Jensfelt P。 Folkesson J。 通过邻接图3 d数据的查询 国际会议的程序在计算机视觉系统中 2015年7月 丹麦哥本哈根 243年 252年 在计算机科学的课堂讲稿 10.1007 / 978 - 3 - 319 - 20904 - 3 - _23 2 - s2.0 - 84949036031 B。 Z。 x Y。 Y.-B。 基于GA-ACO 3 d CAD模型检索 2 《IFOST 2013年7月 蒙古的乌兰巴托 36 41 10.1109 / ifost.2013.6616917 2 - s2.0 - 84887964689 H。 J。 J。 J。 检测层次内在对称结构的3 d模型 计算机与图形学 2018年 70年 8 16 10.1016 / j.cag.2017.07.035 2 - s2.0 - 85027685086 一个。 Z。 W。 Y。 基于视图设置特征提取和匹配的三维模型检索 信息科学 2015年 320年 429年 442年 10.1016 / j.ins.2015.04.042 2 - s2.0 - 84937519918 Karmakar N。 Biswas 一个。 Bhowmick P。 啤酒的基于图分割的三维数字对象的组件 理论计算机科学 2016年 624年 25 40 10.1016 / j.tcs.2015.11.013 2 - s2.0 - 84962240795 H。 Maji 年代。 Kalogerakis E。 Learned-Miller E。 多视点卷积神经网络对3 d形状识别 2015年国际会议上计算机视觉学报》上 2015年12月 圣地亚哥,智利 945年 953年 10.1109 / iccv.2015.114 2 - s2.0 - 84973882748 D.-Y。 X.-P。 Y.-T。 Ouhyoung M。 基于视觉相似的三维模型检索 计算机图形学论坛 2003年 22 3 223年 232年 10.1111 / 1467 - 8659.00669 2 - s2.0 - 0141504437 约翰 E。 Leutenegger 年代。 戴维森 a·J。 成对地分解了活跃的多视点图像序列的识别 《IEEE计算机视觉与模式识别会议 2016年7月 美国内华达州拉斯维加斯 国际工程师协会下属的计算机协会的新闻 3813年 3822年 10.1109 / cvpr.2016.414 2 - s2.0 - 84986327453 y . X。 B。 y L。 提高多视点卷积神经网络对3 d对象识别通过视图凸起 《中国会议上图像和图形技术 2017年6月 中国,北京 施普林格 199年 209年 B。 年代。 Z。 X。 三维形状识别DeepPano:深度全景表示 IEEE信号处理信件 2015年 22 12 2339年 2343年 10.1109 / lsp.2015.2480802 2 - s2.0 - 84960469741 Sfikas K。 Theoharis T。 Pratikakis 我。 利用全景表示卷积神经网络分类和检索 学报第十Eurographics研讨会3 d对象检索 2017年4月 法国里昂 1 7 对冲基金 V。 R。 FusionNet: 3 d对象分类使用多个数据表示 学报第六届国际会议上学习表示(ICLR) 2018年5月 加拿大温哥华 1 10 c·R。 H。 Niessner M。 一个。 杨ydF4y2Ba M。 Guibas l . J。 体积和多视点cnn对3 d数据对象分类 学报》第29届IEEE计算机视觉与模式识别会议(CVPR) 2016年6月 美国内华达州拉斯维加斯 5648年 5656年 10.1109 / cvpr.2016.609 2 - s2.0 - 84986309307 Elhoseiny M。 El-Gaaly T。 Bakry 一个。 多视图CNN模型的比较分析和研究联合对象分类和姿态估计 美国第33机器学习(ICML)国际会议上 2016年6月 纽约,纽约,美国 1402年 1422年 Kanezaki 一个。 松下 Y。 Nishida Y。 RotationNet:联合对象分类和姿势估计使用multiviews方法从无人监督的观点 学报2018年IEEE / CVF计算机视觉与模式识别会议 2018年6月 美国犹他盐湖城 5010年 5019年 10.1109 / cvpr.2018.00526 2 - s2.0 - 85055492477 吸引 s M。 s . H。 j·S。 J.-O。 改善环境光颜色恒常性环境使用冯氏反射模型 IEEE图像处理 2017年 27 4 1862年 1877年 10.1109 / tip.2017.2785290 2 - s2.0 - 85040060866 K。 X。 年代。 深层残留图像识别的学习 《IEEE计算机视觉与模式识别会议(CVPR) 2016年6月 美国内华达州拉斯维加斯 770年 778年 10.1109 / cvpr.2016.90 2 - s2.0 - 84986274465 J.-Y。 h。 一个快速density-based数据流聚类算法与聚类中心自主的混合数据 信息科学 2016年 345年 271年 293年 10.1016 / j.ins.2016.01.071 2 - s2.0 - 84960084190 J。 J。 F。 有区别地嵌入k - means视点集群 《IEEE计算机视觉与模式识别会议 2016年6月 美国内华达州拉斯维加斯 5356年 5364年 10.1109 / cvpr.2016.578 2 - s2.0 - 84986309929 Bholowalia P。 库马尔 一个。 EBK-means:基于肘法和k - means聚类技术在传感器网络 计算机应用 2014年 105年 9 17 24 Siddiqi K。 J。 Macrini D。 Shokoufandeh 一个。 Bouix 年代。 迪金森 年代。 使用内侧表面的3 d模型检索 机器视觉和应用程序 2008年 19 4 261年 275年 10.1007 / s00138 - 007 - 0097 - 8 2 - s2.0 - 44349170022 Shilane P。 最小值 P。 Kazhdan M。 Funkhouser T。 普林斯顿形状基准 学报的形状建模应用程序 2004年6月 意大利的热那亚 国际工程师协会下属的计算机协会的新闻 167年 178年 10.1109 / smi.2004.1314504 2 - s2.0 - 6344252949 Z。 M。 Y.-S。 茨威格 M。 帧间预测GAN:无监督学习3 d形状表示通过学习预测全球形状记忆支持本地视图 人工智能学报AAAI会议 2019年 33 1 8376年 8384年 10.1609 / aaai.v33i01.33018376 C。 Y。 J。 一个 W。 学习多视点与LSTM表示三维形状识别和检索 IEEE多媒体 2018年 21 5 1169年 1182年 10.1109 / tmm.2018.2875512 2 - s2.0 - 85055024142 丽安 Z。 Godil 一个。 Fabry T。 SHREC 10跟踪:非刚性的三维形状检索 诉讼Eurographics车间3 d对象的检索 2015年5月 瑞士苏黎世 107年 120年 J。 G。 F。 e·K。 Y。 深形状:deep-learned形状描述符对3 d形状检索 IEEE模式分析与机器智能 2017年 39 7 1335年 1345年 10.1109 / tpami.2016.2596722 2 - s2.0 - 85020399690 H。 Q。 l 首歌 W。 上优于多个池融合多视点卷积神经网络对3 d模型分类和检索 杂志的信息处理系统 2019年 15 5 1179年 1191年