最近的3 d模型检索基于视图已成为一个研究热点。在这种方法中,3 d模型表示为2 d射影观点的集合,它允许深度学习技术用于三维模型分类和检索。然而,当前的方法需要改进在精度和效率。要解决这些问题,我们提出一种新的三维模型检索方法,包括索引构建和模型检索。在索引构建阶段,预计3 d模型库生成大量的视图,然后代表视图选择和输入相关卷积神经网络(CNN)提取特征。接下来,特点是组织根据他们的标签来建立索引。在这个阶段中,视图用于代表3 d模型大幅减少的前提下保持足够的信息的三维模型。这种方法减少了相似性匹配的数量增加87.8%。在检索,输入模型的二维视图分为类别与CNN和投票算法,然后只有一个类别的特点,而不是选择所有类别进行相似性匹配。通过这种方式,减少检索的搜索空间。 In addition, the number of used views for retrieval is gradually increased. Once there is enough evidence to determine a 3D model, the retrieval process will be terminated ahead of time. The variable view matching method further reduces the number of similarity matching by 21.4%. Experiments on the rigid 3D model datasets ModelNet10 and ModelNet40 and the nonrigid 3D model dataset McGill10 show that the proposed method has achieved retrieval accuracy rates of 94%, 92%, and 100%, respectively.
最近,三维(3 d)模型已经广泛应用于计算机辅助设计(CAD)、虚拟现实(VR), 3 d动画和电影,医疗诊断,3 d网络游戏、机械制造等领域。特别是,随着3 d打印技术的发展,三维模型的应用已经成为各领域不可或缺的技术手段。因为越来越多的3 d模型和数字化工具越来越多的应用程序正在开发中,大量的三维模型已经成为Web上可用(
三维模型检索的一个重要问题是代表模型描述符。描述符描述三维模型准确有效地支持模型分类、索引构建和相似性匹配。三维模型描述符可以主要分为四类:几何投影(
统计分析三维模型描述符是一个不错的选择对于非刚性的3 d模型检索。最早的工作是三维旋转不变的球面谐波表示的三维形状描述符(SHP),这减少了维度的描述符和提供了一个更紧凑的表示
架构的3 d模型描述符分析三维模型的拓扑结构提取拓扑连接和结构不同组件之间的关系。目前,这类方法主要包括属性邻接图(亚美大陆煤层气有限公司)
基于射影观点的描述符是最有前途的,因为他们将三维模型转化成图像,使图像处理方法用于检索。在这种类型的描述符,光场描述符(最晚完成日期)是最受欢迎的,因为它是健壮的转换,噪音,和模式简并度
我们可以看到,许多方法已经有效地应用于3 d模型识别。然而,有几个问题需要解决。首先,当前的方法时不考虑二维视图的相似性将3 d模型表示为2 d视图。如果相机在3 d模型是稀疏,射影观点不能完全描述三维模型。如果摄像头是密集,冗余的观点将生成,导致沉重的时间和空间复杂性。第二,固定数量的投影视图是用于相似性匹配,这也会导致较高的计算复杂度。解决上述问题,我们提出一种新颖的三维模型检索方法,即改进的指数构建和模型检索。索引中的建筑,3 d模型在图书馆首先被转换成二维射影观点提出使用投影方法。然后从这些2 d代表视图选择方法基于射影观点<我talic> K则。这种方法可以减少冗余的观点和提高检索的精度和效率。之后,代表性的观点是输入了CNN来提取特征,由其组织为索引标签。在检索,输入3 d模型首先由相同的方式处理中使用的索引构建获得代表观点。那么所有代表视图的模型分为一类由CNN和投票算法,然后只有一个类别的特点,而不是选择所有类别与这些代表特征进行相似性匹配。此外,我们提出一种新颖的相似匹配方法,视图检索的数量逐渐增加,直到足够的证据来确定一个3 d模型。因此,模型检索效率大幅提高。
如图
检索过程。
如今,cnn已经广泛用于目标检测,场景识别、纹理识别,和细粒度的分类。CNN也使用该方法,因为CNN优于其他方法在我们的任务中,3 d模型和视图投影可以学习好的CNN足够大。
这是一个关键步骤来表示三维模型到二维射影观点。的主要两个因素获得投影视图投影方法的选择和呈现方式。通过实验,我们采用基于区域划分的投影方法和基于multilight渲染方法来源。描述的步骤如下:
模型预处理:模型预处理的目的是规范化的3 d模型通过限制单位球。首先,最大和最小值在三个坐标方向通过收集模型的边界信息和遍历所有点的坐标。然后,扩展和计算模型的中心位置。最后,模型转换和缩放。预处理的模型图所示
选择投影点:摄像机部署在球面上集中在中心的3 d模型。球面分为四个统一的区域,用一个摄像机部署在每个地区的中心。其他相机位于等分线穿过中心。之间的角平分线是相等的。摄像机放在等分线位于中间点和中心点之间的边界。每个相机的镜头应该指向球体中心。相机的位置在每个区域如图
模型渲染:为了增加投影视图中包含的信息的数量,减少负面影响的阴影模型,我们采用冯氏照明模式
模型预处理。
配售的相机。
配售的六个固定弱光源。
在拟议的方法中,40个射影观点。该方法的比较和最小的致命剂量如图
比较两种投影的方法。
近年来,美国有线电视新闻网(cnn)被广泛用于图像分类。目前,有很多的cnn,如VGG, GoogleNet ResNet, DenseNet。据报道,在ImageNet ResNet可以实现良好的性能。ResNet采用一种独特的“快捷连接”,可以有效地避免梯度消失,确保训练精度(
ResNet50的结构。
| 层的名字 | 输出的大小 | 50-layer |
|---|---|---|
| Conv1 | 112年<我nl我ne-formula>
|
7<我nl我ne-formula>
|
| 56<我nl我ne-formula>
|
3<我nl我ne-formula>
|
|
| Conv2_x | 56<我nl我ne-formula>
|
|
| Conv3_x | 28<我nl我ne-formula>
|
|
| Conv4_x | 14×14 |
|
| Conv5_x | 7<我nl我ne-formula>
|
|
| 1<我nl我ne-formula>
|
池,平均1000 - d fc, softmax | |
|
|
||
| 失败 | 3.8<我nl我ne-formula>
|
|
是非常重要的建立索引以提高模型检索的效率。在这一部分中,首先代表视图选择算法,然后介绍了指数构建基于CNN。
数量2 d视图和投影角影响的代表性的3 d模型。在目前的方法中,大量的相机表面均匀分布的单位球获得2 d视图。这种方式不考虑模型表面的复杂性的差异。事实上,3 d模型的一部分大表面的复杂性需要更多的视图来表示,而部分小的表面复杂性可以用更少的视图表示。2 d视图预计目前的方法有大量的相似的看法,导致大量的冗余。因此,有必要从相似的看法只保留一个视图使观点更具有代表性。在本文中,我们提出一个方法来提取2 d代表观点。在这种方法中,<我talic> K则采用观点划分为不同的类别根据其相似性,然后从每个类别选择一个代表性观点。通过这种方式,不同的3 d模型可能产生不同数量的3 d视图。
作为一种无监督分类方法,聚类分类数据集没有标签为几个集群(
步骤1:将三维模型转化为40 2 d射影观点部分的投影方法
步骤2:集群使用的这些2 d射影观点<我talic> K则
步骤3:选择最接近中心的观点自己的类别代表观点
当集群的2 d视图<我talic>
K则,类别<我talic>
K首先必须确定。根据实验,10 - 20视图可以获得良好的性能。因此,<我talic>
K大概是设置为10 - 20,然后手肘(
3 d模型的指标是由输入2 d代表观点到ResNet50然后组织根据其类别的输出特性。至于输入模型<我nl我ne-formula>
索引构建过程。
相似性匹配的任务是找到最相似的3 d模型根据输入数据集。输入可以是一个图像或一个3 d模型。如果输入是一个图像,直接提取特征和类别决定通过CNN。在一个类别,输出三维模型是通过以下方程:<说p-formula>
如果输入是一个3 d模型,该模型实现了检索的三个步骤:(1)生成2 d代表视图;(2)输入这些观点为特征提取和分类CNN。所有代表视图的模型可能不是因为误分类分为同一类别,所以我们采用投票算法来确定一类的视图模型;(3)进行相似性匹配。为了提高匹配的效率,我们提出一个相似匹配方法使用变量视图数据。
让<我nl我ne-formula>
最后,模型的类别是由<说p-formula>
分类之后,总结了算法的检索过程
{
{
}
}
{
}
}
进行的实验是在一个英特尔i5 8400 + GTX 1060电脑。该方法是基于MXNET框架实现的。ResNet50用于构建模型索引和实现模型的分类。该方法是评估在以下两个方面:模型分类和检索。
在本节中,我们比较该方法与最先进的方法。评估了以下三维模型数据库:麦吉尔3 d形状指标(
三维模型的数据集。
| 三维模型数据集 | 模型 | 类 |
|---|---|---|
| 麦吉尔 | 255年 | 10 |
| ModelNet10 | 4899年 | 10 |
| ModelNet40 | 12311年 | 40 |
我们遵循的训练和测试将包括在ModelNet10 ModelNet40。ModelNet10由4899年10分类模型,和3991作为训练数据集和908模型作为测试数据集。ModelNet40由12311年40个类别模型,和9843作为训练数据集和2468模型作为测试数据集。在麦吉尔,有255模型。179 3 d模型随机选择培训和其余76 3 d模型的测试数据集。
的数据模型pretrained ImageNet ResNet50作为初始化参数。学习速率是设置为0.01。batch_size是根据GPU大小设置为32和培训效率。为了使损失函数收敛快,时代是设置为200。
在拟议的投影法中,每一个3 d模型提出了40的观点。为了提高分类的效率和检索,代表性的观点从40投影视图中选择的方法部分
分类错误的模型给予不同的<我talic> K。
|
|
5 | 10 | 20. | 30. |
|---|---|---|---|---|
| 麦吉尔 | 0 | 0 | 0 | 0 |
| ModelNet10 | 77年 | 62年 | 56 | 55 |
| ModelNet40 | 212年 | 191年 | 182年 | 183年 |
在麦吉尔,等等<我talic>
K是,没有更进一步的模型。被误诊的数量模型ModelNet10和ModelNet40减少<我talic>
K变得更大。当<我talic>
K是5,模型分类错误的数量是最大的。当<我talic>
K超过20个,错误分类模型的数量慢慢减少。根据这个结果,我们设置的范围<我talic>
K(
该方法的性能在不同的数据集和不同条件下表所示
观点和分类精度(%)。
| 麦吉尔 | ModelNet10 | ModelNet40 | ||||
|---|---|---|---|---|---|---|
| 之前 | 后 | 之前 | 后 | 之前 | 后 | |
| 的观点 | 960年 | 362年 | 36320年 | 12742年 | 98720年 | 34526年 |
| 精度 | One hundred. | One hundred. | 94.10 | 94.10 | 92.90 | 92.0 |
我们可以看到从表
我们比较该方法与一些传统的方法,结果如表所示
分类精度与其他方法相比(%)。
| 算法 | 的观点 | ModelNet10 | ModelNet40 |
|---|---|---|---|
| DeepPano [ |
1 | 88.66 | 82.54 |
| PANORAMA-NN [ |
1 | 91.10 | 90.70 |
| 成对[ |
12 | 93.20 | 91.10 |
| FusionNet [ |
60 | 93.11 | 90.80 |
| VS-MVCNN [ |
80年 | 93.50 | 92.90 |
| 我们的 | 14 | 94.10 | 92.00 |
我们的方法可以识别精度达到100%麦吉尔(如图
麦吉尔的分类结果。
该方法的混淆矩阵ModelNet10如图
ModleNet10分类结果。
我们可以看到从图
类似的模型在不同的类别。
我们的方法的优点是,它可以获得高精度给少量的观点。特别是在麦吉尔,识别精度为100%。原因是有伟大的麦吉尔的类之间的差异,和多个视图可以更好的代表从不同角度的3 d模型,导致性能优越。然而,在ModelNet10 ModelNet40,该方法没有良好的性能在某些类,如表类和办公桌类,或night_stand类和梳妆台类。原因是没有明显区别ModelNet10的类,以及ModelNet40。很容易犯错误分类方法。
我们的检索方法是基于分类结果。输入前分类相似度匹配。的优势是输入和模型之间的相似度计算在一个类别,而不是所有类别,所以它可以大大减少搜索范围和计算复杂性。在下一节中,相似性匹配方法计算和分析了刚性数据集和非刚性的数据集,分别。
我们的形状描述符进行比较对球函数描述符(SPH) [
该方法和其他方法的比较(地图,%)。
| 算法 | 数据集 | |
|---|---|---|
| ModelNet10 | ModelNet40 | |
| 主任( |
45.9 | 34.4 |
| 最晚完成日期( |
49.8 | 40.9 |
| 3 d ShapeNets [ |
69.2 | 59.9 |
| DeepPano [ |
84.2 | 76.8 |
| PANORAMA-NN [ |
87.4 | 83.5 |
| VIPGAN [ |
90.6 | 89.2 |
| 马等。 |
93.1 | 84.3 |
| 我们的 | 94.1 | 92.0 |
precision-recall曲线如图
ModelNet10 precision-recall曲线对各种方法的比较。
ModelNet40 precision-recall曲线对各种方法的比较。
使用非刚性的数据集是麦吉尔。我们比较热内核方法签名(香港)
麦吉尔的性能比较。
| 方法 | 神经网络 | 英国《金融时报》 | 圣 | 常规心电图 |
|---|---|---|---|---|
| 香港( |
0.8190 | 0.6220 | 0.7440 | 0.8270 |
| 周内( |
0.9140 | 0.7750 | 0.8660 | 0.9140 |
| CBoFHKS [ |
0.9010 | 0.7780 | 0.8760 | 0.8910 |
| DASD ( |
0.9880 | 0.7820 | 0.8340 | 0.9550 |
| MFFL [ |
0.9710 | 0.9050 | 0.9810 | 0.9630 |
| LMPF [ |
0.9810 | 0.8610 | 0.9594 | 0.9579 |
| 我们的 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
我们可以看到从表
实验表明,相似度匹配中消耗时间最多的3 d模型检索。以ModelNet10为例,有908模型在测试集和3991模型的训练集,每个模型都有40视图,所以测试集包含36320的浏览量和训练集包含159640的浏览量。如果所有视图用于相似性匹配,时间复杂度很大。表
视图之前和之后的数量代表视图选择。
| 数据集 | 之前 | 后 | ||
|---|---|---|---|---|
| 总 | 平均 | 总 | 平均 | |
| 测试集 | 36320年 | 40 | 12742年 | 14 |
| 训练集 | 159640年 | 40 | 56613年 | 14 |
我们可以看到视图测试集的数量从36320年到12742年减少和训练集的视图数量减少通过代表视图选择从159640年到56613年。认为数字是代表视图选择后减少了2/3,所以这种方法可以有效地减少冗余的观点和大大提高检索效率。
在ModelNet10,训练集由3991模型,这些模型分为10类,每个类组成的399年平均模型。应用代表视图选择后,相似性匹配的数量从638400减少399(40××40)到78204(399××14)(减少了87.8%)。
变量视图匹配方法可以进一步提高匹配效率。在这篇文章中,<我nl我ne-formula>
相邻投影点。
实验表明,任何两个视图的相邻视图的距离是不同的。在同一类别中,最小相邻视图距离是选为代表形成相邻的列表视图的距离。表
平均距离相邻视图。
| 类别 | 型号 | |||
|---|---|---|---|---|
| 20. | 10 | 5 | 1 | |
| 浴缸 | 1.995 | 1.897 | 1.774 | 1.705 |
| 床上 | 2.304 | 2.259 | 2.221 | 2.186 |
| 椅子 | 1.627 | 1.546 | 1.430 | 1.351 |
| 桌子上 | 2.142 | 2.052 | 1.980 | 1.900 |
| 梳妆台 | 2.145 | 2.091 | 2.050 | 1.986 |
| 监控 | 1.700 | 1.666 | 1.637 | 1.581 |
| Night_stand | 1.995 | 1.920 | 1.857 | 1.741 |
| 沙发 | 1.948 | 1.900 | 1.859 | 1.796 |
| 表 | 0.751 | 0.531 | 0.485 | 0.441 |
| 厕所。。。 | 1.965 | 1.895 | 1.820 | 1.731 |
| 平均 | 1.857 | 1.775 | 1.7113 | 1.641 |
在算法
数字在不同条件下的模型。
| 类别 | 条件1(1把) | 条件2(5视图) | 条件3视图(14) | 传统方法(14视图) |
|---|---|---|---|---|
| 浴缸 | 3 | 4 | 43 | 50 |
| 床上 | 10 | 3 | 87年 | One hundred. |
| 椅子 | 18 | 16 | 66年 | One hundred. |
| 桌子上 | 3 | 3 | 80年 | 86年 |
| 梳妆台 | 12 | 10 | 64年 | 86年 |
| 监控 | 8 | 4 | 88年 | One hundred. |
| Night_stand | 10 | 15 | 61年 | 86年 |
| 沙发 | 11 | 5 | 84年 | One hundred. |
| 表 | 4 | 9 | 87年 | One hundred. |
| 厕所。。。 | 53 | 12 | 35 | One hundred. |
| 模型 | 132年 | 81年 | 695年 | 908年 |
| 的观点 | 132年 | 405年 | 9730年 | 12712年 |
与3 d模型的增加,检索准确性和效率的退化成为三维模型检索系统的一个严重的问题。提出了一种有效的三维模型检索方法。提高效率的方法在三个方面:(1)高效的索引构建通过代表视图选择和特征提取与CNN。然后特性是组织通过他们的标签。这样,3 d模型更有效的表示和使用视图的数量大幅减少。(2)相似度匹配的数量减少分类检索。在检索,输入模型的二维视图分为一类CNN和投票机制,然后,只有这类的特点,而不是所有类别,选择相似度匹配。(3)提出了变量视图匹配方法。的检索模型可以提前终止。我们建议的方法是改善的准确性在两个方面:(1)输入模型之前的分类检索。 Our classification method obtains good performance, so the retrieval accuracy and efficiency are guaranteed. (2) The voting mechanism is used to classify input 3D models. Through the voting mechanisms, the misclassified views can be reclassified correctly.
虽然拟议的3 d模型检索方法展示了伟大的准确性和效率的提高,类似的3 d模型容易被误诊。因此,我们将研究如何提高模型表示的歧视在我们未来的工作。
之前报道ModelNet10和ModelNet40数据用于支持这项研究和可用
作者宣称没有利益冲突。
本研究在一定程度上支持中国的国家自然科学基金(61673142)、中国黑龙江省自然科学基金(JJ2019JQ0013),中国哈尔滨的杰出青年人才基础(2017 rayxj013),大学护理程序对于年轻学者与黑龙江省创新型人才(unpysct - 2016034),黑龙江省的基础教育部门(12511096)。