基于多描述符融合的室内场景分类机制研究

抽象

本文针对传统场景分类算法中由于感兴趣区域信息的非ROI干扰而带来的局限性，包括多尺度或不同视角的变化以及类与其他因素之间的高度相似性。提出了一种基于多描述子融合的室内场景分类机制，该机制引入深度图像以提高描述子的分类效率。为了获得有价值的描述符，提出了贪婪描述符滤波算法（GDFA），并给出了多描述符组合方法，进一步提高了描述符的性能。性能分析和仿真结果表明，在中、大描述子条件下，多描述子融合不仅可以获得比主成分分析（PCA）更高的分类精度，而且可以有效地提高分类精度。

1.简介

随着互联网的飞速发展和基于位置感知的应用需求的不断增加，基于位置的服务得到了广泛的关注。大多数人在日常生活中离不开GPS定位服务和导航系统。显然，户外定位技术已经比较成熟，很多移动设备也参考了户外定位技术[1个,2个,三,4个]。由于室内环境的特殊性，GPS信号不能直接满足室内定位服务的需求。目前，有许多室内定位方法[4个–6个]，主要包括WiFi，RFID，蓝牙，超宽带，等。如今，视觉室内定位系统[7个–9个]是吸引研究人员在世界各地越来越多的关注，由于较低的部署成本，较强的自主性和高定位精度的优势。

为了实现准确的室内视觉定位，在离线阶段偶尔会建立一个大型的可视化数据库，即可视化地图。视觉地图可以包含大量的图像或不同场景的图像特征和相应的位置信息，这是视觉室内定位的基础。当用户在线执行位置查询时，将在可视地图中检索图像。传统的基于像素点匹配的图像检索算法[10个,11个，只给出图像匹配的结果，不包含图像的视觉位置信息。此外，现有的图像检索算法往往进行全局遍历搜索，导致时间开销过大，不利于移动用户的实时定位。因此，本文提出了一种基于多描述符融合的有效室内场景分类机制。根据场景对可视化地图中的图像进行分类，减少在线阶段可视化图像检索的时间开销，提高室内场景分类的效率和准确性。本文融合了图像的视觉信息和深度信息。视觉图像主要包含颜色信息，深度图像上的每个点对应于视觉图像，包含位置信息。这两种类型的图像都是由Microsoft Kinect 2.0捕捉的。

在室内场景分类机构，将通过现有的空间金字塔模型（SPM）中产生含有两种类型的图像的描述符的描述符初始集合[12,13]. 然后，提出贪婪描述符滤波算法（GDFA）来寻找有价值的描述符。通过同源和非同源的组合产生多个融合描述符，进一步提高描述符的有效性。最后采用支持向量机（SVM）进行分类。室内场景分类机制的总体框架如图所示1个。

剩余的纸的安排如下：节2个综述了场景分类技术的研究进展及其在室内场景中的应用。剖面图三详细描述初始描述符集的生成和描述符筛选。部分4个介绍了本文的实验数据库，并给出了描述符评估结果。分段5个的同源和非同源两个组合，将实现和组合的结果进行评价。部分6个总结文章。

2。动机

2006年在麻省理工学院召开的场景理解研讨会上，首次明确提出了一个重要的观点，即场景分类是图像理解的一个新的研究方向。尽管现有的分类方法声称能够解决任何场景分类问题[14,15]，实验结果表明，只有在室外场景分类可以通过这些方法有效地解决，而室内场景分类问题可能仍然是一个艰巨的任务。此外， [16]结果表明，采用相同的特征提取和分类识别方法，室内场景的分类精度远低于室外场景。因此，提高室内场景的分类精度具有重要意义。

在早期的研究中，通常提取图像的低层特征来对场景进行分类，如颜色、纹理和形状[17–19]. 然而，这些基于低层特征的方法由于其分类效果不理想，一直不是场景分类领域的研究热点。为了克服这些问题，提出了基于图像中层特征的方法。中采用并改进了全局特征基[20]. 尺度不变特征变换（SIFT）具有很好的识别能力，在许多场景识别算法中，它总是被作为优先级最高的局部特征[21]. Shi等人。[22]提出了一种基于视觉敏感区域信息增强的室内场景分类算法。局部特征和全局特征通过视觉敏感区域信息进行集成。

随着Kinect的兴起，基于深度信息的场景分类算法[24,25]受到越来越多的关注。方向梯度直方图（HOG）算法[26]采用以分别分类深度图像和视觉图像，[28]。SIFT采用深度图像和彩色图像的提取特征和SPM编码被特征融合后通过进行分类图像[29]. 视觉图像筛选和加速鲁棒特征（SURF）[27]对深度图像进行融合分类[三十]. 设计了五种深核特征提取算法[31]以提取大小，边缘，和视觉图像，分别的形状信息，和所提取的信息被融合进行分类。

随着研究的继续，基于模型的卷积神经网络（CNN）上16,23]吸引了研究人员。然而，需要在CNN，这可能导致在相当长的训练时间大量训练集。此外，CNN通常在平台上的高计算需求，因此很难实现以有限的计算资源在平台上的室内场景分类。

3.多图像符的生成和过滤

灵感来自[28–31]，视觉信息和深度信息将在本文稠合。精度越高室内场景分类效果将通过包含在所述深度图像的空间三维信息，这是不敏感的光并反射对象之间的位置关系来实现。原始图像的特征将通过d-SIFT（密集SIFT）来提取32]，和类似的功能将被聚集，以形成弓体（一袋字）[33–35]通过K-均值[36,37]。在BoW的基础上，随着SPM的构建，将生成包括视觉图像描述符和深度图像描述符在内的初始描述符集。确实，初始描述符的数量很多，质量参差不齐。此外，直接结合未过滤的初始描述符将导致合并结果的爆炸。因此，需要提出一种简单有效的描述符过滤算法来获得这些有价值的描述符。

3.1。最初的描述符代

生成的描述符表达式可以从以下过程派生。让我是任何输入图像和十是由图像产生的描述符。是一组预定义类的标签，并一是其中之一。描述符的生成函数十从图像我可以表示为 ,并成功的匹配描述的概率十到类标记一是。因此，最合适的类标记的表达式将会

该研究的重点将转向最初的描述符与高分类精度有价值的描述符。为了找到这样的描述符，方程（1个）将被进一步优化。上的最佳描述符滤波和组合方法的前提下，一个正确的类标签分配给输入图像我将会( )和用以表示一组多个图像描述符。然后，优化的描述符生成表达式将是

根据式（2个)由输入图像生成的初始描述子，只有经过滤波和组合才能达到理想的分类效果。初始描述子数量多，质量差，而描述子过滤可以丢弃无用的描述子，描述子组合可以提高描述子的有效性。基于SPM的描述符生成过程描述如下。

3.2条。空间金字塔模型

近年来，弓形模型在计算机视觉中得到了广泛的应用。它将图像特征作为视觉词汇，通过计算每个图像中视觉词汇的数量来对图像进行分类。然而，传统的弓缺乏空间位置信息[29]。在这项研究中，SPM将建立削减图像分成尺度单元，然后视觉词的数量将在每个小区中进行计数，并且所述直方图可以得出。最后，在所有尺度直方图功能将被连接在一起，形成一个特征向量。我们假设视觉词的一部分已被选定为基本特征。描述符生成的基于SPM的步骤详细说明如下：（一世）提取D-SIFT特征。（二）将每个特征点映射到相应的可视词。（三）切割图像，构建空间金字塔层级（3种切割方法，例如垂直切割方法中，横向切割方法，和网格的切割方法，在本文中采用，如图2（甲）–2（c），分别）。（ⅳ）计数的视觉词的数量在每个小区中并绘制直方图为每个小区。（五）连接所有直方图以形成特征矢量作为图像描述符。

（一）

（b）中

（C）

基于SPM-描述符生成过程在图中示出2（甲）–2（c），每一种切割类型将被分成三栏进行清晰的说明。如图所示2（甲），第一列显示初始图像的剪切类型，第二列表示每个单元格的可视词统计结果，第三列显示连接第二列直方图形成的初始描述符。图像包含5个视觉单词；三个金字塔层次结构；以及垂直、水平和网格这三种切割方法。基于SPM的描述子生成主要依赖于三个重要参数：弓的大小(S公司），金字塔层级（小时)，和切割方法(C类).小时 = 0表示第一个层次，图像被剪切0次。小时 = 1表示第二层次，图像被切割1次；小时 = 2 represents the third hierarchy, and the image is cut 2 times. Therefore, the number of cutting depends on小时. 换句话说，当小时 = 小时，图像将被削减小时次，细胞的数量产生的后切割是。最后，在图获得七个不同的描述符2个，其大小随小时和C类并具有字典大小成线性关系S公司. 描述符大小的计算公式如下：

我们知道，图像描述符包含场景的语义和空间分布信息。S公司将确定的描述符的语义，而小时和C类将重点描述符的空间分布，从而确保能够提供更详细的信息。较大S公司将提供更详细的语义信息，使功能更加明显，更具有代表性。但是，如果有大量的视觉词，柱状图将会变得更长，这将影响到图像检索和匹配过程，随后。类似地，较高的金字塔层级更为详尽的介绍，而较低的层次是比较一般。

如可以从可见[12,13,38]，三个参数的标准值为S公司 = 20, 50, and 100;小时 = 0、1和2；以及C类 = 1（水平和垂直分割）和2（网格分割）。结合这些标准值，可以得到21个不同的视觉图像描述子和21个深度描述子。为什么描述符的数目是21而不是27( )就是它小时 = 0在金字塔模型中不剪切图像，实际上不需要组合。换句话说，对于任何S公司，第一个金字塔层次结构将只处理一个描述符，而第二个和第三个金字塔层次结构将处理三个描述符。

3.3条。描述符筛选

在这一部分中，我们将提出贪婪描述符过滤算法（GDFA）来寻找初始描述符集中最有价值的描述符。自从最初的描述词主要集中在（如图三),是否分为三个连续的区间 , ,和为了方便描述符过滤。我们假设大、中、小间隔分别适用于具有小、中、高计算能力配置的数据收集平台。描述符权重有关描述符分类精度和描述符大小。为了获得尺寸更小、精度更高的描述符，给出了权重的计算公式可以定义为如下：

给出了贪婪描述符滤波算法(GDFA)流程1个。

	输入：描述符列表---ℒ
	descriptor classification accuracy list---
	描述符列表- - -大小
（一）	对于做
（二）
（三）	结束
（四）	将描述符大小划分为 , ,和连续三个区间
（五）	对于做
（六）	将ℒ分为新列表
（七）	Sort the descriptors in按权重值从大到小的顺序排列
（八）	对于做
（九）	过滤描述符[1个]最大的重量并添加[1个]至Φ_我
（十）	如果 [j型 − 1] is filtered and
	然后
（十一）	添加[j型]到α_我
（十二）	其他的
（十三）	结束
（十四）	结束
（15）	结束
	输出：筛选描述符列表---α

首先，根据公式计算所有描述符的权重(4个). 接下来，描述符大小被划分为 , ,和三个连续的间隔，然后按照权重值从大到小的顺序对描述符进行排序。中权重最大的描述符过滤并加入到所述第一位置中F型. 如果描述符权重大于上一个选定描述符权重的95%，即， ,描述符将被过滤掉；否则，将比较下一个描述符。GDFA不仅可以找出每个区间中最有价值的描述符，而且可以过滤出具有相似权重的描述符。

4.描述符的评估

4.1条。实验数据库

为了研究室内场景分类机构，如在图中所示4个（一），收集平台，微软Kinect 2.0室内图像数据，由独立实验室开发的，将采取在黑龙江大学物理实验楼进行图像数据的采集。该数据库包含在不同照明条件下9个室内场景捕捉视觉和深度图像。举一些例子，图4个（b）显示部分数据库图像。

（一）

（b）中

将数据库图像随机分为5个序列，即训练1、2、3和测试1、2。表中列出了5个序列中9个场景的图像编号1个。


场景	帧
场景	培训1	培训2	培训3	测试1	测试2

1个	438	498	444个	511个	319
2个	140	152	84	95	147
三	119个	80	65	109个	229个
4个	421	452个	376	392	442个
5个	408	336个	247	307	942个
6个	664	599个	388	692个	1287个
7个	126	79	60	95	223个
八	153	96	118个	140	193
9个	198	240	131	104个	241
所有	2267个	2532	1913年	2445个	4023个

4.2条。评价结果及分析

K-fold交叉验证是一种常用的准确性测试方法，可以有效地避免过度学习和学习不足。本节将采用10-CV（10倍交叉验证）来评估分类器模型。为了确保每个交叉验证图像相似，将30个连续图像的子集随机分配给Fold1–Fold10（表示30个图像的10个子集），这有效地防止了数据集中的时间连续性引起的任何偏差。数字5个示出了每个场景的在10-CV和全球分布的各个折叠的数据集的分布。值得注意的是，在数据集的场景并不均匀地分布在Fold1-Fold10。

表2个示出了后交叉验证的10次的42个可视图像描述符初始描述符和深度图像的描述符的分类精度。在SPM，当小时 = 0, for any kind of segmentation type, there is no image cutting and the generated descriptors are identical, so the evaluation results are identical too. By comparing the results of visual images and depth images, we can find that the classification accuracy of depth images is significantly lower than that of visual images. The reason may be that the visual coding technology (visual coding is the mapping between data and visual results) of the depth image is not accurate enough to obtain fine-grained data.


C类	小时	视觉			深度
C类	小时	S公司 = 20 (%)	S公司 = 50%	S公司 = 100（％）	S公司 = 20 (%)	S公司 = 50%	S公司 = 100（％）

垂直	0个	48.13	58.75分	66.20	37.07	42.49分	50.06年
	1个	51.84分	63.36分	69.53	37.23条	48.83分	52.55分
	2个	56.38	65.88	72.09	41.03分	50.51分	55.44

水平	0个
	1个	52.51分	64.68分	72.01	40.93	47.53	51.78分
	2个	60.73分	72.36	77.81	47.39	53.65	59.40分

格	0个
	1个	56.25	69.02分	74.34分	41.82	52.95	57.07
	2个	67.53	75.26分	77.24	52.76分	58.37	60.86分

GDFA可以找到从最初的描述符集，这将有利于在部分描述符组合工作的宝贵描述5个. 桌子三示出了由GDFA过滤，类似于4点的视觉图像的描述符和7的深度图像的描述符的内部参数和分类精度，评价数据是从10-CV。换句话说，在42个初始描述符表给出2个通过GDFA的滤波减少到11。这些描述符可以具有最高的权重 , ,和间隔。


图像类型	参数			筛选条件
图像类型	S公司	小时	C类	（％）	（间隔）

V1	20	0个	—	48.13	20（1）
V2	50	2个	水平	72.36	200（2）
V3	100个	1个	水平	72.01	200（2）
V4	100个	2个	水平	77.81	400（三）

D1号	20	0个	—	37.07	20（1）
D2级	50	2个	水平	53.65	200（2）
D3号	50	1个	格	52.95	200（2）
D4号	100个	1个	垂直	52.55分	200（2）
D5号	100个	1个	水平	51.78分	200（2）
D6页	50	2个	垂直	50.51分	200（2）
D7	100个	2个	水平	59.40分	400（三）

PCA是在当前数据预处理算法的古典和广泛的算法之一。与PCA降维可以保存最重要的特征，高维数据，并移除噪声，并且不值钱的功能，它可以提高数据质量和数据处理的速度。数字三显示了GDFA的过滤结果与PCA（图中的实体点）的降维结果的比较三是由GDFA获得的描述符，且虚线分隔三个区间）。如观察到的，当描述符尺寸在 ,PCA在视觉描述和深度描述两个方面都优于前者。但是当描述符大小在和 ,PCA的性能开始下降，这可能表明，GDFA进行比PCA更好的，特别是当该描述符的大小是中型或大型。

5个。描述符组合

最有价值的描述已经在区选择了通过GDFA4个。为了进一步获得高质量、高效率的最终描述符，本节将提出一种多描述符组合算法(本节仅结合两个描述符)，但这一步骤可能会增加场景分类的运行时间。将有两个描述符组合级别，如图所示6个。一个是描述符水平（DL），其可以是输入到SVM1 IMAGE1和图像2的描述符之后已经被连接成一个组合描述符，如图6（甲）。另一种是分类器级（CL），其权重IMAGE1和图像2后的不同的响应结果已经输入到SVM1和SVM2分开，如图6（b）. 此外，本节还将讨论同源组合(五 + 五或丁 + 丁）和非同源的组合（五 + 丁).

（一）

（b）中

表中给出了训练1、2、3的组合序列1个将被用作训练集，而测试1和测试2将被用作测试集。这5个序列具有相同的场景。但应当注意的是在试验1的光变化比在试验2更强。

5.1。同源组合

本节将组合从同一图像类型中提取的两个描述符，即V + V或丁 + 丁，这是所谓的同源组合。该组合将在DL和CL分别进行，。SVM的测试集本来是由两个基团具有明显的光的差异，试验1和试验分别2，序列中的。

5.1.1条。五+五

有在表中给出的4深度图像描述符V1，V2，V3和V4的6个不同的组合三，这将在分别施加到DL和CL，。在测试1和测试2获得的分类准确度在图中示出图7（a）和图7（b），分别是。

（一）

（b）中

5.1.2。丁 + 丁

有21个不同的7深度图像描述符的组合的D1，D2，D3，...，D7于表三，这将在分别施加到DL和CL，。在测试1和测试2获得的分类准确度在图中示出图8（a）和图8（b），分别是。

比较数字7个与图八，我们发现，分类精度丁 + 丁一般低于V + V。在测试1和测试2中，由最佳深度图像描述符D7实现的最高分类精度分别为48.79%和65.45%（而在测试1和测试2中，由最佳视觉图像描述符V4实现的最高分类精度分别为74.76%和85.78%）。当最佳初始描述子D7作为父描述子时，在测试1中DL的分类准确率最高为56.07%，在测试2中为71.86%。显然，试验2的分类精度仍然高于试验1丁 + 丁。

（一）

（b）中

S公司我milar to V + V, DL always outperforms CL in丁 + 丁. DL中组合描述符的分类准确率总是高于父描述符（42个组合描述符中的39个），而CL中只有少数组合描述符的分类准确率高于父描述符（42个组合描述符中的16个）。D7的内部参数是S公司 = 100，小时 = 2，和C类 = 水平。丁5 + D7（56.07％）实现的有利效果，和D5的内部参数是S公司 = 100，小时 = 1，和C类 = 水平。丁2 + D7（71.86％）也实现了良好的效果，和D2的内部参数是S公司= 50,小时 = 2，和C类 = 水平。最优组合的相似性是C类 = 水平，在章节中验证4个. 另外，V4和D7的内部参数是S公司 = 100，小时 = 2，和C类 = 水平。因此，我们可以推测，高分类精度可以通过描述与这样一组内部参数，将在节进行验证来获得6个。

5.2。非同源组合

This section will combine two descriptors extracted from different image types, namely, V + 丁，称为非同源组合。表中有28种V1、V2、V3和V4与D1、D2、D3、…、D7的不同组合三，这将在分别施加到DL和CL，。具体评价过程是一样的同源组合，和评价结果示于图9个。

（一）

（b）中

在实验2中，CL和DL的分类准确率分别达到80.36%和92.64%，而在实验1中，CL和DL的分类准确率分别达到72.84%和81.76%。这与我们之前发现的一致，测试2的分类精度总是高于测试1，而DL总是优于CL。

在CL中，分类精度最高的组合是丁试验1中5+V4（72.84%）。同时，作为父描述符的V4的分类准确率为74.76%。分类精度最高的组合是丁7 + V4(八0个。36%) in Test 2. The classification accuracy of V4, which acts as a parent descriptor, is 85.78%. As shown in Figures图9（a）和图9（b），只有少数组合描述符具有更高的分类精度比CL父描述符（18出来的56），与在同源组合。这表明，CL的效果不理想。

在DL中，具有最高分类精度的组合是丁试验1中7 + V4（81.76%）。同时，作为父描述符的V4的分类准确率为74.76%。分类精度最高的组合是丁试验2中7 + V4（92.64%）。作为父描述符的V4分类准确率为85.78%。如图所示图9（a）和图9（b）， DL中组合描述符的分类精度始终高于双亲描述符(56 / 56)。

我们可以得出结论，在非同源组合中，DL优于CL，因为DL中的大多数组合描述符优于其父描述符，而CL中的组合描述符可能难以实现。此外，无论在哪一级，性能优良的描述符和性能较差的描述符的组合都优于其他组合。举几个例子，丁1+V4先于丁1 + V1，丁1+V2，和丁1 + V3在图图9（b）。

组合数字7个–9个,we can conclude that the overall effect of V + V and丁 + 五outperforms丁 + 丁. 有时V + V的表现优于丁 + 五although nonhomologous combinations contain more comprehensive information. DL combines descriptors before entering a classifier, which may preserve characteristics of the descriptors completely. This may be the reason why DL is always better than CL. So, we only compare the evaluation results of V + V and V + 丁在DL。

表4个列出了DL中同源和非同源的最佳组合，以及在测试1和测试2中获得的最高分类精度（粗体数据）。在测试1中，最佳组合是V3 + V4，最佳组合是丁测试2中的2 + V4。我们记得，测试1中的光变化比测试2中的强。所以V + V在测试1中可能是最好的，而丁 + V在测试2中可能是最好的。


	伏	（％）	丁 + 五	（％）

测试1	V3+V4	82.09	丁7 + V4	81.76
测试2	V2 + V4版本	91.60	D2级+V4	92.64

如表所示三，描述符大小有8个可能的值(包括单个描述符或组合描述符)，分别为:20、40、200、220、400、420、600和800。将每个描述符大小值对应的最大分类精度与PCA结果进行比较。数字10个显示测试1和测试2中分类精度和描述符大小之间的关系。可见，从中到小，多描述符融合机制的分类精度可以得到显著提高。同时，随着描述子尺寸从中到大，分类精度逐渐趋于稳定。在测试1中，当描述符大小等于400（大）时，V2++V3（80.94%）获得最高的分类精度。在测试2中，当描述符大小等于600（大）时，丁2个 + 五4个(9个2个。6个4个%) gets the highest classification accuracy. PCA achieves high classification accuracy in the condition with small descriptor size. The superiority of the multiple descriptors fusion mechanism becomes obvious with the increasing descriptor size.

（一）

（b）中

5.3。执行时间处理时间

室内场景分类分为离线训练和在线测试两个阶段。假设弓和分类器的构建已经在离线阶段完成。因此，影响在线阶段运行时间的是描述符的生成和分类，包括4个步骤，如表所示5个。


	步	参数	时间（s）

描述代	D-SIFT特征提取	imageSize = 640∗480	0.0840个
	映射功能点	S公司 = 20	0.0096个
		S公司 = 50	0.0140
		S公司 = 100	0.0218
	计数直方图	小时 = 0	0.0006
		小时 = 1，C类 = 1	0.0004
		小时 = 2,C类 = 1或小时 = 1，C类 = 2	0.0003
		小时 = 2,C类 = 2	0.0002

描述符分类	对输入描述符进行分类		0.0010
			0.0016
			0.0029
			0.0062
			0.0131
			0.0291

我t is worth noting that step 1 adopts imageSize = 640 ∗ 480. Step 2 is related to BoW size (S公司)，所以S公司 = 20, 50, and 100 are studied, respectively. Step 3 depends on the size and number of image cells, which is related to pyramid hierarchy (小时)及切割方法(C类). 步骤4由。

5.4。算法分析与比较

在相同的数据库中，由我们的机构得到的分类准确度将与其它融合方法进行比较，示于表6个。通过用单个特征融合的算法得到的分类精度[28–三十]对于室内场景来说往往很低，这主要是因为这些算法不过滤描述符。因此，单特征融合算法适合于室内场景分类。采用多特征融合的算法，可以获得较高的分类精度[31]，它提取从图像中五个不同的内核描述符。整合后，他们被训练并分别线性SVM，核SVM和随机森林分类，并获得了89.6％，90.0％，而在这个实验中90.1％的准确率。92.6％的精度是由我们的分类机构，其具有比在2.5％的较高的值来实现[31]。首先，多个描述符融合机制在室内场景分类性能良好。


分类算法	（％）

HOG + 支持向量机[28]	77.2条
筛+SPM[29]	84.2条
S公司我F型T + SURF [三十]	85.7
核描述符 + 线性支持向量机[31]	89.6条
核描述符 + 核支持向量机[31]	90.0
内核描述符 + 随机林[31]	90.1
多描述符融合	92.6

六，结论

针对室内定位应用的实际需求，建立多描述符融合模型，提出图像分类策略，提高描述符的质量和效率，达到更好的室内场景分类效果。首先，在建立的SPM的基础上形成初始描述子集。然后，采用贪婪描述子滤波算法对每个描述子大小区间中权重较大的描述子进行选择，得到有价值的描述子集。最后，提出了多描述符组合算法，通过在DL和CL处分别结合同源和非同源图像来获得高质量和高效率的多描述符。

生成，过滤，并在本研究提出多种描述符的组合提高了分类器的性能。评价结果反映，在这项研究中提出的多个描述符融合机制优于著名的PCA降维技术，尤其是对于中型或大型量大小的条件。这一战略不仅实现了比其他特征融合算法更好的成绩，同时也解决了适用于室内场景现有场景分类算法的限制。

未来的研究将集中在图像特征提取算法的改进和其他聚类算法在视觉弓模型中通过聚类特征构建视觉词的效率上。在描述图像信息时，应注意提高描述子的有效性。同时，还将考虑深度图像质量的提高，以便在描述符滤波和描述符组合过程中更有效地利用深度数据。或者，可以采用更完整的数据集。

数据可用性

用来支持这项研究的结果的数据结果在本文提出。

的利益冲突

作者声明本论文的发表不存在利益冲突。

致谢

这项工作得到了国家高技术研究与发展计划（2012AA120802）、国家自然科学基金（61771186）、黑龙江省博士后研究项目（LBH-Q15121）、黑龙江省高校青年创新人才护理计划（UNPYSCT-2017125）的支持，黑龙江大学研究生创新研究项目（YJSCX2019-166HLJU）。

参考文献

P.尼科，P.大卫，T.延等人，“TDOA为基础，在公共网络洛拉跟踪算法室外定位，”无线通信和移动计算，第2018卷，9页，2018年。查看在：出版商网站|谷歌学术
K.林凯，C. C.张，W. C. Lee等人，“新的基于RSSI非常嘈杂的室外环境LORA定位算法，”在在IEEE第42届计算机软件与应用学术会议论文集，第794-799页，日本东京，2018年7月。查看在：谷歌学术
K.张，S.冲，周问，H.王，问：高，和Y.陈，“组合GPS UWB和玛格locationing算法适用于室内外混合的情况下，”集群计算，第22卷，第S3号，第5965-59742019页。查看在：出版商网站|谷歌学术
十、何文星，彭立鹏等，“基于支持向量回归的射频识别室内定位算法”传感器，第18卷第2期。5、2018年第1504-1519页。查看在：出版商网站|谷歌学术
X.元，Y. S. Shmaliy，Y. Li等人，“UWB-基于使用EFIR滤波时间延迟的数据室内人的定位，”IEEE访问，第5卷，第16676-16683页，2017年。查看在：出版商网站|谷歌学术
B. G.德，A. Quesada的-Arencibia，C. R.加西亚，和J. C. RodriguezR。M.迪亚兹，“为蓝牙低功耗的协议-channelbased室内定位性能的研究，”IEEE访问卷。6，第33440-33450，2018。查看在：出版商网站|谷歌学术
G.翔和Z.道，“无监督学习使用深层神经网络的视觉SLAM系统检测圈，”自主机器人卷。41，没有。1，第1-18，2017。查看在：谷歌学术
C、于进，C.瑞芝，L.孟云，A.肖，D.吴和S.赵，“基于CNN的图像检索辅助室内视觉定位：无训练，无三维建模，”传感器，第18卷第2期。8，第2692至2712年，2018。查看在：出版商网站|谷歌学术
X. Aoran, C. Ruizhi, L. Deren, Y. Chen, D. Wu，“基于智能手机摄像头的大型室内场景静态对象室内定位系统”传感器，第18卷第2期。7，第2229至2246年，2018。查看在：出版商网站|谷歌学术
M. K. Alsmadi，“使用模因算法进行基于内容的图像检索的有效相似性度量，”埃及基础与应用科学杂志卷。4，没有。2，第112-122，2017。查看在：出版商网站|谷歌学术
M、 A.E.Aziz，A.A.Ewees和A.E.Hassanien，“基于内容图像检索的多目标鲸鱼优化算法”多媒体工具和应用程序卷。77，没有。19，第26135-26172，2018。查看在：出版商网站|谷歌学术
L.谢，F·李，刘L.等人，“为场景识别改进的空间金字塔匹配，”模式识别卷。82，第118-129，2018。查看在：出版商网站|谷歌学术
W、赵、罗、彭、范，“大规模图像检索的空间金字塔深度散列”神经计算卷。243，第166-173，2017。查看在：出版商网站|谷歌学术
L.古普塔，五Pathangay，A帕特雷等人，“室内与使用的概率神经网络的室外场景分类，”应用信号处理的Eurasip杂志， 2007年第1期，无。1、文章ID 094298，第123页，2007。查看在：谷歌学术
L. T. L.涛，Y H. Kim和Y. T.金，“高效的基于神经网络的室内外场景分类算法，”在在消费电子国际会议（ICCE）论文集，拉斯维加斯，内华达州，美国，2010年2月。查看在：出版商网站|谷歌学术
L.王，郭S.，W.黄，Y.熊，和Y巧“为具有多分辨率的细胞神经网络的大型场景分类知识引导歧义，”对图像处理IEEE TRANSACTIONS，第26卷，第4期，第2055-20682017页。查看在：出版商网站|谷歌学术
H、 Kebapci，B.Yanikoglu和G.Unal，“使用颜色、形状和纹理特征的植物图像检索”计算机杂志，第54卷，否。2011年第1475-1490页。查看在：出版商网站|谷歌学术
J、 K.Patil和R.Kumar，“利用颜色、形状和纹理特征对基于内容的植物叶片病害图像检索的分析”工程农业，环境和食品，第10卷，第2期，第69-78页，2017年。查看在：出版商网站|谷歌学术
A.拉扎，T.纳瓦兹，H.达乌德和H.达乌德，“广场纹元直方图特征的图像检索”多媒体工具和应用程序，第78卷，第3期，第2719-2746页，2019年。查看在：出版商网站|谷歌学术
W、 Tahir，A.Majeed和T.Rehman，“使用GIST图像特征和神经网络分类器的室内/室外图像分类”，in在高容量光网络和国际会议论文集启用/新兴技术（HONET），巴基斯坦伊斯兰堡，2015年12月。查看在：谷歌学术
L.菊，谢K.，H.郑，张B.和W杨，“GPCA-SIFT：场景图像分类新的局部特征，”在计算机和信息科学通讯，第663卷，第4期，第286-295页，2016年。查看在：出版商网站|谷歌学术
J、石海珠，王杰等，“基于视觉敏感区域信息增强的室内场景分类算法”模式识别与人工智能卷。30，没有。6，第520-529，2017。查看在：谷歌学术
林丹、菲德勒和乌尔塔森，“用RGBD摄像机进行三维物体检测的整体场景理解计算机视觉的IEEE国际会议（ICCV）2013年论文集，第1417至1424年，澳大利亚悉尼，2014年3月。查看在：出版商网站|谷歌学术
Y.郑J.浦，H. Wang等人，“通过将预测深度描述室内场景分类，”环太平洋会议上多媒体，第10736卷，第13-23页，2018年5月。查看在：谷歌学术
五、 Bisot，S.Essid和G.Richard，“用于声学场景分类的HOG和子带功率分布图像特征”，in第23届欧洲信号处理会议论文集（EUSIPCO），第719-723，法国尼斯，2015年12月。查看在：出版商网站|谷歌学术
A. Janoch，S.卡拉耶夫，Y. Jia等人，“A类级3D对象数据集：把Kinect的工作，”。在IEEE国际计算机视觉研讨会（ICCV研讨会）论文集，第1168至1174年，西班牙巴塞罗那，2011年11月。查看在：谷歌学术
N、 Silberman，D.Hoiem，P.Kohli等人，“室内分割和支持从RGBD图像推断”，in计算机视觉的第12届欧洲会议论文集（ECCV），第746-760，施普林格，柏林，德国，2012年10月。查看在：谷歌学术
L.金，L.泉，和A.青松，“基于SURF和全局特征融合图像的分类研究，”计算机工程与应用，第49卷，第17期，第174-177页，2012年。查看在：谷歌学术
R.拉尼，S.库马尔格雷瓦尔和K. Panwar，“物体识别：使用SIFT和SURF性能评价，”国际计算机应用，第75卷，第3期，第39-47页，2013年。查看在：出版商网站|谷歌学术
五十、 Bo，X.Ren和D.Fox，“用于对象识别的深度核描述符”，inIEEE/RSJ智能机器人与系统国际会议论文集，第821-826，旧金山，CA，USA，2011年12月。查看在：谷歌学术
K. Bregar, M. Mohorcic，和Y. Yang，“在计算受限设备上使用卷积神经网络改进室内定位”，IEEE访问，第6卷，第17429-17441页，2018年。查看在：出版商网站|谷歌学术
Y.周，Y.周，刘Q.等人，“研究适用于图像镶嵌一个DSIFT算法”西安交通大学学报卷。49，没有。9，第84-90，2015年。查看在：谷歌学术
L.刘，陈J.，P. Fieguth，G赵R. Chellappa和M.Pietikäinen，“从船头到CNN：二十年的纹理分类纹理表示的，”国际计算机视觉杂志卷。127，没有。1，第74-109，2019。查看在：出版商网站|谷歌学术
五十、李峰，严先生，向芬先生，张先生，李先生，“改进视觉文字袋模型的高分辨筛选特征及特征对选择”Iet图像处理，第11卷，第11期，第994-10011917页。查看在：出版商网站|谷歌学术
问：朱Y.忠，赵B.，G.-S.夏和张良军，“袋的视觉词的场景分类与本地和全局特征遥感图像空间分辨率高，”IEEE地球科学与遥感快报，第13卷，第6期，第747-751页，2016年。查看在：出版商网站|谷歌学术
S. Khanmohammadi，N. Adibeig和S. Shanehbandy，“一种改进的重叠的k均值聚类方法用于医疗应用，”与应用专家系统，第67卷，第12-18页，2017年。查看在：出版商网站|谷歌学术
E、 Lee，M.Schmidt和J.Wright，“改进和简化了k均值的不可逼近性”信息处理信件卷。120，第40-43，2017年。查看在：出版商网站|谷歌学术
S. Lazebnik，C施密德和J.庞塞“功能的超越手袋：空间金字塔匹配识别自然场景类别，”在IEEE计算机学会计算机视觉和模式识别会议(CVPR ' 06)，纽约，NY，USA，2006年10月。查看在：谷歌学术

移动信息系统

移动信息系统中的深度学习

抽象

1.简介

2。动机

3.多图像符的生成和过滤

3.1。最初的描述符代

3.2条。空间金字塔模型

3.3条。描述符筛选

4.描述符的评估

4.1条。实验数据库

4.2条。评价结果及分析

5个。描述符组合

5.1。同源组合

5.1.1条。五+五

5.1.2。丁 + 丁

5.2。非同源组合

5.3。执行时间处理时间

5.4。算法分析与比较

六，结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章