文摘
人类很容易分类不同类型的对象而对电脑很困难。作为一个热点和难点问题,对象分类已经收到广泛的利益与广阔前景。由神经科学的启发,提出了深度学习的概念。卷积神经网络(CNN)的深度学习的方法可以用来解决分类问题。但最深度学习的方法,包括CNN,忽略了人类视觉信息处理机制,当一个人被分类对象。因此,在本文中,激励完成处理,人类分类不同类型的对象,我们带来一个新的分类方法相结合的视觉注意力模型和CNN。首先,我们使用视觉注意力模型来模拟人类视觉选择的处理机制。其次,我们使用CNN来模拟人类如何选择特性的处理和提取这些选定地区的地方特色。最后,我们的分类方法不仅依赖于这些地方特色,但也增加了人类语义特征对对象进行分类。我们在生物学分类方法有明显优势。 Experimental results demonstrated that our method made the efficiency of classification improve significantly.
1。介绍
对象分类是计算机视觉中最基本的问题之一。这是许多其他复杂的视力问题的基础上,如分割、跟踪和分析。和对象分类在许多领域中有很广泛的应用,如安全性、交通、和医学。因此,计算机自动分类技术可以减轻人的负担,改变人们的生活方式。
人类的视觉感知和对象分类的能力。分类不同的对象时,他们首先选择信息视觉通路,然后他们的神经系统做出正确的决定不需要大量训练通过使用这种选择的信息(图1)。如果计算机可以模仿人类的能力,计算机自动分类技术将大大提高。为了实现这一假设,我们结合模拟人类视觉信息处理机制,模拟人类神经网络(图2)。
指的是认知心理学和神经科学的研究成果,我们可以构建上优于视觉注意力模型作为人类视觉信息处理机制。大多数模型的关注(1- - - - - -3在生理上的启发。但有些是只基于自底向上计算模型,不匹配的人类行为。其他模型的关注如瑟夫et al。4)结合低层视觉特征和高层视觉特性,但他们中的大多数是在“自由观看”;它不能被用于分析和预测当人们感兴趣的区域不同的对象进行分类。为了解决这个问题,我们构建一个基于任务型和学习视觉注意力模型结合低级和高级图像特性来获得人类分类RoI(感兴趣的区域)。
深度学习很好解决抽象和挑选哪些特性是有用的学习就像人类的大脑一样,所以我们可以使用深度学习的方法来模拟人类的神经网络。卷积神经网络(CNN)的深度学习的方法可以用来解决分类问题。CNN的灵感来源于生物过程(5),这是一种前馈人工神经网络。它是灵感来自动物视觉皮层的组织,其单个神经元被安排在这样一种方式,他们应对重叠区域花砖视野。与其他图像分类算法相比,CNN使用相对较少的预处理。缺乏对先验知识的依赖和人类的努力是CNN的主要优势在设计特性,导致CNN更适合解决计算机自动分类问题。
在这篇文章中,我们让五个贡献。首先,学习常见的人们视觉行为分类不同的对象时,我们建立了一个眼动跟踪数据库和记录300年10观众眼球追踪数据图像。其次,模拟人类视觉信息处理机制要求分类不同的对象时,我们使用EDOC数据库作为训练和测试示例学习学习型视觉注意力模型基于低级和高级图像特征,然后分析和预测人类的分类roi。接下来,看到CNN是受生物过程和有显著优势,我们建立了一个CNN框架来模拟人类大脑的分类处理。但是,与传统的CNN,我们使用基于roi预测从我们学习视觉注意力模型作为CNN的输入,因此会更接近人类。此外,为提高我们的计算机自动分类方法的生物优势,我们把高级功能也用于我们的视觉注意力模型与当地特性得到我们的CNN网络通过SVM分类对象。最后,我们建立了大型数据库ImageSix,包括6000张图片作证我们分类方法的鲁棒性。
和所有的实验结果表明,我们的方法做了分类的效率显著提高。
2。相关工作
对象分类是计算机视觉的热点问题之一。人类认识到大量的对象在图像小努力;然而,这个任务对计算机视觉系统仍然是一个挑战。许多方法已经实施了几十年的任务,如方法基于类cad的对象模型(为7[],外貌的方法8- - - - - -11),基于特征的方法12- - - - - -14)和遗传算法(15]。这些传统方法在某些领域表现良好,但它们不适合多个类对象分类。目前,这个问题最好的算法是基于卷积神经网络。说明他们的能力是由ImageNet大规模视觉识别的挑战;对象分类和检测,这是一个里程碑数以百万计的图像和数以百计的对象类。和性能上的卷积神经网络ImageNet测试现在已经接近人类。
更接近人类,这是非常重要的为CNN带来视觉显著模型作为我们的方法,因为常见的CNN忽略了人类视觉系统一个主要部分分类前选择信息。所以我们开发学习型视觉注意力模型。
在过去的几年里,有许多研究人眼运动,和许多卓越模型基于各种技术出色地存在,但大多数人在“自由观看。“其中最具影响力的是纯粹的自底向上的注意模型提出的Itti et al。16],基于特征整合理论[17]。在这个理论中,一个图像分解为低级属性,如颜色、方向和强度。基于解相关的神经反应的想法,Garcia-Diaz et al。18)提出了一个有效的模型的特点被称为自适应美白凸起(AWS)。另一个类的模型是基于概率公式。Zhang et al。19)提出了太阳(使用自然统计显著)模型自下而上的自然特点出现的self-information视觉特性。同样,Torralba [20.视觉搜索]提出了一种贝叶斯框架也适用于凸起检测。基于图形的视觉特点(GBVS) [21另一种方法基于图形模型。机器学习的方法也被用于建模视觉注意力的学习模型记录眼光停留。学习特点,Scholkopf et al。22)使用图像补丁和Tilke et al。23)在每个像素用一个向量的几个特性。
这些计算模型被用来描述自然图像roi,但是他们的使用分类仍然非常有限。但是他们的特征提取方法已被证明确实有效。当我们建立了一个视觉注意力模型的分类问题,我们学会了这些计算模型的特征提取方法指导。
3所示。学习特点分类模型对象
3.1。眼球追踪数据的数据库
学习常见的人们视觉行为当他们不同的对象进行分类和记录眼动跟踪数据,我们建立了一个眼动跟踪数据库,包括六种对象,如飞机,自行车,汽车,狗,人,和白色的猫,叫做EDOC数据库(眼球追踪数据库对象分类)(图3)。EDOC允许定量分析固定点并提供地面实况数据显著模型研究以及为每个类标签。与几个公开的眼球追踪数据集相比,我们的新数据集的主要动机是为对象分类。
当前分析的目的是模拟视觉选择的分类过程相关的地区不同的物体图像。我们收集了50图像的每个类对象和300个图像(图4(一)),它存储在JPEG格式。从十个主题,我们记录了眼球追踪数据,其中包括5女性和5男性,他们的年龄从12到40。受试者被要求查看这些图片找到每个类(图的最具代表性的地区4 (b)),它可以用来区分六类对象。
(一)原始图像
(b)固定地图
(c)热量地图
(d)地面真理
我们使用Tobii TX300眼动跟踪设备来记录眼球运动,它是在一个采样率300 Hz的独特的组合。TX300的眼动跟踪设备有很高的精度和准确性和健壮的眼动跟踪;除此之外,它还具有补偿大头部动作扩展的可能性不引人注目的眼球运动的功能和人类行为的研究。虽然有多种研究概况,主题可以使用系统不需要广泛的培训。
在实验中,每个图像提出了5 s,后跟一个快速和自动校准程序。以确保高质量的跟踪结果,我们检查相机校准每10图像。在第一次1 s查看、主题也许自由浏览了这些照片,所以我们丢弃的第一1 s查看每个话题的跟踪结果。为了获得一个持续的地面实况图像的眼球追踪数据的一个主题,我们对面的一个高斯滤波器卷积的固定位置,类似于“山水地图。“我们重叠眼球追踪收集的数据从所有科目(图4 (c)),然后生成地面实况的平均位置(图4 (d))。
3.2。上优于视觉注意力模型
手工设计措施的特点相比,我们遵循一个学习方法通过使用统计和机器学习方法直接从眼球追踪数据(图2模拟人类视觉信息处理机制)。如图5,一套低级视觉特征提取一些训练图像。在特征提取过程中,前5%(30%)的特征点在地面真理选择训练样本在每个培训的形象。发送所有的训练样本来训练支持向量机模型。然后,一个测试图像可以分解成几个特征图和导入到支持向量机模型预测显著图。显著图预测之后,我们可以使用它们来获得人类分类roi作为输入的CNN继续解决分类问题。
EDOC数据集进行分析后,我们首先提取每个像素的一组特性像素图像。我们重新计算了35个功能,包括31个低级特征和4高级特性,为每个图像的每个像素的大小,用这些来训练我们的视觉注意力模型(我们的)。以下是低收入水平和高级特性(图5),我们有动力去工作在分析数据集(图2人工神经网络,模拟)。
(1)低级特性。因为潜在的生物合理性(17),低级特性已被证明与视觉注意力。我们使用31低级特征:(一)可操纵的金字塔的局部能量过滤器(24)作为特征四个方向和三个尺度(图5,第一个13图片)。(b)我们包括强度、方向和色彩对比相应的图像特征计算Itti和科赫公司的特点2)(图5、图片14 - 16),因为三个频道一直被视为自底向上凸起的重要特性。(c)我们包括功能中使用一个简单的卓越模型描述Torralba [25]和GBVS [21]和AWS [26基于子带金字塔(图)5、图片17 - 19)。(d)的值红、绿、蓝通道,以及每个通道的概率,作为特性(图5、图片20到25)除了每种颜色的概率从3 d图像的颜色直方图计算过滤在六个不同的尺度(图中值滤波器5、图片26 - 30)。(e)地平线是人类自然的地方寻找显著对象,因为大多数对象在地球表面。所以我们使用地平线作为最后的低级功能(图5、图片31)。(2)高级特性。获得的眼球追踪数据从我们的实验中,我们发现,人类因此始终关注人,脸,和汽车,所以我们运行中提琴琼斯人脸检测器(27)和Felzenszwalb人和车探测器(28),包括这些作为我们的模型(图的功能5、图片32到35)。
4所示。CNN的特征提取
卷积神经网络(CNN)村等人提出的最初在1980年代早期(29日]。人类视觉机制的发现后,当地的视野设计使CNN深在1990年代和健壮。CNN是一个神经网络模型,其重量共享网络使自己更类似于生物神经网络,减少网络模型的复杂性和重量的数量。CNN是基于四个主要建筑理念:本地接受字段,卷积,体重共享和空间域的二次抽样。CNN架构是由一堆不同的层,将输入量转换为一个输出音量可微函数。在CNN结构中,卷积层和二次抽样层相连,由监督学习方法训练带安全标签的数据时,CNN的架构我们使用如图6带安全标签的数据时,我们用来训练的CNN获得视觉注意力模型。由于神经网络模拟,CNN通常是作为一个强大的功能器和图像处理领域取得了巨大的成功。
4.1。褶积层
卷积层是一个CNN的核心构件。层的内核参数由一组,有一个小的接受域,但通过输入量的全部深度扩展。在卷积层,上一层的特征图谱与可学的内核,通过激活函数卷积形式输出特性图。每个输出映射可能把玲珑与多个输入地图。
通过培训,内核可以提取一些有意义的特性;例如,第一个卷积层类似于伽柏过滤器,它可以提取信息的角落,角,等等。我们使用的CNN包含4卷积层(C1 ~ C4),内核大小,分别是5,5、5和4个像素,特征图的数量,分别是9,18岁,36岁,到72年,所有的步幅是1(图6)。多层膜结构可以一层一层地抽象的输入图像,获得一个更高的水平分布特性表达式。
4.2。二次抽样层
cnn的另一个重要的概念是二次抽样,即非线性将采样的一种形式。有几种非线性函数来实现二次抽样其中最大池是最常见的。它将输入图像划分成一组不重叠的矩形,对于每一次这样的次区域,输出最大。直觉是一旦一个特性被发现,它的确切位置不是粗糙的位置相对于其他功能一样重要。
二次抽样层产生downsampled版本的输入地图。如果有N输入地图,然后会有没错N输出地图,虽然输出地图将会更小。
我们使用的CNN包含4二次抽样层(S1 ~ S4),定期连续卷积层之间插入。所有的二次抽样大小,分别是2像素,和所有的跨越1(图6)。多层膜结构可以一层一层地抽象的输入图像,获得一个更高的水平分布特性表达式。通过二次抽样,我们不仅可以减少特征的维度,也提高他们的鲁棒性。
4.3。参数共享
参数共享方案用于卷积层控制自由参数的数量。它依赖于一个合理的假设;也就是说,如果一个补丁功能是有用的计算在某一空间位置,那么它也应该有用的计算在一个不同的位置。
因为所有神经元在一个深度切片共享相同的参数化,然后提出通过卷积层可以作为一个卷积计算神经元的权重与输入量。因此,通常指套重量作为一个内核,这是与输入卷积。参数共享有助于翻译CNN架构的不变性。
4.4。完全连接层
最后,经过几个卷积和马克斯二次抽样层,高层推理的神经网络是通过完全连接层和CNN我们使用包含一个完全连接层。神经元完全连接层完全连接所有激活在前一层,如常规的神经网络。其激活能因此计算的矩阵乘法,后跟一个偏见抵消。
到目前为止,我们的CNN网络的结构包含四个卷积层,四个二次抽样层,和一个完全连接层。我们使用人类的分类从视觉注意力模型获得roi CNN网络作为输入,经过特征提取。我们的CNN网络输出648维当地特性,部分特征用于分类对象。
5。对象分类
为了更接近人类的分类行为,我们构建一个基于任务型和学习视觉注意力模型相结合低级和高级图像特性来获得人类分类roi。然后,我们构造CNN网络提取更多的功能的人类分类roi。尽管CNN是基于神经元网络仿真器和是一个强大的功能,通过CNN的特性是当地的组织特性。然而,人类总是分析图像,将它们放入上下文中。因此,对于提高我们的计算机自动分类方法的生物的优势,我们将3维高级功能也用于我们的视觉注意力模型,包括人,脸,和汽车,与当地648维特征得到我们的CNN网络对对象进行分类。
发展从统计数据,支持向量机的理论是一个一般的学习方法,具有良好的泛化能力的非线性分类、函数逼近、模式识别。即使样本有限,支持向量机可以有效地构造高维数据模型,可以收敛到全局最优,是尺寸不敏感。由于支持向量机的优点,我们使用它在651年收购对象进行分类维度特征。我们分类的详细处理方法如图2。
6。实验结果和讨论
为了验证我们的分类方法,我们执行四个实验。()部分6.1评估我们的视觉注意力模型(我们的)并将它与其他八个视觉注意力模型。(2)部分6.2比较使用人类分类roi的分类结果作为输入的分类和使用原始图像作为输入的分类。(3)节6.3比较分类结果时只使用由CNN和特征提取相结合的高级功能和局部特性提取CNN。(4)部分6.4验证我们的6000年图像分类方法。在部分6.2,6.3,6.4,我们都使用分类的错误率和收敛速度作为评价标准。和我们的实验都是基于IBM x3650m5服务器,与CPU e5 - 2603 v2 (2.4 GHz)和32 GB RAM。
6.1。我们的视觉注意力模型的性能
验证我们的视觉注意力模型运用到人类分类roi预测;这个实验的整个加工图所示7。我们使用EDOC数据库评估我们的结果;图像缩放在像素。我们随机30每个类的图像作为训练数据和20每个类的图像作为测试数据。提供的数据库对象的眼球追踪数据作为地面真理。
由于没有共识在一个独特的得分显著模型评估,一个表现良好的模型应该具有良好的整体成绩。我们测量的性能卓越模型在以下两个方面。
首先,我们的每个模型度量性能ROC曲线下面积(AUC)。AUC是应用最广泛的指标来评估视觉特点。AUC = 1时,两个分布是完全平等的,不是相对当AUC = 0.5, AUC = 0时负相关。
第二,三个质量测量,古典的敏感性,特异性和Youden计算。敏感性,也称为真正积极的速度,衡量那些正确识别并采取积极措施的比例是互补的假阴性率。灵敏度越高,就越敏感测试。特异性,也叫做真阴性率,措施底片的比例是正确识别并互补的假阳性率。特异性越高,更精确的测试。Youden称为Youden,可以写成公式(1),其值的范围从0到1。Youden越高,更高的可靠性测试。此外,Youden给平等的假阳性和假阴性的重量值。考虑
但是。分析AUC
我们的方法是生物启发。开发方法与八个知名技术处理类似的挑战。这八个模型目标(30.],AWS [26],贾德[23],Itti [16],GBVS [21,太阳19),机顶盒(26],Torralba [31日]。我们使用它们作为基线,因为他们也模仿视觉系统。在实验中,我们随机选择了30个图像在每个类的数据集来训练我们的模型和其他20个图像被用于测试。统计结果如表所示1。
表1显示了比较评价EDOC 9模型数据库的性能。在这个实验中,在表6类的平均值1用于比较。结果,我们有最好的AUC值。我们的模型的AUC是最高(0.8421),其次是贾德(0.8287)和GBVS (0.8284)。然而,平均只有0.7642。这意味着我们的结果更一致,地面真值比其他模型。一般来说,我们具有良好的性能指标。和图8提出了六个显著地图由我们的方法的例子,其他八个卓越模型。
6.1.2。分析灵敏度、特异性和Youden
的能力不同的方法来预测人类的视觉显著图分类评估使用传统的敏感性,特异性,和Youden测量。这些结果如表所示2。
表2显示的敏感性和特异性和Youden 9模型在60%的地区。总的来说,所有的敏感性、特异性和Youden测量证据表明,我们的模型优于其它模型。我们的模型的敏感性是73.2895%,超过了平均灵敏度13.1638%,其次是贾德和GBVS 71.9905%与71.4794%。然而,Itti率最低(只有40.8605%),低于我们的大约一半。和特异性的较大值(82.2354%)也显示在我们的模型中,这超过了平均特异性4.0582%。除此之外,其他模型的敏感性都低于80%,在我们的。由于有最高价值的敏感性和特异性,Youden(0.5552)我们的模型是最高的9模型,贾德0.4934与0.967和GBVS紧随其后。平均Youden是0.3830,这是我们的只有超过一半。不争的事实是,Youden越高,更高的可靠性测试,和我们的模型优于其他模型敏感性,特异性,Youden测量基于表2。因此,我们适合预测人类的分类从图像视觉显著图。
6.2。比较人类的分类roi和原始图像
证明人类的roi比原始图像分类的对象分类,我们使用人类分类roi(图9)获得的原始图像EDOC数据库和人类视觉特点分类映射到对象进行分类,然后分类的结果与实验结果相比较使用EDOC数据库的原始图像作为输入时的分类。所有图片都是大小像素。我们输入两组图片,原始图像和人类分类roi CNN框架提取特征。正如上面介绍的,CNN的架构我们使用包含4卷积层和4层二次抽样。对两组图像,我们通过3次输入他们CNN, CNN的频率的训练,分别是500年、1000年和1500年。我们随机30每个类的图像作为训练数据和20每个类的图像作为测试数据。最后,我们使用SVM分类错误率和使用对象来检查是否使用人类分类roi可以使分类结果更好,整个处理这个实验如图10说明了这一点。分类的错误率结果通过三个不同频率的训练,500年,1000年和1500年两组的输入图像,包括原始图像和人类分类RoI,如表所示3。
(一)原始图像
(b)我们卓越的地图
(c)人类分类roi提取
表3展示了出错率实验结果通过三个不同频率的训练在两组输入图像。总的来说,所有结果证明我们的方法是基于人类的分类基于原始图像roi超过传统的CNN。虽然当频率是500,两个方法的误码率都超过50%,我们的方法比传统方法更少10%。培训的频率的增加,基于人类的分类错误率的方法roi迅速从63.3%下降到18.2%。然而,传统CNN的错误率50%基于原始图像训练的频率是1000,即使培训的频率是1500,它仍超过30%。此外,随着频率的增加培训,出错率会降低。我们都知道,错误率低,分类的结果更好。所以这不是否认人类分类roi可以分类的结果更好。
6.3。结合提取CNN高级功能和特性
证明结合CNN高级特性和局部特征提取可以分类的结果更好,我们进行了一个实验,添加高级功能,支持向量机模型对对象进行分类,然后比较了分类6.2实验的结果。和实验4的其他设置与实验3和整个的处理这一实验如图11说明了这一点。和错误率的比较两种特征提取方法的分类结果如表所示4。
表4显示出错率的比较分类结果的两种特征提取方法。总的来说,所有结果证明相结合的分类方法基于两种类型的功能超过只根据CNN的特征提取。当频率是500,综合方法的错误率为51.7%,小于单一方法近12%。根据表4,我们可以得出这样的结论:更大的训练频率,降低错误率。但当训练的频率是1000,综合方法的错误率(25.8%)也比单一方法(36.7%)近10%。最重要的是,当训练的频率是1500,综合方法的错误率(14.2%),小于4%的单一方法,几乎一半的出错率的方法(36.5%)使用原始图像根据表3。因此,添加高级特性可以使分类结果更好。
6.4。6000年我们的分类方法图像分类的性能
部分6.1,6.2,6.3”都是基于300年的图像数据库;图像的数量并不大,但没有合适的和可用的数据库包括六大类对象来证明我们的分类方法的鲁棒性。因此,我们构建大型数据库ImageSix(图12从互联网上),包括6000张图片。首先,我们使用我们的预测人类的分类图像的roi ImageSix数据库。其次,我们这些人类的局部特征提取的分类roi CNN。然后,我们结合这些地方特色和高灵敏度的特性提取由我们来执行三个分类支持向量机的实验,以及培训的频率CNN也,500年、1000年和1500年分别。对于支持向量机,我们随机600每个类的图像作为训练数据和400每个类的图像作为测试数据。这个实验的整个加工图所示13。最后,我们将我们的方法的分类结果与结果的分类方法只使用原始图像作为输入,并提取特征基于CNN,和实验结果如表所示5。
表5显示了实验的错误率ImageSix数据库中两种方法的结果。从中,我们可以得出这样的结论:训练图像的数量的增加,两种方法的误码率下降,但是所有的结果的证据,我们的分类方法没有改善超过分类方法。当频率是500,我们方法的错误率为44.6%,小于分类方法没有改善(63.2%)近20%,甚至不到分类方法没有改进的错误率(56.7%)在1000年的频率的训练。增加培训频率,出错率会降低。然而,当训练的频率是1500,分类方法没有改进的错误率仍然超过47%。培训的频率的增加,我们的方法错误率下降迅速从44.6%降至29.1%。因此,我们的分类方法可使分类结果更毫无疑问。
7所示。结论和讨论
本文介绍了一种新的分类方法相结合上优于视觉显著模型和CNN。这种方法的启发完成处理,人类分类不同的对象和生物学中具有明显优势。
首先,我们建立了一个数据库,称为EDOC,了解普通人的视觉行为和记录他们的眼球追踪数据时不同的对象进行分类。
其次,我们建立了学习型视觉显著模型由EDOC训练数据库。我们的模型能自动学习特点和功能之间的关系。和我们的模型同时考虑出现的频率特性和特征的像素位置,它直观地对卓越有强烈的影响。因此,我们的模型可以确定显著区域和更精确地预测人类分类roi。
然后,我们构建了一个CNN框架和使用人类的分类从我们的视觉注意力模型训练获得roi CNN;因此,它将更接近人类。
最后,对于提高我们的计算机自动分类方法的生物的优势,我们结合了3维高层特征与当地648维特征得到我们的CNN网络通过SVM分类对象。
评估我们的分类方法的方方面面,我们进行了4组实验。特别是,我们建立了一个大ImageSix数据库,其中包括6000图片作证我们分类方法的鲁棒性。和所有的实验结果表明,我们的方法做了分类的效率显著提高。
我们的分类方法的启发完成加工,人类不同的对象进行分类;然而,这不是否认人类思维过程十分复杂;我们不能复制完整的处理。除此之外,对于不同的对象,人类思维过程是完全不同的。所以,在未来,提高我们的方法的性能,我们可以优化处理的特征提取和构建不同的CNN框架不同的对象;与此同时,它将变得非常昂贵。
相互竞争的利益
作者宣称没有利益冲突。
确认
中国的工作是由NSF(61117115和61117115号)和由“种子基金的创新和创造在西北工业大学“研究生(Z2016155)和“新人才和方向”计划。