一个基于神经网络的激增Cortex-Like面部表情识别机制和应用

文摘

在本文中,我们提出一个定量,高度结构化cortex-simulated模型,可以简单地描述为前馈,分层模拟生物的腹侧视觉皮层流使用合理的,计算方便飙升神经网络系统。的动力直接来自最近的开创性工作详细的功能分解分析前馈通路的腹侧视觉皮层和发展人工神经网络(SNNs)飙升。通过结合皮质的逻辑结构的层次结构和计算能力飙升神经元模型,提出了一个实用的框架。原理的证明,我们证明我们的系统在一些面部表情识别任务。拟议中的cortical-like前馈层次结构框架的优点的能力处理复杂的模式识别问题,这表明,通过结合认知模式与现代neurocomputational方法,neurosystematic方法研究cortex-like机制有可能扩展我们的知识的大脑机制的认知分析和推进理论模型如何识别脸或者,更具体地说,理解别人的面部表情丰富,动态的和复杂的环境中,提供了一个新的起点改进模型的视觉cortex-like机制。

1。介绍

了解快速接触视觉刺激(脸,对象)影响分类决定皮质神经元网络是必不可少的理解之间的关系隐神经信息编码和明确的行为分析。定量心理物理和生理实验证据支持这个理论的视觉信息处理在皮层可以建模为一个层次结构的日益复杂,稀疏编码表示,在视觉通路(1),使用脉冲编码,作为信息传递的基本手段,是最优的信息传输。如此飙升层次结构应该有独特的能力的decorrelating传入的视觉信号,去除冗余信息,同时保留不变,为了最大化信息增益(2]。因此,沿着层次结构描述和建模功能,从外侧膝状体核等早期或中期(LGN),或'视觉皮层(V1),是更高层次的系统研究必要的步骤,更全面的目标识别等任务。然而,详细的功能分析仍然是不切实际的,由于小定量的工作已经完成探索建模整个视觉皮质系统有选择地放大重要功能促进歧视,无论从计算智能的角度还是从neuroinformatics角度判断,使认知的想法综合分析一个有吸引力的但难以达到的目标。

传统方法解决这个问题通过创建一个计算网络类似的基本视觉系统信息处理层次结构模型。开创性的尝试包括Neocognitron由福岛(3),处理信息率神经单位处理变换不变的特性,紧随其后的是一群功能相似模型的出现,如勒存提出的分级机和Bengio [4,5),自底向上的模型机制Ullman et al。6,7由wers和Korner[],或模型8]。这一趋势后来跟着明显层次认知模型的方法在9),使用分级层类似于neocognition,处理单元根据softmax (MAX-like)操作。结合使模型适用于初始模拟cortex-like机制。这种生物动机层次方法进一步仔细分析了Serre等人在一些真实的数据集(10,11),产生类似的性能与基准算法。一起,可以得出一个结论,传统观点描述信息编码的组件,如频率、强度和方向,这是视觉信息的估计。这个角度看更侧重于性能和响应的皮质神经系统,而不是它的功能目的。因此,尽管出版物集中在这个方向是大型明快和读者被称为下一节详细调查这一趋势,然而,很少的工作试图探索认知机制使用生物启发计算单位。

相比之下,最近从神经生物学证据使研究人员构建cortex-like方案建立模型与单神经元飙升作为计算单位(大多数皮质生理学家认为,大多数神经元皮层飙升),所谓的神经网络(SNNs)飙升。从第一个成功的飙升神经元模型,Hodgkin-Huxley的模型(12),随后几个原型已经被提出,如integrate-and-fire模型(如果模型)(13),一个最简单但最有效的模型描述神经元的动态,及其扩展,峰值响应模型(srm) [13),液体状态机(LSM) (13),和Izhikevich模型(14]。作为一个神经生物学的似是而非的框架,SNNs已显示出巨大的计算能力,在理论上和实验上都由几个值得注意的作品。索普等人提出了一个三层前馈网络(SpikeNet)使用一个快速如果神经元(15,16]。基于事件驱动的计算,SpikeNet报道成功的实时跟踪和识别人脸不增加计算负担。Wysoski et al。17,18激增)引入了一个神经网络框架,如果模型和Hebbian学习规则,这是一个四层前馈神经元组成的层次结构分为两个神经元的地图。整个系统已经成功地证实与VidTimit数据集使用面部识别个人信息。这些解决方案试图解决识别问题,代表复杂对象为简单关心取向或空间频率特性,为了确保不变性对规模和转换。然而,由于相关活动和稀疏编码原则皮质神经元组(经常省略了许多模型),动态的网络不能充分反映个人和孤立的神经元。理解和包含高阶相关性神经元群体的功能作用是必要的,但很少有作品集中具有挑战性的任务。

出于SNN和层次模型的潜力,我们解决这个问题的神经编码和神经计算,这里我们提出一个多层前馈,integrate-and-fire神经元组成的层次网络模型,该模型能成功地探测、分析和识别感兴趣的对象。解码定位,定位位置,减少相关和推断类别的对象是由后续,日益复杂的网络水平。原理的证明,我们实现了一个原型模型和集中在作证时其性能在一个独特的类别objects-human面部expressions-a视觉表现人类情感的一种范式对于理解层次处理腹侧神经的次数。神经生物学基质的人类情感,如恐惧、愤怒或厌恶一直是一个有吸引力的目标,因为情绪是封装比其他的心理状态。面部表情,独特的人类情感的体现和表现,是最直接的方法之一,人们协调,沟通情感和其他心理,社会和生理信号。作为结果,他们往往认为是揭示心理后果的捷径和机制认知的情感调制(19]。因此,面部表情研究的进步直接反映了更广泛的进步情感分析。

一般来说,这种层次结构应用到面部表情识别不是一个新奇的想法。Dailey等人已经提出了一个简单而精致的原型叫做EMPATH [20.十年前,EMPATH实际上是一个生物的神经网络分类模型的面部表情。作为一个标准的三层前馈网络由,EMPATH执行像伽柏在第一级过滤器,然后提取视觉信息表示送到第二层进行降维,和PCA应用网络图像压缩,最后,决策的输出层(完形层)分为六种基本情绪。作者展示了模型的潜在的数据集通过使用一个简单的面部表情,进一步分析后的模型已经应用(21)与不同的面部表情JAFFE等数据集,产生令人满意的结果。然而,应该注意的是,传统的线性分析模型(如PCA)提出了人工,高斯像刺激可以完全被二阶相关性将遭受偏见的结果作为自然图像(或面临捕获变体照明或嵌入在复杂背景下外,如视频安全监控任务)统计数据往往是高度nonGaussian,这可能会限制其进一步的应用。因此,捕捉这些高阶统计技术,形成高效的视觉信息表示可能被视为一种自然的解决方案。

虽然我们有着类似的动机之前作者(16,17),我们的方法是非常不同的。我们的论文是两个主要贡献。首先,我们开发一种新型的框架,生物模拟视觉通路的操作方案,强调视觉皮层的稀疏和效率,具体来说,高阶相关性处理行业。第二,我们展示了如何将系统应用于实际模式识别面部表情识别等任务。一些面部表情数据证明使用该方法,包括正面视图nonfrontal视图和视图照明变体。虽然充分意识到这种尝试是一个简单的近似的大脑如何真正的神经回路真正操作,我们仍然获得令人满意的结果。

最初的框架和一些实证实验结果已经出现在会议论文(22),在这里,我们进行以下修改。(1)仔细审视整个框架和做出全面、明确的描述。(2)其他一些实验结果。(3)清单详细讨论模型的缺点和优势,并给出了未来可能的改进方向。

本文的其余部分组织如下。部分2回顾了基本的视觉系统和当前状态的艺术的僧侣的cortex-like机制模型。部分3评论飙升神经元模型的基础,其次是我们的建议框架,动力学,结构和学习机制,讨论了细节。几个实验结果部分所示5。我们还提供了一些讨论和总结,部分6最后一部分总结道。

2。视觉系统和皮层模型:当前状态的艺术

本节的由两个大的部分,我们开始我们的故事简要回顾视觉系统的基本原理,然后探讨当前提出相应的方法和方法。详细的利弊进行了讨论。我们特别讨论了计算单元,用于后期。

2.1。视觉系统:基础知识

从视网膜到视觉皮层,大脑中的神经回路,构成我们的认知行为进化以惊人的效率,非常适合处理视觉信息的能力的计算,和沟通的奇迹1]。许多现有的方法在计算神经科学是基于生理观察认知任务执行从简单到复杂,层次结构。'视觉皮层的普遍接受的标准模型简要综述如下。(1)视觉处理是一个前馈,从低到高水平的层次结构。早期视觉系统创建表示连续的阶段在视觉通路,从视网膜、外侧膝状体核(LGN) V1,体贴的数据压缩率没有明显的信息损失(23]。(2)神经元在V1可以大致分为两类,简单的和复杂的,基于空间分离或重叠的光明与黑暗刺激的反应,以及酒吧和正弦光栅。面向简单细胞接受字段(RFs)包含的条件每一个专门应对光发作/黑暗抵消(条件)或黑暗的开始/光抵消(条件)。复杂的细胞反应主要面向边缘和光栅,像简单的细胞,然而,他们有一个空间不变性程度(17]。(3)视觉皮层主要由两种途径(11,12,23,24]:腹侧流和背流,前者是主要参与对象的识别和发现后/下大脑的一部分,而后者与对象的定位和主要发现后/优越的大脑的一部分。(4)从neurocomputing角度来看,神经元相互沟通通过发送电子脉冲编码称为动作电位或峰值。巴洛(2)认可的重要性信息理论在这种情况下,假设的有效编码视觉信息可以作为一个基本约束神经处理。这一假设认为,一群神经元编码信息应该尽可能的简洁,以最有效地利用可用的计算资源。(5)有效编码假设将自然成两个不同但是相关的语句。一个关于个人神经反应的统计数据和第二关于稀疏的神经反应。不同神经元的反应自然环境应该是相互统计独立的,因此,每个神经元不应该携带的信息冗余,由他人。这也符合这个概念视觉系统力求一个场景分解为统计独立选民。成功的理论模型包括独立分量分析(ICA) [25)和稀疏编码(9,26,27]。

2.2。视觉层次模型:状态的艺术

有上述的理论组件带来了什么类人脑过程的仿真领域的模式识别和分类决策为目的的吗?许多模型的后果是新兴的信息处理几个方面类似的视觉系统。先锋生物尝试包括著名的neocognitron的启发,提出了福岛和宅一生3),处理信息率神经单元,和勒存et al。4,5),Ullman et al。6,7),韦斯和刚8),所有这些模型已被证明后定性约束的解剖学和生理学的视觉皮层,实际上可能不适合实际的计算机视觉系统。因此,更全面的,通用的,高级计算框架是必需的,这样可以实现快速、准确的对象识别通过总结和整合大量的数据从不同层次的理解,同时保持稀疏和discriminativeness之间的权衡,以及获得足够的不变性健壮的性能。

最近,一个认知模型初始化Riesenhuber et al。9,10),使用分级层类似于neocognition,并根据MAX-like处理单元操作,收到相当大的浓度。模型的核心是腹侧的主要功能流的假设可以被视为一种机制进化实现选择性之间的权衡和不变性的快速和准确的对象感兴趣的识别任务,是通过一个基础层次结构不变性增加(从视网膜到)对象的表象(旋转、尺度、位置等)¹。模型产生的相对位置和规模不变的对象识别的功能。

生物动力层次方法进一步仔细分析了Serre等人在几个真实的数据集(10),通过提取形状和纹理属性。分析包含不变性在求解多个对象的识别和识别复杂的视觉场景(如树叶、汽车、脸、飞机、摩托车)。方法比较性能与基准算法。有许多伟大的出版物集中在这个方向。详细调查报告我们参考读者小山和Serre最近的工作模型的视觉皮层(28]。

2.3。讨论

分层表示开始主宰认知心理学和神经科学在1960年代。然而,从计算的观点来看,层次模型可以被视为概念工具,而不是计算的意思。尽管共享逻辑结构的固有价值,缺乏计算单元的通信支持有时脆弱的系统的性能。如何结合的逻辑结构层次与计算单元体内应该考虑一个伟大的关注。这是我们的目标,因此,通过将人工神经元模型(计算单位)飙升到僧侣的模型,我们提出了一个新颖的认知框架,它可以应用到一些实践模式识别问题。飙升的基本原则提出了神经网络在接下来的部分。

3所示。强化神经元模型

我们第一次开始本节简要介绍SNN的原理,利用信息表示作为高峰的列车,嵌入时空特征。简化integrate-and-fire神经元模型的部署中,丢弃的突触后电位(PSP,代表神经元的激活水平)泄漏,相比标准版。这个神经元模型的主要优点是计算便宜,它促进突触前第一个峰值的重要性。激励取决于峰值到来的顺序和失活后的神经元输出峰值(PSP永久设置为静态电位水平)。结果是一个简化的通用解码的实现方案输入延迟(16,17]。

每一个神经元作为一个巧合检测单元和神经元的PSP一次是计算在哪里调制系数,每次神经元接收到峰值,峰值效率集成是除以这个因素,其结果是最早的峰值有最强的影响(PSP)的激活水平。索普证明这第一波的时空结构的峰值可以携带所需的几乎所有信息输入进一步识别,快速和准确(15,29日]。订单放电的神经元,代表相应的突触权重。根据(17),如果生成一个输出峰值(只有) 在哪里是突触后阈值。

4所示。网络拓扑结构

标准模型的视觉皮层(23),从感官/输入层到最后分类层,整个系统包括三个主要模块:感觉/接受层,它由简单的细胞行为模拟器和复杂的细胞行为模拟,发现感觉输入和数据预处理,包括特征提取部分所有情况;所有这些子层包括兴奋性和抑制性神经元;学习层,包括兴奋性神经元;分类后,积累学习的所有输出层,整个系统见图1。整个系统见图2。注意,演示系统已经报道了好几会议论文等(22),因此我们只简要回顾如下为了保持结构的完整性。

图1

22 整个面部表情识别系统框架。从原始输入到最终的输出,包括每一层的插图,这表明,精挑细选的组合,determinativeness和不变性逐渐建立了几个阶段的面部信息处理。预处理部分包括面部区域的检测(眼、嘴等),光照归一化,视网膜水平还负责边缘检测器的高对比度增强图像。第二层次的功能像伽柏过滤器,将输出发送到知觉水平健壮的选择性和不变性特征提取,然后在分组和分类,类别水平给出了输出结果(颜色)最好的观点]。

4.1。预处理

输入图像的预处理过程分为三个步骤:(1)人脸检测、眼睛和嘴的位置,(2)屏蔽,(3)照明正常化。前两个步骤提供规范化的人脸区域进行进一步的处理,和去除无关信息,如背景和头发,以及一些不必要的配件的一个主题。光照归一化是至关重要的,尽管人类视觉系统可以处理情感感觉极其复杂的环境,如光照变化几乎毫不费力,光照不变量处理,一般来说,通常是更加困难比前两个步骤。我们假设照明的效果²处理分别沿两条途径,一种方法是按照主腹路线(30.],照明效果将贴现在视网膜上,通常被视为预处理部分,以方便进一步的处理,另一种方式是照明和阴影信息的旁路途径是直接从视网膜到区域,它有助于认知场景的三维信息³。在我们的框架中,只考虑预处理的最主要途径。将讨论和解决照明问题的实验部分。

4.2。从视网膜到V1

第一层的神经元代表了视网膜细胞,作为边缘检测器,旨在提高给定图像的高对比度部分(高通滤波器),并且通常可以使用二维高斯函数的差异实现(狗),频率尺度在哪里选择不同的标准差高斯曲线:

在第二层模拟神经元接受字段(RFs) V1的简单细胞和复杂的细胞,可以被解释为伽柏小波函数。尤其是层是由八个为每个频率刻度定位地图,每一个被选择不同的方向(,,,,,,,)[17]: 在哪里定义伽柏内核的方向和规模,,我们有,在那里和。是内核在频域之间的间距的因素。

4.3。它从V1

学习动力发生在更高的水平,伽柏高维度的特性使得降维技术(如PCA)需要得到一个更加稀疏的特征子集。最近的理论研究表明,接受类似细胞V1的字段可以学习(通过生物优化技术)基于几个复杂的学习原则,例如,效率和稀疏(22,24,26)(减少的数量单位积极对任何输入),统计独立(31日]。ICA可以被视为一个合理的选择捕捉这些数据形成有效的自然图像表征,研究表明ICA可以帮助解释相关现象在皮层神经元,如反应抑制、对比增益控制和调优属性变更。在我们的框架中,地形ICA⁴应用于模仿这样的学习机制,为代表的优点的地形复杂的神经元的行为和解释复杂的细胞(25,32]。

行业模型的计划中说明了整个系统的框架(见图2),它可以被视为一个生成模型和两个水平。经典的ICA模型用于第一级作为简单的特征提取器细胞V1,二级(复杂的细胞),2 d地形结构定义来描述组件之间的相关性在一个小社区。这可以通过一个社区功能表达之间的距离th和组件。一个简单的例子可以被定义为

常数这里定义了邻域的宽度,组件的社区与索引由这些组件的指标范围。如果神经元之间的距离和小于一个预定义常量,那么这两个神经元被定义为邻居,因此非线性相关。社区功能因此hyperparameters的矩阵。在本文中,我们认为它是已知的和固定。集小邻居的价值,我们有在哪里是图片,是混合系数矩阵的逆。

使用毫升(最大似然)方法,我们可以获得的似然函数

请注意,可以被认为是一个社区的能量,可能与高阶神经元的输出在视觉复杂的细胞模型。

一个简单的梯度算法可以用于执行的最大化似然函数的近似。权重向量被更新为在哪里是数据prewhitening过程。是美白的矩阵。我们有

这个函数的导数是在这里,我们定义一个指数分布,在那里是比例常数定义了正常化。的正交化和归一化权重矩阵可以通过让完成的

最后,在学习结束后,原来的混合矩阵可以通过反相计算美白的过程吗

详情,请参阅[25]。

4.4。学习和神经计算输出

监督式学习过程中,模型试图通过修改更新重量与输出神经元映射神经元之间的突触权重的平均值兴奋和预选的神经元,因此,。注意,神经元的输出地图共享相同的突触权重。结果是神经元的输出映射将响应的平均模式训练样本,采取强劲的度量的空间位置检测到面部或面部表情和计算方便,同时对此案的模式是高方差已知,如识别面部表情的主题变体规模和照明在复杂的场景。

最后一层创建相应的神经元数量地图模式类的数量呈现给网络。神经元训练反应选择性的一个给定的输入(脸,面部表情等)在他们的接受域的中心。侧抑制理论后,每当一个预定义的类别飙升的神经元,其他所有的神经元,神经元地图(代表其他类别)的区域集中在神经元的位置将得到抑制脉冲(高斯曲线拟合理论),形成一个歧视的分类器。

5。实证评估

在本节中,我们评估我们的框架在几个数据集、公平的评价和整体性能的目的,我们试图评价方法从不同的方面,如额面部表情识别和面部表情识别的约束下光照变化。为了做个比较,我们还提供其他几台系统和测试评价方法。

5.1。JAFFE数据库实验结果

第一个实验是测试在日本女性面部表情(JAFFE)数据集33]。JAFFE数据集包含213张图片七面部表情包括六种基本的面部表情和十个日本模型构成的一个中立的表达式。JAFFE用作基准数据库几个方法。也,以其纯粹的日本特色,有时也用于跨文化的比较研究探索如Dailey等的工作20.,21]。JAFFE也突出的心理认为,女人倾向于认知和显示比男人更明确的情绪面部表情。因此,它是合理的,开始从这个数据库实验评价。

表1总结了该方法的性能和其他出版基准系统的结果⁵,请注意,我们的结果优于其他方法34,35),产生令人满意的结果。


特征提取方法	识别率(%)

PCA +支持向量机	93.43
ICA +支持向量机	93.35
LDA +支持向量机	91.27
2 d-lda +支持向量机	94.13
我们的	97.35

5.2。坎昆额面部信息数据库的实验结果

介绍的第二个实验是评价方法的新创建的数据库面临的民族大学中国设计和建造,即大规模种族多样化的脸数据库,坎昆的脸数据库⁶涵盖不同来源的变化,特别是在种族、面部表情,照明,背景,姿势,配件,目前等等,它包含了112000 1120人的图像(560男性和560女性)中国56个民族或族群。数据集的目标列出如下(36]。(1)提供世界各地学者的人脸识别不管是面对真实详尽的信息数据库。虽然大多数当前的数据库主要由高加索人,我们主要集中在实验期间“不管是效应”。(2)理解文化特定的面部表情的不同生产和解释,长期被视为一个关键连接个人与社会之间的沟通。(3)提供面部数据对于脑-机接口(BCI)系统项目,目标是收集脑电图和面部表情,自愿或控制,选择受试者兴奋的视听刺激,与头皮EEG设备记录,分析和确定之间的非线性相关唤起情感和对面部表情的表现。图3显示了摄影室的配置,包括灯具、摄像系统,等等,和一些典型图像的主题。

图3

22 图显示整个村的脸数据库的配置。捕获的脸图像不同姿势,表情,配件,和照明条件下,一个特殊的摄影室的尺寸8.0米长、8.0米宽、3.5米高度设置在我们的实验室,和房间里的配置必要的设备包括一个摄像机系统,照明系统和控制设备,配件和各种背景。注意,为了模拟环境照明,两种摄影日光灯的高功率覆盖着磨砂玻璃用于照射到粗糙的白色天花板,可以获得更均匀的照明和模拟正常的户外照明环境照明源(开销)。生成各种定向照明条件需要,我们建立了一个15荧光灯照明系统在摄影室使用多个灯和灯地狱,在一个半圆的配置(]。

我们进行的第一个实验是在七额数据集的一个子集(六个典型的面部表情+一个中立的表达式),在一些最常用的基线的人脸识别算法和我们建议的方法进行评估。300名受试者,每一个都包含超过14额面部表情图像,使用。注意,一些主题分享相似的面部表情,但他们中的大多数种族多元化和变量表达式强度(图4)。我们使用(10/14)的图像的每个类培训和不同比例的其余图像进行测试。实验结果的某些部分,介绍面对数据库已经出现在会议论文(22,36)和我们的方法取得了可喜的成果与最高的表演等最先进的方法(31日,37,38]。

在实验中,我们发现所有的六个面部表情,表达快乐和惊喜的表情表情越容易被认出而恐惧的表情是最困难的表达式被认可,这是符合心理结果如(39]。另一个值得注意的事实对特定类别的识别率,恐惧,厌恶,和意外信息相对低于其他一些西方面部表情等数据集Cohn-Kanade AU-Coded面部表情数据库(40),我们有一些经验的实验结果。再次,情况可以通过文化占据特定的解释是比较容易分析的显式或西方程式化的消极的面部表情。此外,一些行为和与事件相关的潜在的实验结果41,42)支持这一结论情绪面孔识别的困惑,也就是说,东亚人往往有困难种差恐惧和厌恶情绪表达,而西方的人没有这个问题。所有在一起,结果表明该方法的潜在有用的处理这样的问题。然而,我们的方法仍然显示平均令人满意的结果⁷。

5.3。光照变化的面部表情识别的实验

第二个实验我们考虑为坎昆数据集提出的评价方法在光照变化下的面部表情识别。而最新研究限制额视图与正常照明条件下,面部表情识别与变体照明条件是一个富有挑战性的研究课题,最近开始吸引研究团体的注意。然而,一些工作在这个问题上已经完成在过去的几年里,因为它的技术挑战和缺乏适当的数据库。我们选择子集村照明变化、30例5构成角度(我们也考虑构成变化)造成的阴影效果,3灯饰和随机选择6面部表情为通用培训和其余的用于测试。我们考虑以下实验程序:同样的照明,同样的姿势,代表了传统的固定场景,不同的照明,同样的姿势,主题的面部表情应该认识到相同的姿势(说,额,从而意味着0°),而照明变化从一边到中央)。实验结果表中列出2(%,省略小数点)。


的名字			坎昆面部	表达子集
		未规范化			归一化
		照明角度			照明角度		大街
学位

构成	H / Sa /苏/ D / F / A	H / Sa /苏/ D / F / A	H / Sa /苏/ D / F / A	H / Sa /苏/ D / F / A	H / Sa /苏/ D / F / A	H / Sa /苏/ D / F / A	(%)

	85/76/79/67/65/82	57/53/55/55/48/63	66/57/58/62/51/59	85/76/79/67/65/82	66/52/65/59/47/66	67/55/61/56/47/62	63/64
	67/65/61/53/42/57	53/51/50/51/43/55	51/55/58/55/50/48	66/59/60/72/48/62	60/65/59/52/45/56	46/45/40/45/32/42	53/53
	63/56/52/55/35/51	45/55/47/45/43/50	44/42/42/45/43/40	66/43/50/51/52/55	58/53/57/51/42/55	48/44/39/40/38/43	47/49
	48/46/44/47/38/45	42/45/45/45/32/41	36/36/33/35/35/39	57/52/45/49/59/61	50/45/44/49/40/51	41/40/36/35/22/32	40/45
	33/33/33/33/17/33	33/37/31/35/25/33	37/30/31/25/18/32	38/39/37/33/40/42	36/33/40/33/38/33	35/37/35/35/31/33	31/36

平均 (%)	59/55/54/51/40/54	46/48/46/46/38/48	47/44/45/44/39/44	62/54/54/54/53/60	54/50/53/49/42/52	47/44/42/42/34/42	47/49

笔记	h幸福观	Sa-Sadness	Su-Surprise	D-Disgust	F-Fear	A-Anger

从表中我们可以看到,这对两个数据库确实是非常具有挑战性的任务,如果姿势和照明条件都是极端,然后几乎没有面对将是可见的,更不用说面部表情。如果主题的姿势,照明角度不同来,那么问题变成简单的额面部表情识别在不同照明角度,我们获得可接受的结果⁸,即使在极端照明角度90°,这是因为脸图像通常是对称的,因此比较容易辨别,甚至对面部表情(通常这个观点认为,当一个主题在他的脸上的表情不是对称的,有可能是他/她试图假装隐藏内心的情感状态,或表达不自然。)。但是,当主体的构成比,对称性遭到破坏,结构信息的缺乏使得算法难以提取可靠的信息,与此同时,铸出阴影效果和附加的影子会使识别更糟糕的是,即使在退化图像部分恢复了归一化预处理算法⁹。在实验中,我们的方法执行令人满意的只有当测试图像相对集成,这意味着图像阴影效果影响并不太多¹⁰这也表明,所谓的“直接的视觉”(即快速分类没有眼球运动和关注)处理照明变体问题有其局限性,这可能被发送到认知越高,注意要求区域进行处理。然而,它还应该注意与非规范形象相比,该方法的识别结果并没有降低,表明系统性能的鲁棒性(光照变化不变性)。

6。讨论、总结和未来的发展方向

6.1。摘要

在本文中,我们专注于一种潜在的皮层像框架面部表情识别的快速分类决策。我们的假设是快速决策是V1,前馈和神经编码的天生的生理行为将减少冗余信息,提高选择性,同时保持不变,因此,在某种程度上是一致的感知性能,因此,这项工作中所描述的系统是基于一个共识神经学家,心理学家和拟合实验数据。它属于一个家庭的前馈模型对象承认试图复制在几个视觉皮质神经元的调谐特性。模型由若干层次,每一层的函数的类型分别总结如下。

第一层模拟了视网膜的细胞的生物学特性,增强的高对比度部分给定的图像,采用二维高斯函数的差异,执行高通滤波器的作用。

第二层由应用伽柏过滤器从第一个输入,模拟处理初级视觉皮层简单细胞。Olshausen和现场证明,优化一个简单的稀疏编码方案在一组自然图像边缘产生一组过滤器类似于伽柏过滤器(26,43]。因此,伽柏过滤器的输出对输入图像应该有可取的稀疏性质。

第三层次做了一些非正统的传统计算机视觉模型,它试图删除多余的表示,同时保留互信息最大化的信息,揭示了潜在的独立组件的输入,一个典型的高效的编码方法。因此,生成统计模型等行业将是显而易见的选择。小世界的动机是三角连接(稀疏分布,局部刺激计算现象成立于大脑皮层)和高效编码假设(即早期的视觉流程应该利用统计规律或冗余的输入来表示尽可能多的信息给神经资源有限)表明,能源效率可以用来解释稀疏编码理论(1,2,26,43]。已经注意到的,强烈刺激活性神经元相对较小,所谓的稀疏编码理论表明,初级视觉皮层的神经元形成稀疏表示的自然场景统计的观点。温吉格兰特等广受好评,神经元的早期视觉系统应该有独特的能力decorrelating传入的视觉信号,去除冗余信息,为了最大化信息传输(27]。尽管还不清楚如何建模整个视觉皮质系统有选择地放大重要功能促进歧视,已经被广泛接受,sparse-coding-based神经元系统改善神经信息处理和皮层感知。

最后阶段,我们的系统是一个标准的信息积累和决策部分原始SpikeNet模型后,对应V4-IT,神经元被训练要选择性预定义类别(一个神经元为每个单独的地图)。

6.2。讨论

持续努力在认知神经科学中,模式识别,和先进的人机系统针对计算智能模型的建立使用模拟神经元单位作为基本构建块。这样的努力,灵感来自cortex-like机制的标准设计和传统的人工神经网络,是有限的单一功能性能和大规模计算不便带来的困难,尤其是在处理大型、复杂的模式识别问题。我们建议的模型,另一方面,表明,结合模型和任务的认知与现代neurocomputational方法,neurosystematic方法研究cortex-like机制有可能克服上述困难,来扩展我们的知识的大脑机制的认知分析,并推进我们如何识别面临的理论模型,例如,感知他人的情绪在一个富有的、动态的和复杂的环境中,提供了一个新的起点改进模型的视觉cortex-like机制,正式通知的神经元模型的数学方法,受到视觉腹侧通路模型。已经开始研究说明这种组合可以直接作用在几个特定的应用程序的任务。

6.3。未来的发展方向

似乎有至少四个方向,可以跟着进一步提高cortex-like机制的性能。

首先,作为未来的方向,为了提高生物的使用合理的现实的神经网络进行模式分析,适应是非常必要的。实验结果表明,自适应地改变接受域V1输入刺激,增加过滤的信息由神经响应刺激(44),这意味着神经编码自适应,自适应滤波过程实际上影响的空间频率成分神经滤波器,从而增强了视觉皮层的信息传输,与最优神经编码协议。很方便如果这适应过滤机制可以被集成到系统中,由于缺乏适应当前的模型,一种方法是使用自适应伽柏过滤器,或应用本地适应性、全球稳定的内核的方法。

第二,最近从神经科学发现曹,Freiwald等人表明,连续的阶段,面对网络可能会执行一个逐步转换:从选择性的观点,不管身份,选择性的身份,无论观点(45- - - - - -47]。一般的含义是腹侧通路中的前处理阶段带泛型类别信息(例如,脸和nonface,典型的快速分类决策任务,也按照当前的理论模型和实验建立)和观点,而后来处理阶段进行个人信息(例如,罗杰和迈克尔)范本,消除观点信息实现不变识别,表明不变的规模和位置特征描述符(例如,运营商像筛)可能需要引入附加层。相同的概念无疑将适合的面部表情识别。

第三,当前神经元模型确定的飙升,限制他们描述和建模大规模、动态、随机过程,而作为飙升过程中生物神经元随机天生(神经元飙升,突触连接,传输通道开放与否,等等),这将是适当的去寻找新的灵感来提高当前SNN模型与概率参数,形成概率神经网络(pSNNs)飙升。例如,将概率参数添加到飙升神经元模型(如Izhivich SNN模型)模拟体内皮质神经元的行为,在参数用于控制突触建立在飙升生成和传输。和Hebbian学习规则可以使用概率参数自适应控制和连接权值与突触建立使用索普的规则在网络学习过程中。这样一个pSNN模型将表现出更明确的行为和健壮的性能比原来的模型和确定性的网络组织。一些实验结果已经为它的效率提出了执行功能难以实现使用传统模型(48]。

最后,另一个有前途的方向是修改SNN架构。所有现有的neuromodels将强调多层前馈转换、层次布局结构,是基于传统的生理实验。然而,最近的实验发现,处理在视觉功能补丁和额外的反复处理各级补丁之间的处理层次结构(并行)很可能进一步的机制,可能导致更复杂的表征(46]。这将是重要的和必要的使用激增复发性神经网络描述的动态过程。然而,这意味着我们需要丢弃原来的架构,因为高峰传播SpikeNet等这些直接模型采用前馈和迭代过程不能发生的,即使横向交互存在在过去处理阶段,每个神经元只能发射一次。为了解决更复杂的、动态的面部信息分析问题,神经元的基本设计模型(49)是由所有重要和必要的。

7所示。结论

建立一个智能人机系统一直是学者们几个世纪以来的梦想,已经有大量的兴趣研究类人脑的模拟过程模式识别的目的。本文提出了一个实用的实现使用高度结构化的cortex-simulated系统,可以简单地描述为前馈,分层模拟生物的腹侧视觉皮层流使用合理的,计算方便飙升神经网络系统。拟议中的cortical-like前馈层次结构框架的优点能够处理复杂的模式识别问题。有识别力的视觉功能被分组和精制逐步的水平。独立分量分析可以执行比其他描述符的面部表情识别,由于高效编码的方法表示局部稀疏,提供高度歧视和有效的特征描述符。我们展示我们的系统在多个面部表情识别任务。值得注意的是,小结构修改和不同的学习计划允许实现更复杂的决策系统,发现隐含的模式显现出了巨大的潜力和进一步分析。

确认

作者要感谢教授的尼古拉Kasabov有用的评论;鲁伊·郑捕获系统和实验设计;承光唐宋魏音羌族面部表情数据集的建立。勇她,小明妈,和Hanxin贾承认发展项目和技术支持。这项工作是支持中国大学" 985资金项目的一部分(授予98501 - 00300107,美商阶段)和独立的中国民族大学研究基金项目(基于多源信息的民族关系研究),基本Rsearch中央高校基金(基于Anthropometircs多峰性民族面部信息编码研究)和北京市公共信息资源监测项目(104 - 00102211)资助。

尾注

请注意,一些模型(9,10,24]提出了隐式或显式处理早期视觉区域创建一个筛选图像表示,尽管质疑这种显式的预处理的必要性的基础上,神经生理学证据。然而,最近的实验结果支持这一观点47]。
一般来说,照明和阴影分为两种类型:阴影,阴影。阴影光源时出现阻塞由相同或另一个对象的一部分,比如阴影后的鼻子是由光源,他们可能会产生全球限制表面深度。另一方面,附加阴影时出现的“表面和一个光源方向之间的夹角是钝角,和他们产生当地限制表面(50]。”,(50]。
几个模型和猕猴inferotemporal皮层神经生理学实验表明,显式结构三维物体形状编码机制可以被多个对象表面碎片,体现视点相关理论和空间形态要素之间的关系的推断illumination-dependent理论(47,51]。
最近生理成立(25]表明独立并不持有只需将ICA模型应用于图像由于存在强烈非线性相关性中提取组件和地形的邻居神经元之间的组织结构。
类似的实验结果已经出版之前在会议论文(22),我们重新安排整个实验,获得了不同的结果。请注意,实验结果是基准从[引用34]。
前中国民族大学名字叫做中央民族大学民族是中国的发音种族或民族。
实验过程可能会有所不同从一个到另一个(例如,使用数据,交叉验证,分析、预处理、标准化规模,等等)。因此,应采取比较谨慎。
结果低于原来的论文(22由于不同的主题和预处理方法,在情况下,光线的方向立场是开放的、重叠的两个摄影日光灯(见图3为插图),导致光点模糊的一些基本特征。
光照归一化的问题,我们应用一个人类基于知觉图像处理方法可以提供颜色恒常性和动态范围压缩同时在预处理部分,具体来说,多尺度retinex方法,或MSR算法52),应用和文字如下: 求和中的表达式代表一个single-scale retinex模型。图像分布在吗颜色光谱带。代表数字和规模乐队代表了三个颜色。是天平的加权因素。围绕高斯函数定义为在哪里确定函数的空间和振幅。应用于确保吗。实验结果表明,它产生一个更好的图像的颜色和动态范围比其他类似的方法,如直方图均衡化(他)和对数的方法。
在图像的获取,如果光照变化是由手电筒(像其他面临CMU派等数据库(53]),那么这些严格的点光源可能相对容易被删除等预处理算法简单的白平衡或MSR算法,而在坎昆面对数据库,方向灯系统(15荧光灯由一个开关控制矩阵)不是点光源实际上,很难折扣的影响,即使是MSR算法。

引用

b·劳克林和t . j . Sejnowski“沟通在神经网络中,”科学,卷301,不。5641年,第1874 - 1870页,2003年。视图:出版商的网站|谷歌学术搜索
h·巴洛,“可能的潜在的感官信息的变换原则,”感觉沟通,第2234 - 217页,1961年。视图:谷歌学术搜索
k .福岛和美国宅一生Neocognitron、自组织神经网络模型的视觉模式识别机制在生物数学课堂讲稿,施普林格,1982年。
勒存y, y Bengio:,卷积网络图片,语音,和时间序列。大脑理论和神经网络的手册,麻省理工学院出版社,1995年。
勒存y和y Bengio,模式识别和神经网络。大脑理论和神经网络的手册,麻省理工学院出版社,1995年。
Ullman和s . Soloviev”计算模式在类人脑结构不变性,神经网络,12卷,不。7 - 8,1021 - 1036年,1999页。视图:出版商的网站|谷歌学术搜索
美国Ullman、m . Vidal-Naquet和e·萨利·”中间的复杂性和其使用的视觉特征分类,“自然神经科学,5卷,不。7,682 - 687年,2002页。视图:出版商的网站|谷歌学术搜索
h . wers和大肠Korner学习优化特性不变的对象识别层次模型,”神经计算,15卷,不。7,1559 - 1588年,2003页。视图:出版商的网站|谷歌学术搜索
m . Riesenhuber和方法”,分层模型对象识别的皮层,“自然神经科学,卷2,不。11日,第1025 - 1019页,1999年。视图:出版商的网站|谷歌学术搜索
t . Serre l .狼s Bileschi m . Riesenhuber和方法,“健壮的物体识别与cortex-like机制,”IEEE模式分析与机器智能卷,29号3、411 - 426年,2007页。视图:出版商的网站|谷歌学术搜索
t . Serre m . Kouh c . Cadieu Knoblich, g . Kreiman和方法,对象识别:理论计算和电路的前馈路径腹侧流在灵长类动物的视觉皮层,AI备忘录2005 - 036年/ 259年开始备忘录,麻省理工学院出版社,剑桥,质量,美国。
A . l .霍奇金和A·f·赫胥黎“膜电流的定量描述及其应用在神经传导和兴奋,”《生理学,卷117,不。4、500 - 544年,1952页。视图:谷歌学术搜索
,w . Gerstern和w·m·基斯特勒公司飙升的神经元模型》,剑桥大学出版社,2002年。
e . m . Izhikevich神经元激增的简单的模型不同,“IEEE神经网络,14卷,不。6,1569 - 1572年,2003页。视图:出版商的网站|谷歌学术搜索
索普,d . Fize和c·马洛特,“人类视觉系统的处理速度。”自然,卷381,不。6582年,第522 - 520页,1996年。视图:出版商的网站|谷歌学术搜索
a . Delorme j . Gautrais r·范·Rullen和s·索普,“SpikeNET:模拟器建模集成和火神经元的大型网络,”Neurocomputing26卷,第996 - 989页,1999年。视图:出版商的网站|谷歌学术搜索
s . g . Wysoski l . Benuskova, n . Kasabov“快速、自适应网络飙升神经元的多视点视觉模式识别,”Neurocomputing,卷71,不。13 - 15,2563 - 2575年,2008页。视图:出版商的网站|谷歌学术搜索
s . g . Wysoski l . Benuskova, n . Kasabov”激增进化神经网络视听信息处理。”神经网络,23卷,不。7,819 - 835年,2010页。视图:出版商的网站|谷歌学术搜索
r·j·多兰,“神经科学和心理学:情感,认知,和行为,“科学,卷298,不。5596年,第1194 - 1191页,2002年。视图:出版商的网站|谷歌学术搜索
m . n . Dailey g·w·科特雷尔,c·帕吉特和r .人物、“Empath:神经网络分类面部表情,“认知神经科学杂志》,14卷,不。8,1158 - 1173年,2002页。视图:出版商的网站|谷歌学术搜索
m . n . Dailey c·乔伊斯·m·j·里昂et al .,“证据和计算的解释文化差异在面部表情识别中,“情感,10卷,不。6,874 - 893年,2010页。视图:出版商的网站|谷歌学术搜索
S.-Y。傅,G.-S。杨,Z.-G。侯,“基于神经网络的皮质飙升像机制:一个案例研究面部表情识别,”《国际联合会议上神经网络(IJCNN 11),第1642 - 1637页,2011年。视图:出版商的网站|谷歌学术搜索
l . Zhaoping”理论的理解早期视觉过程通过数据压缩和数据选择,”网络:在神经系统中计算,17卷,不。4、301 - 334年,2006页。视图:谷歌学术搜索
t . Serre学习字典的shape-components视觉皮层:与神经元,人和机器[博士。论文),麻省理工学院出版社,2006年。
a . Hyvarinen p·o·霍耶,m . Inki地形独立分量分析,“神经计算,13卷,不。7,1527 - 1558年,2001页。视图:出版商的网站|谷歌学术搜索
b . a . Olshausen和d . j .,“稀疏编码一组overcomplete基础:战略受雇于V1 ?”视觉研究,37卷,不。23日,第3325 - 3311页,1997年。视图:出版商的网站|谷歌学术搜索
w·e·温吉j·l·格兰特,“稀疏编码和在初级视觉皮层解相关自然视野,”科学,卷287,不。5456年,第1276 - 1273页,2000年。视图:出版商的网站|谷歌学术搜索
方法和t . Serre视觉皮层的模型Scholarpedia 2011。
r . VanRullen和s·j·索普冲浪沿着腹棘波流”,视觉研究,42卷,不。23日,第2615 - 2593页,2002年。视图:出版商的网站|谷歌学术搜索
c . g .总值大脑视觉和记忆:在神经科学的历史故事,麻省理工学院出版社,1998年。
w·郑x周、c .邹和l .赵“面部表情识别使用内核典型相关分析(KCCA)”IEEE神经网络,17卷,不。1,第238 - 233页,2006。视图:出版商的网站|谷歌学术搜索
a·j·贝尔和t . j . Sejnowski”自然场景边缘的独立组件的过滤器,”视觉研究,37卷,不。23日,第3338 - 3327页,1997年。视图:出版商的网站|谷歌学术搜索
JAFEE数据集,http://www.kasrl.org/jaffe.html。
f . y . Shih, c . f .壮族和p s p . Wang”JAFFE数据库中面部表情识别的性能比较,”模式识别与人工智能》国际期刊上,22卷,不。3、445 - 459年,2008页。视图:出版商的网站|谷歌学术搜索
h·b·邓l·w·金l . x镇和j·c·黄”一个新的面部表情识别方法基于局部伽柏过滤器银行和PCA + LDA,”国际信息技术杂志》上,11卷,不。11日,第96 - 86页,2005年。视图:谷歌学术搜索
郑胜耀傅、g·s·杨和李振国侯,“多个内核学习与ICA:当地区别的图像描述符识别”《国际联合会议上神经网络(IJCNN 10),2010年7月。视图:出版商的网站|谷歌学术搜索
y田、t·金和j·科恩,”伽柏评估基于小波的面部动作单元识别地区复杂的图像序列中,”国际会议在多模式接口的程序,2002年。视图:谷歌学术搜索
j . f . Cheng Yu, h .熊,”贾菲的面部表情识别的数据集是基于高斯过程分类,“IEEE神经网络,21卷,不。10日,1685 - 1690年,2010页。视图:出版商的网站|谷歌学术搜索
n t·阿尔维斯,j . a . Aznar-Casanova和s . s . Fukusima”的大脑不对称模式感知的积极和消极的面部表情,“偏重,14卷,不。3、256 - 272年,2009页。视图:出版商的网站|谷歌学术搜索
Cohn-Kanada AU-Coded数据集,http://www.pitt.edu/ jeffcohn / CKandCK + . htm。
r·e·杰克,c . Blais c . Scheepers p·g . Schyns和r . Caldara”文化困惑表明面部表情并不普遍,”当代生物学,19卷,不。18日,第1548 - 1543页,2009年。视图:出版商的网站|谷歌学术搜索
r·e·杰克,r . Caldara, p . g . Schyns”内部表征揭示文化多样性在预期情绪的面部表情,“实验心理学杂志,卷141,不。1,19-25,2012页。视图:出版商的网站|谷歌学术搜索
b . a . Olshausen和d . j .,“出现简单细胞感受野特性通过学习自然图像的稀疏编码,“自然,卷381,不。6583年,第609 - 607页,1996年。视图:出版商的网站|谷歌学术搜索
t . o . Sharpee h .苏吉哈拉,a . v . Kurgansky s . p . Rebrik m . p . Stryker和k·d·米勒,“自适应滤波增强了视觉皮层的信息传输,”自然,卷439,不。7079年,第942 - 936页,2006年。视图:出版商的网站|谷歌学术搜索
c·e·康纳”新观点的脸,“科学,卷330,不。6005年,第765 - 764页,2010年。视图:出版商的网站|谷歌学术搜索
w·a·Freiwald和d . y .曹”功能划分和观点概括在猕猴人脸识别系统,”科学,卷330,不。6005年,第851 - 845页,2010年。视图:出版商的网站|谷歌学术搜索
w·A·Freiwald d . y .曹,m . s .利文斯顿”一脸特征空间的猕猴颞叶,”自然神经科学,12卷,不。9日,第1196 - 1187页,2009年。视图:出版商的网站|谷歌学术搜索
n . Kasabov”高峰还是不飙升:概率飙升神经元模型,”神经网络,23卷,不。1、16 - 19,2010页。视图:出版商的网站|谷歌学术搜索
a . v . m .赫兹t . Gollisch c . k .麦臣和d . Jaeger“单一神经元动力学建模和计算:平衡的细节和抽象,“科学,卷314,不。5796年,第85 - 80页,2006年。视图:出版商的网站|谷歌学术搜索
w . l . Braje d . Kersten m·j·塔尔和n . f . Troje照明效果在人脸识别中,“精神生物学,26卷,不。4、371 - 380年,1998页。视图:谷歌学术搜索
y Yamane, e·t·卡尔森k.c.鲍曼,z . Wang和c·e·康纳“神经编码的三维物体形状猕猴inferotemporal皮层,“自然神经科学,11卷,不。11日,第1360 - 1352页,2008年。视图:出版商的网站|谷歌学术搜索
上z拉赫曼,d . j . g . a . Woodell,“多尺度retinex彩色图像增强,”学报1996年IEEE国际会议上图像处理(ICIP ' 96)1996年9月,页1003 - 1006。视图:谷歌学术搜索
t . Sim, s·贝克和m . Bsat“卡耐基-梅隆的姿势,照明,和表达数据库,”IEEE模式分析与机器智能,25卷,不。12日,第1618 - 1615页,2003年。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

文摘