起重机，机器人操作部分观察家决策过程模型

抽象

机器人的最常见的用途是有效降低人的努力与期望的输出。在人类与机器人互动，为双方预测基于他们现在的行为后续行动，以完成好协同工作是至关重要的。很多的努力，一直致力于以达到人与机器人之间的协同工作精确。在决策的情况下，从以前的研究，短期或中期预测有很长的时间跨度调整和反应观察。为了解决这个问题，我们提出了一个新的基于视觉的交互模型。所建议的模型通过它们的特征，这是通过深信念网络（DBN）虽然波尔兹曼机（BM）机制收回施加现有的输入减小了误差放大问题。此外，我们提出了一个机制来决定的可能结果（接受或拒绝）。上述机构评估的几个数据集模型。因此，该系统将能够捕捉使用对象的运动的相关信息。它更新以适应局势的信息进行验证，跟踪，采集和图像的提取。 Furthermore, we have suggested an intelligent purifier filter (IPF) and learning algorithm based on vision theories in order to make the proposed approach stronger. Experiments show the higher performance of the proposed model compared to the state-of-the-art methods.

1.简介

环境感知和物体识别是图像处理的一个重要部分。它可以广泛应用于机器人视觉，视频监控，异常处理，智能预警与快速检索和高效的图像存储，相机等领域。人类可以很容易地和响应感知复杂的场景，以获得位置，输入正确的目标对象，但目前这是机器人视觉理解一个具有挑战性的问题。

人眼也有最好的能力捕捉到神经元帮助过滤场景的位置。人体运动预测是根据给定的运动序列预测后续运动序列的能力。通过观察目标物体的运动行为，提取运动特征，实现运动预测。到目前为止，对盗版或非盗版软件的处理仍然是一项具有挑战性的任务[1]。人类可以实现通过观察这样的预测，它体现人类的更智能推理能力（图1)。在某些敏感的情况下，观察者完全不知道(已加密)该对象，而该对象必须以加密的形式识别，因此需要在未来的工作中加入一些想法，以提高观察者在加密域中的能力[2,3.]。

人-机器人或机器人-机器人的相互作用能力对于观察物体的运动变得尤为重要。在这种情况下，一个物体可能在方向和尺度上发生变化，甚至可能部分被阻塞。但是，这并不总是削弱我们识别它的能力。由于缺少这个理想的平台，对于机器或机器人来说，判断一个复杂的场景，获取位置，准确的定位目标是比人类更复杂的任务。计算机辅助预测系统在协助任何观察者识别方面起着重要作用[4]. 为了帮助任何观察者，选择的特征可能是必须处理的冗余变量[5]。选择最合适的部件是整个机器的成功是至关重要的。然而，对于软件组件的可重用性决定以特别的方式，最终导致进度延误，并降低了整个质量体系[通常由6]。

机器人视觉识别是复杂、非结构化、任意场景中重要部分的预测难题;算法的输出和识别已知目标的效果也很难平衡和放置。视觉场景以不同的地形组合相互作用，即,the arrangement of the physical characteristics of a region, and adaptive system design is difficult to enhance understanding of the impact of natural scenes in complex environments.

因此，自然环境，图像处理和计算机视觉的发展重点是视觉感知和面临巨大挑战。视觉感知系统是高度非线性动力系统级神经信息的收集。对于存储和理解的过程中，视觉注意结构在视觉感知中起重要作用。对于决策像胎记软件是一个独特的品质检测软件盗版[7]。局部的视觉解释信息和可用的计算资源集中在使视觉感知成为可能的实时最重要的证据上，这些证据可以定制为现实世界的动态感知。

每个生物都有自己的行为模式，但对于机器来说，需要对它们进行相应的编程。从我们的家乡到大型工业，有很多机器人的应用，比如吸尘器、自动驾驶汽车和不同类型的工业机器人。在这类机器人中，大脑和视觉的工作与人类的大脑和眼睛控制非常相似。

世界各地的研究和发展部门都在努力寻找解决这一问题的办法[8]。对认知和感知视觉能力是理解流动性和现实世界的抽查情况看操纵一个真实的现象。在许多情况下，这是很难得的对象，这使得物体识别和身份认证困难的足够图像。高维问题的小样本是最近的热点项目。在传统的对象数据库，图像的数量是有限的。

基于神经网络认知智能和自适应自然场景识别技术，增强了对自然场景的理解，瞄准目标，解决了自然场景的多样性、随机性、复杂性等问题，使实时视觉系统具有高度的灵活性，是本研究的目标。为矿山的实际应用提供了坚实的基础。自然环境复杂，复杂场景多样化，如图所示2演示了如何克服视觉处理系统中随机性的不足。

例如，生物视觉模型（Biological Vision Model，BVM）致力于提供一种新的技术方法，它将新的认知视觉未来与受启发的神经细胞认知智能皮层相结合，试图与现实世界的物体识别相联系。从复杂环境感知任意自然场景机器人的移动性和操纵性非结构化随机自然场景理解是视觉成像和处理中的一个挑战性问题[9]。

神经网络是“神经元样”节点的映射，本文以神经网络为例，致力于将新的视觉智能特征重组为场景表达，为场景理解和认知提供一种新的技术概念，这是非常必要的，可以为机器人视觉提供感知智能。这种方法不仅可以使系统进行下去，而且可以在自然场景中进行复杂的环境感知和理解。通过对复杂环境下自然场景图像感知能力的研究，将认知视觉特征与场景表达相结合，提高了机器人的视觉效果[10]。

我们的贡献总结如下:（一世）我们提高捕捉，代表视觉图像的目标特征和改善功能的自然环境表示的效率，使系统可以智能地观察无组织的自然风光。（ⅱ）我们提出了一种能够对基于视觉的信息检索系统的智能方法进行必要的、一般可测量的能力技能分析和提炼的模型，以此为突破口，为视觉信息提供更好的智能。(3)我们提出的模型继承了一种新的智能净化过滤器处理方案，即生物灵感图像处理的升级。（ⅳ）提出的模型本质上是受到了复杂的BM (Boltzmann Machine)机制的启发，该机制是视觉信息处理的场景预测机制，在深度信念网络下，能够获得更好的决策性能感知。我们在选定的数据集上提供了大量的经验观察，以支持所获得的结果。

本文的其余部分组织如下。节2，我们概述了相关的工作和动机的原因，我们的工作。部分3.覆盖被与两个小节中进一步描述了建议的部分观察者决策过程的模型：首先是获得可能的感知，用于与深信念网络下一步骤决定，第二是学习决定通过它的过滤分析进一步的动作，包括与学习算法。节4，卓越的性能由模拟实验及其结果证明。最后，在第5，我们总结了我们提出的分析，并得到了未来的认可。

有研究表明[11[英语背诵文选影响视觉注意的因素有两个方面，即,top-down prior knowledge and input signal, make the sensor stimulus from bottom to up. Among them, the top-down prior knowledge and applications are highly correlated, which is very tough for modeling analysis. Therefore, there are lot of sensor stimulations only for the Bottom-up visual attention model. The paradigm of bottom-up visual attention can be classified into two categories [12]。一种方法是使用眼动仪眼睛扫描图像的位置，并使用统计方法使眼睛区域看起来更长，成为人们感兴趣的重要区域。另一类是通过对输入图像进行多通道多尺度分析，统计意义上的兴趣程度取决于图像中每个像素的提取分布。

第一个基于显著分布图的视觉注意模型由Koch和Ullman提出[13]。在此之前，已有许多基于[13- - - - - -17]。但是，对于像人眼这样的复杂领域知识，还没有一个兼容系统的模型。同样不涉及人眼注视输入图像和注视时间，静态地显示重复测试的数量，这些测试对我们这样的人类来说是令人愉快的。有很多场空间，目标检测[11,18,19]，视频压缩和编码[20,21]、图像分析[22,23和场景理解[24]。这些模型将被应用。和其他领域可以使用有限的内存计算资源来处理输入视频图像或人的视觉最感兴趣的区域。

因此，在不降低概念干预效率的情况下，系统不仅减少了开销空间，而且在很多方面提高了系统性能，如处理个体视觉需求的效果更大，更强的噪声鲁棒性增加了复杂背景下的稳定性，等等[11,18,19,22- - - - - -25]。此外，这些模型还需要计算高斯金字塔输入图像的多尺度和多通道特征，并将这些可观的样本红利支付计算为一个全局显著分布，使用赢者通吃(WTA)机制独立选择最显著的区域[24]。

整个过程需要大量的可存储，并且具有计算的更大量的中间结果，这使得更加难以实现在嵌入式系统中的有限的计算资源。生物科学实验证实，大脑，神经细胞的活性和对象的动物识别的灵长类颞叶皮层有密切的联系[25]。当与存储在大脑中的一般图像模型对比，所述特定对象的重组可以理解的。因此，研究人员得出结论：一个可行的方法是，以模拟以构建对象识别视觉皮层结构。

相关的最早的灵长类动物视觉系统模型是神经认知机模型[26，这是基于自组织前馈神经网络。牛津大学实验心理学系的英国沃利斯和罗尔斯推广恒定目标识别VisNet灵长类动物模型[27]和改进的版本，称为Visnet2 [28]. 它是网络的一个四级前馈、收敛和竞争性质，其中每一层将前一个单元层聚集在输入字段的一小部分（称为过滤器）。在这种聚集规律下，灵长类视觉皮层细胞通过模拟从初级到高级的过程来增加感受野的大小。Mel于1997年提出了SEEMORE模型，它也是一种利用颜色、形状和纹理组合实现视觉对象识别的前馈层次结构模型。SEEMORE使用多类特征组合来提高识别的稳健性。Serre等人。2005年和2007年将HMAX模型应用于目标识别，改进后的模型构建了生物视觉特征的高层仿真模型。层次模板的视觉特征是一种沿目标识别进行匹配和合并的操作，其中连续模拟用于视觉皮层中的不变尺度、平移和旋转。许多研究者在这一领域做出了杰出的贡献。

我们提出的模型有两个方面。的（a）它提供了的特征和预处理，以预测未来的预测的集成的智能平台。为此，我们分析玻尔兹曼机机制[29，其结果通过净化器智能过滤器的第二阶段，这是受生物视觉模型的启发，对对象进行净化、分割和识别，使所提出的模型简单有效。(b)第二个方面是基于决策的模型，基于准确的感知结果进行合并，使得伙伴之间能够更好的合作。这要求观察者具备识别和估计运动序列的能力[三十,31]。

3.部分观察者决策过程

为了为行动提供视觉智能，机器人需要完成任务的各个步骤的学习，同时提出了新的相关算法来解决视觉信息处理系统中一系列棘手的理论问题。探索在复杂的自然环境中为感知提供新的可视性的内在特征，如多样性、随机性、复杂性等，将认知视觉特征与场景表达相结合，提高自然场景图像的网络感知能力。

感知层次模型的结果直接纳入和参与了感知对象决策模型。动作模型可以同时记住多个目标，不仅对共同目标进行更好的分类，而且对纹理、非刚性目标进行分类。该模型主要是基于可视化计算仿真来计算皮层动作(任务集)的网络层次结构。观察的过程模型可以用图形很容易地理解3.。

预测信息C通过对复杂环境中动态对象的视觉信息和预测、典型方法表单输入(一个, )/输出(B, )关系如下, 哪里t阈值是和吗f分别为输入/输出图像函数。实现明显的对比度目标及其背景是足够的。系统中包含的视觉源使复杂的环境被捕获并进行处理。在此过程中，不断跟踪视觉反馈，查看对象信息各帧的模板匹配情况，动态预测位置提取。当两个物体之间的平方和误差小于捕捉到的图像，BM产生预先确定的阈值，那么我们就可以说这个物体找到了我们要找的那个物体[32]。

3.1。感知决策

玻尔兹曼机(BM)机制是预测结果的一个变体的传感和感知。BM是一个时间序列的非线性生成模型，它使用了一个带有二元潜变量的无向模型，h，连接到一组可见变量，。在每个时间步t,和h接收来自最后可见变量的定向连接N时间步长,N是考虑到的时间窗口的大小。“历史”向量或知识数据集由数据连接在一起 , ,…, ,我们称之为。在MB中，模型定义了一个联合概率分布和 ,如等式（3）上的空调 : 哪里哪里哪里一个常数叫做配分函数吗和是时间上的动态偏差t，表示从过去的输入到视觉资源的可见和隐藏单元(方程(2)和(4））。

Boltzmann机器也可以归类为具有生成性学习目标的训练机器，在生成性学习目标中，像相机这样的内部实体跟随这个目标来跟踪、运动和控制。为了学习联合分配输入向量的目标类y和/或一个判别学习目标和条件分布的学习直接是必要的。对于像传统的Boltzmann机器这样的分类器，它不需要额外的训练阶段。BM的能量函数如下式所示：与参数在哪里是输入矢量和y是类标签的第一个进程。为了达到判别目标，BM中的后验概率可以从以下等式中推断：

分母是所有标签的和使一个概率分布。BM除了时间序列外，只能根据样本之间的独立关系进行分类任务;对于时间序列，彼此之间的样本是相互依赖的，并且会受到前一个和后一个样本的影响。

该模型的主要目的是抑制误差放大问题，延长感知长度。通过这一部分的分析，我们可以得出这样的结论：感知过程中BM效率低下的问题主要来自两个方面：一是以前的结果直接作为输入数据，二是对现在的结果没有约束。在我们的工作中，要避免过去的预测结果直接作为输入数据，同时还要降低感知率[9]。

我们检索功能，使用BN最后决定N时间步长和判别预测结果的类别标签，从而决定是否接受预测结果。模型的结构如图所示3.。

3.1.1。深度信念网络

在我们训练了模型之后，我们可以像DBN(图中所示)那样添加层4)。通过一个独立的权值矩阵将上述步骤保持并连接到每一个隐层。下一层将使用以前的隐藏状态向量作为“观察或预测”数据。两层模型如图所示4。

3.2。行动决策

智能净水器过滤（IPF），视觉模式的理解和解释完全依赖于视觉真实世界的处理作为输入和输出处理，使机器能够看到和理解之间的智能关系。原始层和对比层整合所有可视处理功能和预处理，通过该图像的分析变得容易。如今不同的工作环境，也维护复杂的世界对象的庞大的数据库，所以这个模型，我们尝试分析代表其预处理的目的和特征，如图5。模型的目标层能够与他们的人工方法进行鉴定，观察的情报，这种可能性此提出的模型降低视觉的复杂性机器人准确地预测未来行动的第二阶段的原因。每一层由不同的单元类型，并且使用先前输出作为输入。（a）第一层使用的基本尺度图像作为输入，最后层输出是可应用于类识别特征值。随着时间，现场的规模增量和复杂性逐步成为接受性。（b）在顶部可视区域的复杂性简单地由下层的步骤建立，并具有一定的冗余度。（c）在此提出的模型，与高斯的净化过滤器金字塔基于围绕计算的亮度，颜色，方向和信道的多尺度特性的输入动态对象或真实世界。这导致了大量的计算和随机抽样的下一道工序的存储空间。有些人跨越决定更换的组合和标准化与当地的极端主义法，迭代法，或先验知识的方法。

DOG滤波器功能可以被描述为

按照等式（8），很明显，在2D与方程高斯函数（8)方差这取决于为中心位置的位置带有感光器的滤光片。

然后，细胞活化被计算为点积为显示在下面的等式：

这里，是滤波器的重量，I是来自相应区域的神经元R的强度。所以，经过最大运算后，一个复杂单元的响应为是

因此，通过强度的精确定时动作电位表示为

这显示一个像素 ,有鳞屑因素βesocdy窗口的最大时间为T_最大值。

存在不同振荡(阈下膜振荡)的细胞计数。它被描述为

周期数W和初始相位我像素是

转换强度值后，式(13)，将算法操作实现为执行的关系信息的所有步骤。

因此，采用检索学习执行相关度量来度量期望之间的相似程度和实际o / p。所以，矩阵时代是

在获得学习信息后，我们通过相关性做出决定C期望的O / P和实际O / P，所以目标图案认为尽可能多的关闭之间C。

作者认为由于概率上的预测和感测技术，理想的（图6解决方案提供了扩展硬件系统容量的基本手段，超出了目前使用的观察过程方法所能提供的范围(如图所示)7)。在我们看来，应用了介绍的方法(特别是新的DBN，净化器过滤器，并获得了数据集表示的算法1）导致有效的改进的结果，至少对使用以下的情况下。

	输入:动态输入坐标 ;
	时间的隐藏表示 : ;
	类标签的时间t: ;
	输出：在时间预测 : ;
(1)	第1步：初始化
(2)	做
(3)	按时计算隐藏表示 :
(4)	按时计算可见表示 :
(5)	Calculate the class label of the prediction on time :
(6)	虽然 ;
(7)	调整初始输入值随机。
(8)	返回 ;

4.实验设置与结果

以下，运动，和控制对于用像移动传感器的便携式设备来安排武器和车载照相机相应对象，用可见光装置即能位置可控世界级起重机一个结算语言表达机器人必不可少的。因此，这些真正的探索方法巩固与编码算法的MATLAB [中32]和信号活性控制和处理中执行（图8)。action-3D数据库是一种动作-动作行为数据集。这个数据集是由一个强力相机捕获的。数据集中有23种类型的行为，即移动-后退、移动-前进、移动-跳跃、移动-向上移动、移动-向下移动、高臂、水平臂、锤子、手抓、扔、画、圈、手两个手移动、侧移动、后退、角色、左移动、右移动发球、捡起和扔。每个动作由10名受试者重复2次;因此，在数据集中，每个动作有30个序列，总共有600个序列。采样频率为每秒15次，每帧的分辨率为。

4.1。仿真结果

我们在IPF的动态观察者数据集上验证了模型的性能。动态观察者数据集是从摄像机中获取的。这个数据集中有两个类别(如表所示)1图9)。一种是“向前行走”，即执行者指向他们手中没有任何东西的某个地方，另一种是“向后行走”，即执行者步骤试图抓住对象(如表中所示)2图10)。数据中总共有200个时间序列。我们选择150系列作为训练数据，其余为测试数据。每个系列包含150帧，并且每个帧都是单变量的。我们用矩阵表示整个系列，每一行代表一个单独的运动。数据预处理是数据和机器学习良好表达的一个非常必要的步骤[33]。我们展示了两种类型的输出曲线(图11)。左边的是“向前行走”类，右边的是“向后行走”类。然后，我们结合整个系统来抓住目标对象，并在最终动作中在特定的目标位置进行替换(如表所示)3.图12)。我们把每一个时间序列间歇，这意味着共有150个批次时，培训者。我们首先验证了BM带着浅浅的结构。我们发现不同的隐藏的单元号，不同prestep号码，并在图不同的学习速度的结果13和表4。因为有关于如何设置隐藏的单元号，prestep数和学习率没有理论，我们选择了均方根误差（RMSE），平均绝对误差百分比（MAPE）和平均相对误差（MRE）为准则。我们发现，当prestep数为5和学习速率是0.01，经过200次迭代，隐藏的单元数为200，其可以获取RMSE，MAE，和MRE相对小的值。除了隐藏的单元号，我们进行了多次实验，用不同的prestep号码，我们发现，增加prestep数量不能太多进一步提高预测性能。


步骤/计数(10)	步骤/ count (50)

8.5236	31.3214
8.0325号	28.8976
7.3178条	26.7849
7.4592	24.8934
8.1562	21.2123


步骤/计数(10)	步骤/ count (50)

8.8756个	36.2543
8.9546	29.6435
7.1289	28.7543
8.1136	26.1235
8.0128年	22.8456个


步骤/计数(10)	步骤/ count (50)

9.0273	33.3423
8.4236	30.8745
8.2684	27.6715个
7.9214	26.9452
7.1029	21.1579年


学习速率	隐藏单元

0.1	100
0.0712个	0.0801个
10.0618号	11.0398
0.1322	0.5721个
0.01	200个
0.0765	0.0712个
9.9589	9.0286
0.1159	0.4678

表中的值4表明，当隐藏单元的数目是200，可以得到的三个标准相对小的值。因此，在下面的实验中，我们设置为200隐藏单元的数量，学习速率为0.01，和前面的步骤数为5。

4.2。结果分析

由于原始数据集是深度图像，噪声高，图像过于模糊，存在其他缺点;因此，本文采用实时跟踪算法提取三维关节位置的图像，最后结合三维数据集向量。由于数据集中对象的运动实际上是三维立体运动，因此我们将三维矢量转换为二维矢量来表示原始运动。

4.2.1。准备比较

根据基础工作实验的结果(图)14和15）32]，并根据所建议的模型结果为(图中11、表4和图13）设置的第2层，前一个输入的步骤是如图5所示，隐藏单元号码200用于层1和100为第2层，和学习速率是0.01。我们训练了500个时代的机型。我们把数据集中到批次。每一批包含100个样本。这些参数每个批次后更新。描绘了模型的感情，我们随机选择了来自前移动动作和输入第5帧一个序列到我们的模型生成以下25帧，希望该模型能够正确地产生，其余议案。从分析图中，这些车型的第一预测都非常接近目标。

5个。结论

与传统方法相比，该技术为基于视觉的决策和行动提供了一种简单有效的方法。然而，性能可能会受到硬件的限制，如所需的模型架构和决策处理。利用该策略得到了令人满意的实证结果。结果表明，前向输入的个数和当期决策输出对系统的性能有较大的影响。我们研究的下一步将是如何改变先前输入的步骤数量，以及在隐藏层中应该有多少单元才能产生高质量的结果。我们还将继续完善算法，以提高预测和实践的准确性。我们正在考虑快速的动作处理和运动估计作为我们未来的工作。

数据可用性

用于支持本研究结果的数据包括在文章中。

利益冲突

作者声明他们没有利益冲突。

致谢

这项工作得到了国家自然科学基金（批准号61370073）、国家高技术研究开发计划（批准号2007AA01Z423）和四川省科技厅的资助。所有实验支持资源均由中国电子科技大学计算机科学小波主动媒体技术学院重点实验室提供，编号：2006，西部高新区西园大道，成都，四川，611731。

工具书类

S、 Nazir，S.Shahzad和L.S.Riza，“使用粗糙集的基于胎记的软件分类”阿拉伯科学与工程杂志，第42卷第1期。2017年第859-871页。查看位置：出版商网站|谷歌学术
A、 Malik，H.Wang，H.Wu，和S.M.Abdullahi，“在加密图像中为多个用户使用多个数据隐藏可逆数据”国际数字犯罪和取证期刊卷。11，没有。1，第46-61，2019。查看位置：出版商网站|谷歌学术
A. Malik, H. Wang, T. Chen等，“使用插值技术在同态加密图像中隐藏的可逆数据，”[信息安全与应用，第48卷，第102374条，2019年。查看位置：出版商网站|谷歌学术
A. U.哈克，J. P.李，M. H.梅蒙等人，“使用语音录音基于L1范数支持向量机和有效的识别系统用于帕金森氏病的特征选择，”IEEE访问，第7卷，第37718-37734页，2019年。查看位置：出版商网站|谷歌学术
A. Ul Haq, J. Li, M. H. Memon, J. Khan，和S. Ud Din，“乳腺癌检测的一种新的综合诊断方法，”智能与模糊系统杂志，第1-16页，2019。查看位置：出版商网站|谷歌学术
纳泽尔，安瓦尔，可汗等，"软件元件选择基于质量标准使用分析网络过程，"摘要与应用分析， 2014年卷，文章ID 535970, 12页，2014年。查看位置：出版商网站|谷歌学术
S. Nazir, S. Shahzad, S. A. Khan, N. Binti Alias和S. Anwar，“基于新规则的软件胎记估算方法”，科学世界杂志， vol. 2015, Article ID 579390, 8 pages, 2015。查看位置：出版商网站|谷歌学术
S. Nazir, S. Shahzad, R. B. Atan，和H. Farman，“基于胎记的软件特性估计”，集群计算卷。21，没有。1，第333-346，2018。查看位置：出版商网站|谷歌学术
L. Xia, J. Lv，和D. Liu，“一个通过变形代码集成提高鲁棒性的运动分类模型，”神经计算及其应用卷。31，没有。12，第8519-8532，2019。查看位置：出版商网站|谷歌学术
A、 Khan，S.Deep，J.-P.Li，K.Kumar，R.A.Shaikh和F.Hasan，“云机器人用cbir的视觉抓握”，in2014年第11届国际计算机会议记录（ICCWAMTIP），第293-296页，IEEE，中国成都，2014年12月。查看位置：出版商网站|谷歌学术
L. Itti和C. Koch，“一种基于显著性的视觉注意力显性和隐性转移的搜索机制，”视觉研究卷。40，没有。10-12，第1589至06年，2000。查看位置：出版商网站|谷歌学术
O. Le Meur, P. Le Callet, D. Barba和D. Thoreau，“一种自底向上的视觉注意力模型的连贯计算方法，”IEEE模式分析和机器智能汇刊卷。28，没有。5，第802-817，2006年。查看位置：出版商网站|谷歌学术
C. Koch和S. Ullman，“选择性视觉注意力的转移:向潜在的神经回路转移”，in智能的事项，第115-141，施普林格，柏林，德国，1987年。查看位置：出版商网站|谷歌学术
L. Itti, C. Koch和E. Niebur，“一种基于显著性的视觉注意力模型，用于快速场景分析，”IEEE模式分析和机器智能汇刊卷。20，没有。11，第1254至1259年，1998年。查看位置：出版商网站|谷歌学术
D. Walther和C. Koch，“对突出的原始物体的注意建模，”神经网络，第19卷，no。9，第1395-1407页，2006。查看位置：出版商网站|谷歌学术
T、 Kohonen，“视觉注意的计算模型”，in2003年国际神经网络联合会议记录，第4卷，第3238-3243页，IEEE，波特兰，或，美国，2003年7月。查看位置：出版商网站|谷歌学术
K、 Lee，H.Buxton和J.Feng，“线索引导搜索：选择性注意的计算模型”神经网络上的IEEE事务卷。16，没有。4，第910-924，2005。查看位置：出版商网站|谷歌学术
韩建宁，颜国恩，李敏，及h.j。张，“彩色图像中视觉注意对象的无监督提取”，IEEE视频技术电路和系统汇刊卷。16，没有。1，第141-145，2006年。查看位置：出版商网站|谷歌学术
Z.陈，韩J.和K. N.银“动态比特的多个视频对象编码的分配，”IEEE交易多媒体卷。8，没有。6，第1117-1124，2006年。查看位置：出版商网站|谷歌学术
L. ITTI，“使用视觉注意的神经生物学模型的视频压缩自动foveation”对图像处理IEEE TRANSACTIONS卷。13，没有。10，页。1304年至1318年，2004年。查看位置：出版商网站|谷歌学术
P.张和r - s。王，“基于位置偏移和范围追踪的显著区域检测”，软件学报卷。15，没有。6，第891-898，2004。查看位置：谷歌学术
C. M. Privitera和L. W.斯塔克，“算法用于定义视觉区域的感兴趣：用眼注视的比较，”IEEE模式分析和机器智能汇刊卷。22，没有。9，第970-982，2000。查看位置：出版商网站|谷歌学术
C. Siagian和L. Itti，“基于生物启发的快速场景分类，使用与视觉注意力共享的特征，”IEEE模式分析和机器智能汇刊，第29卷，no。2, pp. 300-312, 2007。查看位置：出版商网站|谷歌学术
P、伯特和艾德森，“拉普拉斯金字塔作为一个紧凑的图像编码，”IEEE通信事务卷。31，没有。4，第532-540，1983。查看位置：出版商网站|谷歌学术
D、 A.Leopold，I.V.Bondar和M.A.Giese，“猴子下颞叶皮层单个神经元基于规范的面部编码”性质，第442卷，第7102号，第572-5752006页。查看位置：出版商网站|谷歌学术
T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber和T. Poggio，“具有类皮质机制的鲁棒对象识别”，IEEE模式分析和机器智能汇刊，第29卷，no。3，第411-426，2007。查看位置：出版商网站|谷歌学术
K. K. Evans和A. Treisman，“在自然场景中对物体的感知:它真的是不需要注意的吗?”实验心理学杂志:人类的知觉和表现卷。31，没有。6，第1476至1492年，2005年。查看位置：出版商网站|谷歌学术
M、 Carrasco，B.McElree，K.Jenisova和A.M.Giordano，“视觉处理速度随着偏心率的增加而增加，”自然神经科学，第6卷第1期。7，第699-700页，2003。查看位置：出版商网站|谷歌学术
Y. Bengio，“学为AI深层结构”基金会和Trends®机器学习卷。2，没有。1，第1-127，2009。查看位置：出版商网站|谷歌学术
K.西蒙尼扬和A. Zisserman，“两流卷积网络的视频中动作识别”，在神经信息处理系统的进展，第568-576页，加拿大蒙特利尔，2014年12月。查看位置：谷歌学术
刘建新，“卷积神经网络在视觉识别和描述中的应用”，国立台湾师范大学资讯工程学研究所硕士论文IEEE计算机视觉与模式识别会议纪要，第2625至2634年，波士顿，MA，USA，2015年6月。查看位置：出版商网站|谷歌学术
A、 Khan，J.-P.Li，A.Malik，和M.Yusuf Khan，“基于视觉的机器人控制激励集成”，in软计算和信号处理，第95-105，施普林格，柏林，德国，2019。查看位置：出版商网站|谷歌学术
A. U.哈克，J.李，M. H.梅蒙等人，在“机器学习分类器和用于帕金森病的预测深神经网络分类器的分类性能的比较分析，”第15届小波主动媒体技术与信息处理国际计算机会议(ICCWAMTIP)论文集，第101-106，IEEE，中国成都，2018月。查看位置：出版商网站|谷歌学术

科学规划