文摘
随着社会的发展和科学技术的推广,英语,作为世界上最大的通用语言,越来越多的人使用。在我们周围的生活,英文信息。然而,由于手动识别英文字母的过程是劳动密集型行业,效率低下,对英文字母的计算机识别的需求正在增加。本文研究的影响参数的BP神经网络和遗传算法对整个网络,包括输入、输出和隐层节点的数量。最后,它能改善和确定相关参数的设置和价值观。在此基础上,它显示了通过实验选定参数的合理性。结果表明,只有GA-BP神经网络和功能数据挖掘算法可以完成特征提取和成为功能分类的主要功能在同一时间。足够的初始训练数据样本分析后,发现GA-BP神经网络具有良好的容错性和特征识别数据。实验结果表明,遗传算法可以找到最好的权重和阈值和权重和阈值是BP神经网络。培训后,手写的信件可以实现的识别。 Finally, the convergence of the two algorithms is compared through experiments, which shows that the overall performance of the BP neural network algorithm is improved after genetic algorithm optimization. It can be seen that the genetic algorithm has a good effect in improving the BP neural network and this method has a broad prospect in English feature recognition.
1。介绍
神经网络是一个网络数学模型由几个简单的单元模拟生物原型的基础上,已广泛的并行互连的特点(1]。结构平台的监管机制,它可以有效地模拟不同的交互和反应真实的生物神经系统的所有活动不同的生物在自然生物世界在现实世界中(2]。神经网络是由一个“简单的单元。“在生物神经网络神经元,最基本的组件,不仅大量存在,而且互相连接。当一个神经元被激活产生“激励”,“激励”将传播到另一个神经元通过化学物质的传播和下游反应将引导通过改变其他神经元的潜力。超过“阈值”时,潜在的增加变化幅度和神经元激活后可以进行这个过程。
作为一个算法模型,人工神经网络是一种神经网络基于已知的生物神经网络的原则,这是由人工通过类似过程模拟和实现特定功能(3]。这是一个数学模型,人类大脑神经网络的理论基础和信息处理系统基于模仿生物大脑神经网络。它不仅具有自组织和自学习的能力,也有其他优点,如相关信息的分布式存储和并行处理4]。近年来,人工神经网络的研究已经越来越多的关注,其系统分类也扩大。一般来说,人工神经网络分为两种类型根据其结构特点;一个是网络,另一个是反馈网络。本研究采用BP网络,是一个典型的网络。
反向传播算法(BP)提出了Alarifi等人在国际期刊发表的论文自然,它本质上是一个多层感知器(5]。BP神经网络有许多优点。与以往算法相比,它具有更好的分类能力。在新一代的优化神经网络,它也有能力多维函数的映射。与简单感知器相比,它扩展的范围内解决问题,不能解决在许多先前的研究和突破的限制算法(6,7]。其结构主要包括三个部分:输入层、隐藏层和输出层。从本质上说,它需要网络的平方误差作为目标函数,并使用梯度下降法来计算目标函数的最小值(8]。
BP神经网络已引起相当大的关注,因为它出来了。随着科学技术的发展,它越来越广泛用于解决各种实际问题。作为一个典型的神经网络,BP神经网络训练误差反向传播算法的基础上。在培训的过程中,数据不断通过正向传播和误差反向传播传播和重量阈值可以通过算法实时更新。一方面,在这个过程中,如何确定权重和阈值的第一个向前传播过程进行了分析,也就是说,如何初始化权重和阈值。另一方面,选择初始参数后,采用梯度下降算法初始参数为出发点来优化和更新参数。
BP神经网络的广泛利用,是解决许多问题的优势。目前,没有明确的标准BP神经网络结构的选择,只能由人的经验。如果有太多选择的网络层,虽然在一定程度上可以提高准确率,复杂结构可能导致培训不满意效果和大偏差一旦遇到实际情况会发生。如果网络层的数量很小,虽然减少了训练时间,但它的概率也会增加nonconvergence整个神经网络。因此,确定层BP神经网络不仅应该根据实际的需求,也确保网络的训练效果。遗传算法使用自己的优势,结合其他一些算法,如神经算法,它将发挥积极的促进作用的智能算法的发展。
在这项研究中,基于BP神经网络的建立,介绍了遗传算法进行进一步的优化。同时,介绍了遗传算法的改进算法相结合的优点。这个优化过程分为三个步骤:首先是确定BP神经网络的结构,二是优化遗传算法,最后通过实验来预测BP神经网络(9,10]。第一部分主要是关于设置参数和数据输入函数和输出函数的设计,以确定其基本结构(11]。结构测定的基础上,调整遗传算法优化相关参数(12- - - - - -14]。在最后一步的预测过程中,遗传算法优化后,原来的BP神经网络的初始权重阈值赋值进行了优化和神经网络算法的优化过程可以输入数据后完成训练(15]。
为了满足进一步广泛的英语特征识别的需求,我们将设计一个英语特征识别系统中一个非常重要的一步是使用数据挖掘算法来提取和数组英语字母功能优化的分类和识别(16,17]。数据挖掘涉及的内容非常广泛,与多个学科。从最初的简单查询的数据,它是逐步扩大的提取数据,挖掘知识的具体内容和分类,它提供了非常强大的数据支持决策在许多商业模式(18,19]。在今天的网络计算领域,它已成为一个热门的研究课题20.]。
在模式识别领域,英语特征识别,即字母识别,是一种有价值的主题具有一定经济效益和广泛的应用范围21,22]。英文字母的识别,有许多具体的实现方法和不同条件下有不同的解决方案(23,24]。本研究旨在实现英语特征识别基于BP神经网络优化的遗传算法和数据挖掘,并通过实验验证优化神经网络,遗传算法是发现改进BP神经网络的良好的效果,这个系统具有广泛的研究前景的英语特征识别,它提供了一种理论依据在未来建立相关系统。
2。英语特征识别系统的设计
为了研究英语的识别功能,我们需要进行模式识别的过程在这个研究。模式识别的应用领域非常广泛,如图1,这是模式识别的具体流程图。
字母的识别之前,我们必须首先进行预处理的信件。在这里,我们使用单像素特征提取的方法;即根据一定规模和比例图像分割得到一定数量的子块包含不同的信息。我们扫描和识别分割字母图形和数字化所有26个英语字母通过5 x 7网格如图2。这个过程是一个英语字母图像识别的重要步骤。处理后,数据的位置设置为1和其他位置设置为0。如图2是英文字母的数字化过程。例如,如果这封信是数字化,相应的向量应该信一个= [00100010101010001111000110001]。
26个英文字母的数字处理,我们得到了处理数据和完整的英语特征提取的过程。接下来,我们将使用该算法分类和总结数据,这将提供的基础识别系统建设的特点。从这个过程可以看到,如图2,每个英文字母可以转化为一个35-element向量通过数值处理。26个英语字母数字处理所有数据组织和总结成一个统一的输入向量矩阵,这是作为BP神经网络的输入样本,我们将构建未来。
3所示。英语的特性基于GA-BP神经网络识别系统
3.1。建立的BP神经网络
BP神经网络在结构上分为三个基本组件(25]。如图3,这三个组件的输入层接收信息,处理信息的隐藏层,最后输出层获取的结果(26]。一般来说,数量的输入和输出层默认设置为1,然后隐藏层的数量大于或等于1。连接权重后,三个组件相连接,形成一个完整的BP神经网络。其基本结构如图3。
我们可以假设,在BP神经网络的结构,在输入层的节点数、隐层和输出层n,问,米,分别。让是连接输入层和隐层之间的重量。让输出层和隐层连接,两个的重量 。隐层节点的输出如下:
在这里,代表隐藏层的传递函数。让输出层的处理函数;然后,数据被替换得到最终的输出:
学习样本的输入 ,由 。后的样品转换成数据,引入BP神经网络,得到输出值吗 。设置为了得到期望的输出,预期的输出和实际的输出替换成平方误差公式,和错误的获得样本:
为样本,全球错误
输出层权值变化如下。计算单个误差叠加根据叠加的结果,调整以减少全球错误E和提高精度: 在哪里代表了学习速率。
的定义是错误的信号
首先,
此外,
这是极端的组件输出层的传递函数。因此,
从链定理,
根据公式(10),在输出层,体重变化如下:
隐层重量的变化如下:
的定义是错误的信号
其中,
chain-dependent定理如下:
它是隐层传递函数的偏微分。因此,
从链定理,我们可以得到
根据公式(17),在隐层的变化如下:
随着科学技术的发展,BP神经网络已经被许多人广泛使用。例如,局部最小值的存在使用BP神经网络算法来解决一些复杂的问题;它将陷入僵局,局部最小值将导致预期的结果。BP神经网络的初始权重将最终影响收敛的结果。在上述情况下,如果我们陷入僵局的局部最小值,初始权值的选择也会有错误。如果我们选择不同的值,我们将得到不同的局部最小值。在这种情况下,BP神经网络的精度不能保证。
3.2。用遗传算法来优化BP神经网络
为了弥补一些不容忽视的问题,在BP神经网络,介绍了遗传算法的进一步优化。并行遗传算法是一种随机搜索优化方法人为构造的模拟自然界中生物遗传进化的相关的理论机制。基于“适者生存”的原则在遗传学是众所周知的,这一过程介绍,进一步优化参数。通过适应度函数的计算,根据这三个过程的选择,交叉和变异在遗传机制,个人具有良好的健身价值选择。基本流程如图4。
也有三个基本步骤使用遗传算法来优化BP。首先,需要确定神经网络的基础设施,然后优化后的神经网络进行预测。优化的基本目的是模拟自然生物的遗传机制,然后,输入样本数据进行了优化,得到更好的初始权值和阈值,然后转换成新的数据样本,然后重新投入到BP神经网络,最后找到最优个体通过遗传算法的基本步骤选择、交叉和变异。
在遗传算法中,为了便于计算算法的个体,这些需要编码的可行的解决方案。可以看出,染色体编码是一个重要的问题需要解决在优化的过程中。在三个不同的编码方法,我们使用二进制编码方法来变换编码基于本研究的实验目的。在这个编码,基本形式主要是由0和1组成的,这是非常方便操作。同时,这种编码方法更方便、更容易进行交叉和变异操作的过程中遗传算法的优化,提高成功率。与此同时,其缺点也很明显。当一个个体的编码字符串太短,实验结果将不会达到预期的精度。如果编码字符串太长,计算将改善由于编码的数量的增加,导致算法的性能的削弱。
遗传算法的优化过程需要确定遗传算法的相关参数。人口规模的重要参数 ,迭代次数、交叉概率 ,和变异率 。在上面的内容中,我们已经确定BP神经网络的参数,我们不会去过多的阐述在这一节中。然后,我们代码的个人和屏幕的数量在一定程度上通过一个类似于自然的进化过程。然后,当前个人由十字交叉和变异概率和变异率 ,生成一个新的人口,其中是最适应的个体。通过重复前面的几个部分,满足条件之后,终于获得一代的目标群体。我们把个人从目标群体和输入的网络系统继续下一个计算过程,我们可以得到优化的BP神经网络。具体流程如图5。
在许多实际的BP神经网络模型,不难分析,尽管BP神经网络有许多优点是快速、明亮,仍存在一些不足,需要弥补,如随机网络的初始权值的特点,这将使实验效果达不到预期。在这项研究中,使用遗传算法优化和改善原BP神经网络。在保留原来的BP神经网络的优势,遗传算法可以搜索最优值在一个大范围的大量数据,进一步弥补BP神经网络的缺陷。结合两种算法可以充分发挥两种算法的优点。实验结果比预期的更好。
4所示。实验参数设置和结果分析
4.1。实验参数设置
数据挖掘的应用范围很广,和它的过程主要是通过各种算法的联合计算复杂的搜索目标数据信息和大量的数据样本。数据挖掘的方法有很多,是非常重要的根据的特点选择最合适的一个不同的方法。这些方法都有一个共同的理论基础,也就是说,获取所需的信息从数据样本通过算法计算。在我们的研究中,相应的英语特点从26个英文字母的具体图像,提取,在此基础上,26个字母数字处理后的样本数据分类提供分类依据后续信认可。具体的过程如图6。
经过数字处理的26个字母,然后我们探索的节点数量的影响在BP神经网络优化遗传算法最终收敛结果。如果隐层节点的数量是相对较小的网络,这将使学习速度增加,付出一定的代价,例如,网络学习能力会降低。但是,节点的数目不是更好的选择。如果我们选择太多的节点数量参数,模型的收敛能力同时会增加,但也会有一些问题,如极其漫长的训练时间。因此,必须选择最优值根据实际情况仔细选择的节点数量。选择相关的节点的数量,参考公式可以参考如下: 在哪里输入层的神经元数;是在输出层神经元的数目;代表了隐层神经元的数量;和代表一个随机1到10之间的自然数。通过实验验证了模型的节点的数量,结果如图所示7。
结果在图7显示,与我们之前的理论分析一致,最初,与隐层节点的数量的增加,识别精度也会增加,但随着进一步改善节点的数量,超过一定的最优范围,虽然识别精度提高,整个网络模型处理数据的效率开始下降。因此,我们选择最佳的节点数量之间寻求平衡的识别精度和网络模型的性能。
4.2。实验结果分析
在实践中,我们使用实验预测分析和交叉验证来确定网络算法系统的准确性。我们使用这个方法来计算和验证的准确性26个英语字母数字处理后的数据集。
图8显示不同的分类精度值26个英语字母的样品是不一样的。其中,这封信可能分类精度最高,因为其独特的形状在26个字母中。相反,字母H的形状更接近其他字母,所以它的特征值更接近其他字母,从而增加其被错误的概率。
接下来,我们进一步比较了性能优化和非优化BP神经网络的变化,比较和测试运行时间和识别率的差异之前和之后的优化遗传算法,并表示他们的图表(图9)。SPSS18.0的数据统计分析,独立样本T测试执行和 意味着显著差异。
在测试界面,首先收集特定的运行时间和BP神经网络的识别精度计算单字母识别的过程。然后,我们收集优化BP神经网络计算运行时间和识别精度相同的数据样本。从结果,遗传算法优化后,运行时间和识别精度均有一定程度的提高。
从上面的分析结果,与BP神经网络相比,曲线达到预期的错误后更快的使用优化后的BP神经网络,这证明了优化BP神经网络更好的效果比未优化BP神经网络,同时也大大减少了训练时间,提高成本效益。
此外,我们还用实验来进一步验证BP神经网络算法的性能差异之前和之后的遗传算法优化结果如图所示10。遗传迭代的测试下,英国石油公司(BP)迭代时间,运行时间,和识别精度,优化BP神经网络的遗传算法有一个非常重要的优点。不仅它的运行时间大大缩短,而且识别精度提高了近2%。
分析了BP神经网络和遗传算法在每个参数的设置对整个网络的影响,包括输入、输出和隐层节点数,以及步长和均方误差,最后确定每个参数的值,通过实验来确定这些参数的合理性。实验结果表明,遗传算法可以找到最好的权重和阈值和权重和阈值被分配到BP神经网络,训练后可以实现英文字母的识别。最后,通过实验比较两种算法的收敛条件,和改进算法的收敛时间短,精度高于传统的BP神经网络。可以看出遗传算法改进BP神经网络具有良好的效果,这种方法有一个前景广阔的英文字符识别和可应用于各种基于英文字段。
计算机图像识别技术已经应用在许多领域,如公安、生物学、工业、农业、交通运输、医疗,例如,交通车牌识别系统。随着计算机技术的不断发展,图像识别技术的不断优化和算法不断改进。图像是人类信息采集和交换的主要来源,因此,图像识别技术相关的图像必须是未来研究的重点。自从计算机图像识别技术很可能出现在更多的领域,它的应用前景是无限的,人类生活将会更加离不开图像识别技术。
5。结论
本文使用遗传算法来优化BP神经网络,并借助数据挖掘算法分类英语字母功能,建设的英语特征识别系统实现。使用遗传算法来优化BP神经网络不仅弥补了BP神经网络的原始缺陷,还可以充分发挥两种算法的结合的优势。结果表明,GA-BP神经网络构造在这项研究中取得了良好的容错级别和识别精度。该系统的建设形成了英语特征识别的有效方法,具有一定的普遍价值。也有一些缺陷在本文的实验过程。量化的英文字符图像,只认为是公认的标准字符,不考虑手写字符的情况。在未来,我们应该考虑各种情况下的目标和根据实际情况改进识别方法。可以进一步优化特征提取和其他特征提取方法可以被认为是改善性格特征的稳定性和准确性,从而提高系统的识别率。总之,随着科学研究的深入,人们越来越要求英语特征识别。英文字母的识别将是一个重要的领域未来发展的神经网络系统。 The GA-BP neural network and data mining system constructed by this research provide a theoretical basis for the optimization of the English feature recognition system in the future.
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作由科技部支持陕西省软科学格兰特,软实力的核心支持发展:一个多文化和创意产业产品的可用性研究(项目编号:2015 krm025)。