基于深度CNN模型的OCR用于连接脚本语言，如满语

摘要

满语是一种资源较少的语言，很少涉及文本识别技术。由于字体的组合，普通的文本识别实践需要在识别前进行分割，这影响了识别的准确性。本文提出了一种满文文本识别系统，该系统分为两部分:文本识别和文本检索。首先，使用深度CNN模型进行文本识别，使用滑动窗口代替人工分割。其次，文本检索在图像中寻找相似点，并定位所识别文本在数据库中的位置;对此过程进行了详细的描述。我们使用不同数量的样本数据对FAST-NU数据集进行了对比实验，并与最新的模型进行了对比。实验结果表明，所提出的深度CNN模型的最优结果达到98.84%。

1.介绍

光学字符识别（OCR）是许多现代字符的数字化的关键技术，它也是文本识别中的主流技术。事实上，Tausheck 89年前获得了OCR技术的专利。在20世纪50年代和20世纪60年代，对OCR技术的研究开始增加全世界各国。识别日本的邮政编码的系统今天仍在使用中。自20世纪70年代以来，汉字识别经历了数十年的研发。1984年，日本研究人员设计了一种能够在多个字体中识别汉字的设备。识别率高达99.98％，识别速度大于100个字符每秒。目前，汉字识别研究的方法和技术已经成熟，这已应用于产品设计。

少数民族（如中国）在中国的少数群体使用，满族是一种口语和书面语言，具有语音剧本。由于满族字母系统中的字母连接和变形的特殊性，写作规则与现代中文和蒙古和古代汉语更密切相关。满族被从上到下读取并从左到右写入，它也可以用拼音字符写入单声道，双峰，辅音和正视，具有与这些字母相对应的自由基的长度。但是，这可以在不同的满族脚本中不同。在翻译和解释满族书籍期间，由于诸如连续的写作，变形，误识别，划痕和裂缝等故障，一些激进的难以识别，这使得相应的文本仍然难以准确地识别。其中一些故障是由扫描书籍图像中的保存措施引起的，而通过现有的满族识别方法在满族图像中的错误检测错误检测错误率为其他原因。当Hanchu源文本是手写时，通常会出现识别错误，因此在手写的人物上使用OCR仍然不方便。

满语识别方法通常需要先将满语分割成基本单位(如字母)，然后再进行识别[1］．满族识别的改进往往只是简单地改善分割准确性，这不会解决由字母连接和变形引起的低识别准确性的基本问题。满族单词由沿垂直轴连接的一个或多个字母组成。同一词中的字母之间没有间隙[2］．由于满文文字图像中字母的起始点位于中轴上，因此传统的分割方法很难快速准确地识别基于定位图像或手写形成的满文文字[3.］．

本文提出了一种满文文本识别的方法和系统。该识别方法无需分词，即可快速识别文本图像中的部分字母。在此基础上，我们将文本检索系统扩展到全数据库，以查找相似文本。系统通过滑动窗口依次识别出满文图像中所有相似的字母。根据字母的标准图像，对字母的部分识别和滑动窗口中的部分调整图像进行比较。通过字母识别，可以快速在数据库中找到相应的满文字符。系统可以输出相应的字母及其数据库计数，以及在数据库中定位所有标记为关联字母的字母的标准图像。为了降低计算复杂度，提高识别精度，提出了滑动窗口;它能以较高的准确率对部分字母区域进行索引，这种局部识别保证了字母识别的可靠性，降低了误检的概率。

2.背景及现有工作

要创建一个全功能的OCR系统，有必要了解语言的脚本背景及其方法。以下部分详细描述了深度学习模型，具有在图像分类中使用的各种卷积网络（CNN）模型。根据识别满族脚本的最新方法，还详细分析了满族形状结构和预处理方法。

2.1。CNN模型

深度学习作为机器学习的一个子领域，在图像分类中取得了很好的效果。各种各样的CNN模型涌现出来，在浅特征挖掘和深特征挖掘方面都有很好的能力，不断提高分类精度。这些模型有广泛的应用范围，如面部[4.),演讲(5.，以及场景文字识别[6.］．一般CNN通常由输入层，卷积层，池化层和完全连接的网络组成。在过去十年中，CNN相关模型的深度逐渐加深，模型逐渐变得更大。AlexNet [7.]有6000万个参数和65万个神经元;它由5个卷积层、最大的池层和3个具有1000路softmax的全连接层组成。VGG [8.，一个带有很小的(3×3)卷积滤波器的架构，被用来评估随着深度增加的网络。通过将深度推进到16-19重量层，可以实现对现有技术配置的显著改进，同时一些研究侧重于减少模型参数，保持较高的分类精度，并提高设备的易用性。SqueezeNet [9.]建议在实现相同的结果的同时降低模型的大小;它采用三种主要策略：减少过滤器，减少输入通道过滤器和下采样。Reset [10]使用残差学习框架，在该框架中，层被改变为学习层输入的残差函数，而不是学习未引用的函数。MobileNet [11]采用了基于流线型结构的深度可分卷积，并引入了两个简单的超参数来折中速度和精度;适用于移动终端和嵌入式设备。DenseNet [12]引入了密集卷积网络，缩短了输入层与输出层之间的连接，加强了层与层之间的特征连接。

２.２.满族语言OCR

要在文本识别期间解释文本处理程序，我们首先概述满族的结构和字母。根据中华人民共和国的国家标准，信息技术通用多八个编码字符集塞贝，满族字符类型，满族中的相同信函通常有四种不同的形式，用于独立，初始，内侧和最终形状。一个满族词由一个或多个字母组成。

满文字符识别的研究还处于起步阶段，大多是基于字符分割的研究。根据文本的结构特点，用投影法或逐笔生长法将满文词划分为单个汉字。然后，采用反向传播神经网络、统计模式识别和支持向量机方法[13是用来识别汉字或笔画的。最后，根据特定的规则将单个字符或笔画组合成字符。该方法的优点是数据集的大小小于单词级数据集的大小，进一步压缩了训练数据，减少了计算次数[14］．具有相对简单结构的分类器也可用于识别以提高效率[15］．然而，由于满语词结构的复杂性，不能完全实现对满语字母的正确分割，这就限制了后续汉字识别的准确性。

在识别之后，性格重组技术也需要解决。例如，yi等人。2006年建立了一个离线手写的人文文本识别系统[16］．他们首先对识别目标进行提取和预处理，然后对提取的满语文本进行分割，形成满语笔画基元。接下来，他们对笔画原语进行统计模式识别以获得笔画序列。然后将笔画序列转换为根序列，采用模糊字符串匹配算法实现满罗马音译作为输出，识别率为85.2%。最后，采用隐式马尔可夫模型方法对stroke基元的识别结果进行处理，识别率进一步提高到92.3% [17］．2017年，Akram和Hussain等人提出了一种新的满族笔画提取方法[18］．对识别目标进行预处理后，确定主文本，采用文本生长法自动提取满语笔画;卒中提取准确率为92.38%，卒中识别率为92.22%。2019年，阿拉法特和伊克巴尔等人致力于手写满文文本的识别[19］．首先，对像满文这样的手写文本进行扫描，然后对图像进行预处理。然后对全文元素进行分段。接下来，从满文文本元素中提取投影特征、端点和交点。在特征与链码特征结合后，对这三种特征进行分类识别，同时对三种特征的组合进行识别。最后，为了进一步提高识别率，采用隐马尔可夫算法对识别结果进行处理，得到了最高的识别率(89.83%)[20.］．

这些满文字符识别的文章都是基于字符分割，采用人工设计的方法提取浅层特征。而基于分割的OCR方法则是基于精确字符分割技术[21］．对于历史文档图像，由于各种字体和样式的复杂性、图像捕捉时光照的不一致、捕捉设备产生的噪声、背景颜色的变化(以及其他特性)，对字符的正确分割变得更加困难。然而，手工设计的特征提取器需要大量的工程技能和领域专业知识。基于字符分割的识别方法由于字符分割处理的错误，限制了满语词的识别精度。因此本文提出了一种不分割的满语词识别方法，利用CNN对未分割的满语词进行识别和分类。该方法还对传统的CNN进行了改进，使其可以对任意大小的未分割的满文图像进行训练，从而减少归一化预处理对识别率的影响。

3.方法

在我们现在的工作中，我们使用深度CNN模型来识别文本，然后构建满族识别系统。深度CNN模型使用四个卷积层来挖掘不同的图像特征。在满族识别系统中，滑动窗口方法用于标识数据库中的相同字符。这两种方法如下所述。

3.1。满族识别算法

本文构建了一个不需要分割的CNN来识别和分类满语词[22那23］．本文中提出的CNN架构如图所示1。

本文构建的CNN模型包括总共九层：四个卷积层，两个最大池层，以及由扁平化层，完全连接层和输出层组成的分类层[24］．第一层是卷积层;卷积内核的数量设置为32，并且每个卷积内核的大小设置为N×N（N= 5或3或2:通过实验选择合适的卷积核)。这一层对输入层的数据进行卷积，得到32个feature map。每个feature map由(28−.N+1）×（28-N+1）神经元，每个神经元都有一个N×N（N = 5 or 3 or 2) acceptance domain. The activation function used is ReLU.

第二层是另一个卷积层，具有与第一层相同的设置。使用的激活功能是Relu。第三层是汇集层，它起到子采样和本地平均的作用。每个神经元的接受场大小设定为2×2，具有一个可培训的偏差，一个培训系数和矩形激活功能。第四和第五层是额外的卷积层，具有与第一层相同的设置。使用的激活功能是Relu。第六层是另一个池层，其设置与第三层相同。

第七层是压平层。由于输入图像可能是二维的，平坦层被用来降低前一层输出的多维矩阵的维数，得到一维的特征向量。第8层是完全连接层，包含256个神经元，这一层中的每个神经元都与前一层完全连接。第9层也是最后一层是输出层，输出长度为671的一维向量，其激活函数为softmax。由于多级满语数据集中单词图像的大小是任意长度的，所以原始图像的大小必须缩放为28 × 28的固定大小。

3.2。满族识别系统

提议的人道识别系统分为十个单位，该过程在图中示出2。（1）字母图像读取单元读取每个字母的标准图像（2）满语图像采集单元采集满语图像并生成二值化图像（3）图像预处理单元过滤二值化图像，在过滤后提取突出区域，并对突出区域执行边缘检测以获得图像以进行识别（4）参数初始化设置变量的初始值一世和j（5）滑动图像提取搜索要使用滑动窗口方法识别的图像（6）标准线段提取单元筛选了第二个二金属化图像j-th字母标准图像（7）轮廓线提取单元缩放一世th对比图片（8）连接强度输出单元计算矢量轮廓线之间的连接强度一世- 对比图像和j-th字母标准图像，然后根据值跳转一世（9）窗滑装置增加了值一世那j，和W.然后根据的值进行跳跃j（10）结果输出单元使与数据库中关联的字母的所有字母标准图像相对应的字符和数量

我们提出的满族识别系统的第一步是读取每个字母的标准图像。目前，标准字母映像是在数据库中预留的满族字母的图像，其中包含114个中文字母的图像;数据库还存储与字母标准图像对应的字母和它们的字母数，以及每个满族图像的组成字母的组件编号。相应的输出可以基于满族字符中的多个或多个字母，每个字母的标准图像包含不同的字形。

第二步是采集满族图像，得到二值化图像。满文图像是通过行扫描相机、手写输入或用扫描仪扫描满文书籍获得的。

第三步是对二值化后的图像进行滤波，滤波后提取显著区域并进行边缘检测，得到待识别的图像。滤波方法可以是均值、中值或高斯滤波;显著区提取方法可以使用AC [25[基于直方图的对比度[26]，LC [27]或频率调谐的显着性检测[28]算法。突出区域的边缘检测确定图像中的满族文本的像素区域边界。

第四步是设置变量的初始值一世到1，其中值范围一世(1,N]，一世是自然数，并且N为待识别图像大小与滑动窗口大小之比。然后，需要设置变量的初始值j到1，其中值范围j(1,m]，m字母标准图像的总数和滑动窗口的宽度是多少W.。

第五步用滑动窗口法搜索待识别图像。通过Hough变换在滑动窗口中搜索最长的线段一世-第一个线段，和一世-第一个线段和垂直轴(y-axis)的图像矩阵。顺时针方向的角是一世th角。当长度一世-第一个线段大于等于K.时，将滑动窗口中的图像逆时针旋转一世的角度，获取滑动窗口中的图像一世- 对比图像（何时一世小于K.，这意味着在滑动窗口区域没有满文字母可以识别)，在那里K. = 0.2 ∗ W.。

滑动窗口方法搜索通过滑动的窗口识别图像，并且每个幻灯片的步进量是滑动窗口的尺寸;滑动窗的尺寸在要识别的图像的尺寸的[0.01,1]之间;也就是说，将滑动窗口的高度和宽度（尺寸）设定为W.∗W.和价值W.是要识别的图像宽度的倍数。这可以根据要识别的图像中的全部字符进行调整，并且每个幻灯片的距离是滑动窗口的宽度。每当行在图像矩阵上滑动时，它根据滑动窗口的高度自动跳到下一行（从尚未由滑动窗口选择的图像矩阵中的像素区域水平扫描图像）。注意，高度和宽度也称为长度和宽度，以像素为单位。数字3.说明了本步骤中描述的扫描幻灯片的原理图。

第六步是过滤二金属化图像j-th字母标准图像。滤波后提取显著区域，对显著区域进行边缘检测，得到显著区域j字母标准图像要进行识别和搜索j霍夫变换的最重要。需要识别的图像中的最长线段被视为标准线段。

第七步是缩放一世根据标准线段与标准线段之间的比率来对比图像一世的线段，并提取矢量等高线一世- 对比图像和j-th字母标准图像。当一世- 根据标准线段与标准线段之间的比率缩放对比度图像一世-th线段，边缘一世对比图像至少留出8个像素空白，以获得80 × 80大小的图像。向量的等高线一世- 最小的比较图像可以通过以下方式提取：在一世- 比较图像，从终点开始一世-距离纵坐标最近的第th线段，计算其曲率值一世-每条边点的第n条线段;然后，计算所有曲率值的平均值——将所有大于平均值的曲率边点作为角点，形成较大的曲率点集;然后，依次连接大曲率点集中的每个角点，使其曲率值大于平均值。详见附录A。

第八步是计算矢量轮廓线之间的连接强度一世- 比较图像和j-th字母标准图像。要做到这一点，首先要增加价值j到1;当值j大于m，转到步骤9，当连接强度大于强度阈值时，标记j-th letter standard image作为关联字母，执行步骤9j值小于或等于m，转到步骤6.强度阈值为0.5-0.8倍PNUM或0.5-0.8倍的轮廓线中的角点数的数量j-th字母标准图像。详见附录B。

第九步是增加价值一世到1，设置值j到1，并在距离处滑动滑动窗口W.。当值一世小于或等于N，执行步骤5。当值一世大于N，执行步骤10。

第十步是将标记为关联字母的所有字母标准图像输出到与字母的字符和数字相对应的数据库中的关联字母。输出字符及其数字用于输出满意字符，包括与标记为数据库中关联字母的一部分的字母标准图像相对应的多个字符。

4.实验

我们对提出的系统进行了实验测试。首先，实验验证了CNN和深度CNN对不同类型未分割的满语词数据的识别效果。未分割的满语词集包含671个类别;每个类别有1000个样本，所以总大小为671000。在训练过程中，对1000幅样本图像进行洗牌，然后随机抽取900幅图像进行训练，剩余的用于测试。100、200、300、400、500、600、671个类别分别使用CNN模型和深度CNN模型。使用CNN识别满语词时，将原始图像归一化为28 × 28的统一大小。我们用5 × 5、3 × 3和2 × 2的卷积核对三种网络进行了测试，其中3 × 3的卷积核得到了最好的结果。设两个网络的卷积核为3 × 3，设最大池化层的滑动窗口大小为2 × 2，设滤波器个数为32,dropout ratio设为0.25，共有4个卷积层。实验结果如表所示1。


数量的类别	数据大小	深度CNN识别率(%)	CNN识别率(%)

One hundred.	100，000	99.85	99.09
200.	200000	99.88	99.27
300	300,000	99.24	98.24
400	400000年	99.35.	98.44
500.	500,000.	99.13	98.31
600	600,000.	98.98	98.25
671.	671000年	98.84	97.61

在相同参数下，对不同类别的未分割满语词进行识别和分类时，深度CNN的每类识别率分别比传统CNN高0.76%、0.61%、1.00%、0.89%、0.82%、0.73%、1.23%。这说明空间金字塔池化层对CNN进行了改进，对图像归一化造成的影响有一定的抑制作用。同时可以看出，对于671种类型的数据，CNN可以获得较高的识别率。

我们收集了对满族文本的报告，并总结了表中的分类准确性2。李等人[29]，利用CNN中的空间金字塔池化层代替最后的最大池化层，并提出任意大小的分类器，无需分词即可识别满族词。郑等[30.]提出了不切分的思想来识别和理解满语，用词语代替满语角色;提出了一种端到端九层的CNN算法，用于满文图像的深度特征自动提取。Xu等[31.]改进了传统的投影分割方法，有效提高了分割的准确性。本文提出的方法比这些其他方法更准确为1.16％，3.84％和11.44％。


参考	精度(%)

李等人[29]	97.68
郑等[30.]	95
Xu等[31.]	87.4
本文	98.84

接下来，我们考虑了不同数量的卷积层对识别和分类的影响。对于CNN和深CNN，卷积层的数量设定为2,4和6。两个网络的卷积内核设置为3×3，将最大池层的滑动窗口大小设置为2×2，滤波器的数量设定为32，辍学比率设定为0.25。实验结果如表所示3.。


卷积层	深度CNN识别率(%)	CNN识别率(%)

2	98.04	97.54
4.	98.84	97.61
6.	98.91	97.66

从表中可以看出3.，随着卷积层数量的增加，精度也会增加。同时，当设置不同的卷积层数时，对于2层、4层和6层，深度CNN的识别率分别比传统CNN高出0.50%、1.23%和1.25%。这进一步说明利用空间金字塔池化层对CNN进行了改进。

实验结果表明，在相同的参数下，本文设计的深层CNN模型的识别率为不同类别的未分段式满族单词的识别和分类高于传统CNN的识别和分类。与其他论文提出的方法相比，我们提出的方法具有很大的优势。当设置不同数量的卷积层时，深CNN的识别率高于传统CNN的识别率，本文提出的深层CNN模型避免了由图像归一化引起的特征表达问题。它在具有不同长度的满族单词的识别实验中进行了测试，并获得比传统的CNN模型更高的识别精度。

5.结论

传统的cnn要求输入图像的大小一致。满族语是一种语音文本，其词长不固定。因此在识别和分类之前需要进行尺寸统一的预处理，这样的预处理降低了识别率。为了降低图像归一化预处理对识别率的影响，本文对传统的CNN进行了改进，构建了一种新的非分割的满语词识别网络模型:深度CNN。我们还提出了一个满文识别系统，该系统可以定位识别文本在数据库中的位置。该模型解决了图像归一化问题，实现了对任意大小的未分割满词图像的深度特征提取，并对不同类型的未分割满词数据进行识别和分类。利用深度CNN对100、200、300、400、500、600、671类满词进行识别和分类，识别率分别为99.85%、99.88%、99.24%、99.35%、99.13%、98.98%、98.84%。实验结果表明，深度CNN降低了图像归一化预处理的影响，获得了比传统CNN模型更高的识别精度。

附录

答:提取方法

本节简要介绍了向量轮廓的提取方法j第七步的字母标准图像。从标准线段的末尾开始，与纵坐标轴最近的距离，计算标准线段上的每个边缘点的曲率值。然后计算所有曲率值的平均值，并且曲率值大于平均值的所有边缘点被识别为边缘。角点构成一个大的曲率点。根据下列步骤，曲率值大于平均值的大曲率点集中的每个角点依次连接到平均值，如下所示的步骤：（1）让角点的坐标具有横坐标的最小值（X大曲率点设置的轴（X分钟，y分钟），并将角点的坐标设置为最大值X-轴在大曲率点处为(X马克斯,y最大限度）。设置由多列像素形成的间隔y- XIS跨越像素，其中跨度是10到100之间的整数。设置变量的初始值H为0，并设置变量的初始值R.到1，两者H和R.是自然数。（2）将大曲率点集的角点按值从小到大排序X- 除了带有最大和最小的角点之外X-axis值。有一个连接标记链接标记和数组标记Arraymark;链接标记和Arraymark都设置为1，以及最小的角点的连接标记链接标记X-AXIS值设置为2（即，大曲率点的集合中的第一个角点的连接标记Linkmark = 2）;和最大的角点的连接线标记X-axis值设置为3（即，大曲率点设置的最后一个角点的连接标记链接链线= 3）。（3）的取值范围X为图像矩阵的-轴X分钟+ (H-1）*跨度X分钟+H∗span作为连接的间隔R.-th层，并让值的范围X- 轴是XminX分钟+H∗跨度,X分钟+ (H+1）* span是要连接的间隔（R. + 1)-th layer.（4）若在连通区间内存在Linkmark = 2的角点R.-Th层（即，大曲率点中的第一个角点设置，图像中最左边的边界点），然后使用矢量行更改LinkMark = 2.连接2的角点和所有角点linkmark = 1在（R.+ 1)第二层被连接，并连接所有的角点R.-th连通区间和(R. + 1)-th layer to be connected. Set the connection mark Linkmark to 0, and operate according to Step 5 (the above steps are only performed at the first corner point); otherwise, if there is no corner point with Linkmark = 2 in theR.-th层连接部分，然后直接进行到下一个操作。（5）如果在要连接的时间间隔内有环标记= 3的角点R.+ 1层(即大曲率点集的最后一个角点，图像中最右边的边界点)，然后在连通区间内的向量线R.-Th层和连接标记链接标记= 0的所有角点连接到LinkMark = 3的角点;设置环标记点的连接标记链接标记= 3到0（上述步骤仅在执行的最后一个角点处），然后转到步骤10（即，连接过程结束）。如果没有与Linkmark = 3的角点，则在要连接的时间间隔内R. + 1 layer, then judge whether the connection mark Linkmark of all of the corner points in the large curvature point set is equal to 0 (that is, the connection process ends), and if so, go to Step 10; if not, go to Step 6.（6）在连接区间内输入Linkmark = 0的角点R.-th层进入数组作为一个连接数组;将Linkmark = 1的角点输入R.+1层进入另一个数组作为要连接的阵列;连接阵列中的角点和待连接的阵列根据纵坐标值对大小的值进行排序。（7）在连接数组中的数组标记Arraymark = 1的角点中的最大纵坐标值占据纵坐标值作为第一个起点。将第一个起始点和第一个端点用矢量行连接，并将第一个起点的数组标记数组和第一端点设置为0（此步骤是设置最高的角y-axis值，参见上面)。（8）将已连接数组中ArrayMark = 1的数组角点中坐标值最小的角点设置为第二个起点，并将待连接数组的角点标记为ArrayMark = 1。取纵坐标值最小的角点作为第二个端点。第二个起点和第二个终点用向量线连接，第二个起点和第二个终点的数组标记设为0(此步骤将角点与最低点连接)y-轴值依次)。（9）当已连通数组或待连通数组中所有角点的数组标记ArrayMark为0时(即两个坐标轴距离内任意范围内的所有角点都是连通的)，增加变量H和R.1、设置数组的马克ArrayMark数组中所有角点被连接到1,并设置Linkmark数组中所有角点的连接和连接数组为0,然后转到步骤3(也就是说,连接下一组坐标轴间距范围);否则，转到步骤6(即继续连接已连接数组中的角点和待连接数组)。（10）输出由向量线连接的所有角点组成的矢量轮廓(连接角点形成字母框架)。

B.计算强度的计算

本节简要介绍了矢量等高线之间连接强度的计算方法一世- 对比图像和j-th字母标准图像在第八步。（1）让矢量轮廓线一世- 对比图像是P.和矢量轮廓线j-th字母标准图像问：；重叠P.和问：重心是P.和问：作为中心。这些，那K.是在矢量轮廓线中的轮廓线上的角点数一世th对比形象; 那N是在矢量轮廓线中的轮廓线上的角点数j-th字母标准图像;和轮廓线上的角点;和P.₁和问：₂距离是否在P.和问：。纵轴上具有最小距离的角点，P.₁那P.₂，...，P._K.和问：₁那问：₂，...，问：_N，是两组序列中的角点，索引号与坐标轴的距离以连续增量的方式递增。（2）连接上最近的角点P.和问：用向量线序列表示，连边集就是连边集那在哪里FC.为角点个数，取值范围为[1,PNum]， PNum为常数，且PNum小于K.和N。（3）计算终点点的距离P._FC.到P.₁连通边集合中所有连通边的距离(计算到所有角点的距离)P.₁那P.₂，...，P._PNum到P.₁），并使用计算的距离依次设置的第一距离。计算终点点的距离问：_FC.到问：₁连接边缘集中的所有连接边缘（计算距离所有角点的距离问：₁那问：₂，...，问：_PNum到P.₁)，并使用计算的距离作为第二个依次设置的距离。计算序列中第一个距离集合中的每个距离元素与第二个距离集合中的每个距离元素的差值;将所有差值计算为正数和负数的数目;当正数大于负数时，执行步骤4;否则，执行步骤5;distance元素是集合中的每个距离值。（4）计算连接强度S.连接边缘集V.，然后转到第6步，在哪里。相似函数是在哪里意味着点的横坐标值之间的差异P._FC.(距离值从点P._FC.到X-axis）和横坐标的价值问：_FC.(距离值从点问：_FC.到X设在)。（5）计算连接强度S.连接边缘集V.，然后转到第6步，在哪里。相似函数是在哪里意味着点的纵坐标值的差异问：_FC.(距离值从点问：_FC.到y- 轴）和纵坐标价值P._FC.(距离值从点P._FC.到y设在)。（6）输出连接强度S.。

数据可用性

用于支持本研究结果的数据包括在文章中。

利益冲突

作者声明本文的发表不存在利益冲突。

致谢

广东省（GD19CYY13）的哲学和社会科学策划项目得到了支持这项工作。

参考

M. Wahab, H. Amin，和F. Ahmed，“普什图文字的形状分析和OCR图像数据库的创建”，在2009年新兴技术国际会议的诉讼程序，PP。2009年10月，巴基斯坦伊斯兰堡287-290。查看在：谷歌学术搜索
S. Naz，A. I. Umar，R. Ahmad等，“Urdu Nastaliq识别使用卷积递归深度学习”Neurocomputing， vol. 43, pp. 80-87, 2017。查看在：出版商网站|谷歌学术搜索
R. Ahmad，S. H. Amin和M. A. U. Khan，“使用SIFT功能的尺度和旋转不变地识别法学普什诗脚本”2010年第六届新兴技术国际会议论文集，pp.299-303，伊斯兰堡，巴基斯坦，2010年10月。查看在：谷歌学术搜索
L.杨，B.杨和X.Gu，“对抗鲁棒额面脸部图像恢复和识别的对抗重建CNN”国际认知信息学与自然智能杂志，第15卷，第5期。2页18-33,2021年。查看在：出版商网站|谷歌学术搜索
Zhao Z.， Q. Li, Z. Zhang, et al.，“基于自注意扩展残差网络的并行二维CNN的离散语音情感识别，”神经网络，第141卷，第52-60页，2021。查看在：出版商网站|谷歌学术搜索
陈鹏，“基于文本引导的神经网络训练在自然场景和医学图像识别中的应用”，图案分析和机器智能的IEEE交易号，第43卷。5、第1733-1745页，2021年。查看在：出版商网站|谷歌学术搜索
A. Krizhevsky, I. Sutskever，和G. E. Hinton，《基于深度卷积神经网络的图像网络分类》，ACM的通信，第60卷，第2期6，页84-90,2017。查看在：出版商网站|谷歌学术搜索
K. Simonyan和A. Zisserman，“大规模图像识别的非常深的卷积网络”，2015年，https://arxiv.org/abs/1409.1556.。查看在：谷歌学术搜索
F. N. Iandola，H. Song，W. Matthew，K. A. MoSkewicz，J. D. William和K.Kurt，“Screezenet：AlexNet-level精度，50倍的参数和<0.5MB的型号，”2016，2016年，https://arxiv.org/abs/1602.07360。查看在：谷歌学术搜索
何凯，张昕，任舜，“基于深度残差学习的图像识别”2016 IEEE计算机视觉与模式识别大会论文集，页770-778，拉斯维加斯，内华达州，美国，2016年6月。查看在：出版商网站|谷歌学术搜索
A. G. Howard，M.Zhu，Bo Chen等，“Mobilenets：用于移动视觉应用的高效卷积神经网络，2017年，https://arxiv.org/abs/1704.04861。查看在：谷歌学术搜索
G. Huang，Z.Liu，L.Van der Maaten，以及Q. Wian，“密集连接的卷积网络”。，“2017 IEEE计算机视觉与模式识别(CVPR)会议论文集，檀香山，嗨，美国，2017年7月。查看在：谷歌学术搜索
L. Dinges，A. Al-Hamadi，M. Elzobi和S. El-Etriby，“普通阿拉伯语手写的综合来帮助光学字符识别研究”传感器，第16卷，第5期。3, p. 346, 2016。查看在：出版商网站|谷歌学术搜索
I. Ahmad，X. Wang，R. Li，M. Ahmed和R. Ullah，“乌尔多拉利人民币的线条和结扎细分”，IEEE访问， vol. 5, pp. 10924-10940, 2017。查看在：出版商网站|谷歌学术搜索
M. Amin Shayegan和S. Aghabozorg，“新型数据集大小减少了用于ocr应用程序的PCA类分类”，“工程中的数学问题，卷。2014年，第14页，14页，2014年。查看在：出版商网站|谷歌学术搜索
I. Ahmad，X. Wang，Y. H。毛，G.刘，H. ahmad和R. Ullah，“基于联盟的乌尔都语Nastaleeq句子识别使用门控双向短期内存，”集群计算，卷。21，不。1，pp。703-714,2018。查看在：出版商网站|谷歌学术搜索
Z. Ahmed，K. iqbal，I. Mehmood和M. A. Ayub，“基于词条的乌尔多框架，”2017年关于信息技术前沿国际会议的会议记录（适合），pp.87-92，伊斯兰堡，巴基斯坦，2017年12月。查看在：谷歌学术搜索
Akram和Hussain，“基于连接的字体大小独立OCR的noori nastalique写作风格，”在2017第一届阿拉伯语脚本分析与识别国际研讨会论文集，第129-133页，南茜，法国，2017年4月。查看在：谷歌学术搜索
S. Y. Arafat和M. J. Iqbal，“基于序列的乌尔都结扎识别的两流深度神经网络”，IEEE访问，第7卷，第159090-159099页，2019。查看在：出版商网站|谷歌学术搜索
U. Hayat, M. Aatif, O. Zeeshan，和I. Siddiqi，“使用深度卷积神经网络在乌尔都字幕文本中的连接识别”，在2018年第14届新兴科技国际会议（ICET）的诉讼程序，pp.1-6，伊斯兰堡，巴基斯坦，2018年11月。查看在：谷歌学术搜索
S. Malik，A. Sajid，A. Ahmad等，“Fursive脚本OCR的有效偏斜线分割技术”，科学的规划，卷。2020，第8866041号，12页，2020。查看在：出版商网站|谷歌学术搜索
R. Ahmad, S. Naz, M. Z. Afzal, S. H. Amin，和T. Breuel，“使用比例、旋转和位置不变方法的草书普什图脚本的鲁棒光学识别，”《公共科学图书馆•综合》，第10卷，第5期。9、文章编号e0133648, 2015。查看在：出版商网站|谷歌学术搜索
S. Ahlawat，A. Choudhary，A. Nayyar，S. Singh和B. Yoon，“使用卷积神经网络（CNN）改进了手写的数字识别，”传感器，第20卷，第2期。12，p。3344,2020。查看在：出版商网站|谷歌学术搜索
R. Ahmad, M. Z. Afzal, S. F. Rashid, M. Liwicki，和T. Breuel，“使用MDLSTM网络的普什图草书的缩放和旋转不变OCR”，在2015年第13届国际文献分析与识别大会论文集，pp.1101-1105，突尼斯，突尼斯，2015年8月。查看在：谷歌学术搜索
R. Achanta，F. Estrada，P.Wils和S.Süsstrunk，“突出区域检测和分割”计算机视觉系统。ICVS 2008中的那，A.加速器，M. Vincze和J. K.Tsotsos，EDS。，PP。66-75，Springer，柏林，德国，2008年。查看在：谷歌学术搜索
毫米。程，N.J.Mitra，X. Huang，P. H. S. Torr，以及S.-M。胡，“全球对比的突出区域检测”，图案分析和机器智能的IEEE交易，第37卷，第2期3, pp. 569-582, 2015。查看在：出版商网站|谷歌学术搜索
Y. Zhai和M. Shah，“利用时空线索在视频序列中的视觉注意检测”，发表于第十四届ACM多媒体国际会议论文集;MM 06年，第815-824号，纽约，纽约，美国，2006年10月的计算机械协会。查看在：谷歌学术搜索
R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk， "频率调谐显著区检测"，刊于2009年IEEE计算机视觉与模式识别会议论文集，PP。2009年6月，美国迈阿密1597-1604 1597-1604。查看在：谷歌学术搜索
M. Li，R. Zheng，S. Xu，Yu Fu，Di Huang，“满族词识别基于卷积神经网络的空间金字塔汇集”2018年第11届国际成绩及信号处理，生物医学工程和信息学国会议（CISP-BMEI 2018）的诉讼程序，Ieee，纽约，纽约，美国，2018年10月。查看在：谷歌学术搜索
R. Zheng，M. Li，J.He，J.Bi和B. Wu，使用深度卷积特征和数据增强的分割 - 免费多字体印刷的满族字识别，“2018年第11届国际成绩及信号处理，生物医学工程和信息学国会议（CISP-BMEI 2018）的诉讼程序，Ieee，纽约，纽约，美国，2018年10月。查看在：谷歌学术搜索
徐胜，李敏，r.r r。Zheng, and S. Michael，《满文字符分割与识别方法》，离散数学科学与密码学杂志，第20卷，第2期。1, pp. 43-53, 2017。查看在：出版商网站|谷歌学术搜索

科学的规划

摘要