复杂性

在这一页上

文摘介绍相关工作结果与讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

人工智能的智能系统仿真

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID5583287| https://doi.org/10.1155/2021/5583287

MyOcrTool:可视化系统产生关联的图像汉字智能设备

Laxmisha拉伊 ¹ 和香港李 ¹

学术编辑器: Abd E.I.baset Hassanien

收到了 2021年2月06

修改后的 2021年3月12

接受 2021年4月16日

发表 2021年5月11日

文摘

大部分汉字是象形字符与联想能力强和当一个角色出现对中国读者来说,他们通常与对象关联,或立即行动相关的角色。在此背景下,我们提出一个系统简化汉字形象化,以便开发任何技能阅读或写汉字是不必要的。考虑到移动设备的广泛使用和应用程序,自动识别汉字和显示关联的图像成为可能的智能设备,促进快速概述中国文本。这项工作的现实意义考虑实时中文文本识别的研究和开发,显示关联的图像,对于这样的用户可视化文本只有图片。拟议的汉字识别系统和可视化工具叫MyOcrTool和为Android平台开发。应用程序通过OCR引擎识别汉字,并使用内部声音回放界面实现音频功能和实时显示汉字的视觉图像。

1。介绍

近年来,越来越多的外国人学习汉语作为第二语言在世界各地通过促进汉语教育机构。很多外国人来中国,无论是学习,工作,和travel-reading,说、听和写中国语言管理日常活动的一个基本要求。比较其他几个主要的外语,中文是最难的语言学习者(1]。阅读报纸或网上的一篇文章中,一个至少需要掌握超过二千个字符。大约有数千的中文字符,它是必不可少的一个学习者掌握至少两到三千个字符阅读或理解一个信号板,公共安全指令或食品菜单。在[2),一个网站列出了近4000简体中文字符,基于他们的频率出现在书面文件。按照网站,所有这些角色的坚实的知识使学习者阅读任何文档用简体中文写的。然而,对于游客感兴趣的是短期停留在中国,他们可能更感兴趣的是了解文字背后的含义,而不是花费无数个小时在学习汉语或雇佣一个翻译。几个基于软件的应用程序,此外,这些天,移动应用很受欢迎,帮助学习者理解汉字的意思或者一个词。在过去的几年中,有很多现代的方法来简化学习汉语使用移动设备,软件工具,应用程序和电子设备。研究移动辅助语言学习(购物中心)强调学习者创建内容、更符合实际的创建意义提出了(3]。学习汉语成语时,工具让学生采取措施使用手机来捕获的场景表达习语的含义,并促进构建句子。这种方式将习语转换成照片可以帮助学生了解习语以更有效的方式。你和徐4)评估系统的可用性名叫Xi-Zi-e-Bi-Tong(習- e -筆通),这是一个系统的写汉字由教育部使用。本研究的重点是评估系统的有效性为外国学习者从不同的文化背景和年龄。总之,尽管中国非英语母语人士可以与系统交互,仍有问题存在,还有改进的余地。在[5),研究人员设计和评估软件,方便用户学习中文通过使用移动应用程序。过去文献的结果显示,绝大多数的外国学习者学习汉语感到满意通过电子设备,这在学习中文也发挥了巨大的作用。

使用网络或移动应用程序和有关中文字典,用户需要知道三件事。(1)用户应该能够知道如何读汉字,(2)用户需要知道如何写一个汉字,手机屏幕上主要是通过不同的中风和中风后订单,(3)用户需要知道使用拼音(pīnyīn)。然而,如前所述,有成千上万的汉字,和中国是一个复杂的语言,它是不容易的非学习者意识到所有这些。

多数汉字代表一些动作、事件、动物、人类,或直接或间接对象。很明显从图1,汉字演变遵循逻辑规则。有几个汉字的演化阶段(6]。这些阶段包括甲骨文、青铜器脚本,小篆书、隶书,标准脚本和简体中文,如图1。今天,简体中文是最常见的和广泛使用的脚本在中国官方的目的。仅仅掌握汉字,其内涵和外延,它可以产生无限的联想。所以,在理论上,为中国学习者在早期阶段,提出了常用的字符作为一个绘画或照片提供快速与性格。早些时候,全面分析生成的图像简化汉字通过使用互联网和电子设备,并强调理解文本的形式限制图像研究了(7]。这项工作是受多数学者的意见,无论多么简单或复杂的性格,汉字仍然是一幅画。这里,研究人员试图了解每个字符在互联网使用表示为图像,在受欢迎的通讯工具。与这一背景下,我们试图探讨以下研究问题的答案。(1)考虑到我们之前的研究(7),有可能可视化实时简化汉字的联想图像使用智能设备?(2)如何开发应用程序的实时可视化从不同来源中提取汉字识别率促进评估?

第一个研究问题与可视化系统的开发产生关联的图像汉字。考虑到这方面,有几个相关的作品,描述了研究视觉感知、虚拟现实技术在工业领域的应用,物联网(物联网)近年来。在[8]作者提供了详细的视觉感知在不同工业领域的应用。你的工业领域包括农业、制造业和自动驾驶。在[9),人类视觉系统的重要性而获取图像的不同特性,以及变形分布的影响在一个图像研究。在[10),屏幕内容图片的标准评价更好的视觉质量是探索。在[11),研究人员构建一个图像处理与质量评价系统使用卷积神经网络(CNN),和物联网技术研究在智能城市工业视觉感知的应用程序。的主要目标是提供未来智能城市可视化实验框架。在[12),作为一个安全解决方案框架,工业控制网络的入侵检测模型设计和模拟虚拟现实(VR)环境。在[13),虚拟现实技术的相关性考虑物联网的应用程序进行了探讨。

汉字是象形文字字符(或象形图)与联想能力强和当一个角色出现对中国读者来说,他们通常与对象关联,或立即行动相关的角色。在此背景下,我们提出一个系统简化汉字形象化,这样非学习者能迅速理解字符的含义甚至不用打字或者学习。考虑到移动设备的广泛使用和应用程序,自动识别的汉字和显示联想在智能手机的图像成为可能,以促进快速概述中国文本。这项工作的现实意义考虑实时中文文本的研究和开发等用户识别和显示关联的图像没有背景的中国写作或阅读。拟议的汉字识别系统和可视化工具叫MyOcrTool和适用于Android平台。应用程序识别汉字通过光学字符识别(OCR)引擎称为超正方体,并使用内部声音回放界面实现音频功能角色发音和汉字的视觉图像实时显示。

本研究的主要目的是为每个汉字生成图像,然后代表图像为整个文本,以便用户能够获得近似概念的文本。此外,用户可以获得意义,即使没有理解拼音,或用罗马字体书写阅读能力。系统对所有人都有益,对汉语没有素养,或者不能倾听和说话的人。

表1显示选中的字符的例子的列表和它们相关的图片。这种汉字的视觉图像能够帮助非可视化快速汉字背后的意义。剩下的纸是组织如下。部分2介绍了相关的工作。部分3通过提供OCR的细节,描述了模型描述超正方体开源引擎,应用概述、系统设计和实现细节。部分4提出了实验设计和分析结果的细节。最后,我们总结论文部分5指向未来的工作。

所需的主要过程可视化一个汉字图像扫描使用智能手机摄像头提取字符在文本。后扫描字符,字符识别等后续步骤,显示关联的形象,拼音的发音。有几个以前的相关研究字符识别在不同的场景中,在研究相关人物的语言除了中文还涉及(14- - - - - -21]。从这,我们可以分类所有现有的文本提取方法分为三类地区为基础,基于纹理和混合法(14]。有几个在这里提到的文本检测工作,他们提出了建议的文本检测考虑不同的因素和设计一个合适的模型。Kastelan et al。15]介绍了文本提取的系统由电视屏幕上的内容。一个开源的OCR算法用于地区读课文。在阅读文本区域,与预期的执行文本做出最后决定成功或失败的测试用例。该系统成功地从电视屏幕上读课文和功能验证中使用的系统。考虑到汉字识别,在过去,一些研究人员他们的注意力集中在识别汉字印刷的22,23),手写汉字(24,25),在车辆的车牌字符(26,27),和识别的汉字写的书法风格28]。

近年来,使用OCR技术在各种应用程序中,认识的人物是中央要求,如在电子商务的应用29日),和物联网30.),此外,超正方体引擎的重要性角色从图像检索,翻译应用程序和字符识别应用程序是广受欢迎的31日,32]。拉米et al。16)开发了一个Android应用程序通过集成超正方体OCR引擎,必应翻译和手机的内置的语音识别技术。通过使用这个程序,旅行者访问国外能够理解信息在不同的语言描述。Chavre和Ghotkar17)设计了一个Android应用程序,这是一个用户友好的应用程序来帮助旅游导航,虽然它们在国外漫游。这个应用程序能从一幅图像中提取文本,这是被一个手机相机。使用执行提取笔划宽度转换(SWT)方法和连接成分分析。SWT技术用于检测文本从自然图像通过消除噪音,但保存的文本。Kongtaln et al。18)提出了一个阅读医学文献的方法通过使用基于Android的智能手机,使用技术超正方体OCR引擎从医疗文档图像中提取文本内容等体检报告。相关文档被认为是以下因素:字符字体,文本块大小和手机上的文档和相机之间的距离。Dhakal和Rahnemoonfar19为Android平台开发了一个移动应用程序,允许用户拍照YSI探空仪的监控(乐器用来测量水质参数如pH值、温度、盐度、和溶解氧),从图像中提取文本,并将它存储在一个文件的电话。

Nurzam和Luthfi20.)实现从印度尼西亚语拉丁文本翻译与谷歌移动到爪哇文本视觉实时,与基于Android手机的应用也亦然。这个设计的执行流程是先通过相机扫描文本,然后识别文本传播到web服务。最后,翻译文本显示在手机屏幕上实时。本研究使用印尼爪哇语言或语言转换的结果。本研究的目的是设计和实现实时使用Android手机视觉文本的翻译应用程序包括移动翻译应用程序体系结构和web服务的组合应用程序。咦,田21)提出了一个从文本区域检测到场景文本识别的方法。他们首先设计了一个区别的特征描述符通过结合一些高级功能的探测器和描述符,然后塑造每个字符类的结构设计中风配置映射。Android系统开发展示了该方法的有效性在从场景中提取文本信息。评估测试的结果数据显示,他们提出的文本识别方案具有积极的识别效果,这是与现有的主要方法。

此外,以外的字符识别,有几个工作都集中在文本-语音(TTS)的转换。Celaschi et al。33)集成一组图像捕捉和处理框架,如OCR和TTS合成。他们的工作包括所选组件的集成和控制应用程序的功能:几个CPU通过摄像头捕捉图像;图像预处理;OCR文字识别框架;最后,语音合成过程进行了葡萄牙,而不是中国。这个设计包括两个版本,一个初步设计桌面版Windows操作系统下,和一个移动设备版本作为Android设备的应用程序开发。Chomchalerm et al。34)设计一个基于Android的应用程序称为盲文Dict,智能手机上运行。这个应用程序是为盲人开发的,盲文输入转换成英文字母翻译成泰国,并显示相关的单词列表输入单词从字典数据库检索它们。该系统的一个最重要的功能是,程序使用TTS函数输出泰国演讲,为盲人提供一个更舒适的方式使用字典。此外,一些工作在过去专注于OCR在android应用程序35,36),实时OCR (37),字符可读性在智能手机38),字符识别模型适用于手持设备(39),而应用程序识别食品在中国菜单(40]。考虑几个相关的工作,很显然,没有先前的研究专注于开发一个只有扫描方法直观地理解课文。因此,在本文中,我们提出一个新颖的方法来促进用户可视化中文文本只有通过扫描它,而不是输入或输入文本到电子设备。这些现有的研究的总结如表所示2。如表所示2,大多数研究侧重于OCR技术只能识别字符。只有三个研究包括语音合成功能。没有一个研究提出了实时显示汉字的视觉图像。因此,这个应用程序仍有其独特和创新而上表中列出的研究。

3所示。模型描述

3.1。OCR技术

考虑前面提到的相关作品,大多数早期的实现的重点是这些语言有有限的字符的语言。然而,特征提取和识别是挑战尤其是在中国语言考虑成千上万的复杂的汉字。在本节中,与文本的提取和识别相关的问题被认为是在一个图像在不同的场景。因此,光学字符识别方法研究,快速提取文本信息从图像是可能的。OCR技术的基本工作原理是将文档中提供的信息转化为一个图像文件的黑白点阵使用相机,扫描仪和其他光学设备。在这个过程中,图像中的字符转换为可编辑的文本通过OCR引擎进行进一步的信息处理(41]。近年来,光学字符识别技术已经在几个学科的一个研究热点。OCR的概念第一次被提出的1929年奥地利科学家古斯塔夫Tauschek。之后,美国科学家保罗·汉德尔还建议使用技术来识别单词的想法。最早的印刷汉字识别研究是凯西和伊在1966年提出的,他们工作在汉字识别,使用模板匹配识别1000印刷汉字42]。研究工作在OCR技术在中国开始更晚。在1970年代,研究识别数字,英文字母和符号开始。在1970年代后期,对汉字识别的研究已经开始。到1986年,汉字识别的研究进入了实质性阶段,许多研究中心已先后推出了中国OCR产品。早期的OCR软件不能满足实际需求由于各种因素如识别率和建筑实际产品。

同时,产品还没有达到使用在实际应用中由于执行速度差和昂贵的硬件设备。1986年之后,中国的OCR的研究已经取得了实质性的进展,有几个创新汉字造型和识别方法。开发应用程序显示丰硕成果,许多中心先后推出了中国OCR产品。

3.2。超正方体开源引擎

OCR技术用于这项工作是基于超正方体开源引擎,最初是由惠普(HP)在1985年至1994年之间,和额外的改变是在1996年使其兼容Windows (43]。2005年,惠普提供超正方体的开源软件。自2006年以来,它是由谷歌开发的。超正方体引擎强大,可以大致分为两个部分:(1)画面布局分析,和(2)字符的分割和识别。

超正方体的设计目标是字符分割和识别。史密斯et al。44]介绍了努力适应超正方体开源OCR引擎在2009年多个脚本和语言。他们还提出了超正方体的顶级框图。实时显示与汉字相关的视觉图像使用Android的完成RecyclerView控制(45]。当字符识别,它显示的视觉图像各自的性格。此外,使用Android的内置TTS语音广播功能控制46),不需要许可阅读文本和不需要网络连接。这个特性可以促进指定文本朗读为用户提供语音广播选项。

3.3。提出了系统的概述

回答第一个研究问题,设计一个基于移动智能系统等平台Android是至关重要的。本系统的主要功能是识别扫描图像中包含的文本和实时显示汉字的相关的图像,并提供其他特性,比如音频选项字符的发音,和拼音显示。图2显示了屏幕截图显示MyOcrTool实际场景中用户用它来想象一个中文文本。这个数字2(一个)展示了一个场景,用户试图想象中文文本在公共标志板。这个数字2 (b)显示了另一个场景,用户试图想象餐厅菜单。操作工具开发,用户必须遵循以下步骤:(1)打开MyOcrTool并选择认可的语言(中文,或者英语)。(2)打开智能手机摄像头和点扫描文本区域识别框架。(3)确定所选的文本区域。OCR将自动识别扫描文本,提取有效的字符串信息。(4)实时显示相关的汉字的照片上面的步骤后执行。当一个词被公认,相关的图像显示在实时的手机接口。(5)使用声音回放功能听文本识别。

(一)

(b)

3.4。系统设计与实现

本节介绍了概述系统的体系结构和实现细节。步骤的顺序分为几个过程。它们是:(1)扫描使用摄像头获取图像,(2)图像灰色,(3)文本区域二值化,(4)文本识别,(5)显示的实时视觉图像,和(6)实现语音广播功能。

3.4.1。扫描获取图像

zx谷歌开源库是基于各种1 d和2 d条码处理。是强大的条形码扫描和解码通过手机摄像头和现在常用的扫描和解码QR码或条形码47,48]。在这个工作中,zx MyOcrTool用于自定义扫描界面。定制过程过程分为三个步骤,包括:(1)zx依赖包添加到项目中,(2)配置许可在清单文件中使用相机,和(3)设置扫描界面和扫描框。

3.4.2。图像灰

为了开源引擎超正方体更好地识别图像文本,需要一些初步处理图像。灰度是最基本和常用的执行这一步(49]。在RGB模型中,如果的值R(红色),G(绿色)和B(蓝色)是相等的,那么颜色代表灰度的颜色。此外,称为灰度值。因此,每个像素的灰度图像只需要一个字节来存储灰度值(也称为强度值和亮度值),和灰度范围是0 - 255。有四种方法来灰色图片:组件法、最大值法、平均法和加权平均法50]。本文使用加权平均法灰色图像获取图像的Y,和公式方程所示(1)。所涉及的一系列步骤和实现细节图片灰色项目清单所示1。

输入:原始图像
输出:grayImage私有静态位图getGrayImg () {
intα= 0 xff < < 24;
/ /设置透明度
for (int i = 0;我< imgHeight;我+ +){
for (int j = 0;j < imgWidth;j + +) {
int灰色= imgPixels [imgWidth∗i + j];
/ /获得j i行像素
int红色=((灰色& 0 x00ff0000) > > 16);
/ /得到红色的灰度值
int绿色=((灰色& 0 x0000ff00) > > 8);
/ /得到绿色灰度值
int蓝色=(灰色& 0 x000000ff);
/ /得到蓝色的灰度值
灰色= (int)((浮动)红绿∗0.3 +(浮动)∗0.59 + 0.11(浮动)蓝色∗);
/ /获取灰度颜色值
灰色=α\|(灰色< < 16)\|(灰色< < 8)\|灰色;imgPixels [imgWidth∗i + j] =灰色;
}
}
位图的结果=位图。createBitmap (imgWidth imgHeight Config.RGB_565);
结果。imgWidth setPixels (imgPixels, 0, 0, 0, imgWidth, imgHeight);
返回结果;
}

3.4.3。文本区域二值化

为了方便识别文本中的图像,灰度图像的二进制处理是必需的(51]。二进制处理主要应用为方便图像信息提取,这可以提高识别效率。二进制图像是指图像的像素是黑色或白色,而灰度值没有中间过渡。最常用的方法是设置一个阈值的二值化图像T,用于将图像数据分成两个部分。像素组大于T,和组小于T分别用1和0表示。考虑到输入图像灰度函数和输出二进制图像可以表达的。

阈值测量区分目标和背景。选择一个合适的阈值不仅需要尽可能地保存图像信息,而且还减少背景和噪声的干扰,这是后面阈值选择的原则。为此,该项目使用迭代法寻找阈值(52),这个迭代法是一种全局二值化方法。它需要基于近似的图像分割阈值算法的策略。首先,是选择一个近似阈值作为初始值的估计价值,则生成子图像进行分割。这之后,选择一个新的阈值根据子图像的特点,利用一个新的阈值。其次,图像分割,若干次迭代后,尽量减少错误的分割图像像素的数量。这个过程执行的效果比直接与初始阈值分割图像。具体算法步骤如下:(1)找到最小和最大灰度值的图像表示Z_最小值和Z_马克斯分别,那么获得的初始值阈值。 (2)根据阈值T_k图像分为两个部分,目标和背景,和平均灰度值Z₀和Z₁的两个部分。(3)找到新的阈值T₁ (4)如果T₀=T₁那么当前T最优阈值,否则的价值T₁被分配给T₀,重新启动计算步骤(2)。

的实现细节所示的迭代阈值的计算方法,程序清单2。

输入:grayImage
输出:阈值
私有静态int getIterationHresholdValue (int minGrayValue, int maxGrayValue) {
int T1;
int T2 = (maxGrayValue + minGrayValue) / 2;
{做
T1 = T2;
双s = 0, l = 0, c = 0, cl = 0;
for (int i = 0;我< imgHeight;我+ +){
for (int j = 0;j < imgWidth;j + +) {
int灰色= imgPixels [imgWidth∗i + j];
如果(灰色< T1) {
s + =灰色;
c + +;
}
如果(灰色> T1) {
l + =灰色;
cl + +;
}
}
}
T2 = (int) (s / c + l / cl) / 2;
}
而(T1 ! = T2);
返回T1;
}

3.4.4。中国文字识别

图像预处理后,处理过的图像将用于字符识别和开源引擎超正方体的工具用于识别字符。Android工作室用于编写程序和编程超正方体的第三方JAR包需要额外的支持。此外,语言包”<语言> .traineddata“需要放置在手机的安全数字(SD)卡的根目录53]。超正方体的语言包可以直接下载网站,或自己的训练有素的语言包。这个设计还使用训练有素的语言包和使用自己的语言库适合识别正确的速度和速度。代表原则参与字符识别的流程图如图3。

3.4.5。实时显示关联的图像

视觉图像实时显示的功能是使用Android的执行自己的控制RecyclerView。RecyclerView是一个容器显示巨大的数据集显示大量的数据在一个有限的窗口和简化的表示和处理数据45]。在使用RecyclerView,我们必须指定一个适配器和一个LayoutManager。适配器的主要功能是将数据绑定到控制。的LayoutManager可以控制的布局项。视觉图像的实时显示功能介绍了主要是将汉字,视觉图片和编辑框显示汉字。当汉字识别和显示在编辑框中,同时视觉图像各自的字符显示在手机屏幕上。

3.4.6。语音播放功能的实现

声音回放功能提出了使用Android的TTS引擎,这是新的和重要的功能在Android 1.6。它可以很容易地嵌入到应用程序中指定的文本转换成不同的语言音频输出,以提高用户体验。这个实现的作用是识别单词的中文文本通过单击声音按钮,以便用户不仅能够理解汉字的意思,还能听到发音。语音播放功能的实现细节程序清单所示3。

	输入:文本
输出:演讲
私有静态ImageButton yuyinButton;
私人TextToSpeech TextToSpeech;
@Override
保护无效onCreate(包savedInstanceState) {
超级。onCreate (savedInstanceState);
setContentView (R.layout.my_scan);
yuyinButton = (ImageButton) findViewById (R.id.yuyinButton);
textToSpeech = new textToSpeech(这一点,新的TextToSpeech.OnInitListener () {
@Override
公共空间onInit (int状态){
如果(状态= = textToSpeech.SUCCESS) {
int结果= textToSpeech.setLanguage (Locale.CHINA);
如果(结果! = TextToSpeech。LANG_COUNTRY_AVAILABLE&&结果! =
TextToSpeech.LANG_AVAILABLE) {
Toast.LENGTH_SHORT),告诉();
}
}
}
});
yuyinButton。setOnClickListener(新View.OnClickListener () {
@Override
公共空间onClick(查看视图){
textToSpeech。说话(status_view_tv_result.getText () .toString (),
TextToSpeech。QUEUE_ADD, null);
textToSpeech。setSpeechRate(0.5度);
textToSpeech。setPitch(0.1度);
}
});
}

4所示。结果与讨论

4.1。实验的概述

整个应用程序被测试在两个品牌基于Android的手机。在最初选择的工具,我们必须选择识别语言类型,打开相机扫描,然后使扫描框与文本区域扫描。系统设定的扫描帧尺寸200 dp的最小宽度,最大宽度250 dp 80 dp的高度,这是身体1.5厘米宽,0.5厘米高。的主要目的使用dp(与设备无关的像素)单位是应用程序的UI布局适应各种分辨率的显示设备。最后,识别结果和图像将出现在手机显示接口如表所示3,充分提供第一个研究问题的答案。测试执行通过考虑不同的字体大小,手机相机和文字之间的距离,和文本等不同来源的书籍,警告标志和餐厅菜单。这种能力评估的字符识别率从不同来源中提取答案第二这项工作中提出的研究问题。

如图4,我们展示了三个一般情况下用于显示图像字符和单词。(a),一个招牌有关节约用水是翻译成一个图像,如果中国词(b)”中国”在书中,显示了中国地图,因为这个词”中国”意味着中国国家的名称。(c),这个词“花生米”,花生的照片显示,因为意义的“花生米”在中国是花生。我们已经测试了对于这三个场景,与一般假定非leaerners交互越来越频繁和招牌,餐厅的菜单,和旅游指南。

4.2。测试识别稳定

系统测试时,我们已经考虑了几个因素为主要测试标准来评估系统的稳定性和识别率。识别率被定义为成功地识别字符的数量之间的比例和总数量的字符在测试图像。在表3的结果,我们提出了不同人物的代表动物,对象和动作通过60字符作为测试样本。所有这些字符生成独立的单一和明确的形象代表人物和这些结果100%被认为是可以接受的。两个原因可以被识别的成功。传统上这些字符表示相同意义的对象,动物和行动。此外,即使他们在不同的上下文中使用,今天和通信的场景,人物的原始意义与传统意义仍然可以可能的解释。

然而,所6,7),它是几乎不可能找到一个精确的图像对于每个汉字,特别是在一个词,因为语境差异和使用。例如,考虑对象“树”的一个例子,一些用户可能期望之树更大的尺寸,其他可能会认为只有少数叶子,树和较小的尺寸。所以,最基本的方法是提供用户广泛接受的形象。我们也遵循类似的步骤提出了(7)收集图像进行测试。在某些情况下,几个角色在一个词具有相同的意义,所以单个图像足以代表一个或几个字符。表4显示了一个示例与几个汉字,相应的拼音和一般意义的字符。如图所示,12个字符(如,何吗,因,由,认,谁,思,怎,想,若,难)可能共享一个形象,因为他们都有类似的意义(为什么,如果问题吗?原因,因为,如何?,to recognize, difficult, who?, to think etc.).

然而,表5列表这样的人物,不可能对某些角色生成一个精确的图像来表示它们。因为,有人物没有直接或独立的形象,难以想象。一些字符中录取率和其他较低的录取率。这是因为,一些低录取率字符属于中国写作的语法结构或模态粒子。有趣的是,这些人物在标牌和餐馆的菜单。所以,未能准确生成不能被视为一个主要限制系统的发展。另一种解决这类问题是使用公认的人物的照片,旁边的翻译字幕,这样用户可以感知的未来意义的图片显示在[54]。

4.3。测试基于不同的字体、字体大小和不同距离

在测试时写在歌的中文文本字体、粗体铅字,楷书和模仿歌曲,测量他们的认可率。我们发现字体识别率没有显著影响。然而,如果扫描框大小是固定的,字体大小和距离是两个互相影响的因素。为了测量,我们把字符大小分为三个层次:大型、中型和小型。与大字体字符的字体大小48岁中字符的大小26日和小字符的大小14。设置扫描框大小和字体大小后,我们可以确定最合适的相机之间的距离要求和角色。测量结果如表所示6。

4.4。来自不同来源的文本

我们已经测试了MyOcrTool的准确性和稳定性在不同的场景中,通过扫描文本等不同来源的书籍,警告标志和餐厅菜单。从测试的结果,我们发现MyOcrTool几乎相同的准确性和稳定性在这些不同的场景。文字识别的软件在三个不同场景如图5,这两个字,长句。

考虑获得的结果在上面的两种情况,系统显示可接受的性能,能提供更好的支持中国学习者理解汉字的意思和文本从视觉的角度信息协会。系统具有很高的准确率约为88%,可满足日常学习的汉语学习者的需求,但进一步加强识别能力也是必要的。

测试在两个品牌的手机(Oppo-R7SM和Vivo-Y66)发现,识别文本所需的平均时间是7.8秒。软件执行速度取决于许多因素。首先,它可以根据特定的单词。常用词语是公认的速度,如果不经常使用的话速度会慢一些。其次,执行速度取决于字体类型,和中风的数量。创建,如果字体设计是复杂的,中风识别将会放缓。例如,比较两个不同的人物,如“翻”和“天”,后者性格是速度比前者。第三,执行速度也取决于镜头的分辨率,分辨率越高,识别速度越快。作为手持设备开发应用程序,不需要任何上网来生成图像,和在当前系统的所有图片打包程序本身。然而,互联网为未来可能性集成提供了一些工具,我们还没有考虑。 Moreover, we have also not considered memory space required in the mobile devices, because, as images are of small in size, the entire visualization system takes less system space.

5。结论和未来的工作

本文基于Android系统的命名MyOcrTool捕捉汉字不同文本的来源和实时显示与他们相关的视觉图像和音频选项听脚本开发。MyOcrTool显示视觉形象相关的汉字在实时识别的文本。这几乎所有背景的学习者能够可视化中文文本只能通过扫描在基于Android的设备。这证明,我们可以确切回答引言部分中提到的第一个研究问题的研究。此外,学习者不需要发展技能,如记忆拼音,或中风序列。他们甚至还可以使用这个系统没有阅读或书写汉字,并输入任何信息到设备获取意义绝对是不必要的。拟议的系统是专为学生谁愿意想象日常生活中国文字快速同化的背后的意义。实验评估后,发现,MyOcrTool的文本识别率达到近90%,和文字识别之间的时间延迟,和显示的实时视觉图像小于5秒。识别结果最终证明,可以评估的字符识别率从不同来源中提取。这第二个研究问题的答案。

然而,我们还可以列出一些这项工作的局限性,还有进一步研究的空间。首先,考虑到从报纸文章来源,如文本,因为它们是用特定的上下文,并生成图像的句子是超出了这个工作的范围。随着句子变得更长,我们发现,有100%准确的图像显示的字符,可以减少,因为会有更多中国的代名词。因此,我们发现测试这样的长句的特点,并提供准确识别视为未来的工作的一部分。其次,有余地提高文字识别速度通过应用更好的识别算法,和图像处理方法。还可以显示多个单个字符的图像序列基于上下文使用图片使用GIF动画(图形交换格式),以避免模棱两可的可视化的含义。此外,显示对应的图片翻译功能可以解决的问题模棱两可的单词或图片。同样,深入研究中国手写文本识别和关联图像生成也是必要的。第三,发达MyOcrTool无法处理扫描文本周围的嘈杂的背景,这使得系统很难识别字符的文本来源与混乱的背景。这种限制也显著降低识别率和处理速度。 Finally, regarding the voice playback feature, more sophisticated and advanced playback engine can be used to make the text-to-speech sound more user friendly, and error-free.

数据可用性

不需要原始数据复制的工作除了几个代表图像如表所示1,3- - - - - -5。三个项目清单包括在手稿本身,因此编程支持封闭式繁殖应用程序。收集的代表图像后,早期研究提出了文献[7收集,汉字从链接中提供参考2]。软件用于开发该系统获得的链接中提供参考(45,48]。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的电子与信息工程学院,山东科技大学、青岛266590年,中国。

引用

x, y的粉丝,z . Di, s . Havlin和j .吴”有效的汉字学习策略基于网络的方法,”《公共科学图书馆•综合》,8卷,不。8篇文章ID e69745 2013。
视图: 出版商的网站 | 谷歌学术搜索
“学会读和写简体中文字符,”2018年,http://www.learnchineseez.com/read-write/simplified/index.php。
视图: 谷歌学术搜索
c . k . l . h . Wong下巴,c . l . Tan和m .刘”,学生的个人和社会意义在中国成语移动学习环境中,“教育技术与社会,13卷,不。4,15-26,2010页。
视图: 谷歌学术搜索
m .你和徐y . j .,“汉字书写系统的可用性测试外国学习者,”在计算机科学的课堂讲稿,卷8013,不。2、149 - 157年,2013页。
视图: 谷歌学术搜索
f . Rosell-Aguilar k .钱,“移动应用程序的设计和用户评价教汉字,“JALT叫日报,11卷,不。1,19-40,2015页。
视图: 出版商的网站 | 谷歌学术搜索
Omniglot,“汉字的演变”,2018年,https://www.omniglot.com/chinese/evolution.htm。
视图: 谷歌学术搜索
l·拉伊·t·杨,z曰:太阳,和r . Shadiev“可视化人物图片:理解中国通过互联网使用”学报17 IEEE高级学习技术国际会议(ICALT)2017年7月,蒂米什瓦拉,罗马尼亚,。
视图: 谷歌学术搜索
b . j .杨c . Wang江,h .歌曲,和孟问:“视觉感知行业情报:启用状态的艺术,挑战和前景,”IEEE工业信息,17卷,不。3、2204 - 2219年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
k . Sim j·杨,w . Lu和x高,“MaD-DLS:均值和偏差的深度和局部相似度的图像质量评估,”IEEE多媒体,2021年,页1 - 12。
视图: 出版商的网站 | 谷歌学术搜索
j·杨,y赵,j .刘et al .,“无参考质量评价屏幕内容的图像在图像和文本区域,使用堆叠autoencoders”IEEE控制论,1-13,2020页。
视图: 出版商的网站 | 谷歌学术搜索
z Lv和d·陈,“工业视觉感知技术在智能城市,”图像和视觉计算,105卷,2021年。
视图: 出版商的网站 | 谷歌学术搜索
z Lv, d . Chen r·卢和h的歌,“虚拟现实的工业安全解决方案,”IEEE物联网,8卷,不。8,6273 - 6281年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
z Lv,“虚拟现实技术在物联网的背景下,“神经计算和应用,32卷,不。13日,9593 - 9602年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
k·荣格,k金,a . k . Jain”文本信息提取在图像和视频:一项调查,“模式识别,37卷,不。5,977 - 997年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
Kastelan, s . Kukolj诉Pekovic诉Marinkovic和z . Marceta”电视屏幕上提取文本使用光学字符识别,”学报第十届IEEE禧国际研讨会上智能系统和信息苏博蒂察,页153 - 156年,塞尔维亚,2012年9月。
视图: 谷歌学术搜索
美国有拉米、t . y . Liong和m . Jayabalan”检测基于文本的图像与光学字符识别英文翻译和语言使用Android,”学生IEEE会议程序研究和开发(得分),页272 - 277,吉隆坡,马来西亚,2015年12月。
视图: 谷歌学术搜索
p . Chavre和a . Ghotkar”场景文本提取使用笔划宽度转换为旅游翻译在Android平台上,”程序的自动控制和动态优化技术国际会议(ICACDOT)普纳,页301 - 306年,印度,2016年9月。
视图: 谷歌学术搜索
a . Kongtaln s Minsakorn l . Yodchaloemkul s Boontarak和s . Phongsuphap“android智能手机医疗文档阅读器,”第三ICT学报》国际高级项目会议(ICT-ISPC)那空Pathom,页65 - 68年,泰国,2014年10月。
视图: 谷歌学术搜索
Dhakal和m . Rahnemoonfar“Mobile-basedtext识别从水质设备”《移动设备和多媒体:支持技术、算法和应用程序卷。9411年,旧金山,美国,2015年3月。
视图: 谷歌学术搜索
f . d . Nurzam和e . t . Luthfi”实现的实时扫描Java语言文本与移动视觉基于安卓系统的,”信息和通信技术国际会议(ICOIACT),页724 - 729,日惹,印尼,2018年4月。
视图: 谷歌学术搜索
c .易和y田”,场景文本识别移动应用的特征描述符和结构配置,“IEEE图像处理,23卷,不。7,2972 - 2982年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
j . Tan x h·谢·w·h·郑和j·h·赖“激进的提取利用仿射稀疏矩阵分解为印刷汉字识别,”模式识别与人工智能》国际期刊上,26卷,不。3、211 - 226年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
h . x Wang Du, x,“印刷汉字、分割和识别研究”物理学杂志》:会议系列,1237卷,022011页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
X.-Y。张,f .阴,Y.-M。张,C.-L。Liu和y Bengio画与递归神经网络识别汉字,“IEEE模式分析与机器智能,40卷,不。4、849 - 862年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
z曹,陆j . s .崔,c .张“Zero-shot手写汉字识别与分级分解嵌入,”模式识别,107卷,2020年。
视图: 出版商的网站 | 谷歌学术搜索
b . h . Chen, x, m . Yu和j·陈,“中国LPR字符识别应用程序,”Optik,卷125,不。18日,第5302 - 5295页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
m . Zhang f·谢,j .赵r .太阳,l . Zhang和y张“中国车牌识别方法基于一个健壮的和有效的特征提取和摘要算法,”物理学杂志》:会议系列,卷1004,不。1,012022页,2018。
视图: 出版商的网站 | 谷歌学术搜索
林p高,j .吴y, y,和t .毛,“快中国书法与大规模数据字符识别,”多媒体工具和应用程序,卷74,不。17日,第7238 - 7221页,2015年。
视图: 谷歌学术搜索
y, j·李,张h . s .林“汉字识别电子商务平台的照片,”第13届国际计算机学报》会议上小波活跃的媒体技术和信息处理,页28-31,重庆,中国,2017年3月。
视图: 谷歌学术搜索
y阴,w·张,香港,j .杨j .熊和g Gui,“深learning-aided OCR技术为中国大写字符在物联网的应用,”IEEE访问7卷,第47049 - 47043页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
p .太阳,问:谢,x, z . Wu j . Cai和江y,“易字符识别基于tesseract-OCR”IEEE学报》3日先进信息管理、通信、电子和自动化控制会议重庆,页102 - 106年,中国,2019年10月。
视图: 谷歌学术搜索
马y . w . b . Wang, h·t·胡”混合模型基于Tesseract-OCR汉字识别,”国际互联网协议技术杂志》上,13卷,不。2、102 - 108年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
美国Celaschi m . s .·卡斯特罗和s . p . Da Cunha”大声念给我听。”人机交互中普及。设计新颖的互动卷,10278年,第268 - 260页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
g . Chomchalerm j . Rattanakajornsak Samsrisook, d . Wongsawang和w·Kusakunniran“盲文Dict类型:盲人字典应用程序在android智能手机”第三ICT学报》国际高级项目会议(ICT-ISPC)那空Pathom,页143 - 146年,泰国,2014年10月。
视图: 谷歌学术搜索
g·a·罗比a . Tandra i Susanto, j . Harefa和a . Chowanda”实现的光学字符识别使用超正方体与爪哇脚本的目标在android应用程序中,“Procedia计算机科学卷,157年,第505 - 499页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
g·b·阔亚麻布j·w·m·苏萨利马d . a . et al .,“在android平台上开发OCR系统来帮助阅读实时可刷新的布莱叶盲文显示,“测量卷,120年,第168 - 150页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
y·g·李,“小说视频稳定实时光学字符识别应用中,“杂志的视觉传达和图像表示,44卷,第155 - 148页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
S.-M。黄”,字体大小和字体样式的繁体字可读性在智能手机上,“国际工业工效学杂志》上卷,69年,第72 - 66页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
公元Cheok、z剑和e . s .庄瑞豪”有效的手机中国光学字符识别系统利用启发式模糊规则和三元马尔可夫语言模型,”应用软计算,8卷,不。2、1005 - 1017年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
m·c·李,赵郑胜耀和j·w·张,“深卷积神经网络建立中国菜单识别应用,”信息处理信件卷。128年,14到20,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m .甲贺,r, t . Kameyama, t .高桥”谈汉字OCR手机:实际问题,”国际会议文档的程序分析和识别(ICDAR),页635 - 639,首尔,韩国,2006年1月。
视图: 谷歌学术搜索
r·凯西和g·伊”,打印汉字的识别IEEE电子计算机,15卷,不。1,第101 - 91页,1996。
视图: 谷歌学术搜索
r .史密斯,“超正方体的概述OCR引擎,”国际会议文档的程序分析和识别(ICDAR)2007年11月,巴西巴拉那。
视图: 谷歌学术搜索
r .史密斯,d . Antonova d·s·李,“适应多语种OCR的超正方体开源OCR引擎”国际研讨会上多语种OCR的诉讼2009年7月、西班牙的巴塞罗那。
视图: 谷歌学术搜索
“使用recyclerview”, 2021年,https://guides.codepath.com/android/using-the-recyclerview。
视图: 谷歌学术搜索
h .江,t . Gonnot w . j .易和j . Saniie“计算机视觉和文字识别使用Android智能手机帮助视力受损的人,”诉讼IEEE国际会议上的电子信息技术林肯,页350 - 353年,东北,美国,2017年10月。
视图: 谷歌学术搜索
y,“2 d条形码识别软件的设计在Android上,“先进材料的研究卷,442年,第457 - 453页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
zx“谷歌开源的,”2018年,https://opensource.google.com/projects/zxing。
视图: 谷歌学术搜索
g·陈,“从彩色图像处理技术的应用灰色图像,”第二届国际会议上软件技术与工程(ICSTE)美国,圣胡安,公关,2010年10月。
视图: 谷歌学术搜索
c . Kanan和c·w·科特雷尔,“Color-to-grayscale:在图像识别问题的方法吗?”《公共科学图书馆•综合》,7卷,不。1,文章ID e29740, 2012。
视图: 出版商的网站 | 谷歌学术搜索
美国Lokhande和n . A . Dawande“调查文档图像二值化技术,”学报第一国际会议上计算、通信、控制和自动化(ICCUBEA)普纳,页742 - 746年,印度,2015年7月。
视图: 谷歌学术搜索
a, s·h·谢赫Maiti, n . Chaki”使用迭代分割图像二值化:全局阈值的方法,”美国最近的趋势在国际会议上信息系统(reti),页281 - 286,加尔各答,印度,2011年12月。
视图: 谷歌学术搜索
c . Clausner a Antonacopoulos, s . Pletschacher“高效和有效的OCR引擎训练,”国际期刊文档分析和识别(IJDAR),23卷,不。1,第88 - 73页,2020。
视图: 出版商的网站 | 谷歌学术搜索
r . Shadiev T.-T。吴,Y.-M。黄”,使用image-to-text识别技术来促进词汇习得在真实的语境下,“回忆,32卷,不。2、195 - 212年,2020页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

850年

下载

823年

引用

复杂性