从薄膜太阳能扫描图像智能时代的识别印章文字

抽象

在数码相机出现之前，太阳观测图像通常被记录在胶片上，日期和时间等信息被印在胶片上的同一帧上。提取胶片上的时间戳信息对研究人员有效利用图像数据具有重要意义。介绍了一种提取时间戳信息的智能方法，即卷积神经网络（CNN），它是一种多层神经网络结构的深度学习算法，能够识别太阳扫描图像中的时间戳特征。我们对1963-2003年国家太阳观测台的数字化数据进行了时间戳解码。实验结果表明，该方法准确、快速。完成了700多万幅图像的时间戳信息提取，准确率达98%。

1.介绍

色球是球和电晕之间气氛的层。色球磁场结构是高动态，和最密集的活动是太阳耀斑。为了研究太阳耀斑等太阳活动，有必要积聚在色球耀斑的观测多年。因此，一些太阳能望远镜已在世界各地建立，例如，太阳磁场望远镜（SMFT）怀柔[1]、中国和亚利桑那州的McMath-Pierce太阳望远镜[2]在现代数码相机出现之前，记录太阳色球数据的主要媒介是胶片。为了利用丰富的历史数据，许多项目都涉及到历史天文数据的数字化，新的研究成果是从老数据中获得的，例如1990年5月24日著名的X9耀斑的Moreton波和波丝相互作用的观测[3]，圆形带耀斑，和同源射流[4]。由于数据量庞大，许多数字化色球图像的时间戳仍然无法通过电脑，它已经产生了进一步研究的障碍直接读取的形式。时间戳的数字化，使被更有效地分析数据。因此，时间戳解码的是，我们打算解决显著问题。

从1963年到2003年，美国国家太阳观测台（NSO）用35 mm胶片以1 分钟甚至更短的频率记录了全盘Halpha图像。新泽西理工学院（NJIT）已经记录了超过800万张照片，并将其数字化，覆盖了数百个太阳耀斑和其他活动。它将创造一个有价值的太阳爆发数据档案，这是太阳天文学的巨大进步。然而，在解码时间戳之前，数据是无用的。色球图像的示例如图所示1。该图像记录了一些信息，如年，月，日，小时，分钟，秒，胶片号，除了全磁盘太阳图像。我们需要提取照片拍摄的时间/日期。由于数据量非常大，因此自动识别时间戳的字符是有效使用数据的关键。为了解决字符识别问题，人们提出了许多方法，如支持向量机算法[五、深度学习算法[6-8]，等等。

最近，卷积神经网络[9，10个]CNN算法是一种流行的深度学习算法，具有很高的分类精度。它在人脸识别中得到了广泛的应用[11个]，图像分类[9]，语音识别 [德意志北方银行]，字符识别[13个，14个]等Zheng等。[13个]将其应用于云南天文台太阳黑子图的字符识别，准确率达98.5%。古德费罗等人。[14个]已申请CNN的街景门牌（SVHNs）数据集的96％的准确性。我们采用的是美国有线电视新闻网的文字识别，因为精度高。样本的选择效应是关键CNN的识别精度。然而，在该时间标记中的字符是具体的，不包括在任何数字样本数据库。我们需要为他们创建一个示例数据库作为训练集。此外，许多图像是模糊的，仍然存在很大的障碍解决字符分割和识别。

本文提出了一种基于CNN的字符自动分割和识别的智能识别方法。论文组织如下。部分2是CNN算法的介绍。分段3将CNN算法应用到时间戳识别中。剖面图4演示了该方法对时间戳的识别结果。最后，对全文进行了总结五。

2.卷积神经网络

CNN的[9，10个，15个包括输入层、卷积层、池化层、全连接层和输出层。典型结构如图所示2。外层的特征向量通过卷积层、池化层和全连接层从输入层的数据中提取，然后通过logistic回归对输入数据进行分类。

在CNN中，多重卷积层、池化层和全连接层都是可能的。卷积层通过随机生成足够的卷积核来最大限度地检测输入层的特性。大量的feature map在经过convolutional layer之后生成。卷积层之后通常是一个激活函数，用于将线性空间的特征转换为非线性空间，从而实现非线性分类[16个]. ReLu、sigmod和tanh通常用作激活函数。本文采用ReLu，有效地防止了过拟合问题。池层是卷积层的一种特征滤波器，用于保留主要特征和减少计算量。它通常位于两个卷积层的中间。

由多个卷积层和池化层处理的数据被连接到一个或多个完全连接的层。在全连通层中，每个神经元连接到上层的所有神经元，将之前提取的特征结合起来，这样提取出来的特征可以完全保留，不受原始图像位置的影响。通过逻辑回归对输出层的输出值进行分类。在处理多分类问题时，通常使用Softmax回归。Softmax回归输出每个类的样本概率值，并选择与最大概率对应的类作为样本的识别结果。此外，CNN的识别精度与样本的质量和数量密切相关。训练样本越丰富，识别精度越高。

3.时间戳字符识别基于CNN

年、月、日、时、分的信息是我们需要从图像中提取的。数据3和4显示有两种类型的时间戳的色球图片。图时间戳3黑色在白色上，而数字呢4是黑底白字。时间戳是参差不齐，文字的格式和颜色都不一致时，年月日（年，月，日），字很小，而且在许多图片文字不清晰，难以辨认。然而，最新的信息是连续的，也有在同一日期许多图像。所以，我们只需要每天起床的第一张照片的日期没有智能识别。这一部分是手工完成。的CNN在识别HM（小时和分钟）字符使用。CNN的算法用于识别时间标记的字符的流程图显示在图五。它由两个独立的部分组成：一个用于字符分割（第3.1），另一个用于通过CNN字符识别（节3.2）。

流程图介绍图像分割的左部分和右部分介绍字符识别。输入图像是由白色字符默认处理。如果没有字符区域可以被提取，返回到二值化。扭转的白色和黑色的二值图像中的颜色;当它对于测试样本识别率低的CNN将被重新训练。

3.1条。字符分割

原始图像的尺寸为1600×2048，如图所示3. 时间戳位于图片的左侧或右侧，字符格式不同。文字分为黑色和白色两大类，需要分别处理。字符分割步骤如下。步骤1. 从图片中取出部分太阳盘，并获取图片的左右两侧。步骤2。获取与基于整个图像的强度变化的时间标记的图像，旋转图片来调节字符的方向（图6（甲））。步骤3。用大礼帽操作消除图片中的噪声(图)6（b））。第四步。用Sauvola算法对图片进行二值化[17岁]。第5步. 保留区域所在的连接域（500，1000）。第6步。使用笔划宽度变换算法[提取的字符区域18岁，19个]（图6（e））。第7步. 如果没有字符区域，请返回步骤4。在步骤4中获得的二值图像中反转白色和黑色（图6（c）)获取白色字符，允许提取原始图像中的黑色字符。这确保了数据的一致性，以便接下来的步骤尽可能地相同。步骤5之后，如图所示6（天）。如果还有没有字符区域的图像翻转后，就意味着有在当前画面中没有字符。因为只有两种形式时间戳和不包含时间标记的图像的数的部分的，时间戳字符不能从这些图像在上述过程中提取的。第8步。根据二值图像从原始图像中提取对应区域，将每个字符的大小调整为28×28(图2)6（华氏度））。

（一）

（二）

（三）

（四）

（五）

（六）

3.2。字符识别

CNN的模型为时间印记的字符识别由两个卷积层，两个池层，和一个完全连接层（图7）。In the first convolutional layer Con_1, 6 different convolutional kernels of size 5 × 5 are used to take convolution operation on character pictures with the size of 28 × 28. After Con_1, the original character picture becomes a 24 × 24 × 6 feature map. The first pooling layer Pool_1 filters the feature map using maximum pooling function with the sliding window of 2 × 2. Then, it becomes a feature map of size 12 × 12 × 6. The convolutional layer Con_2 contains 10 kernels of 5 × 5. The pooling layer Pool_2 does the same as Pool_1. These feature maps are taken as the inputs into the fully connected layer以获得特征向量。最后，该矢量由SOFTMAX功能分类，以获得识别结果。

在CNN的本文中的训练步骤分为以下三个步骤。步骤1。标签单字符图像添加作为训练样本网络。步骤2。字符图像用作X输入层的向量，图像的标签用作ÿ向量。步骤3。通过转发传播和反向传播算法对网络进行训练，并通过循环迭代更新网络系数。最后给出了一种识别精度较高的网络结构。

为了训练CNN，我们选取了10万张大小为28×28的单字符图像作为训练样本，这些图像是从含有白色字符的原始图像中裁剪出来的，每个字符1万张。这些字符可以被人类识别并手动标记。不需要处理人类无法识别的时间戳，因为不可能验证识别的正确性。随机选取9000幅图像作为样本对网络进行训练。剩下的样本作为测试样本，用来测试网络的识别精度。试验结果如表所示1。From the table, the recognition accuracy of each character is over 98%, and it takes only about 6 seconds to recognize 1000 pictures.


字符	总人数	识别错误	识别率	时间成本（S）

0	1000	20个	0.980	6.01条
1	1000	4	0.996	6.11条
2	1000	8	0.992	5.96
3	1000	3	0.997	6.28
4	1000	1	0.999	6.24
五	1000	19个	0.981	6.52
6	1000	德意志北方银行	0.988	6.05条
7	1000	3	0.997	6.17条
8	1000	德意志北方银行	0.988	5.95
9	1000	13个	0.987	6.11条

目前常用的字符识别方法是光学字符识别（OCR）[20个]和字符识别基于深层神经网络。众所周知的是OCR识别有效的标准字符。所以我们做了基于开放识别引擎正方体的实验[21岁]。我们用和CNN一样的方法训练它，用同样的方法测试它。试验结果如表所示2识别正确率最高为96.8%，最低为93.2%，检测1000个样本的时间成本最低为8.23秒。而卷积神经网络具有更高的识别精度和更低的时间开销。OCR识别精度较低的原因是，从时间戳中提取的字符受到一些干扰的影响，如光照干扰、背景噪声干扰等，如图所示8. OCR很难处理这些情况。对比实验表明，CNN比OCR具有更好的鲁棒性、更强的抗干扰性和更低的时间消耗。


字符	总人数	识别错误	识别准确率	时间成本（S）

0	1000	57个	0.943	8.95
1	1000	45岁	0.955	8.32
2	1000	53个	0.947	8.28
3	1000	50个	0.950	8.84
4	1000	59个	0.941	8.23
五	1000	40个	0.960	8.44
6	1000	49个	0.951	8.52
7	1000	32个	0.968	8.39
8	1000	68个	0.932	8.45
9	1000	60个	0.940	8.69

3.3。检查日期

识别时间戳中的小时和分钟后，另一个重要步骤是完成日期（年、月和日）的信息。由于照片的日期可能不是连续的，也不能由程序自动填写，因此需要手动确认日期。虽然日期不是连续的，但它们都是有序的，并且记录在文件夹名称中的卷号有助于确定日期的范围。另外，拍摄时间大多是连续的，采用24小时计时的方法，很容易判断日期是否发生了变化。例如，如果第一图片的时间信息是“2359”，第二图片的时间信息是“000”，则可以基于第一图片在一天内添加第二图片的日期信息。所以对于一段时间的图像，只需要知道第一张图片的观测日期。但是，有些日期不是连续的，因此需要手动检查。所以我们采用了一个用户图形界面（图9），以协助日期确认。只有一天需要的第几张图片进行验证。如果日期不正确，手动修改它，程序会自动更新在随后的画面中的所有日期。

填写原始图像，并在程序的相应文本框中输入记录表的路径。点击“打开”按钮，在文件夹中打开第一图像和它的日期信息显示在对应的文本框中。点击“下一步”或“最后”按钮，打开一张或上一张图像，分别。点击“更新”按钮，更新日期。在“第二天”按钮用于直接跳转到第二天。最后，更新的内容保存在相应的文件。

四。结果与讨论

为了进一步检验网络在实际情况下的识别精度，我们随机选取了10000幅原始图像进行测试。桌子3显示CNN认可的测试结果的准确性，手动确认。错认1个字符202次，错认2个字符10次，同时错认3个以上字符不发生。识别准确率为97.9%，每张图片平均用时0.09秒。每个字符的识别结果统计如表所示4。


	正确	1错误	2个错误	3个错误	4错误	平均时间成本	识别准确率

数字	9788个	202个	10个	0	0	0.09	97.9%


字符	0	1	2	3	4	五	6	7	8	9

0	4558	0	2	108个	0	0	16个	0	0	1
1	0	11147个	0	0	0	0	0	0	0	0
2	0	0	4826	0	0	0	0	0	0	0
3	0	1	85	3890	0	1	0	0	0	0
4	0	0	0	0	4176个	2	0	0	0	0
五	0	0	0	0	0	4362	0	0	0	0
6	0	0	0	0	0	0	1299	0	0	0
7	0	0	0	0	0	0	0	1918年	0	0
8	0	0	0	0	0	0	0	1	1846年	0
9	0	0	0	0	0	0	0	0	1	1760
总计	4558	11148个	4913	3998	4176个	4365	1315	1919年	1847年	1761
错误的数量	0	1	87	108个	0	3	16个	1	1	1
识别率	1	0.99	0.98	0.97	1	0.99	0.99	0.99	0.99	0.99

表4结果表明，字符“0”的识别率为100%，字符“1”、“5”、“7”的识别率大于99.9%，其他字符的识别率大于97.3%。所有字符的平均识别率为99.5%。然而，如图所示，字符“2”、“3”和“6”的识别错误率较高，主要是由于这些字符受到光的影响10个. 当它们受到光照的影响时，很容易被局部二进制算法破坏，导致结构断裂。在算法的下一步中，由于字符片段的面积较小，会影响识别结果（如图形），因此将其视为噪声10 (b)和10 (d)。然而，受只有点亮这些图像占整个样品的一小部分，如表4，所以它们有助于一点点的平均识别精度。此外，某些字符的识别结果不会受到照明，例如“8”和“9”，如图11个. 当图像存在光照干扰时，保留图像的主要结构，不影响识别结果。可以识别出缺陷结构，这是CNN的优点之一。

（一）

（二）

（三）

（四）

（一）

（二）

（三）

（四）

虽然这些受光照影响的图像只占一小部分，但是为了解决这个问题，我们下一步的计划是在训练集中加入一些受光照影响的样本，并改进字符分割算法。

我们总共得到了超过700万张38年的照片的日期/时间信息，如表所示五。剩下的未处理图像，如在1971年，1986年，和1990年是由于时间戳是超越人类的识别或者没有时间邮票，约占总量的10％。这是没有必要处理这些照片，因为它是不可能验证它们是否正确或无法识别。每年图片的数量也被一个条形图中显示如图德意志北方银行。图片的数量缓慢上升，1963年至1967年，在1967年约70万峰值的图片。1967年后，照片的数量急剧下降。在2003年，共有约13000张照片。


年	数量

1963年	124469
1964年	474370
1965年	539969
1966年	559126
1967年	683452个
1968年	489625
1969年	584851
1970年	46047个
1971年	0
1972年	16624个
1973年	350606个
1974年	289724
1975年	213868个
1976年	182321
1977年	190870
1978年	207012年
1979年	293451
1980年	302258
1981年	236533
1982年	188228
1983年	178873
1984年	174902
1985年	32324
1986年	0
1987年	113652
1988年	217226
1989年	67403个
1990年	0
1991年	109306
1992年	185144个
1993年	121401
1994年	86425个
1995年	98994个
1996年	46638
1997年	82101
1998年	76434
1999年	37270
2000	34679
2001年	68460
2002	43292
2003	12983个
总计	7760911型

5.结论

在本文中，我们描述了一个智能算法来提取基于CNN传统电影的时间戳。实验结果表明，该方法具有良好的结果，并符合识别速度和质量的要求。它还在解决相同类型的类似应用程序的问题具有很强的可移植性。

最后，我们得到了美国NSO记录的700多万张图片的日期/时间信息。这大大减少了人工工作量，使这批数据能够尽快被研究者有效利用。本文提出的方法可以应用于其他历史图像的字符识别，如太阳黑子图中的手写字符识别。

数据可用性

用于支持本研究结果的数据可根据要求从相应的作者处获得。未来，用于支持这项研究结果的数据将在网上公布。

的利益冲突

作者声明他们没有利益冲突。

致谢

获得国家自然科学基金U1731124、U1531247、11427803、11427901、11873062资助，中国科学院“十三五”信息化规划XXH13505-04资助，北京市科技计划Z181100002918004资助。王海敏感谢美国国家科学基金会在格兰特AGS-1620875的支持。作者感谢国家太阳天文台提供的原始胶片数据。

参考文献

G、艾和胡耀文，“基于索洛磁场望远镜原理”天文学报，第2卷，第91-98页，1986年。视图:谷歌学术
https://www.noao.edu/extrance/kptour/mcmath.html。
R、 Liu，C.Liu，Y.Xu，W.Liu，B.Kliem和H.Wang，“1990年5月24日与著名的X9耀斑相关的Moreton波和波丝相互作用的观测”天体物理学杂志，第773卷，no。2，第166页，2013年。视图:发布者网站|谷歌学术
H. Wang和C.刘，“循环带耀斑和同源飞机，”天体物理学杂志，第760卷，第2期，第101页，2012年。视图:发布者网站|谷歌学术
李玉华，“支持向量机在英文手写体识别中的应用”，国立台湾科技大学资讯工程学研究所硕士论文第二届计算机工程与应用国际会议论文集，第一卷，第249-252页，卡玛斯特拉，意大利，2010。视图:谷歌学术
I. H.威滕，E.弗兰克，M. A.霍尔等，数据挖掘：实用机器学习的工具和技术，摩根考夫曼，伯灵顿，马萨诸塞州，美国，2016年。
Y. Lecun，Y. Bengio和G韩丁，“深度学习”自然，第521卷，编号7553, 436-444页，2015视图:发布者网站|谷歌学术
J. Schmidhuber，“神经网络中的深度学习:综述”神经网络卷。61，第85-117，2015年。视图:发布者网站|谷歌学术
A. Krizhevsky，一Sutskever和G. E.韩丁，“深卷积神经网络Imagenet分类，”在神经信息处理系统国际会议记录，第1097-1105页，库伦联合公司，塔霍湖，内华达州，美国，2012年12月。视图:谷歌学术
S、劳伦斯，C.L.Giles，A.C.Tsoi和A.D.Back，“人脸识别：卷积神经网络方法”关于神经网络的IEEE会刊，第8卷，第1期，第98-113页，1997年。视图:发布者网站|谷歌学术
Y、孙，王，唐，“从预测10000个班级深入学习面部表情”，年2016年IEEE计算机视觉与模式识别会议，1891-1898页，内华达州拉斯维加斯谷，美国，2014年6月。视图:谷歌学术
G.韩丁，L.邓D. Yu等人，“在语音识别声学建模深层神经网络：四个研究小组的共同意见”。IEEE信号处理杂志，第29卷，第6期，第82-97页，2012年。视图:发布者网站|谷歌学术
郑，曾，林等，“基于深度学习的太阳黑子手写字符识别方法”，新天文学，第45卷，第54-59页，2016年。视图:发布者网站|谷歌学术
I. J.古德费洛，Y. Bulatov，J. Ibarz等人，“使用深卷积神经网络从街景图像多位数的号码识别”，2013年，https://arxiv.org/abs/1312.6082。视图:谷歌学术
Y、金姆，卷积神经网络的句子分类,2014年。
J、顾志旺，J.Kuen等，“卷积神经网络的最新进展”模式识别，第77卷，第354-377页，2018年。视图:发布者网站|谷歌学术
J. Sauvola和M. Pietikainen，“自适应文档图像二值化”，模式识别卷。33，没有。2，第225-236，2000。视图:发布者网站|谷歌学术
B、 Epshtein，E.Ofek和Y.Wexler，“使用笔划宽度变换检测自然场景中的文本”，in2010年IEEE计算机协会计算机视觉与模式识别会议论文集，第2963至2970年，旧金山，CA，USA，2010年6月。视图:谷歌学术
Y. Li和H.路，“通过笔画宽度场景文本检测，”在第21届模式识别国际会议记录（ICPR 2012），第681-684，IEEE，日本筑波，2012年11月。视图:谷歌学术
莫希丁和毛建中，“光学字符识别”，中威利电气与电子工程百科全书，施普林格，柏林，德国，1999年。视图:谷歌学术
R.史密斯“的正方体OCR引擎的概述，”在第九届文件分析和承认国际会议记录（ICDAR 2007）2007年9月，IEEE计算机学会，巴西巴拉那库里蒂巴。视图:谷歌学术

天文学进展

太阳物理中的大数据处理和建模

抽象

1.介绍

2.卷积神经网络

3.时间戳字符识别基于CNN

3.1条。字符分割

3.2。字符识别

3.3。检查日期

四。结果与讨论

5.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章