天文学的发展

PDF
天文学的发展/2019/文章
特殊的问题

天文海量数据处理技术

查看本期特刊

研究文章|开放获取

体积 2019 |文章的ID 8741027 | 12 页面 | https://doi.org/10.1155/2019/8741027

新疆天文台天文数据传输可视化系统的设计与实现

学术编辑器:Junhui风扇
收到了 2019年1月01
接受 2019年3月19日
发表 2019年04月02

摘要

随着天文观测技术的发展,天文仪器产生的数据越来越多。天文望远镜通常远离城市,望远镜与数据中心之间的远距离数据传输面临着巨大的挑战。建立了四层结构的天文数据传输可视化系统,对数据传输进行管理。该可视化系统有四层结构:硬件层、系统层、中间层和可视化层。系统功能包括数据自动传输、传输过程日志记录、动态网页显示传输状态等。中间层包含报警子系统,可以将系统异常自动发送给管理员。我们还设计了相应的机制来保证系统的高稳定性,并通过自适应算法来控制网络不稳定时的数据传输。经测试,该可视化系统能够在无人值守的情况下长时间稳定运行。该系统还为天文观测基地的数据自动传输到数据中心提供了解决方案。

1.介绍

随着天文观测技术的发展,望远镜接收设备的数据质量不断提高。与此同时,望远镜产生的数据量呈指数级增长[1,2]。例如,世界上最大的全操纵射电望远镜GBT (Robert C. Byrd Green Bank telescope)[3.]每年产生超过1.4PB的数据(http://data.xao.ac.cn/static/GBTArchiveProcess.pdf)。世界上最大的射电望远镜FAST(五百米口径球面射电望远镜)4]的19束接收器[5产生8位×104每秒数据量×2×4×19;每年将存储超过10PB的数据。源自SKA(平方公里阵列)[6,7]而建,它是将每天生产1PB数据[8]。

由于天文观测的特殊性,天文台网站通常由数据中心不远。数据需要在从天文台站点由于在长距离室外数据线传输的不稳定性租用线路到数据中心被发送。天文数据传输需要一个完整的管理系统[9,用户界面友好,便于管理员控制数据传输过程;稳定性高,保证系统长时间运行在无人值守状态;当数据传输过程失败时,自动向管理员发送报警邮件。

NGAS(新一代档案系统)[10,11是射电天文领域中最常用的存档软件。NGAS用于天文数据的归档、处理、搜索和同步。目前,NGAS主要用于多台望远镜的数据存档。MWA (Murchison Widefield阵列)[12是SKA witch的先驱,它使用NGAS同步来自麻省理工学院和惠灵顿维多利亚大学的数据。ALMA(阿塔卡马大毫米/亚毫米阵列)[13]也使用NGAS进行数据同步[14,15]。

NGAS已经是一个比较完整的天文数据存档系统。但是由于NGAS是十多年前开发的软件,也存在一些问题[16]。(1)NGAS使用基于http的方法来传输数据。目前还不确定现有的NGAS体系结构是否可以扩展到处理更大的数据量。(2)有时数据流可能会使传输带宽饱和,NGAS缺乏有效的机制来解决这个问题。(3)用户无法直观地了解通过NGAS传输数据的状态。

本文根据中国科学院新疆天文台数据传输的实际需求,设计并开发了一套天文数据可视化传输系统。该系统包括天文数据传输控制、传输过程中日志记录、自动报警、可视化界面等功能。它能够有效地帮助管理员控制数据传输,并能在无人值守的情况下长时间稳定运行。总传输将被详细记录,以便日后排除故障。可视化界面可以直观地显示数据传输情况。采用模块化开发技术,便于后期移植到中央控制系统或大屏幕显示。

2.系统架构设计

天文台南山26米射电望远镜[17距离XAO数据中心约100公里;观测数据每天需要通过专线发送到数据中心。目前,还没有系统的数据传输管理系统。110米射电望远镜[18它将是世界上最大的全操纵射电望远镜,其数据传输线路将超过200公里。其数据传输过程将在未来的大屏幕系统中显示。

该系统的架构是基于XAO的实际需求而设计。天文数据可视化传输系统采用一个四层体系结构。这四个层是硬件层,系统层,中间层,和可视化层。该系统体系结构图在图中所示1(1)硬件层为数据传输提供了硬件环境。本文所描述的系统设计和开发是基于一个测试硬件环境。(2)系统层包括日志子系统和数据传输子系统。日志子系统用来记录传输过程的日志,为管理员提供管理程序。数据传输子系统的核心是rsync传输框架。数据传输封装了调用rsync命令的shell命令。(3)中间层主要由控制程序组成。这些程序负责控制系统层的子系统和管理日志文件和数据库。中间层还负责接收来自可视化层的指令并将数据传输到可视化层。当传输过程异常时,报警程序会自动响应并向管理员发送报警信息。(4)可视化层是基于web技术开发的,数据传输情况通过可视化图表直观地显示出来。系统管理员可以快速掌握数据传输情况信息,快速解决问题。

通过该系统采用的四层架构能够满足施工需要。在发展过程中,也有在原有的架构设计的一些问题。在本文中,我们修改了原有的建筑摆脱这些问题。分层架构设计,方便该系统的开发和管理。在系统测试问题可以分层。同时,这种分层的体系结构便于系统再利用或将来移植。

3.系统功能实现

3.1。硬件层测试环境

我们使用三台服务器来构建硬件环境。服务器通过千兆交换机相互连接。数据发送和接收的服务器都是HP P4300 G2数据服务器,2个Intel E5520 CPU, 20 GB RAM, 6.4TB硬盘。控制服务器使用DELL PowerEdge R710, 2个Intel Xeon 5680 CPU, 32GB RAM, 3.6TB硬盘。

由于控制服务器负载较低时,建议在非专用服务器上配置的控制程序,以减少在真实环境中的设备和能源成本。

3.2。系统层
3.2.1。日志子系统

日志子系统包括日志收集,日志存储,日志管理,和管理程序。日志子系统是一个独立的开发模块,它有一个完整的数据集的处理流程的。因此,它可以分裂和分开使用。日志子系统结构示意图示于图2

将日志内容存储在数据库中,主要是为了便于可视化层调用;它包含6个数据库表。(1)文件表(files):用来记录每个文件的具体信息。(2)天文数据表(数据):它是用于记录数据的存储的信息。(3)文件夹表(Folder):用于记录根目录的子文件夹信息。(4)每日数据增量表(dayData):用于记录每日数据增量的信息。(5)每日文件夹数据增量表(dayFolderdata):用于记录根目录下子文件夹的每日数据增量。(6)脚本监视表(proc_tatus):它用于记录脚本的运行。

具体领域的信息见表1


表名 字段名 字段类型 字段描述

File_name 字符 文件名称
File_size INT 文件大小
storeDBtime 时间戳 文件存储时间
File_time_last 时间戳 最后时刻的文件被修改
Md5value 字符 校验和

数据 data_no INT 订单号
data_volume 数据总量
data_number INT 文件总数
data_time 时间戳 数据写入数据库的时间
data_time_last 时间戳 数据的时间最后一次修改
data_add 字符 备用字段

auto_no INT 订单号
folder_no INT 文件夹数量
foldet_cycle_no INT 该文件夹的时间已经被浏览
文件夹 文件夹名称 字符 文件夹名称
folder_volume 该文件夹的大小
folder_number 诠释 文件夹中文件的总数
folder_time 时间戳 数据写入数据库的时间
folder_time_last 时间戳 上次修改文件夹的时间
folder_add 字符 备用字段

auto_no INT 订单号
dayDate 日期 当日日期
data_volume 总的历史数据
dayData data_number INT 历史文件的总数
incre_volume 数据每天都在增加
incre_number INT 增加当天的文件数量
dayData_add 字符 备用字段

auto_no INT 订单号
dayDate 日期 当日日期
文件夹名称 字符 文件夹名称
folder_volume 该文件夹的大小
dayFolderData folder_number INT 文件夹中文件的总数
incre_volume 当日文件夹的数据增加
incre_number INT 增加当天文件夹的文件数量
dayFolderData_add 字符 备用字段

auto_no INT 订单号
writeData TINYINT 脚本writeData
proc_status 控制 TINYINT 脚本控制
oneDayStat TINYINT 脚本oneDayStat
rsync TINYINT rsync的脚本
更新时间 时间戳 最后一次更新

在传统的日志管理系统,管理员对日志文件操作命令行,这是不方便和不直观的形式,通常执行。日志查询和控制管理界面,Qt Creator中开发[19]使用Qt语言便于日志系统的管理。其功能结构图在图中所示3.。通过管理界面,可以实现指定时间范围内的日志检索和各种日志查询;一键备份指定日期范围(3个月、半年、一年)的日志文件也是可用的。日志检索界面如图所示4

3.2.2。数据传输子系统

日志子系统的核心是远程同步工具rsync(远程同步)。rsync是一个成熟的Linux镜像备份工具。它被用作各种数据同步软件的基本框架[20.]。其主要特点如下。(1)Rsync可以镜像整个目录和文件系统,它的传输过程可以维护原始文件的权限、时间、软连接等信息。(2)Rsync支持增量备份,可以在传输过程中实时压缩解压数据,因此传输速度更快。此外,rsync可以在低带宽和高延迟的通信线路上运行[21]。

rsync使用用于数据传输的SCP和SSH。它会在传输过程中建立一个虚拟的管道,以保证数据传输的安全性。rsync的认证处理显示在图5

安装和rsync的配置更加复杂。除了安装xinetd的和rysnc包,还需要设置配置文件和同步文件夹权限和配置系统的防火墙。我们已经收拾好rsync的安装包和所需要的配置文件,方便安装和使用。rsync的需要在传输过程中的手动认证密码。期望工具用于自动化认证过程;期望是建立在TCL自动化需要交互的进程的工具。

Shell脚本用于使服务器自动使用rsync来同步指定文件夹中的数据。一些rsync语句封装在shell脚本中,比如运行、日志记录和传输。传输控制都可以在可视层执行,而不必在命令行上操作。具体的包命令如表所示2


打包的命令选项 包命令功能

————存档 递归模式,这意味着递归地传输文件并保留所有文件属性
- r,递归 以递归模式处理子目录
- p,烫发 保存文件权限
-t,--times 保存文件的时间信息
- g,组 保持文件组信息
-z,--compress 传输文件时压缩
——进步 在传输过程中显示传输过程
- v,详细 详细的输出模式
q,安静 流线型输出模式
- b,备份 当发生更改时,备份目标目录中的遗留文件
——ignore-existing 忽略接收服务器上已经存在的文件;只备份那些新创建的文件

3.3。中间层
3.3.1。控制程序

控制程序负责确保脚本程序的正常运行,从视觉层接收命令,将命令发送到系统层,并以视觉层提供过滤后的日志信息。控制程序主要是由一组shell脚本的。三角形守护程序脚本架构被设计成确保无人参与视觉传输系统的稳定运行,如图6

两个守护程序脚本用于监控核心控制脚本也相互监视。在此架构下,除非两个守护程序脚本和核心控制脚本同时悬浮系统运行正常。除了这样的情况,当它失败的任何脚本将重新启动。在测试中,数据传输有时暂停,因为rsync的工具异常。新显示器的开发是为了自动检查rsync工具的地位。如果监控程序发现异常rsync工具将重新启动。在最近的1000小时的测试,有系统运行过程中没有人工干预。

在长距离数据传输过程中,容易出现传输不稳定的情况。本文在控制程序中设计了VSAN算法,防止在网络不良时rsync重复重启,保证在传输质量较差时系统稳定运行。VSAN算法的核心思想是在网络畅通的情况下实现数据的正常传输。当有多个小数据量时,积累足够的数据量后进行统一传输。当网络时延过高时,数据传输周期会延长。VSAN算法流程图如图所示7。Vn为传输的数据量,Sd为10分钟内传输速率的标准差,Ad为10分钟内的平均传输速率,Nd为传输时延。

在控制程序中,控制界面可以用来启动、关闭和重新启动系统。它还可以配置系统日志存储目录、单个日志文件的大小、日志轮询模式和系统扫描间隔。控制界面如图所示8

3.3.2。报警程序

的数据传输过程中会遇到的各种异常情况。报警程序定期分析日志文件来发现系统中的异常情况。然后报警程序会自动生成一个异常报告文件并发送电子邮件到管理员,以便及时处理。报警程序的工作方式是在接收服务器上周期性地分析特定日志字段和所述发送服务器,以确定是否已经发生了异常,并自动在端口80上的异常代码值写入到指定的文件中的控制服务器周期性地通过获得代码值“心跳”方法,并发送相应的内容,以根据不同的代码值的系统管理员的电子邮件地址。该异常和异常代码显示在表3.


异常代码 例外

110 一切都是正常的
111 rsync启动异常
777 控制模块异常
555 网络延迟异常
444 储存空间快用完了

我们假设控制服务器通常位于数据中心,网络异常的情况很少发生。此外,数据中心通常有自己的网络态势报警系统。因此我们采用了独立的报警系统架构。警报不是直接从发送服务器或接收服务器发送的。

3.4。可视化层

可视化层提供由HTML5,PHP,JavaScript的,jQuery和其他网络技术发展到显示天文数据传输的网页。可视化层提取在从网页中的图表的形式的中间层,并显示它的内容。网页的适应性布局使用户可以通过使用计算机或移动浏览器的授权帐户来访问网页。下面是测试网页http://210.73.36.12/qttas/for-test.php,这是开放给所有浏览可视化层的部分。本节以下部分将显示可视化网页奇台县天文台和新疆天文台总部之间的数据传输。

网页分为五个部分。第一部分显示了从发送服务器和接收服务器上的数据库中的' proce_status '表中获得的脚本的运行状态。没有运行的脚本将直观地显示在此部分中,如图所示9

第二部分如图所示10。这部分地通过柱形图显示的数据量。列图表可以显示已在当天和过去7天发送的数据的体积。第二部分所称的“dayData”和“数据”数据库表。

第三部分如图所示11。本部分通过饼图展示发送服务器和接收服务器的存储状态。第三部分可以帮助管理员确定是否需要扩展数据存储。当数据服务器的空闲空间低于阈值时,第三部分将显示为红色。

第四部分如图所示12。本部分以色块的形式显示过去56天的数据存储情况。颜色块越深,这一天产生的数据越多,颜色越浅,产生的数据越少。为了保证色块显示自然,能真实反映数据量,我们首先采用气泡排序法对最近56天的数据量进行排序。最大数据量为Vmax,最小数据量为Vmin,数据量间隔为Vdi=Vmax-Vmin,日数据量为Vday;每日数据的颜色值百分比为

第五部分以折线图的形式显示过去2小时内每分钟传输的数据量和存储的数据量。如图所示13我们模拟真实的时间中,以存储带宽比传输带宽更大。虚线图表可以直观地显示的数据传输速率的波动,并且管理员可以判断数据链路是否是通过这些图表畅通。

除了这五个部分,该页面还显示服务器和链路状态和数据信息的文本传输。当系统出现故障时,报警信息会在可视化页面上显示。

高级查询页面如图所示14。高级查询页面需要高级身份验证命令才能访问。高级查询页面支持关于数据存储的详细信息查询,用于指定数据服务器上的日期、文件MD5验证显示的结果,甚至关键字检索。

4.总结

本文完成了天文数据可视化系统的建设与开发,提供了一套完整的天文观测点数据向数据中心传输管理系统。在分析现有天文数据传输系统优缺点的基础上,结合新疆天文台的实际需求,完成了四层系统架构设计。在开发过程中,我们修正了最初设计中的缺陷,在最后1000小时的测试中,系统是稳定的。本文提出了一种可行的天文数据传输方案,便于管理员通过日志系统和可视化界面管理传输过程。天文数据可视化传输系统作为一个新兴的系统,还存在不足,在今后的工作中还将进一步完善。

数据可用性

支持本研究发现的数据可从相应作者要求。

利益冲突

提交人声明他们之间没有利益冲突。

致谢

感谢国家自然科学基金(11873082,U1531125, 11803080, 11503075),国家重点基础研究发展计划(973计划),国家重点基础研究发展计划(973计划)2015CB857100,国家重点基础研究发展计划(2018YFA0404704),中国科学院青年创新促进会的支持。

参考

  1. P.罗森B.王A. Seth等人,“在分析和射电天文学的多维数据集的可视化应用轮廓的树木,” 2017年,https://arxiv.org/abs/1704.04561视图:谷歌学术搜索
  2. 大数据:天文学还是基因组学?公共科学图书馆·生物学,第13卷第3期。7、条款编号e1002195, 2015。视图:谷歌学术搜索
  3. R. Prestage, K. Constantikes, T. Hunter等人,《绿色河岸望远镜》,IEEE论文集,第97卷第3期2009年,第1382-1390页。视图:出版商的网站|谷歌学术搜索
  4. 李东升,南荣等,“500米口径球面射电望远镜(FAST)项目”,现代物理学报,D,第20卷第5期2011年,第989-1024页。视图:出版商的网站|谷歌学术搜索
  5. D.李,王P.,L.谦等人,“FAST空间:对于多波束的考虑,利用中国的500米口径球面射电望远镜(FAST)多用途调查”。IEEE微波杂志,第19卷第5期3, pp. 112-119, 2018。视图:出版商的网站|谷歌学术搜索
  6. 杨晓东,“平方公里阵列天线”,载于《中国科学院学报》第六届IEEE论文集相控阵系统和技术研讨会,2003数组第351-358页,美国,2003年10月。视图:谷歌学术搜索
  7. C. Carilli和S.罗林斯,“动机,重点科技项目,标准和假设,”天文学的新评论2004年,第48卷979-984页。视图:谷歌学术搜索
  8. G.李承晚,展望未来的奇迹:在望远镜宇宙前沿,施普林格,纽约,美国,2013年。
  9. E. Dovgan, C. Knapic, M. Sponza,和R. Smareglia,“高度结构化天文数据的一种新的档案基础设施,”实验天文学,第45卷第5期。2018年第41-55页。视图:出版商的网站|谷歌学术搜索
  10. A. Wicenec, J. Knudstrup, S. Johnston,“ESO的下一代档案系统”,信使第129卷,2002年第27-31页。视图:谷歌学术搜索
  11. A. Wicenec和J. Knudstrup,“全面运作ESO的下一代归档系统”的信使第129卷,2007年第27-31页。视图:谷歌学术搜索
  12. S. J. Tingay, R. Goeke, J. D. Bowman et al.,“Murchison widefield阵列:平方公里阵列在低无线电频率的前体,”澳大利亚天文学会出版2013年第30期。视图:谷歌学术搜索
  13. A. Wootten和A. Thompson,“阿塔卡马大毫米/亚毫米阵列”,IEEE论文集,第97卷第3期2009年,第1463-1471页。视图:出版商的网站|谷歌学术搜索
  14. A. Wicenec, S. Farrow, S. Gaudet, N. Hill, H. Meuss和A. Stirling,天文数据分析软件与系统(ADASS)十三第314卷,2004年。
  15. A. Manning, A. Wicenec, A. Checcucci, J. A. Gonzalez Villalba,天文数据分析软件与系统XXI, P. Ballester, D. Egret, N. P. F. Lorente,主编,译。卷。461,Astronomical Society of the Pacific Conference Series, 2012.
  16. C.吴A. Wicenec,D. Pallot和A. Checcucci,“优化NGAS为MWA档案”实验天文学,第36卷第3期3、679-694页,2013年。视图:出版商的网站|谷歌学术搜索
  17. 许强,易磊,李磊,陈明,王宁,“一种快速馈源切换机构设计”,《机械工程学报》,vol . 34, no . 4, pp . 391 - 395地基和机载望远镜7卷。10700,国际社会对光学和光子学,2018。视图:谷歌学术搜索
  18. n .王中国科学:物理学、力学、天文学2014年第44卷。视图:出版商的网站
  19. R. Rischpater,“Qt creator的应用开发”,2014。视图:谷歌学术搜索
  20. y . j .,用于客户端数据交换的SyncML数据同步系统和数据交换方法:美国专利7,917,653,2011年。
  21. D.拉希和R. C.烧伤,“就地rsync的:用于移动和无线设备的文件同步”,在USENIX年度技术会议记录,FREENIX轨道页。100,2003。视图:谷歌学术搜索

版权所有©2019叶新晨等这是一篇开放获取的文章知识共享署名许可,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。


更多相关文章

871 的观点 | 373 下载 | 1 引用
PDF 下载文献 引用
下载其他格式更多的
订单打印副本订单

相关文章

我们致力于尽快、尽可能安全地分享新冠肺炎相关发现。任何提交COVID-19论文的作者应通过电子邮件通知我们help@hindawi.com以确保他们的研究是快速跟踪和尽快预印本服务器上公布。我们将针对与COVID-19接受的文章中提供的出版费用减免无限。注册在这里作为审稿人,帮助快速跟踪新提交的内容。