网络延迟系统事件监控多个位置

文摘

网络延迟是一个关键参数时需要考虑的安全与系统设计和实现远程监控的事件。本文描述了网络延迟可能会影响监测在广泛的区域网络,特别是当监控系统是数百或数千英里远离监控服务器。此外,了解当地经销商提出了减少事件的时间从多个地理位置数据收集。

1。介绍

的一个关键挑战今天的IT运营部门是保持所有关键应用程序上运行基础,在失败的情况下,确定事件的根源。监控平台来满足这些需求,需要设计和实现。此外,有效的部署平台可以大大降低它的成本在一个组织中,由于最小化系统的停机时间,并维护公司的声誉由于早期检测的安全威胁1,2]。

在我们之前的讨论,监测方法,可考虑有三种:基于主体、无代理,并提出订单监控(理论)3]。基于代理的方法提供深入每个监控系统监控,但需要额外的软件。无代理方法是一个轻量级的解决方案,它使用一个系统的内置监控协议和技术,如简单网络管理协议(SNMP)和Windows管理规范(WMI),但它只提供了一个概述的监控环境。小说理论方法提出我们集成了基于主体和无代理的优势实现和关注定制和设置监控基于用户需求。油基泥浆的关键方法是首先识别系统和应用程序的有价值的指标定义他们的可用性状态,其次,开发一种机制来收集这些指标。

我们之前的研究仅限于一个位置(3]。在这篇文章中,它被扩展到多个地理位置,我们演示WAN网络延迟可能会影响整个监控过程。在我们以前的工作网络延迟是省略了因为系统事件收集使用局域网基础设施。最后,我们介绍当地的想法“分销商”最小化网络延迟的影响当一个监控系统部署几百英里远离被监视系统。术语“网络延迟”和“网络延迟”被认为是可互换;我们在讨论中使用“网络延迟”。

本文组织如下。节2我们描述了本研究的动机。相关工作在部分3。部分4提出了网络延迟的定义和描述了网络参数时需要考虑设计事件集合。实验结果的事件收集来自多个地理位置将获得部分5。建议经销商概念的讨论部分6。最后,总结和结论部分7。

2。动机

快速增长的国际公司,以及与世界各地的办事处,建立了组织最近专注于为企业提供统一的IT服务。标准化的服务是由经济因素决定的,如服务器的整合和维护成本,以及满足用户的期望,比如他们渴望高度可靠和总是可用的业务应用程序。另一方面,并不是所有的IT服务可以搬到一个中央位置由于大量的数据通过网络传输,网络延迟、数据的法律限制,或遗留应用程序的体系结构。本地服务的例子包括打印服务器、文件服务器,域控制器,域名系统、人力资源系统和应用程序特定的当地办公室。

从一个组织的战略角度来看,IT部门仍然可以为本地运行提供指导服务,包括如何监控这些服务和如何操作时通知部门的支持是必需的。我们发现在这方面的挑战是当前文学缺乏设计指导监控解决方案的服务器位于多个地理位置,有时数千英里之外的监控系统。

许多研究者研究了系统监控,但他们的范围是不同的。科学家们分析了监控解决方案关于网络管理领域(4),云监控(5- - - - - -8),监测网格系统(9,10),分布式系统位于一个数据中心(11- - - - - -15]。许多这样的论文代表监测业务逻辑层,如收集、表示,报告,分析,和表示,李的工作所等。本文收集层的影响,探讨网络延迟而收集原始测量数据系统位于多个地理位置。

4所示。事件集合

事件数据的收集来自多个地理位置代表一个重要的问题11]。在这一部分中,我们将定义的网络延迟和关注关键网络参数时,应考虑实施监控系统在多个位置。

除了一个组织需要额外成本花在国际或横贯大陆的联系,有一个有形的网络延迟,可以显著影响数据包的传输(16,17]。根据Svoboda和他的同事们,网络延迟”是一个指标组成的小延迟贡献的总和以及定义的两个接口之间的数据路径(…)。很多参数和变量影响延迟,尤其是测量接口由许多啤酒花“(18]。除了延迟外,还有其他网络参数,设计时应考虑远程事件集合。表1提出了一种比较样本网络参数在本地和远程事件收集使用的监控系统。


参数	本地收集	远程收集

网络类型	局域网	广域网(MPLS VPN)
平响应/延迟	小于2毫秒	超过2女士
带宽	100年Mbps-10 Gbps	1 Mbps-1 Gbps
中断	可以忽略不计	多个外部
成本和维护	内部	第三方

网络类型是如何连接到监控系统服务器。这决定进一步参数,如平响应/延迟和带宽,因为设备是连接在一个相对较短的距离(LAN)或长链接(WAN)。连接在广域网络系统需要使用虚拟专用网络(vpn)在公共网络。当一个高度可靠连接的远程办公是必需的,组织可能另外使用多协议标签交换(MPLS)机制,独立于协议,提供了一种更高效的方式传输数据。

在局域网的网络类型,中断可以忽略不计,因为整个基础设施是由公司拥有和维护。在这种类型的网络,失败通常是相关的硬件和配置设置。在广域网的网络类型,中断更频繁地发生,因为除了硬件和配置故障,网络电缆的长度,多个租户,以及外部因素(如地面开挖和潜艇维护)也需要被考虑。

成本和维护是另一个参数,可能会影响这个决定关于地理位置的监控系统在考虑远程事件集合。WAN电路通常是由第三方公司提供被称为全球网络服务提供商(19),和广域网带宽是严格相关服务费用。

5。实验

衡量网络延迟可能会影响远程事件数据收集,进行了以下实验:(我)样品位置与服务器远程监控被选在美国(亚利桑那州)。(2)另外两个位置,监控系统可以安装,被发现,一个在欧洲(爱尔兰)和其他在美国(华盛顿州)。第二个实验的目的是了解远离远程监控系统可以监控服务器收集事件至少每5分钟,推荐由美国国家标准和技术研究院(20.]。

一组100台服务器选择从本地办公室的数据中心,名为M,这是位于美国亚利桑那州。Microsoft Windows服务器操作系统是用于所有的服务器。为了简化测试,每个服务器有一个共享文件夹不同大小的三个文件:1 kB, 4 kB、8 kB。每个文件包含样本安全性和系统事件键=值的格式(例如,服务器= server_name)。访问这些文件被共享文件夹和文件系统安全访问控制列表(ACL)。第二个和第三个办公室被选为地方运行监控系统。命名为第二办公室的本地数据中心,位于华盛顿在美国,第三,命名为B,在爱尔兰,大约1800公里和8000公里远离办公室M,分别。

第一个实验的目的是测量往返响应时间从办公室A和B的办公室通过运行平命令。这些测试的结果展示在表2。


	从位置(美国)	从位置B(欧洲)

距离办公室,美国	1815公里 (1128英里)	8036公里 (4993英里)

啤酒花的办公室	8	8

平平均响应时间	38.81毫秒 (63386个样本)	144.31毫秒 (31966个样本)

使用谷歌计算距离测量工具(https://maps.google.com/)。

ping命令的结果显示,办公室B,理论上位于4.4倍远的办公室,有一个低大约3.7倍的网络延迟。因为距离的准确测量,对计算机网络的数据包遍历是复杂的计算,我们决定评估的网络延迟转移不同大小的文件从办公室到监控系统服务器位于A和b,这是实验的第二个进球。

复制示例事件文件的顺序过程中的监控系统服务器上同时发起本地数据中心的办公室A和b复制过程通过使用被处决选择复制文件命令来下载共享文件通过TCP的监控服务器。这部分的实验分为三个阶段。第一阶段准备测量一个服务器的集合时间,10服务器的第二阶段和第三阶段100台服务器。每一个阶段包含三套大小不同的示例文件。实验同时运行两天两位置,每组从监控系统服务器执行192次在办公室(美国)和从服务器96倍办公室B(欧洲)。在实验期间,广域网流量优化功能禁用网络上的设备。

结果(图1)表明,事件数据收集取决于被监视监测系统和服务器之间的距离。他们还透露,一个事件数据文件大小为4 kB需要相同的时间完成有序集合为1 kB的文件。一个8 kB的文件只需要大约10%更多的时间来完成比1 kB和4 kB的文件复制过程。比较样例文件的收集时间的距离(见表3)表明,四倍多远的位置样本事件数据收集花了两倍的时间。


位置	1 kB集合	4 kB集合	8 kB集合	距离	平

从(美国)M(美国)	155秒 (192个样本)	154秒 (192个样本)	170秒 (192个样本)	1815公里 (1128英里)	38.81毫秒 (63386个样本)

从B(欧洲)M(美国)	366秒 (96个样本)	351秒 (96个样本)	396秒 (96个样本)	8036公里 (4993英里)	144.31毫秒 (31966个样本)

比 B / A	2.36倍	2.28倍	2.33倍	4.43倍	3.72倍

(1)服务器

(b) 10服务器

(c) 100台服务器

图1

收集实验结果的事件。(a)事件的平均时间间隔,以秒为单位的数据收集从集在一个服务器上。A - 1 kB代表监控系统服务器在办公室的时间为1 kB的事件文件(美国)。B-8 kB代表了时间服务器位于办公室B(欧洲)8 kB事件文件。(b, c)的平均收集时间从10日集在秒和100台服务器,分别。

此外,实验结果表明,远程监控的100台服务器位于美国从本地数据中心在欧洲办事处将超过五分钟,不管文件大小。这是由于网络延迟和连接的数量,需要建立监测系统。实现轮询间隔五分钟在该方案中,监控系统在欧洲办公室,监控服务器的数量在美国办公室建议大约50。此外,该频率可能无法实现每个监测调查,因为事件数据文件的大小可能不同,以及网络性能,由于多个外部依赖,如每天的时间或星期。

添加实验数据,全球的平均延迟数据从一个网络服务提供商,也就是说,Verizon,附呈。结果在表4指月平均往返使用ping命令收集的响应时间通过网络控制消息协议(ICMP)。从指定路由器在关键网络收集的数据中心在全球的位置在5分钟的间隔21]。


链接描述	2月15日	1月15日	12月14日	11月14日	10月14日	9月14日

在欧洲中心	11.65	11.71	11.78	11.74	11.85	11.68
在北美中心	35.79	35.77	36.45	35.83	35.39	35.74
伦敦到纽约	71.85	72.34	72.54	72.49	75.02	72.85
新加坡到东京	83.42	77.95	77.33	76.51	76.47	79.42
在亚太中心	94.43	102.92	114.28	96.07	95.54	97.38
跨太平洋	109.82	109.82	109.80	109.80	109.76	109.70
印度到英国	119.91	119.93	136.30	155.93	142.15	124.43
在拉丁美洲中心	137.30	137.47	136.88	137.23	142.07	144.06
澳大利亚,美国	154.62	154.58	154.58	154.58	154.80	154.33
新加坡给我们	182.58	178.74	182.88	180.74	181.86	175.58
北美到印度	252.01	253.39	266.73	293.39	285.62	253.94
澳大利亚到英国	296.36	335.35	315.85	290.23	286.13	305.87
新西兰到英国	315.62	343.42	328.56	296.48	296.76	310.57

详细信息表4设计时应考虑全球监测解决方案和决定监控系统需要部署。另一个因素要考虑的监控软件许可协议限制和硬件的可用性监控系统将安装在哪里。因为网络延迟在远程监控无法避免或减弱,推荐的方法是减少数量的远程连接监控系统需要建立与所有监控服务器。基本方法,从监控系统的连接数是基于被监控的服务器数量;在某些情况下,这一数字可能会更高,由于多个指标从相同的服务器。例如,一个请求将收集CPU利用率,另一个将收集系统日志的最后十分钟,第三可以验证一个运行的进程列表。最小连接数会减少SYN SYN-ACK,电脑之间和应答消息,DNS,和授权请求;因此,整个事件集合时间会更短。来验证这一理论,我们提出的概念分销商在收集过程的事件。

6。经销商概念事件数据收集

在实验中,我们意识到安全以及系统事件数据收集时间更加依赖远程网络连接的数量比大小的文件。建立一个网络连接与每个服务器需要一些时间因为参与的组件,如服务器的DNS名称解析,身份验证和授权过程到远程资源,当地的广域网络性能,当服务器的地理分布和网络架构。在这个实验中,建立一个网络连接的过程是由监控系统位于不同地理位置。

检查这个问题,我们回顾了最近的文章,描述监测实现多个地理位置(22,23]。根据我们的研究和经验,我们提出的解决方案的分销商事件数据收集(见图2)。

经销商是一个最小化的聚合点远程连接到监控服务器的数量。它与每个监控服务器只使用局域网而不是广域网络。一旦数据被收集,只有一个数据传输到监控系统的连接是必需的广域网络。因为一个数据传输连接引入了一个单点故障,另一个经销商之间的链接应定义和监控系统。任何连接链接反应迟钝,经销商配备了一个机制,试图重新发送数据时,网络可用。经销商也介绍了一些延误,因为数据需要先下载到本地服务器,然后转移到监控系统。然而,只建立一个连接的好处是实实在在的在场景超过10台服务器远程监控。

此外,在分销商的概念,收集到的数据从所有监控服务器压缩之前发送到监控系统。因此,有一个额外的步骤;即监控系统必须在收到文件解压。这个开销应该可以忽略影响经销商的资源的利用和监测系统,但明显减少传输数据所需的时间在广域网络,因为只发送一个文件。

进一步削减可以当一组实现阈值建立了(4]。这些阈值分类收集到的事件是否应该处理本地或立即发送到监控系统传输在未来累积批,,例如,每天每小时发生一次或一次。阈值和事件的紧迫性可能取决于应用程序的业务临界。

Sedlar和他的同事们讨论的经销商的想法类似的方法(23]。事件数据收集的工作是实现到6500年商业节点提供IPTV在斯洛文尼亚。他们的宽带网络网关(BNG)跑作为一个从100年本地设备经销商和聚集事件。所有的系统都位于一个国家,是使用一个公司提供的基础设施,电信Slovenije。在我们的论文3)顺序事件数据收集过程来自130个节点在三个月内平均79秒。所有节点都位于相同的位置监测系统,并使用本地千兆网络。在这种情况下,估计100服务器的持续时间是61秒;因此,每经销商100节点的大小似乎是一个合适的选择提出想法。

经销商的概念扩展当前监控的设计方法被建立在一个位置或一个国家可在多个位置,国家和大洲。它还提供一个机制来重新发送数据时网络链接变得反应迟钝,例如,由于横贯大陆的联系总是依赖于各种网络提供商。实现经销商的想法10和100台服务器连接数减少了90%和99%,分别为(见表5详情)。


场景	10台服务器	100台服务器	200台服务器

1天的监控	2880年	28800年	57600年

1天的监控与分销商	288年 (1 x经销商)	288年 (1 x经销商)	576年 (2 x经销商)

减少连接(1天)	90.00%	99.00%	99.00%

30天的监控	86400年	864000年	1728000年

30天的监控与分销商	8640年 (1 x经销商)	8640年 (1 x经销商)	17280年 (2 x经销商)

减少连接(30天)	90.00%	99.00%	99.00%

7所示。总结

事件数据收集从多个位置对齐组织增长和扩张新市场。这些变化促使IT部门审查他们的支持操作规程和引入新的需求。要考虑的一个方面是扩大现有的监控解决方案。

在本文中,我们讨论了网络延迟对安全的影响和系统事件监控过程在操作时数据收集多个地理位置。聚集在实验结果表明,简单的工具等平和选择复制文件可以用来衡量广域网容量和性能。同样的工具还可以帮助在决定监控系统设计时应部署远程服务器监控。实验还强调,网络延迟有有形的影响建立多个远程连接,可以显著降低系统故障通知的过程。

一个聚合点的概念,描述了在这个工作作为经销商,应考虑当当前监控解决方案需要监视服务器和应用程序位于远程办公。聚合将最小化网络延迟的影响在整个监测过程中因为少数将建立远程连接且只有一个压缩文件将在每一个轮询时间。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

美国斯多夫、s . m . Bellovin和d·埃文斯“测量安全,”IEEE安全与隐私,9卷,不。3,60 - 65、2011页。视图:出版商的网站|谷歌学术搜索
h . Saiedian g . Wishnie,“一个复杂的分布式系统的事件路由基础设施”,杂志的并行和分布式计算,卷72,不。3、450 - 461年,2012页。视图:出版商的网站|谷歌学术搜索
l . Kufel“安全事件监控在分布式系统环境中,“IEEE安全和隐私,11卷,不。1,第36 -,2013页。视图:出版商的网站|谷歌学术搜索
李,k . Levanti和h . s . Kim“网络监控:现在和未来的,”计算机网络卷,65年,第98 - 94页,2014年。视图:出版商的网站|谷歌学术搜索
g .香a·博塔携手w . de Donato和a . Pescape“云监控:一项调查,”计算机网络卷,57号9日,第2115 - 2093页,2013年。视图:出版商的网站|谷歌学术搜索
j .蒙特斯桑切斯,b . Memishi m . s . Perez和g . Antoniu”GMonE:一个完整的云监控方法,”未来一代计算机系统卷,29号8,2026 - 2040年,2013页。视图:出版商的网站|谷歌学术搜索
g . Katsaros g . Kousiouris s . v . Gogouvitis d . Kyriazis A . Menychtas和t . Varvarigou“云自适应分层监测机制,”系统和软件杂志》上,卷85,不。5,1029 - 1041年,2012页。视图:出版商的网站|谷歌学术搜索
k . Fatema v c . Emeakaroha p·d·希利·j·p·莫里森,t·林恩,“云监控工具的调查:分类、功能和目标,“杂志的并行和分布式计算,卷74,不。10日,2918 - 2933年,2014页。视图:出版商的网站|谷歌学术搜索
萨凯拉里欧Zanikolas和r .,“网格监测系统的分类,未来一代计算机系统,21卷,不。1,第188 - 163页,2005。视图:出版商的网站|谷歌学术搜索
s . Andreozzi n . de Bortoli s Fantinel et al .,“GridICE:网格系统的监控服务,”未来一代计算机系统,21卷,不。4、559 - 571年,2005页。视图:出版商的网站|谷歌学术搜索
m . l .宏伟,b . n .春,d·e·卡勒”ganglia分布式监控系统:设计,实现,和经验,“并行计算,30卷,不。7,817 - 840年,2004页。视图:出版商的网站|谷歌学术搜索
Nagios,http://www.nagios.org/。
Zabbix,企业级监控解决方案适合每一个人,http://www.zabbix.com/。
Ganglia,一种可伸缩的分布式监控系统对于高性能计算系统,http://ganglia.sourceforge.net/。
Hyperic,系统监控软件,http://hyperic-hq.sourceforge.net/。
海底电缆的地图,http://www.submarinecablemap.com/。
l·德维托、美国Rapuano和l . Tomaciello“单向时延测量:状态的艺术”,IEEE仪表和测量卷,57号12日,第2750 - 2742页,2008年。视图:出版商的网站|谷歌学术搜索
p . Svoboda m .英雄,j . Fabini m·拉普和f . Ricciato”在被动的IP网络封包延迟测量,”IEEE仪表和测量》杂志,15卷,不。6,36-44,2012页。视图:出版商的网站|谷歌学术搜索
魔力象限为全球网络服务提供商,http://www.gartner.com/technology/reprints.do?id=1-1T96X35&ct=140417。
k·肯特和m . Souppaya计算机安全日志管理指南2006年,美国国家标准与技术研究院,http://csrc.nist.gov/publications/nistpubs/800 92/sp800 - 92. - pdf。
Verizon网络延迟,http://www.verizonenterprise.com/about/network/latency/。
e . Casalicchio m . Caselli, a . colletta“测量全球域名系统,”IEEE网络,27卷,不。1,25-31,2013页。视图:出版商的网站|谷歌学术搜索
Sedlar, m·沃尔克j . Sterle a .科斯和r . Sernec”更符合实际的监测和发现根源在IPTV系统中使用数据可视化,”IEEE网络,26卷,不。6,40-46,2012页。视图:出版商的网站|谷歌学术搜索