文摘
最近许多企业在全球范围内实现价值的监控和数据采集(SCADA)系统。许多关键的基础设施,如电网、沥青植物,和污水处置,由这些系统控制。通过引入第四次工业革命,4红外或行业4.0,今天的SCADA系统不能脱离外面的世界,使他们更容易受到恶意攻击。传统的安全系统包括不同的杀毒软件和防火墙无法保障SCADA系统不同的需求。为此,不同的机器学习算法,即。,SVM, KNN, and random forest, are tested to cover the anomaly detection along with security protection for SCADA systems. The dataset used in this research study was made locally in an asphalt plant by using different sensor data grouped in two classes: one is natural signal values, and the other one is attack class in which different sensor values are found out of range while in operation. Amongst the above-mentioned algorithms, KNN outperformed with an accuracy rate of 89% for anomaly detection and any kind of external attack can be detected and notified to the control room for on-time actions.
1。介绍
SCADA(监控和数据采集)系统管理和监控工业和基本基础设施的活动,比如电力、天然气、水、垃圾、铁路和运输。这些系统控制关键国家基础设施曾经被认为是安全的,因为他们有专有的限制和有限的连接。SCADA的方法不再是免疫网络威胁,因为增加的连接到互联网和商业网络。事实上,对关键基础设施的威胁是明显比传统电脑漏洞的影响和侵犯的范围。污水处理系统上的网络攻击在昆士兰导致800000加仑的未经处理的污水的释放到附近的公园和河流,海洋生物死亡,产生气味和变色的水(1,2]。SQL监狱服务器恶意软件最近针对核电站在美国,造成了近5个小时的停机的核电站的安全监测系统(3]。因为所有这些商品是必要的日常生活的正常运转,保护和安全以及国家重点至关重要。
至关重要的SCADA系统的安全风险评估和建立适当的安全解决方案来保护他们免受攻击完全理解如何保障他们(4- - - - - -6]。缺乏足够的建模工具来评估SCADA系统的隐私是一个主要问题的研究和创新SCADA系统的入侵检测系统。SCADA的实验使我们能够建立一个基本的模型SCADA系统同时测试真实的攻击和尝试不同的安全解决方案。因为构建独立的SCADA系统的范围和成本,包括可能的危险和中断的操作提供必要的基础设施,对一个实际的SCADA系统进行安全测试是行不通的。
当前ICT(信息和通信技术)系统实用程序是基于假设之间有一个连接公司的网络和SCADA系统的网络。这些网络设计应以这样一种方式,他们可以提供操作和商业通信服务,同时会议一套技术标准和特性。遥控器,电视保护,操作电话,和操作视频操作服务的例子。它们都链接到另一个,直接或间接与电力系统发电的工艺技术。因为他们的重要性,这些服务有严格的标准的可靠性,可用性和延迟。
很多关键的基础设施(CIs)和企业依赖于监控和信息采集系统,广泛应用于关键基础设施(CIs)。石油管道,处理设施和化学工厂只是几个例子。保持控制网络,独立于系统的其他部分,包括互联网、SCADA系统传统上使用一个安全的概念被称为“气隙。“在实际的世界中,真正的孤独是难以实现。首先,完全的隔离可能会导致使用过时的软件。
供应商的安全升级不容易被应用到项目如果没有互联网接入。第二,实现真正的隔离经常因为CI是地理上分散的是困难的。此外,SCADA设备使用专有软件,硬件和通信协议,给了一个误导性的印象通过隐藏的安全。SCADA系统现在可能结合互联网和商业网络的广泛使用标准化的通信协议。由于其广泛的部署区域,分散经营模式,和增加互连,SCADA系统现在容易受到各种各样的风险。因为TCP / IP堆栈的广泛使用,SCADA系统采用了它。协议等少量通信总线(Modbus),分布式网络协议(DNP3) [4, IEC 60870-5-104],和TCP / IP被广泛使用。这些协议已经发展了二十年,是众所周知的敏感性低技术含量的网络攻击。没有系统不受入侵检测系统(IDS)、保护利用传统IDS识别入侵数据库的调用和攻击签名每个签名代表一个不同的攻击及其特性。它的主要缺点是需要人为的漏洞和威胁分析提出独特的签名使用这种方法。 A strong option for developing outlier detection algorithms about typical behaviour and adjusting on their own to deviations is machine learning (ML) technology, which can do even without being preprogramed again or given an explicit pattern to work from.
2。文献综述
网络连接使SCADA系统更容易受到全球网络安全攻击,因为它允许远程访问和可伸缩性。因此,安全漏洞的数量问题,案例研究发表在《文学一直跟踪。
DDoS攻击是一种持续的威胁到互联网。因此,这是一个连续的烦恼来源信息技术和计算机安全专家。DoS攻击等各种形式的SYN洪水,ICMP洪水,洪水和UDP (7),等等。在现实中,不同的研究正在进行识别分布式拒绝服务(DDoS)攻击,包括(1)电器从商业硬件;(2)机器学习方法(低和高利率的DDoS攻击,PRCD方法使用部分等级correlation-based检测(PRCD)技术(8]);(3)区分恶意TCP流和DDoS攻击:平均空隙延迟变化测量;和(4)深度学习方法。
Cherdantseva et al。9]用完善的制度研究方法检查最近的进步SCADA系统的网络安全风险评估。他们的研究包括各种各样的SCADA安全性和风险研究,包括应用程序大约24个不同的风险评估技术的SCADA系统。他们提出以下直观的分类技术的研究。一流:方法根据活动和深入的解释准则。计算技术和基于模型的方法都包含在第二课堂,和3班是定量和定性研究方法。时识别系统缺陷和评估安全可能的攻击,土耳其et al。10)提供深入研究可用的方法。仿真框架、台模拟SCADA攻击,数学模型,概率模型和风险建模和评估这种方法讨论了研究的例子。系统开发人员和服务提供者可以使用它来测试他们的系统把它们生效之前,和最终用户可以使用它来理解并遵守所有安全规定法律义务。法医科学和道德黑客也详细讨论的作家。这些方法包括扫描和渗透测试,机器学习,“粘蜜罐”、入侵预防系统,网络入侵检测系统和网络入侵检测系统(IDS)。
详细讨论了网络攻击和由此产生的损失(11,12]。对策应该实现由水和卫生设施,以避免或减少造成的伤害攻击他们的控制系统。根据研究的结果,下面是卫生和排水部门面临的主要问题。的业务系统,以及控制系统,是相互依存的工业控制设备有多种配置。他们还讨论了潜在的对策,如选择安全标准,评估差距,并分析缺陷/风险,这可能是用来克服这些困难。最后但并非最不重要,他们强调,机构应充分利用有限的资金来创建和执行security-enhancing倡议。政策、程序、培训和提高意识所有可能用于实现网络安全更多实惠。高和低利率攻击都可能发现使用中描述的两层过滤技术(13]。研究人员利用ns-2模拟程序来评估建议的方法的性能。高利率的DDoS攻击检测使用第一层的平均使用metric1过滤器。低利率DDoS攻击检测使用第二层使用metric2称为离散傅里叶变换。高和低利率DDoS攻击可能会发现使用建议的技术,因为它们是简单的实现。然而,检测精度差在高和低利率的袭击发生在同一时间。DDoS检测中使用深度学习在网络背景下提出(14)和显示要优于传统的机器学习方法。模型包括一个输入层,forward-recursive层,reverse-recursive层,一个完全connected-hidden层,和一个fifth-output层。有三种类型的神经网络使用:复发,长期和短期(CNN)。获取输入数据训练模型,所有攻击数据包混合在一起的随机数合法数据包。
使用监督学习方法,支持向量机,作者在15)提出了一个自动识别DDoS攻击防御策略(支持向量机)。随机选择样本的百分之六十,其中809被认为是正常的,809被认为是异常的。分类精度明显改善(10%左右),这项研究的结果。在[16),作者研究了水电站的SCADA系统漏洞和发现如何安全的无线信息系统的体系结构。
研究使用了优化网络工程工具进行仿真检验SCADA系统漏洞,包括DDoS攻击。他们尝试了两种不同的可能性:(1)一个模型,不攻击网络的基础设施和(2)DDoS攻击中模拟模型。有两个主要目标的研究17]:缺陷检测和数据流时间协调智能电网。根据他们的研究,在DoS(拒绝服务)和MITM攻击(中间人)是最常见的类型的网络攻击(MIM)。NED文件和编程逻辑利用OMNeT + +模拟器。拟议的框架的强度是显而易见的能力包括范围广泛的攻击场景,同时也能够提供高度精确在模拟的网络攻击行为分析。
3所示。目标
本研究的主要目标如下:(1)提出健壮的机器学习模型,可以区分正常信号和攻击信号(2)增加计算能力较低的精度和性能要求
4所示。方法
实际沥青工厂管道数据集是用来评估的优点ML-based SCADA系统的异常识别方法。一个数据集是探索第一,然后异常检测目标如前所述如下。
4.1。沥青工厂管道数据集
建议系统应用于沥青工厂,批处理混合类型的沥青工厂的主要重点。这种植物被选为目的研究因为它有各种各样的工作站为研究和减少干扰降到最低。制造过程是广泛的调查,所有的干扰都分类根据每个工作站。不同的传感器被选为这个研究电梯速度控制,德雷尔和加热器热电偶,重量传感器、沥青重量传感器,Baslet电梯,热本搅拌机,和尘埃收集器。常温材料保存在低温容器最初是美联储在输送机和斗式提升机通过释放冷水供应阀门在批量混合沥青的植物。它传输的材料干燥器,在那里他们被加热,然后晒干。排气管和尘埃收集器负责删除从干燥机排气不良的尘埃。加热和加工总量是由热电梯筛选部分,不同大小的颗粒的处理和保存在热箱(临时存储)。必要时,热箱打开调节卷到重盒子。骨料随后沉积在叶片式洗矿机或混合槽与适当的填充率。 The fully prepared asphalt is transported out from the mixing chamber for distribution. The dataset has been made in a way that first all normal and natural values of these sensors were collected up to 10,000 values and then external inference signals were added to each sensor values and recorded values up to 10,000.
4.2。预处理
预处理在编码数据的机器学习是一个过程,以便它可以被计算机读取数值状态。使用数据预处理方法,产物创建标准化/从原始数据标准化,包括没有null值和许多更多。任何计算机视觉算法开发或工作需要使用机器学习的数据准备和深度的学习。的一些预处理在数据集给出如下。
4.2.1。准备替换空值
在数据集,一些特征值的失踪有需要一些预处理因为机器学习模型不使用null值。为了克服这个问题,null值的平均值替换那一行,然后取代。
4.2.2。归一化
标准化意味着缩减特性的值。预处理的方法称为“功能扩展”利用规范化数据收集。如果某些数据集是完全被别人占领,那么将忽略先前忽略数据机器学习模型。在这种情况下,数据反映出不同的特征。
4.3。机器学习模型
机器学习是一种数据分析技术,自动化建设的分析模型。它是人工智能的一个分支,它取决于算法可以从输入、理解趋势,做出决定或小用户干预。机器学习机器学习已经不像过去,由于医疗技术的进步。它促使模式检测,认为电脑将学习没有被训练去做的任务。在这个研究中,一些著名的机器学习模型。让我们有一个简短的讨论。
4.3.1。支持向量机
支持向量机是一种分类器来自Vapnik统计学习理论,引入Chervonenks波沙,1992年Vapnik解决二元分类问题。然后他们扩展到非线性回归问题。从实际价值假说,二元分类。SVM曲调解决方案基于优化理论。最简单的SVM模型是找到最大利润超平面的选择kernel-induced特征空间。支持向量机也是一个人口分类算法。支持向量机是基于决定飞机的概念,它定义了决策边界(如前所述)。图1显示了支持向量机算法。
SVM使用核函数,发现之间的线性超平面类的最大利润。图2说明了数据点(即支持向量)属于两个不同的类(红色和蓝色)分别使用完整的边缘判断边界。
4.3.2。 - - - - - -最近邻算法
- - - - - -最近邻算法的那种安排方程用于识别的任务。如图3,所有情况下都存储在 - - - - - -最近的邻居,然后分组基于亲密估计是可用的。很多选择的邻居团体优先在资讯新出现的表征方法。在其最知名的类 - - - - - -最近的邻居接收。当有无限数量的措施,最好的描述是实现的估计设置足够大,限制增加完善。然而,代表最近的邻居的数量。附近的邻居的数量是最重要的因素。如果类的数量是2,几乎总是奇数。测量被视为最近邻计算时 。这是最简单的场景。假设P1的阶段预计象征。首先,定位最近的突出P1,然后最直接的方式导致的标志P1。
假设P1是马克必须的阶段计划。首先,定位最近强调P1,然后描述主要基于投票的主导部分邻居。每一项投投票支持共和党,得票最多的类被认为是期望。你找到的区别主要使用距离估计如欧氏距离、汉明距离,曼哈顿距离,和闵可夫斯基距离找到最近的比较集中。以下是一些最重要的进步由资讯:(我)应保存信息在你的硬盘(2)调整的价值所需数量的邻居(3)措施之间的距离查询基于目前的例子和结果在每个数据点的数据收集(iv)插图的距离和索引适用于有组织的名单(v)安排距离和指标的排序列表从最小到最大的使用距离(升序)(vi)选择第一个从排序列表条目(七)组装的标签你选择条目(八)的均值标签可以返回如果有下降(第九)返回的模式标签,如果标签已经被分类
4.3.3。随机森林
回归和分类问题可能解决了使用一个随机森林,这是一种机器学习方法。许多分类器是用来给使用整体学习困难问题的答案。在一个随机森林方法中,每一个选择都表示为一个树。随机森林方法生成一个“森林”,然后由装袋训练或引导。装袋是一个机器学习合奏meta-algorithm,提高准确性。基于决策树的预测,(随机森林)方法决定最终结果。使用不同树木的平均产量,预测。随着树木的增长,那么结果的准确性。
随机森林算法的构建块包括决策树。决策的决策树更简单,因为它是树状的方式排列。两种类型的节点构成一个决策树,他们的决策和叶节点。决策树方法将训练数据成树枝,然后进一步分为分支。这种模式重复,直到一个节点获得一片叶子的树。没有办法进一步将叶子节点。整个过程可以看到在图4。
4.4。训练数据集
的数据集包含4966行和129列一列类标签这是正常的和攻击。正常属于每个传感器值时可以没有推断另一个额外的信号值。另一方面,攻击标签属于异常时传感器的值和其他信号。在培训期间,80%的数据用于训练数据和20%的数据用于测试。的整体架构提出下面图模型5。
我们可以看到在上面的图中,第一步是预处理的数据;预处理在数据和解释。预处理后,下一步是特征选择;有超过120的特性。在这个研究中,不同的组合特征为每个组合尝试并得到结果。在这些不同的分类器使用,适合预处理数据,最后,获得的结果是正常信号和攻击信号。
5。结果
支持向量机、资讯和决策树模型在整个项目中都是利用的训练和测试阶段。这些模型的数据集使用本地聚集,如上数据部分中描述。让我们复习每个模型的发现一次,彻底讨论它们。然而,有几个重要的评价参数来解决,下面列出。
5.1。混淆矩阵
机器学习分类性能可能使用混淆矩阵测量。使用此表,您可以看到在图6如何测试数据集上的分类模型执行的实际值已经确定。
5.1.1。精度
真阳性和假阳性,精密,衡量一个测试是多么准确。精度检查包含的样例来确定有多少假阳性。只要没有任何假阳性(FPs),该模型被认为是100%准确的。精度将会出现更糟的是当更多的FPs扔进混合。正面和负面价值的混淆矩阵需要确定一个模型的准确性。给出精确的公式如下:
5.1.2中。回忆
记得,另一方面,采用了不同的道路。而不是计数模型错了多少次,召回数量多少次模型是正确的。回忆的公式给出如下:
5.1.3。分数
当涉及到数据集, - - - - - -分数(有时称为 - - - - - -分数)表明一个模型上执行。它是用来评估二进制分类方法,这类实例为“积极”和“消极”类别。模型精度和召回相结合 - - - - - -得分。公式计算下面给出分数。
5.1.4。支持向量机的评估
作为本研究讨论的模型,用于正常的分类支持向量机模型和攻击的信号。SVM为本地数据集的混淆矩阵图7。
我们可以看到在图7,对角线值分类不够好,因为数据集是不平衡的。这个问题唯一的解决办法是平衡数据集,然后应用分类模型。平衡数据集后,SVM的混淆矩阵的结果如下:
如图8,0表示自然/正常信号和一个意味着攻击信号。从这个混淆矩阵,有重要的评价参数派生表1。
是5.1.5。评价随机森林
在这项研究中,使用三个不同的模型识别的信号攻击和自然。所以,随机森林的混淆矩阵也计算检查模型的性能。首先,数据集是不平衡的结果不够好,可以看到在图9。
可以看到在上面的图中,结果是坏的,所有的数据都是由随机森林分类错误的,这是因为一个不平衡的数据集。平衡数据集之后,概括和分类的结果变得足够好信号,可以看到在图10。
其余的评价参数都来源于随机森林是下面提到的混淆矩阵表2,包括精度,记得,分数,准确性分数。
5.1.6。然而,评估
第三个和最后一个模型用于自然信号的分类和攻击信号资讯也是一个好的机器学习中分类器,在这个研究中,然而,显示良好的精度比其他模型,图中可以看到11混淆矩阵。
同时,资讯的分类生成报告如表所示3。
5.1.7。模型的比较
结果中可以看到,最好的泛化模型上看不见的数据资讯具有89%的准确率与其他模型相比,支持向量机和随机森林的准确性为74%和70%,分别。图12显示了不同模型之间的比较。
6。结论
在本研究的研究中,有三种机器学习方法:SVM(我),(2)资讯,和(3)随机森林分类器来识别异常检测和网络攻击的风险的基础上,训练数据集在当地完成沥青加强SCADA系统的安全框架。资讯分类器最大的结果,有89%的准确度,而支持向量机和随机森林得到74%和70%的准确率,分别。在未来,这些算法可以用来评估不同的数据集,其中包括相关的SCADA系统。也可以检查其他机器学习模型使用不同的设置设置和数据集。
数据可用性
所使用的数据集和分析在当前研究当地的沥青工厂,不供公共使用的公司不公布其网络数据的义务保密法律、用户隐私的限制。
的利益冲突
作者宣称没有利益冲突。