文摘

在过去的几年,水质受到各种污染物。因此,建模和预测水质已成为非常重要的控制水污染。在这个工作中,开发先进的人工智能(AI)算法来预测水质指数(水质指数)和水质分类(WQC)。水质指数预测的人工神经网络模型,即非线性自回归神经网络(NARNET)和短期记忆(LSTM)学习算法,开发了。此外,三个机器学习算法,即支持向量机(SVM), - - - - - -最近邻的事例),和朴素贝叶斯,已经使用了WQC预测。使用数据集有7个重要参数,开发模型基于一些统计参数进行评估。结果表明,该模型能准确地预测水质指数和分类根据水质优越的鲁棒性。预测结果表明,NARNET模型表现略优于LSTM水质指数的预测价值和SVM算法取得了WQC预测的准确性(97.01%)最高。此外,NARNET和LSTM模型取得了类似的准确性测试阶段回归系数的微小差异( )。这种承诺的研究可以对水管理作出了重大贡献。

1。介绍

水是生命的最重要的资源,关键支持大多数现有的生物和人类的生活。生物需要水有足够的质量,继续他们的生活。有一定的污染,水物种能容忍的极限。超过这些限制影响这些生物的存在,威胁到他们的生命。

大多数环境水体如河流,湖泊和溪流有具体的质量标准,表明其质量。此外,水对其他应用程序/用法拥有他们的规格标准。例如,灌溉用水必须既不太盐也不含有有毒物质,可以被转移到植物或土壤,从而破坏生态系统。水质为工业用途还需要根据特定的工业过程不同的属性。一些低价的淡水资源,如地面和地表水,水资源是自然的。然而,这些资源可以被人类污染/工业活动和其他自然过程。

因此,工业快速发展促使水质以令人不安的速度的衰减。此外,基础设施,缺乏公众意识的情况下,和更少的卫生品质,严重影响饮用水的质量(1]。事实上,污染饮用水的后果是如此危险,会严重影响健康,环境,和基础设施。根据联合国(UN)的报告,每年有150万人死于因为受污染的水力驱动的疾病。在发展中国家,宣布,80%的健康问题是由被污染的水引起的。五百万人死亡和25亿年疾病每年报告(2]。这样一个死亡率高于死亡事故,造成犯罪,恐怖袭击3]。

因此,它是非常重要的建议新方法来分析和,如果可能的话,来预测水质(WQ)。建议考虑预测的时间维度WQ模式,确保监测季节性变化的WQ (4]。然而,使用一种特殊变异的模型预测WQ一起资助更好的结果比使用单一模型(5- - - - - -7]。有几种方法提出的预测和建模WQ。这些方法包括统计方法、可视化建模、算法,分析和预测算法。为了确定不同的水质参数之间的相关性和关系,多元统计技术已经使用(4]。地质统计学方法被用于过渡概率,多元插值,回归分析(5]。

大量人口的增加,工业革命,化肥和农药的使用导致严重影响WQ环境(8,9]。因此,在模型预测的WQ水污染监测有很大的帮助。

目前,两个主要类型的建模和预测水质:机制——和non-mechanism-oriented模型。机理模型相对复杂;它使用先进的模拟WQ系统结构数据,因此,它被认为是一个多功能的模型可用于水体。此外,Streeter-Phelos (s p)模型中,最早的WQ仿真模型,已被广泛应用。

之后,一些国家已经开发出各种各样的WQ模型包括定性模型(10)和WASP模型(11),已得到广泛的使用在模拟河流的水质。其次是沃伦和巴赫(12)建议使用MIKE21河口设计系统模型,沿海水域和海洋。

海耶斯et al。13)配对的两个模型为提高下游的水的质量,也就是说,静态二维水库溶解氧模型(DORM-II)和日常规模优化调度模型。

使用环境流体动力学代码(EFDC),开发了一个二维数值模型来模拟不同河流的水环境(14]。这是基于点之间的距离和时间间隔15]。

另一项研究是由巴都尔和Maktav16]预测WQ湖联欢晚会(土耳其)使用卫星图像融合基于主成分分析(PCA)方法。Jaloree et al。17]试图预测WQ的纳尔马达河有5个WQ指标使用决策树模型。另一项研究表明,使用深度双向堆叠简单的周期性单元(Bi-S-SRU) [18)设计的精确预测方案的WQ聪明的海水养殖。

廖和太阳19)开发了一个模型来预测中国的巢湖的WQ配对安和决策树算法。燕和钱20.)提出了一个亲和力传播聚类模型基于最小二乘支持向量机(AP-LSSVM)。这个模型是高度敏感的职位空缺。Solanki et al。21)分析和预测水的化学特征值,尤其是溶解氧和pH值使用深度学习网络模型,据报道,展示更准确的结果与基于监督学习技术。李等人。22)开发了一个新的混合模型使用神经网络和马尔可夫链的方法。这个模型有助于预测溶解氧,主要衡量WQ (23]。汗,看(24)包括溶解氧、叶绿素、电导率和浊度在发达WQ使用人工神经网络(ANN)模型。燕et al。25)提出了遗传算法(GA)和粒子群优化(PSO)算法来提高反向传播(BP)神经网络预测氧气要求在湖中。一个增强的报道了预测结果的准确性。

几项研究已经执行模型和预测水质使用不同的ANN模型。这些研究已经批准使用ANN应用程序预测的可行性和有效性的饮用水的质量。

目前,研究者大多强调加强水质预测的适用性和可靠性/建模通过使用各种新技术,如模糊逻辑、随机,安,更深的学习26,27]。

戴尔et al。28)提出了四种机器学习算法,即支持向量机(SVM),神经网络(NN),深层神经网络 - - - - - -最近的邻居(资讯),对水质的预测。使用单一的前馈神经网络对水质进行分类,包括25个参数作为输入参数(29日]。

Rankovićet al。30.]估计溶解氧(做)利用ANN模型。Gazzaz et al。31日)估计,水质指数利用ANN模型,以及物联网技术(物联网)应用于收集数据集从水资源。Abyaneh [32)应用机器学习方法像安和回归预测化学需氧量(COD)。Sakizadeh [33)与贝叶斯正规化安使用估计水质指数(水质指数)。然而,径向基函数(RBF),一种ANN模型,用于水质的预测和分类34,35]。

此外,据报道,深度学习方法显示,预测高性能WQ相比传统的方法。Marir et al。36)开发了一个模型来找出不寻常的行为从大规模网络流量数据。在深入学习算法用于提取特征,多层集成支持向量机模型用于分类。Fadlullah et al。37可视化一个半球深度学习结构结合深卷积神经网络和深刻的信念网络。

分析和预测的WQ地下水,不同的算法包括安,贝叶斯神经网络、自适应neurofuzzy [38)、决策支持系统(DSS)和自回归移动平均(ARMA)应用了39]。然而,这些模仿模型有一定的局限性。

然而,当前的研究的贡献可以概括如下:(我)发展高效先进的人工智能模型预测水质指数(水质指数)基于人工神经网络和深刻的学习算法(2)应用一些机器学习模型,即支持向量机(SVM), - - - - - -近邻的事例),朴素贝叶斯算法,预测的水质分类(WQC)。

高效的开发模型可以推广和使用预测水污染过程将帮助决策者在正确的时间做出正确的决定。

2。材料和方法

1显示本研究提出的方法的。

2.1。数据集

在这项研究中使用的数据集是来自某些历史地点在印度。它包含了1679个样本来自不同的印度国家从2005年到2014年期间。数据集有7个重要参数,即溶解氧(做)、pH、电导率、生化需氧量(BOD)、硝酸盐、粪大肠杆菌、总大肠杆菌。印度政府,以确保收集的数据提供的饮用水的质量。这个数据集从Kaggle获得https://www.kaggle.com/anbarivan/indian-water-quality-data

2.2。数据预处理

在数据分析处理阶段是非常重要的,提高数据质量。在这个阶段,水质指数已经从最重要的计算参数的数据集。然后,水样本已分类的基础上,水质指数的值。获得很高的精确性, - - - - - -得分方法用作数据标准化技术。

2.2.1。水质指数计算

测量水质,水质指数是用来计算使用各种参数显著影响WQ (40- - - - - -42]。在这项研究中,发布的数据集被认为是为了测试该模型,和七个重要的水质参数。水质指数已经使用以下公式计算: 地点: 是参数包含在水质指数计算的总数吗 每个参数的质量评定量表吗 计算方程(2)以下, 是每个参数的单位重量计算方程(3)。 地点: 参数的测量值是 在水样进行测试 参数的理想价值吗 除了在纯水(0为所有参数 ), 是推荐的标准参数的价值吗 (如表所示1)。 在哪里 是比例常数,可以计算如下:

23代表每个参数的单位重量和WQC,分别。

2.2.2。 - - - - - -分数归一化法

归一化是一种简化计算。这是一个维表达式转化为无量纲表达式并成为一个标量。 - - - - - -分数归一化(或标准化分数)是使用规范化参数归一化法通过使用均值(μ)和标准差(σ)值的测试数据。它可以计算如下: 在哪里 参数的测量值吗 在测试样品。

2.3。预测水质指数

为此,ANN模型,即非线性自回归神经网络(NARNET)和短期记忆(LSTM)学习算法,用于水质指数的预测。

2.3.1。人工神经网络(ANN)模型

一般来说,神经网络(NN)模型是非常强大的机器学习算法用于时间序列预测不同的工程应用。ANN模型已经由一个输入层、隐藏层/ s,和一个输出层。每个隐层神经元有重量和偏见参数管理。传输的数据隐层到输出层的激活函数。学习算法用于选择神经网络框架内的权重。重量的选择是基于最低性能等措施均方误差(MSE)。

NARNET模型是一个非常受欢迎的多层前馈网络。它开始猜初始权重值,然后使用实际数据更新。因此,有一些随机性在预测过程中执行的神经网络模型。网络经常训练多次初始化,使用不同的随机值,结果取平均值。在NARNET模型中,隐藏层和节点的数量必须提前确认。图2与多个输入和显示NARNET模型方案4隐藏层(适合大部分研究数据集)。方程(6)描述了NARNET时间序列模型。

在哪里 时间序列数据的值是在时间吗 对于使用 系列的观测值。这个函数 用于优化网络权值和神经元的偏见。最后, 从模型中获得的误差在时间吗

在这部作品中,NARNET模型预测水质指数了。NARNET模型是一个时间序列模型,用于预测平稳时间序列与其它ANN模型,如神经网络模型。水质指数参数的形式似乎时间序列;因此,NARNET模型提出了预测水质指数。表4显示了开发模型的重要参数。图3代表发达NARNET模型的拓扑结构。

2.3.2。深层神经网络模型(款)

款模型是一种前馈神经网络算法,这是一个深度学习的基本技术。款由3级别的节点,每个节点是一个非线性函数,除了输入节点。款提出了反向传播技术监督学习。在这项工作中,水质指数模型是使用款开发算法和简单款与拟议的模型。这个模型包括以下参数和功能:偏差( ),输入( ),输出( ),体重( ),计算函数( ),和激活函数 款的神经元结构模型示意图如图45。每一个神经元在款采用以下方程。

递归神经网络(RNN)是一种深度学习技术用于不同的领域,如计算机视觉、自然语言处理、模式识别、医学图像诊断。相比不同饲料ann, RNN方向控制回路,使前面的状态存储,召回,并将其添加到当前输出。其中一个最强大的RNN算法用于预测时间序列数据是LSTM模型。

短期记忆(LSTM)模型,深入学习算法,适合估计时间序列数据只要有一个随机的时间步。激活函数用于LSTM模型是一个物流乙状结肠。提供忘记打开门和输入门关闭,记忆细胞不断提醒第一项,从而解决典型RNN的问题(44]。RNN模型的公式如下:

在哪里 是神经网络的隐层的输入训练数据 输出层为代表 然而, 神经细胞的重量和矩阵,分别。RNN模型是用于创建LSTM模型计算过程。LSTM包含三个重要的参数,即输入门,忘记门,门输出。公式用于计算LSTM模型如下: 地点:

, , :分别输入,忘记,盖茨和输出

:数量的隐藏层

:物流乙状结肠函数用于将训练数据从一个隐层到输出门

:加权神经网络

内部存储单元是用来计算在隐藏层

的内存

使用一个隐藏层的输出状态源于新的记忆

是下标代表输入、忘记和输出盖茨,分别吗

:输入训练数据

, :神经网络的权向量

:在神经网络偏差向量

执行LSTM利用MATLAB分析。在整个LSTM层,23个变量是开放的。我们只是设置单位,激活函数,返回序列和辍学。图5说明了LSTM的体系结构,提出了LSTM模型的重要参数表5

2.4。水质预测分类

在本节中,一些机器学习算法,即支持向量机(SVM), - - - - - -最近邻(资讯),和朴素贝叶斯用来预测水质分类。

2.4.1。支持向量机(SVM)模型

支持向量机模型是在1995年开发的科琳娜科尔特斯和Vapnik。它有几个独特的好处在解决小样本、非线性和高维模式识别。它可以扩展到函数模拟的其他机器学习问题。它使用超平面单独的输入向量的点和发现所需的系数。最好的超平面是与最大的利润,这是超平面之间的距离和最近的输入对象。超平面称为中定义的输入点支持向量。在这部作品中,随着高斯径向基函数线性支持向量机模型(方程(17)用于分类测试水样基于其质量。 在哪里 代表的特征向量输入数据集和 是两者之间的平方欧氏距离特性输入。的 是一个免费的参数。

2.4.2。 - - - - - -最近邻(事例)模型

事例的算法是一个基本的分类和回归方法。它是用于查找 值接近值的训练数据集。大多数这些值属于某个类,因此,可以将测试的数据。的 值是用来找到最接近的点特征向量,和的值应该是唯一的。下面的欧几里得距离函数的表达式(Di)都可以使用。 在哪里 , , , 对输入数据的变量。

2.4.3。朴素贝叶斯模型

贝叶斯方法使用概率统计的知识来预测和分类的数据集。贝叶斯算法结合先验和后验概率,避免主管的偏差和过度拟合现象,利用样本信息。

这个朴素贝叶斯分类算法基于贝叶斯定理的一种和特征的独立性的假设条件。属性被认为是有条件地时相互独立的目标值。这种方法极大地简化了复杂的贝叶斯方法。

在贝叶斯分析中,一个事件的概率给定一个事件的概率是不一样的 鉴于 在方程(18)。

假设 是特征向量和WQC数据集的类,分别为贝叶斯方程可以表示如下: 在哪里 是一个先验概率代表WQC数据集的特征向量和 是类的先验概率WQC数据集。

2.5。性能测量

统计分析,即均方误差(MSE),被用来评估发达的鲁棒性模型来预测水质指数。然而,准确性,特异性、灵敏度、精度、和 - - - - - -分数评价矩阵被用来评估分类模型来预测WQC开发。使用统计参数定义如下:(一)均方误差(MSE) 在哪里 分别是预测和观察到的反应,然后呢 是变量的总数。(b)精度 (c)特异性 (d)灵敏度 (e)精度 (f) - - - - - -分数 在哪里 , , , 是真正的积极的,真正的负面,假阳性和假阴性。

2.6。相关分析

皮尔逊相关系数的方法应用于分析的重要参数之间的相关性的预测数据集用于QWI值。

地点:

:皮尔逊相关系数的方法

:输入值的第一组训练数据

:输入值的第二组训练数据

:输入变量的总数

2.7。实验装置

预测的实验都是在特定的环境中进行(MATLAB 2018)。使用系统仿真已经完成与i5处理器和4 GB RAM过程所需的所有任务。

3所示。结果与讨论

验证了模型的训练数据集分为70%和30%测试子集。而安和LSTM模型被用来预测水质指数,支持向量机,然而,朴素贝叶斯用于水质分类预测。

3.1。预测的水质指数

NARNET模型,12个隐藏层,显示出良好的性能预测水质指数的值。正如前面提出的,它具有以下特点:1:8数量的延误和12个数量的时代。然而,开发了LSTM模型隐藏的总数为200层,150最大数量的时代,和延迟的(1、3、4、7)。

6总结了发达的性能参数模型预测水质指数,尽管LSTM的预测精度的测试数据略好于训练数据。此外,LSTM模型,在一般情况下,显示一个稍微更好的性能比NARNET模型根据均方误差值。然而,基于 价值,NARNET模型已经显示出更好的性能。一般来说,两种模型展示了一个很好的预测水质指数的值

6说明了直方图NARNET模型的误差。直方图度量用于查找错误目标值和预测值之间的训练和测试数据集。总误差范围分为20个小箱子,在那里y设在指位于某一本样本的数量。图7显示直方图度量和意味着错误LSTM模型的训练和测试阶段。平均误差和直方图指标是用来发现观测值和预测值之间的偏差的训练和测试。

数据89显示的预测价值的回归情节培训,测试,和整个数据集NARNET和LSTM模型,分别。这个情节是用来发现预测值和实际值之间的关系。情节的“目标”值是实际的数据集,而“输出”是预测NARNET和LSTM模型中获取的值。两个数字所示,有一个明确的协议( (NARNET)和 (LSMT))预测水质指数之间的价值观和测量参数的计算。这意味着发达国家的高效性能模型。

7总结了皮尔森相关系数的方法是用来预测水质指数的值。水质指数之间的相关性参数选择获得最优参数。结果显示,所有参数与水质指数参数有很强的关系。这表明这些参数对预测水的质量很重要。

3.2。水质预测的分类

本节介绍的结果分类算法用于预测WQC。表8显示了使用机器学习算法的结果。有人指出SVM算法的性能非常优越而资讯和朴素贝叶斯模型。然而,朴素贝叶斯算法显示最贫穷的性能。图10显示了WQC算法预测使用的性能。

4所示。结论

建模和预测水质环境的保护是非常重要的。开发一个模型通过使用先进的人工智能算法可以用来衡量未来水质。在这个提议的方法,先进的人工智能算法,即NARNET和LSTM模型被用来预测水质指数。此外,支持向量机等机器学习算法,然而,使用朴素贝叶斯分类的水质指数数据。提出的模型进行评估和检查一些统计参数。水质指数的预测,结果表明NARNET模型的性能略优于LSTM模型的基础上 价值。然而,支持向量机算法取得了WQC的预测精度最高的作为与资讯和朴素贝叶斯算法。检查后的健壮性和效率提出了模型预测水质指数,在未来的工作中,开发模型预测水质实施在沙特阿拉伯为不同类型的水。

数据可用性

在这项研究中使用的数据集是来自某些历史地点在印度。它包含了1679个样本来自不同的印度国家从2005年到2014年期间。数据集有7个重要参数命名的溶解氧(做)、pH、电导率、生化需氧量(BOD)、硝酸盐、粪大肠杆菌、总大肠杆菌。印度政府为了确保收集的数据提供的饮用水的质量。这个数据集从Kaggle获得https://www.kaggle.com/anbarivan/indian-water-quality-data

的利益冲突

作者宣称没有利益冲突。

作者的贡献

所有作者本文的完成作出了巨大贡献。

确认

作者扩展他们的升值Deputyship的研究与创新,在沙特阿拉伯教育部资助这个研究工作通过项目IFT20111数量。