文摘
农村地区的生活污水主要由小规模治疗治疗终端在中国。这些终端的大量和高色散使废水的化学测量时间和能源密集型的工作,进一步阻碍有效监测终端的性能。经过彻底调查136操作终端,本研究成功雇佣了两种人工神经网络(ANN)模型来预测废水总氮(TN)和鳕鱼(R2都高于0.8)通过设置一些容易检测参数,例如,pH值和电导率,作为输入。防止ANN模型被困在当地的最适条件和提高性能的模型,遗传算法(GA)和粒子群优化(PSO)引入安,分别。相比之下,ANN-PSO擅长造型TN和鳕鱼。均方根误差(RMSE)R2造型TN ANN-PSO的9.14和0.90,分别在训练阶段,11.54和0.90,分别在验证阶段。RMSE和R2造型的ANN-PSO鳕鱼是22.10和0.90,分别在训练阶段,26.57和0.85,分别在验证阶段。这是第一个研究提供性能预测模型,可用于不同的终端。两个ANN-PSO建立模型显示大量的监控终端的实际意义,尽管轻微牺牲模型的准确性造成的不同终端的异构性。
1。介绍
经济繁荣和快速增加,居民的生活水平带来了不断增长的农村生产生活污水(RDS)。据估计,在中国,每年的RDS排放达到195亿吨,约63%的城市生活污水(1]。根据大量的营养物质中包含的有机质和氮RDS,直接排放或治疗不当RDS将施加不小威胁接收水(2]。在许多发展中国家,RDS已成为农村地区污染的主要来源(3,4]。
在浙江省,RDS主要治疗小型终端处理能力从几十吨。传统的生物处理(A2O)主导的技术主流终端对其竞争优势在低建设成本和能源需求。然而,臭名昭著的一个问题2生物过程的性能很容易受周围环境的影响近年来逐渐突出(5]。定期手动取样的方法与传统的化学测试采用了集成的主要监测策略来决定一些重要的污水指标,如鳕鱼或总氮(TN),大多数地方政府和实施了几十年。然而,大量和高色散(有时,数以万计的终端分散在一个城市)的终端呈现监测工作需要时间和能源密集型的工作,需要大量的资本投资。
1.1。造型上应用ANN模型的水质
机器学习(ML)方法提供了一些潜在的替代控制或模拟目标通过例子或过去的经验(6]。其中,人工神经网络(ANN)已成为越来越受欢迎的在废水处理领域和表现出更多的优秀的造型精度非线性目标像废水水质比许多其他毫升方法(7]。例如,Abyaneh [8]发现安超越更高的准确性和充分性WWTP造型BOD和COD,能力与多元线性回归方法。此外,在研究Mahdiyah et al。9安),获得最好的性能预测精度相对于极端学习机和支持向量机方法。
安的反向传播(BP)模型是研究最多的ANN模型之一,它可以重新分配错误从输出到输入层通过迭代为了找到合适的模型参数权重和阈值。优秀的BP人工神经网络的自学习和适应性已经反映在多个领域的应用(10]。例如,和队友et al。11)使用两个BP人工神经网络模型在预测氨和总氮的去除,并演示了一个好的结果(R2> 0.98)。同样,Mandal et al。12)也用BP人工神经网络在模拟(3)删除R20.97以上的培训和验证过程。然而,利用BP人工神经网络的缺点,它往往被当地最适条件由于严重的初始化敏感往往是研究者们提出的13]。除此之外,一些的高计算复杂度和内存要求BP ANN内在算法像Levenberg-Marquardt也应该适当的关注14]。
1.2。应用混合安在水质模型
进化算法,粒子群优化(PSO)和遗传算法(GA),通常引入安作为优化策略(15]。算法的原理是在全球范围内搜索解空间,以选择最彬彬有礼的粒子(16]。边缘的低计算体积,记忆能力强的记住每个粒子的最佳位置,和更高的收敛特性,因为它只取决于粒子速度搜索工作(15,17]。改进预测精度的PSO-based混合模型已经被记载在许多先前的研究。梅等。18)算法引入安electro-oxidation系统中,实现了准确的预测R20.99和0.9944的COD去除率和能源消费总量,分别。Khajeh et al。19)验证了混合模型,ANN-PSO,健壮的造型锰(II)和钴(II)在吸附去除效率(R2是0.942和0.944锰(II)和钴(II) alt,分别)。遗传算法是一个metaheuristic算法启发从自然选择的过程20.]。它适用于寻找一个和排他的目标并获得令人满意的性能和降低复杂性安(15]。ANN-GA模型也表明优越比安在各个领域。自由的研究等。21)表明,简称ANFIS模型(自适应神经模糊推理系统)只显示良好的仿真模型的训练阶段降水在冬季和春季,和模型的准确性验证阶段很穷。ANFIS-GA弥补这些缺点,达到优化的目的。Jalalkamali [22)报道,ANFIS-PSO和ANFIS-GA都表现出优秀的时空模拟地下水质量,并且比ANFIS-GA ANFIS-PSO模型取得了更好的性能。
1.3。当前情况下应用于造型的局限性RDS终端的废水
虽然许多成功安病例应用于预测污水WWTP质量,两个重要的缺点是值得突出在这些情况下延长RDS:(1)数据库建立的模型主要来自于单个目标的历史数据,就像一个特定的WWTP。异构终端之间将不可避免地大挑战的可用性模型(建立一个特殊的终端)其他终端,同时构建模型为每个终端成本就太高了。(2)输入包含一些困难或昂贵的参数测量。在某些情况下,甚至影响TN担任输入污水TN预测(23]。
本研究致力于找到一个普遍的,可行的,为不同的终端和负担得起的监测方法。使模型适用于尽可能多的终端,数据收集从136年操作终端。然后,安,ANN-GA和ANN-PSO模型用于这个研究来预测污水TN和鳕鱼,通过设置一些很容易被低成本的pH值和电导率等作为输入参数。
2。方法和材料
2.1。调查农村生活污水的终端
县位于湖州市长兴,浙江省,面积共1430平方。公里。亚热带季风性气候,年平均温度从14°C∼22°C。根据官方的数据,有超过027万人生活在农村地区。这个地区的生活污水主要是通过小规模的治疗2O处理终端。全面掌握当前的性能和准备下一轮终端升级,一个调查从3月到4月,2018年。总共有1362O农村污水处理终端进行调查。
2.2。水质分析和选择的输入
入渗和废水水样仔细收集在每个终端和存储在一个−20°冰箱直到分析。NH4+- n、TP、TN和COD测定的哈希工具包(美国哈希)。电导率(INESA ddsj - 308 a,中国),pH值(美国哈希HQ11 d),和浊度(美国哈希2100 q)是衡量一个网络参数。污染物去除效率是根据以下公式计算:
显著的参数与废水TN和鳕鱼正在筛选通过IBM SPSS统计24。然后,主成分分析(PCA),减法聚类算法(SCA)和模糊c均值算法(FCM)被用于这项研究进一步确定尺寸的输入(24- - - - - -26]。最初,PCA用于确保输入和最小化的重要性引起大规模的强intercorrelated数据冗余问题。然后,SCA和FCM用于确定集群的数量和聚类中心的输出和输入,分别。最终聚类中心输入和输出都被约翰逊在罗塞塔软件算法来确定输入维度。
2.3。方法论的安,ANN-GA, ANN-PSO
2.3.1。安
图1显示了典型的古典结构安。短暂,ANN模型包含几层,并根据其独特的层次,可以分为输入神经元,隐藏和输出神经元。隐藏层,作为功能探测器中引入非线性网络,可以是单个或multiarchitecture,根据情况的需要。建设的ANN模型包括培训(输入前馈和误差反向传播)和验证。
(1)输入前馈。简化了前馈计算如下(10]:
隐藏神经元接收信号从输入神经元通过一组特定的权重、阈值和传递函数如下(10]:
再次传递给输出神经元的信号,形成最终的预测值(输出神经元),如下所示10]: 在哪里代表输入神经元的价值;代表隐藏神经元的价值;和输入神经元之间的权重吗一个我和隐藏的神经元b我,j和隐藏的神经元bj分别和输出神经元;Pj和问是隐藏的神经元的连接阈值和输出神经元,分别;F和F′意味着从输入神经元传递函数隐藏隐藏神经元和神经元输出神经元,分别。c′是废水TN或COD浓度的预测价值。最初, ,Pj, ,和问都是随机选择的值小,后者将调整反馈工作。
(2)误差反向传播。反向传播的核心在于分配错误的输出层的前层和调整参数,如体重和连接相应的阈值。反向传播的某些迭代后,错误最小化,模型将获得一个更好的健康。在这项研究中,采用Levenberg-Marquardt算法作为网络的训练函数更新之前的参数对其计算速度快和优秀的培训能力。模型,只有建立在这种情况下的均方误差(MSE)足够小10), 在哪里c′和c分别代表预测值和测量值。米是样品的数量。
(3)验证过程的模型。验证是最后重要的过程模型建立后重新测试的可靠性。后续模型应用程序只能在这种情况下进行,验证结果符合预期。
2.3.2。ANN-GA
正如上面提到的,被当地的最适条件,防止模型GA和PSO用于选择合适的初始权值和阈值对安(图2)。GA的想法是源于自然选择和遗传学的原则。它将需要优化的参数(初始权值和阈值)作为染色体。染色体高选择健身,和其他人将被基因传播取代像交叉和变异28]。据报道,GA非常擅长全局搜索,独立的初始值来达到收敛。然而,PSO相比,复杂的过程像交叉和变异会减慢GA的收敛速度15]。GA的简单方法可以使先前的研究和方法描述部分再现了他们的措辞27]:(1)安开始,获得相应的初始权重和阈值。这些参数随后形成染色体编码为二进制字符串。(2)计算每个染色体的适应度系数和保留的高适应性。(3)使用治疗其他染色体的交叉和变异。交叉算子(27]: 一个KJ和一个LJ是Kth和Lth染色体;B是随机值从0到1。变异算子(27]: 问在哪里IJ是我th我的基因th染色体;问马克斯和问最小值是基因的最大和最小QIJ;是当前迭代时间;R2是一个随机数;G马克斯最大迭代时间;和α是一个随机数字从0到1。(4)重复步骤2,直到获得染色体若干次迭代后最好的健身。染色体解码和替换的初始权值和阈值与这些优化的ANN模型。
2.3.3。ANN-PSO
PSO是一个现代启发式算法来源于自然觅食和群集的鸟或鱼(17]。算法的基础是建立在团队合作和信息共享29日]。算法将需要优化的参数(如初始权值和阈值)的粒子。每个粒子代表一个单独的解决方案,和成群的粒子显示整个解空间。单个粒子不仅是意识到自己和其他人的位置,但同时搜索解空间通过当前的速度,经验,和邻国粒子的经验16]。因此,除了快速收敛,PSO在记住粒子也有优势的最佳位置。然而,随着速度,搜索过程的关键参数,是缺乏动态调整,PSO的后果有时会导致困难的收敛性和收敛精度低(15]。以下方法PSO-ANN已经从先前的研究,和方法描述部分再现了他们的措辞27]。(1)安开始,获得相应的初始权重和阈值。这些参数随后编码到一组粒子,每个粒子得到相应的位置(ep)和速度(fp)信息(27), 在哪里h意味着空间的维数。(2)确定每个粒子的适应度(p最好的),把它比作最好的pb的历史价值。(3)评估的整体健身集团(g最好的),比较它与gb的最好的历史价值。(4)更新每个粒子的速度和位置信息由以下公式(27]: Rand1和Rand2两个统一的随机函数,然后呢h1,h2是学习速率(5)重复步骤2,直到最好的粒子健身几次迭代后得到。取代的初始权值和阈值与这些优化的ANN模型。
2.3.4。建模性能标准
均方根误差(RMSE),确定系数(R2),平均绝对百分误差(日军)和纳什sutcliffe效率系数(NSEC)四个标准来评估模型精度从不同方面30.,31日), 在哪里代表的测量值。
2.3.5。指数的贡献和敏感性分析
更好的贡献从每个输入参数在模型的描述,每个输入参数的重要性是通过随后的公式计算的角度输入神经元的权重(32), 在哪里Ci代表输入的贡献指数我;nh代表隐藏神经元的数量;代表输入变量的数量;代表输入层到隐层的重量;和ABS代表函数的绝对值。
莫里斯筛查方法是用来识别模型的感性的每个输入的角度预测结果(33]。简单地说,一个特定的输入参数的敏感性将评估价值增加或减少10%并保持其他完好无损,看到模型将如何应对变化(33), 在哪里输入b指的是原始输入值;输入个人电脑指的是比例改变原始输入值;c′是原始模型的结果;c”inputp的模型反应相应的更改c;和μ我是每个输入的敏感指数。
所有上述流程执行IBM SPSS统计24日Matlab R2017b, Excel 2016和AutoCAD 2019。
3所示。结果与讨论
3.1。农村生活污水终端的性能
七个重要水参数测量和表中列出1。事实上,北半球的平均水平3- n、TN、TP、COD浓度达到53.41 mg / L, 68.32 mg / L, 5.19 mg / L和208.92 mg / L,分别的影响可以被甚至高于一些WWTPs的污染物负荷(34]。平均NH3- n浓度非常接近平均TN浓度,这意味着在RDS氨氮在氮的形式。除此之外,从不同的终端实质性的影响之间的差异了。有差异的区域海关和稀释效应等各种因素的降雨导致这些差异。
图3显示终端对污染物去除能力相对有限。浊度的平均去除率,NH3- n、TN、TP、COD只有11.18%,16.09%,13.31%,和46.39%,分别。负这些污染物的去除效率偶尔发生在一些终端由于膨胀污泥释放等因素(35]。同样,Yu et al。36)发现约29%的RDS终端嘉兴(浙江另一个城市),在无效的操作。以下原因推测为满足性能:(1)生化反应的不稳定性;(2)相对有限的大量终端维护;(3)传统化学测量不能满足实时评估的需要,因为它需要集中时间消化污染物(37]。未能按时评估终端的性能问题会让终端陷入更糟糕的情况。每一年,地方政府必须承担巨大的财务负担,把大量的经济和人力资源转化为更多的监测。找到一个更容易和更快的监测方法是目前迫切的愿望。
3.2。选择输入参数
重要的一些关键的水参数之间的相关性在先前的研究。一些容易检测参数可以作为粗糙的代理人污染物浓度或问题在操作。例如,研究Yu et al。36]表明,电导率与TN显著相关,NH4+- n、TP和鳕鱼在入渗和废水。因此,低导电率之间的相关性和TN可能意味着下水道运输系统的泄漏。类似地,强大的浊度和参数之间的相关性被发现TN和鳕鱼(38]。研究Slaets et al。39]表明,浊度是一个可靠和具有成本效益的预测变量的线性混合模型发展到占TN。除了电导率和浊度、pH值也呈现微弱的相关性与TN和作为输入的ANN模型来预测TN (40]。图4表明,这些规则也适用于RDS的领域。废水TN RDS显示强烈的相关性和电导率的影响,污水电导率,影响氨,氨废水,废水浊度,分别与入渗pH值和弱相关,废水pH值,分别和废水浊度。废水COD的RDS展品与废水浊度相关性强,污水氨、电导率的影响,污水电导率,分别和弱相关影响氨、浊度的影响,流入的pH值,分别和废水的pH值。值得注意的是,R2TN和出水电导率之间可以达到0.80,表明氮可能主要在溶解氨形式。高R2(0.77)之间的鳕鱼和出水浊度意味着粒子污染物废水COD发挥重要作用。
相关性分析表明,ANN模型可以开发占废水TN和鳕鱼,这些很容易被参数(pH值、浊度、电导率和氨的影响和污水)作为输入。主成分分析(表的结果2)表明,第一个原则可以解释44.77%的方差,和前四个组件包含88.99%的方差。一般来说,整体的数据可以通过组件特征解释超过85%的方差(41]。SCA、FCM和约翰逊随后算法用于确定输入的维数。聚类中心的所有参数如表所示3,约翰逊算法的最终结果表明,pH值、浊度、氨浓度和电导率的影响和污水都可以作为输入。
3.3。ANN预测性能
风扇等。15]44的研究得出结论,利用ANN模型和优化污染物去除过程。在这篇评论,大多数研究使用约60%至80%的数据作为训练数据库。因此,本研究使用100终端的数据作为训练数据库(总额的73.53%),然后剩下的数据来自36个终端应用来验证模型的性能。试验和错误的方法是用于这个研究来确定隐藏神经元的数量(42,43]。因为标准的多层前馈网络有一个隐藏层已被视为普遍接近者,类似地,这项研究还配置所有模型只有一个隐层(44,45]。最终,安,ANN-GA和ANN-PSO模型都含有独特的三层。共有8个神经元,包括pH、电导率、浊度、和氨浓度的入渗和污水,设置在输入层、隐层神经元和15中设置。预设参数、权重和阈值的模型可以在表中找到4和5。
这三个模型的预测性能TN和鳕鱼中可以看到数据5和6,分别。这三个模型的预测曲线不仅获得这些终端的知识基础,但也密切捕捉真实曲线的波动趋势。如图7,线性适合ANN-PSO曲线最接近参考线精度(100%),其次是线性适合ANN-GA曲线,最后安曲线,证明ANN-PSO收益最佳的预测性能对TN和鳕鱼(27]。表6显示ANN-PSO也获得最可靠的性能模型的误差。的R2在造型、RMSE和日军ANN-PSO TN是0.90,9.14和16.19%,分别在训练,和0.90,11.54,16.79%,分别验证。鳕鱼的预测,R2、RMSE和日军ANN-PSO是0.90,22.10和34.57%,分别在训练,和0.85,26.57,22.30%,分别验证。考虑到ANN-PSO模型具有更高的R2和RMSE低于安模型、ANN-PSO模型优化后进入过度拟合和underfitting都没有。此外,本研究使用NSEC来评估模型的预测能力。从理论上讲,NSEC范围从−∞1。0表明,模型的预测性能接近测量值的均值;换句话说,总的结果是可信的,1表示完美的预测模型。NSEC是越接近1,模型精度可达(30.]。ANN-PSO NSEC的造型0.97 TN都是训练和验证和NSEC造型鳕鱼的ANN-PSO 0.89和0.84,分别用于训练和验证,显示强烈的ANN-PSO预测能力。除了精度优势,ANN-PSO显示优越的计算时间。需要ANN-PSO不到1分钟100模型收敛的迭代,同时需要ANN-GA大约6分钟来做同样的工作。
3.4。每个输入的贡献和敏感性分析
输入的贡献ANN-PSO模型计算图8。在ANN-PSO造型TN,参数之间的指数从10.16%到15.84%不等。原水浊度使得TN预测的最大贡献。虽然ANN模型常被看作是一个黑盒子,缺乏直接的机制,阐明神经元之间的相互关系,结果强烈表明,输入的贡献都像影响浊度比其他人扮演更重要的角色在ANN-PSO造型TN (32,46]。同时,ANN-PSO造型鳕鱼,输入范围从6.43%到15.00%的贡献。输入污水电导率和pH值显著参与鳕鱼的预测。
莫里斯筛选用于标识每个输入的感性ANN-PSO模型(表7)[33]。因此,感性指数(μ我)高于1意味着模型的结果表现出比相应的输入变化更剧烈的变化。因此,在ANN-PSO造型TN,只有污水和入渗pH值对模型造成更大的变化。ANN-PSO造型的鳕鱼,不仅污水和pH值的影响,还影响和废水电导率产量μ我高于1。感性的结果表明,在两个模型中,废水和入渗pH值是最合理的投入,第二个最合理的输入是影响污水电导率和北半球3- n,明智的输入是废水和入渗浊度。
3.5。优势、局限性和未来工作的建议
表8总结了一些以前的成功的研究。相比之下,R2这项研究的两个ANN-PSO模型(0.85 - 0.90)在一个相似的水平,在先前的研究(约0.70到0.99)。本研究的一个缺点在于我们的RMSE相对较高。TN和鳕鱼的大幅波动对这个问题不容忽视。例如,废水COD主要波动在10到60 mg / L在罗等人的研究。23]。相比之下,范围是放大到3 - 335 mg / L在这项研究。伟大的异质性在这些终端将不可避免地引入新错误的模型,使模型略失去边精度。然而,与先前的研究相比,两个ANN-PSO模型在本研究中都是可用于不同的终端,终端不需要历史数据,这显然节省很多的时间和精力甚至更加实用的代价牺牲一定程度的精度。本研究的另一个特殊的优势是,输入更容易获得和都可以通过测量电极(NH)3- n是衡量传统化学方法在这项研究中,但它也可以通过测量使用氨气传感电极(52])。
基于上述发现,本研究为未来的工作有以下两个建议:1。如图9,使用电极收集输入数据,实现远程在线预测基于ANN-PSO废水水质,还没有做过。2。以来极大地影响生物处理过程变量,像做有氧舱5),未来的研究可以尝试使用一些程序变量作为输入模型精度的提高。
4所示。结论
复杂的影响情况和不满意处理农村生活污水的大量终端的性能突出的迫切需要找到一种更快、更简单的污水测量。之间的显著相关性被发现一些容易检测参数(如电导率、浊度)和废水TN和鳕鱼,而触发的想法,使用这些很容易被作为输入参数来预测污水TN和鳕鱼的ANN模型。ANN模型的结果可以成功地模拟废水TN和鳕鱼R2都高于0.8。然后,使用遗传算法和PSO安两种优化策略来提高性能。相比之下,ANN-PSO收益更好的预测能力对TN和鳕鱼。R2造型上和RMSE ANN-PSO TN是0.90和9.14,分别训练,0.90和11.54,分别验证。R2造型上和RMSE ANN-PSO鳕鱼是0.90和22.10,分别训练,0.85和26.57,分别验证。贡献分析表明,影响浊度和废水电导率ANN-PSO作出最大的贡献在造型TN和鳕鱼,分别。敏感性分析表明,废水和入渗pH值是两个最明智的两个模型的输入。最后,考虑到所有的输入都可以检测到的电极,本研究还提出了一个ANN-PSO-based远程在线水质监测方法。
Abbrevations
| RDS: | 农村生活污水 |
| TN: | 总氮 |
| ML: | 机器学习 |
| 安: | 人工神经网络 |
| 英国石油公司: | 反向传播 |
| 遗传算法: | 遗传算法 |
| 算法: | 粒子群优化 |
| RMSE: | 均方根误差 |
| 日军: | 平均绝对误差百分比 |
| NSEC: | 纳什sutcliffe效率系数。 |
数据可用性
出版的数据所需的所有团队成员的许可。现在数据没有公布,稍后将提供。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
林羌族、罗Ancheng和张炎调查研究;发达的方法;写了初稿,审查和编辑文章;提供了软件;并进行数据分析和管理。王云龙调查研究;发达的方法;和监督的研究,审查和编辑这篇文章。梁志伟开发方法论;监督的研究,审查和编辑文章。 Yuan Ping performed data analysis and curation. Lin Qiang, Luo Ancheng, and Zhang Yan contributed equally to this work.
确认
这项工作主要是支持的农村综合国内废水回收技术的研究和示范,中国(2019 yfc0408803)。与此同时,该项目也由浙江省教育科学研究基金(188310 - 542122/002/013)。