文摘
土的渗透系数是岩土工程设计建设一项重要的措施。本文的目的是选择一个最高的性能和可靠的机器学习(ML)模型来预测土壤的渗透系数和量化特征重视土壤渗透系数的预测值与辅助机械上优于夏普利添加剂解释(世鹏科技电子)和部分依赖图1 d (PDP 1 d)。获得这个目的,五个单独的ML算法包括再邻居(资讯),支持向量机(SVM),光梯度提升机(LightGBM),随机森林(RF),梯度增加(GB)是用于构建毫升模型预测土壤的渗透系数。性能标准毫升模型包括相关系数R2均方根误差(RMSE),平均绝对百分误差(日军)和平均绝对误差(MAE)。最佳的性能和可靠的单一毫升模型为预测土壤的渗透系数测试数据集是梯度推进(GB)模型,它R2= 0.971,RMSE = 0.199×10−11m / s,美= 0.161×10−11m / s,日军= 0.185%。识别和量化特征重视土的渗透系数,敏感性研究使用排列重要性,沙普利(世鹏科技电子)添加剂的解释,部分依赖图1 d (PDP 1 d)执行与辅助最佳性能和可靠的ML模型GB。塑性指数、密度>含水量、液限、塑性极限>粘土含量>孔隙比是订单对渗透系数的预测值的影响。土的塑性指数和密度是第一要务土壤特性测量时评估土壤的渗透系数。
1。介绍
最基本的元素之一,治理土壤的流体性质是其渗透性。渗透率是指数量的水通过土体的相互联系的空间在一个给定的时期,它可以使用领域和实验室测量技术。土壤的渗透性是一个重要的组件在大多数土木工程项目的建设是建立在土壤、公路、隧道、水坝等(1]。土的渗透系数k是一个系数,评估容量的液体流过互联空间在土壤水力梯度从高到低价值(2]。
值得注意的是,土壤渗透系数k是土壤的一个重要属性,需要计算。事实上,土的渗透系数k是用在许多理论和实践应用。渗透系数值是用来解决各种岩土工程问题,包括边坡稳定,由于地面建筑倒塌,渗漏,渗漏。根据需要的渗透系数值有很大的差异的土壤和建筑物的使用寿命。例如,一个高价值的土壤渗透系数为过滤层和排水建设是必要的,但路基和水坝的建设需要一个低价值的土壤渗透系数。一般来说,许多因素如密度、空隙(大小和类型),粒度分布(例如,粘土含量),和界限含水量影响渗透系数的值3]。
出于这个原因,一些调查试图建立经验渗透系数和影响变量之间的相关性(4- - - - - -6]。一些研究者估计土壤渗透性基于体积密度,颗粒大小和颗粒形状(7,8]。尽管确定土壤渗透系数是非常重要的,但是因为这个过程非常复杂,耗时和昂贵的,关于这一主题的研究文章的数量仍然是有限的。因此,仍然没有确切的公式来预测土壤的渗透系数。
由于人工智能技术在近几十年的快速发展,人工智能(AI)或机器学习(ML)模型已经广泛用于许多地方生活(9,10)和许多复杂土木工程学科,比如结构工程(11- - - - - -13),岩土工程(9,14- - - - - -18),和材料科学19,20.]。在岩土工程中,软计算机方法如模糊逻辑、人工神经网络(ANN)和支持向量机(SVM)技术上目前正在利用人工预测土壤抗压和抗剪强度,承载能力的基础,和其他土壤属性(16,18,21]。Gajurel et al。22]提出再邻居(资讯)和支持向量机(SVM)估计的无侧限抗压强度。高et al。23)使用资讯模型成功预测混凝土的抗压强度与粉煤灰混合陶瓷和浪费。Najafzadeh和Oliveto24)开发了支持向量机(SVM),多元自适应回归样条(火星),(RF)和随机森林模型估计密度弗劳德数的方法。Najafzadeh和Niazmardi25]SVM模型用于评估水质参数。关丽珍Tran [20.)提出了梯度增加(GB)模型预测氯离子扩散系数。此外,高性能的GB模型是用来预测固化土的无侧限抗压强度钙基添加剂混合处理(26]。Shariati et al。27]提出极端学习机(ELM)和遗传编程(GP)为设计核心筒复合地板系统温度升高。榆树被成功应用于预测轻质泡沫混凝土的抗压强度(28]。最近,梁等。29日)提出了射频光模型和梯度提升机(LightGBM)模型预测混凝土的蠕变行为。Tran和做30.)使用光梯度提高机(LightGBM)模型预测加州承载比(CBR)的固化土。此外,自2016年以来,微软公司创造了光梯度提升机(LightGBM),一个有效的梯度提升框架实现。总的来说,毫升的众多应用模型是土木工程领域的表现。软计算机模型(AI或ML)被发现是预测土壤的渗透系数的好工具。特别是流行算法如GB,射频,支持向量机,然而,LightGBM通常用于开发毫升模型。
关于毫升预测土壤渗透系数的方法,进行了一些调查。例如,辛格et al。31日]表明,受欢迎的ML算法随机森林(RF)可以用于预测含有粉煤灰稳定土的渗透系数;毫升的性能预测是确定系数的评估R2= 0.878。在辛格的调查等。31日),射频模型的输入变量是直接来源于落差渗透试验(32)等测量头(cm)和时间(分钟)。这个毫升模型需要输入变量来自渗透系数的测量;因此,在实际工程应用这个模型是有限的。其他毫升模型由Pham et al。33),范教授等。34Bui et al . (),35],Ahmad et al。36]提出了预测土壤的渗透系数与六个输入变量包括含水量、孔隙比、特定的密度,液限、塑性极限,和粘土含量,包括简单的可衡量的界限含水量等土壤属性(液限、塑性极限和含水量)和粒度分布(粘土含量)。基于84年的数据样本,范教授等。33)透露,RF模型可以预测土壤的渗透系数等性能指标R2= 0.724,RMSE = 0.840×10−11m / s,美= 0.490×10−11m / s。使用相同数量的数据,范教授等。34)改善毫升的性能模型预测土壤的渗透系数R2= 0.766,RMSE = 0.810×10−11m / s,美= 0.450×10−11m / s。提出混合毫升模型ANN-TLBO(安和metaheuristic算法教学上优于优化(TLBO)), Bui et al。35)提高了ML性能预测土壤的渗透系数R2= 0.819,RMSE = 0.294×10−11m / s,美= 0.231×10−11m / s。最近,Ahmad et al。36]用毫升高斯过程回归模型(GPR)模型根据皮尔逊通用内核(库尔迪斯爱国联盟)预测土壤的渗透系数与更高的性能R2= 0.951,RMSE = 0.620×10−11m / s,美= 0.370×10−11m / s。使用输入变量作为简单测量土壤的性质使土壤的渗透系数的预测毫升模型更容易访问的工程师。然而,随机性不考虑在这些毫升模型提出了33- - - - - -36]。事实上,这些毫升模型的可靠性没有验证的验证技术如K-fold交叉验证或蒙特卡罗模拟(MCS),应该应用于提高性能和可靠性的ML模式18,37]。K-fold交叉验证(CV)和蒙特卡罗模拟法(MCS)可以用来验证毫升的可预测性模型,以证实他们的可靠性。蒙特卡罗模拟,计算随机重复而占输入空间变异性,然后计算和相关的输出使用ML模式38]。尽管MCS计算需要更长的时间比K-fold简历计算,MCS发现比K-fold更可靠的结果,由于MCS较小的偏差,这是支持的研究Fonseca-Delgado和Gomez-Gil39]。此外,输入变量的影响的预测土壤渗透系数不是量化的调查33- - - - - -35]。除了Ahmad et al。36),作者显示每个输入变量的相对重要性依次为:含水量>孔隙比>液限>塑性极限>粘土含量>比重,但功能重要性的量化并没有执行。此外,毫升模型的可靠性和性能影响强烈的或特性分析的重要性。改善毫升和人工智能模型的理解,夏普利添加剂解释(世鹏科技电子)开发40]。世鹏科技电子游戏基于理论方法计算每个特性的夏普利值,衡量一个特性对预测的贡献值(41]。它定量地显示每个特征如何影响预期值和平均特性的重要性。此外,部分依赖情节(PDP) 1 d的方法,最常用的ML技术,可能有利于计算每个特性的影响预测价值(42]。
因此,本文的目的是选择一个最高的性能和可靠的ML模型来预测土壤的渗透系数和量化特征重视土壤渗透系数的预测值与辅助机械上优于世鹏科技电子和PDP 1 d。显然,使用metaheuristic算法增加了培训过程的时间消耗在构建毫升模型。为了提高毫升的性能和可靠性模型和简化毫升的训练过程模型,五个受欢迎的单一的ML算法包括再邻居(资讯),支持向量机(SVM),光梯度提升机(LightGBM),随机森林(RF),梯度增加(GB)提出了研究。算法可在开源库Sklearn [43]。毫升模型的性能和可靠性将由四个受欢迎的指标:评估确定系数(R2),均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分比误差(日军)验证的蒙特卡罗模拟(MCS)验证技术。特别是,将生成一个Excel文件从最高的性能和可靠的ML模型使ML模型更平易近人的工程师来估计土壤的渗透系数。
获得本研究的目的,需要创建一个数据库培训ML算法提出了研究。数据库生成从范教授的调查等。34]84个数据样本和6个输入变量例如简单测量土壤的性质如含水量、孔隙比、的界限含水量(液限和塑限),粒度分布(粘土含量)和比重;然而,阿太堡限制提出了“可塑性指数”在这个数据库添加七分之一输入变量试图提高毫升的性能模型。
2。数据库描述和分析
数据库包含84个样本和6个输入变量,如密度、体积含量、液限,粘土含量、孔隙比、塑性极限,从文献收集34]。为了提高毫升的性能模型,补充输入变量“塑性指数=液体limit-plastic限制”添加七分之一输入变量。
简单的输入和输出变量之间的关系如图1的回归线有相同的方向和价值皮尔逊相关性R。灰色地区反映了线性回归拟合线的95%置信区间。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
皮尔森相关系数度量两个变量的线性关系和运行(−1.0;1.0]。分散分布的图在图1描述线性输入和输出变量之间的相互作用。本节评估的关系和分布数据的大小减少毫升的维度模型和提高ML性能。
表1描述了所有变量的分布值包括输入和输出。粘土浓度范围从4到64%(平均值24.694%,中值为12.6%)。含水量在99.9%和15.09之间波动(平均值34.228%,中值为21.135%)。液限范围在18.9%和88.93%之间(平均值37.268%,中值为27.350%)。塑料的百分比允许范围从12.2到54.8%(平均值22.214%,中值为17.415%)。孔隙比可能范围从2.58到2.634%(平均值0.968%,中值为2.634%)。密度2.58克/厘米不等32.74克/厘米3,硅灰的内容价值关注2.675克/厘米3,导致中间值为2.68克/厘米3。渗透系数范围从0.3 - 11 m / s, 7.1 - 11 m / s,平均值是1.45 - 11 m / s, 0.64 - 11 m / s的中值,这意味着系数的大小是集中在低端。
输入和输出参数之间的相关性如图2。皮尔森等级相关系数(r年代)之间的每个变量配对表所示2是用于创建这张地图。在这张地图,简单而清楚地显示所有参数之间的相关性,用不同的颜色代表不同的相关值。
图2显示变量相关性的细节,包括输入和输出。皮尔森相关系数矩阵的输入和输出变量之间(图2)表明,几乎所有的输入因素和很强的相关性高的输出变量的土壤渗透系数值的范围从0.48到0.0.83。最大的含水量之间的关联系数和渗透系数,和孔隙比与渗透系数之间的相关性值为0.83,表明含水量和孔隙比越高,渗透系数越高。在七个输入变量之间相关性值,最大相关值是含水量和孔隙比之间的关系。毫升模型训练在这项研究中使用七个指定的输入变量。在特征选择,皮尔森相关系数是一个首选的方法(44]。皮尔森相关矩阵显示输入的数量可以被认为是在构建毫升模型。因此,7毫升发展模型的变量可能是有用的。
3所示。机器学习方法
3.1。支持向量机算法(SVM)
议会和Vapnik45)发明了SVM算法,这是一个监督人工智能模型。它经常被用来评估数据,找出什么形式。这个算法被广泛用于预测和回报。参数的支持向量机算法有很多;解决了使用优化算法,确定密切值在实验规模限制的值。支持向量机更令人钦佩的智力思考,因为它的好处。
在支持向量机算法,估计函数定义如下: 在哪里φ(x)是高维特征空间转换的输入向量x;一个和c权重向量和一个阈值,分别由下列正规化风险最小化计算功能: 在哪里P是错误的惩罚参数,e我所需的值,米是观察,的数量 是经验主义错误, 是所谓的正则化项。
的详细信息和计算提出了支持向量机算法的程序(45]。
3.2。再邻居(资讯)
建议的小说将异构数据集成到资讯的机制框架,它由两个关键组件:回归权重方法和概率投票图,是这种方法的主要贡献。每个数据源的权重是由回归方法,考虑其功能和链接预测比例的意义。投票方法使统计推断更容易通过结合函数类的提名k最亲密的邻居和生产预测得分匹配信心的排序列表(46]。一个基因也可以分为许多函数类中使用这种方法。当地回归技术与一个或两个数据源执行速度更快,可能是因为更多的模型的灵活性,而逻辑回归方法更有弹性、准确。
任何数据源的预测能力,然而,可能会有类之间,以及它们的重量。大量的训练样本是现在技术的优势之一;然而,一个明显的缺点是缺乏描述性的权力。单层/一个模型策略截然相反。对于人口众多的类,一个中间的方法是创建职业专用模型。回归模型可以相当不稳定,功能是高度相关的。开发更健壮的模型、原则等组件分解或条件回归技术,如套索回归或可能使用岭回归。采用更复杂的回归模型是另一个可能的扩张。
3.3。光梯度增加机器算法(LightGBM)
LightGBM树型陡峭的框架,提高模型效率同时降低内存使用。
Gradient-Based单面抽样(高斯)和独家功能捆绑(EFB),两个前沿方法,使用的LightGBM算法加速计算,同时保留优秀的准确性。
3.3.1。基于使用梯度LightGBM样本
各种数据格式扮演不同的角色在决定如何增强信息,信息收集与更高水平的贡献。保持信息的准确性,党卫军随机存储在斜坡高的情况下,仅仅是短斜坡的情况。这种方法可以产生一个比一个随机样本估计更准确的优势,同时保持目标样本以同样的速度移动,特别是在信息价值很高。
3.4。随机森林(RF)和梯度增强算法(GB)
随机森林(RF)是由何鸿燊(47]和Breiman [48),这是一个强大的机器学习算法的回归问题。射频的实际应用包括生物信息学(49)、材料科学(50),遥感51),和土地覆盖分类9]。射频是一个统计算法,利用提取的过程引导样品从原样品中提取大量的样本。在生成树在森林里时,使用一组特征。
相反,树数量应足以确保所有属性使用几次。在大多数情况下,500棵树用于分类和1000棵树用于回归。
阶段的随机森林算法建模方法如下:步骤1:N估计量的训练集被随机选择从原始数据集(引导样本)。训练数据集是大约三分之二的第一个数据集的维度。大约三分之一的数据被认为是out-of-bag因为他们不参与树构建的过程。out-of-bag样品被射频方法用来评估和量化的属性意义购物车树在森林里。步骤2:对于每个引导训练集,创建一个回归树。森林是由结合回归树N估计,但这些回归树不修剪。每棵树的分支的最佳品质是没有决定在其成长阶段。因此,射频技术增强了回归模型的区别通过创建不同的训练集和提高合并后的回归模型外推预测的性能。步骤3:对于分类问题,新样本的值派生使用绝大多数投票方法,回归问题时,从树木使用平均预期值。
梯度增强算法(GB)是一个流行的算法,已经证明是有效的在一个范围的应用程序(52]。这种方法使用持续学习创建一个更精确的响应变量预测,这是伟大的新模型。这种方法背后的主要思想是创建新小学学生理想与集合的损失函数的负梯度。
3.5。部分依赖情节
部分依赖情节描述了功能少量的输入参数和预测之间的关系(PDP)。PDP显示相关的值输入因素如何影响在某种程度上预测。PDP也说明了特征有一个小对机器学习模型预测结果的影响(53]。
PDP可以表明一个线性回归模型的线性关系,和部分依赖函数回归可以构建使用以下公式:
在这里,x一个代表部分依赖函数来显示,x米代表了机器学习模型中的其他功能问。一个用户想要的特征是思考和预测(只有一个或两个特征集一个)。特性集一个影响预测的结果,我们希望知道。特征向量x一个和x米占整个特征空间x。函数说明了特征集之间的联系一个被边缘化的机器学习模型输出的分布特性米。
部分功能问使用蒙特卡罗方法计算平均的所有训练数据集一个以便PDP处理多层问题通过为每个层创建一条线或情节如下: 在哪里是数据集的实际特性值功能我们不关心,然后呢米是事件的数据集的总数。PDP显示米的属性是无关的一个的年代。没有这种假设,PDP平均计算将包含数据极其不可能。
此外,PDP显示某一层的可能性的各种值集一个的属性。PDP可能因此管理多层困难通过构造每一层的行或情节。因为它分析所有情况,揭示了一个全球功能和预期结果之间的联系,PDP是一个全球性的技术。
3.6。机器学习模型的评估标准
在这项研究中,使用了四个标准,即相关系数(R2),RMSE(均方根误差)、美(平均绝对误差),和日军(平均绝对百分误差),评估开发模型的准确性。
R2代表的速度变化引起的因变量的总变异解释变量。的价值R2更接近于1,预测的值更接近目标值。美是一种统计评估错误的平均数量在一系列的预测没有考虑他们的方向。均方根误差(RMSE)是一种广泛使用的度量模型所预测的值之间的差异或估计量和观察到的值。因为它非常明显的相对误差的诠释,日军通常是作为损失函数使用回归问题和模型评估。美、RMSE和日军标准有一个共同点:他们都表明平均单位所需的输出预测误差模型。RMSE值越低,美,和日军,相比更高R2成绩,更好的模型。 在哪里N是数据集的数量,和实验值和实验值,分别和毫升模型预测的价值。
4所示。方法流程图
当前的研究土壤渗透系数的方法流程图包含三个基本步骤:步骤1:数据库。作为第一步,数据集被编译从84年方便文献发表在公认的期刊。数据库中有7个输入变量和一个输出变量。所有数据随机分成两半:训练数据集和测试数据集,70%的数据(59例)被用来训练模型和30%被用于测试模型。步骤2:创建培训模型和选择合适的ML模型。机器学习(ML)模型训练使用训练数据集和方法在这个步骤中,五单人算法在Python语言编程的Sklearn库(43),如再邻居(资讯),支持向量机(SVM),光梯度提升机(LightGBM),随机森林(RF),梯度增加(GB)。5一毫升的性能模型是四个度量标准包括评估辅助R2、RMSE美,日军。基于ML性能,选择合适的ML模型为下一步。步骤3:预测渗透系数和广泛的敏感性分析与辅助执行合适的ML模式。基于机器学习的方法如GB——和RF-based夏普利添加剂解释和GB-based部分依赖情节(PDP) 1 d是用来理解上的每个输入变量的影响渗透系数的土壤。
一个方法示意图如图3。
5。结果与讨论
5.1。毫升的性能评估模型
五个单独的机器学习模型的性能比较。蒙特卡罗模拟是用来评估每毫升的性能和可靠性模型。每毫升模型受到10000运行。性能和可靠性进行比较是在四个评估标准R2价值,RMSE值(×10−11(×10 m / s),美价值−11m / s),日军(%),在数据4(一)- - - - - -4 (d),分别。
(一)
(b)
(c)
(d)
值得注意的是,除了LightGBM模型4毫升的性能模型是一个很好的适合训练和测试数据集。
LightGBM模型最低性能相比其他变体。在训练和测试数据集,确定系数R2小于0.6。与此同时,均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分比误差(日军)值由LightGBM模型比其他模型获得的更大。这种方法似乎是无效的估算土的渗透系数。
表3提出了模型的结果基于上述四个评估标准。
评价标准的决定系数R2,GB模型给出了最好的结果。培训的结果是渐近接近值1。根据获得的结果R2在培训评估标准,毫升的性能模型可以排成序列:LightGBM < SVM <资讯<射频< GB。测试,毫升的性能模型可以命令如下:LightGBM <资讯< SVM <射频< GB。
两个评估标准RMSE和RMSE GB模型也给最好的结果相比,剩下的模型。根据获得的结果的RMSE评估标准培训,毫升的性能模型可以排成序列:LightGBM < SVM <资讯<射频< GB。测试,毫升的性能模型可以命令如下:LightGBM <资讯< SVM <射频< GB。毫升的性能模型可以按照以下顺序设置为美培训评估标准:LightGBM <资讯< SVM <射频< GB。ML性能模型在测试可能要求如下:LightGBM射频< SVM < <资讯< GB。
与其它模型相比,在测试中,日军的GB模型产生最好的结果的评估标准。在培训、GB模型产生最好的结果与其他模型相比,但是测试的结果并不好。毫升的性能模型可以按照以下顺序组织的日军在培训评估标准:LightGBM < SVM =资讯<射频< GB。毫升模型的性能测试可能将按照以下顺序:LightGBM <射频< GB <资讯< SVM。
表4显示了ML的最佳性能模型根据最高的价值R2的测试数据集。结果表明,在模型中,射频和GB模型有最高的性能预测土壤的渗透系数,GB模型是最主要的模型的训练和测试数据集。GB和RF的两毫升模型用来预测土壤的渗透系数和调查功能importance-sensitivity分析在接下来的部分。
5.2。预测毫升渗透系数的模型
图5显示了实验之间的关联图的渗透系数和渗透系数预测射频模型(a)和(b) GB模型。射频模型的训练和测试数据结果的精度低于GB模型的度量标准R2、RMSE美,日军等于0.960,0.236,0.196,0.238,0.971,0.199,0.161,和0.185测试数据集的射频和GB模型,分别。此外,RF模型的计算时间是0.183 GB模型的年代比(0.041秒)。使用错误行−20% + 20%,所有相关点包括训练和测试数据集的GB-based预测区由两行是有限的;这些关联点方法紧密完美的线y=x,一些相关点包括训练和测试数据集的RF-based预测超过了区域由两行。因此,GB模型更合适,并提供最准确的预测的四个评价指标GB模型比射频的模型。
(一)
(b)
此外,根据调查Najafzadeh et al。54,55和Saberi-Movahed等的调查。56),分散指数(SI)和偏见是重要的指标在评估毫升的性能模型。因此,分散指数(SI)和偏见也用于评估GB和射频模型的性能。SI和偏见的价值越低,ML性能越高。分散指数(SI)和偏见的公式描述如下:
表5总结了SI的价值观和偏见的训练数据集和测试数据集GB和射频模型。SI的价值和偏见的GB模型显著低于射频模型在两种情况下的数据集包括训练数据集和测试数据集,这证实了最高性能的单一GB模型相比其他毫升模型的研究。
此外,不确定性和可靠性分析是进行两个特定毫升模型包括射频和GB模型。根据Saberi-Movahed et al。56),限制的预测范围实验结果的真正价值在于不确定性分析的主要目的。不确定性区间是一个间隔,代表这个估计范围。基于计算错误的测量过程实验考虑,它可能是近似。U95是一种不确定性分析的方法来计算不确定性区间。如果你再执行给定的实验,你会发现95次每100次试验,试验结果的实际价值将会提供不确定性区间内。这就是U95的价值与一个特定的实验结果。U95可以描述如下:
根据Saberi-Movahed et al。56),可靠性分析的指标是描述如下:
有两个阶段需要达到u我。一个初始的定义相对平均误差(RAE)是一个矢量kth组件,它是表示如下: 在三角洲渗透系数的阈值参数,u我= 1,如果雷我<三角洲和u我= 0。根据中国标准,理想值是20%。因此,表6总结U95的价值和GB和RF的可靠性模型。
结果在表6显示了较高的可靠性和较低的GB模型的不确定性和RF模型相比,U95价值和可靠性价值的GB模型对测试数据集,分别等于0.4569和61.5385%,46.1538%和0.4595的测试数据集射频模式。总的来说,这项研究的单一GB模型与其他毫升相比具有最高的可靠性模型为预测土壤的渗透系数。
表7显示预测渗透系数之间的比较和实验渗透系数。范教授等。33),范教授等。34Bui et al . (),35],Ahmad et al。36)相同数量的84个数据样本用于这个调查;然而,单一毫升模型的性能显著提高“梯度推进”R2RMSE = 0.199, = 0.971美= 0.161,日军= 0.185的测试数据集。毫升模型的大幅提高性能和可靠性R2(10000年平均值)= 0.804的测试数据集,最高的性能和可靠性的GB模型似乎来自补充输入变量“可塑性指数”提出了研究。输入变量对预测的影响渗透系数是在下一节深入调查。
单一毫升模型梯度增加似乎是一位杰出的软工具预测土壤渗透性。Excel文件创建的最高性能梯度增加提供预测土壤渗透系数增强毫升的使用模型在工程应用中(请在这个链接找到Excel文件:https://drive.google.com/file/d/1jjNs6qwR_BuFhCjjSzxt56DlNA9FplLl/view?usp=sharing)。
5.3。对输入变量对渗透系数的影响
图6显示的功能重要性分析土壤渗透系数的预测价值包括射频基于模型的排列(a)和(c) GB模型置换分析;和(b)射频基于模型和基于模型(d) GB世鹏科技电子价值。
(一)
(b)
(c)
(d)
鼓舞人心的灵敏度分析的调查由Najafzadeh和Saberi-Movahed [55),该功能基于排列重要性进行重要性分析在本节展示最重要的特性预测土壤的渗透系数由单一GB模型。排列分析基于Python语言编程(Sklearn图书馆43)(cf数据6(一)和6 (c))表明,塑性指数是最重要的输入变量对渗透系数的预测价值。排名2nd的重要性是输入变量”密度。“根据功能价值,重要性相对重要性值之和”两个最重要的功能可塑性指数和密度”约等于0.9和1.0的射频模型和GB模型,分别。其他特性,如液限、塑性极限,含水量,粘土含量和孔隙比,有一个微不足道的影响渗透系数的预测价值。同时反复核对结果GB模型和射频模型。结果(含水量>孔隙比>液限>塑性极限>粘土含量>比重)不同于功能的重要性调查Ahmad et al。36]。
沙普利添加剂的解释(世鹏科技电子)是基于ML模型的两个最佳性能指标如射频(cf图6 (b)(cf)和GB。图6 (d))来识别和量化的每个输入变量,如密度、塑性指数、含水量、液限、塑性极限,粘土含量,土壤渗透系数与孔隙比。
世鹏科技电子值基于射频模型清楚地表明,密度、塑性极限和粘土含量影响土壤渗透性。当这些输入增加,土壤的渗透系数将减少。其余的因素,将会有一个积极的趋势与土壤渗透性;当这些因素增加,土壤渗透系数也将增加。密度是射频模型中最重要的输入变量,其次是塑性指数、含水率、液限。然而,塑性指数中最重要的输入GB模型,其次是密度,塑性极限和含水量。
世鹏科技电子值基于GB模型清楚地表明,密度、粘粒含量、土壤渗透率和孔隙比负面影响。当这些输入增加,土壤的渗透系数将减少。其余的因素,将会有一个积极的趋势与土壤渗透性;当这些因素增加,土壤渗透系数也将增加。
图6说明,这两个最基本的输入密度和塑性指数,反复核对了GB和射频机器学习模型。此外,本研究中使用的塑性指数;机器学习模型的性能优于模型的在前面的调查(cf表5)。土壤的密度可以被认为是一个最重要的参数对渗透系数的预测,因为密度的高价值意味着土壤颗粒的密度的分布,降低了土壤的孔隙。这导致渗透系数的减小值。总的来说,基于GB-RF,土壤特性对渗透系数的影响可以分类为:(塑性指数、密度)>(含水量、液限、塑限)>粘土含量>孔隙比。因此,土的塑性指数和密度是第一要务土壤特性测量时评估土壤的渗透系数。
图7显示个人条件期望(ICE)每个特性的渗透系数。在从8到30% (cf图7(一)),塑性指数成正比土壤的透水性。然而,从32%的范围开始,平均振幅,在土壤透水性有最明显的跳之前的2到3倍范围和大范围的波动。与塑性指数从30%变化到40%,渗透系数的大小值增加从0.2到2.0×10−11(米/秒)。输入参数密度(cf图7(b)),尽管它正比于土壤的透水性,只在一个很小的,微不足道的范围。一般来说,它可以估计,这个参数是土壤的渗透系数成反比。塑性极限参数(cf。图7(c)),振荡幅度波动不可预知的,有时是逆渗透系数。然而,在一般情况下,可以看出,主要趋势是成比例的。从50%到60%不等,含水量(cf图7(d))成正比的透水性土壤最为明显。液限是成反比的土壤透水性范围从20%到42%,从67%到75% (cf图7(e))。然而,平均振幅往往(比例)更广泛,所以总的来说,这个参数成正比土壤的透水性。对于粘土含量,主要趋势是成反比的土壤透水性(cf图7(f))。范围从0.75到1.3 (cf图7(g)),孔隙比成正比的透水性土壤是最明显的。总体而言,除了密度和粘土含量,塑性指数的值越高,塑性极限、含水量、液限、孔隙比,土壤渗透系数越高。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
6。结论和观点
为了选择一个机器学习(ML)模型预测性能和可靠性高,研究土壤的渗透系数,五个单独的机器学习算法包括支持向量机(SVM),再邻居(资讯),光梯度提升机(LightGBM),随机森林(RF),梯度增加(GB)介绍了研究。七个输入变量如塑性指数、塑性极限,液限,粘土含量、密度、含水量、孔隙比是用于构建毫升模型。R2RMSE美,日军、SI和偏见六措施用来评估机器学习模型的性能。10000年蒙特卡洛模拟运行时用来仔细核实毫升模型性能和可靠性。不确定性和可靠性分析也执行。这些分析的结果表明,单一GB模型是最有效的包括最高性能和最高可靠性毫升模型预测土壤渗透系数与最佳性能指标如RMSE = 0.971、RMSE = 0.199×10−11m / s,美= 0.161×10−11日军= 0.185 m / s,如果= 0.1714,和偏见= 0.0192的测试数据集。
基于机器学习方法(如GB, RF-based世鹏科技电子和GB-based PDP 1 d是用来理解输入变量的影响在广泛的土壤渗透系数的敏感性研究。结果显示,订单影响渗透系数的值可能会下令塑性指数、密度>含水量、液限、塑限>粘土含量>孔隙比。土的塑性指数和密度是第一要务土壤特性测量时评估土壤的渗透系数。
工程师可以确定土壤渗透系数的变量和辅助生成的Excel文件7 GB模型在现实情况。替代机器学习技术和更大的数据数量超出范围的值可用于未来进行更深入的检查。
数据可用性
处理过的数据可从相应的作者。
附加分
(我)来估算土壤渗透系数,五和提供缺省hyperparameters单一的机器学习算法。(2)梯度增强算法是最合适的机器学习算法对预测土壤的渗透系数。(3)对渗透系数影响因素的量化土壤的夏普利添加剂解释(世鹏科技电子)和部分依赖图1 d。(iv)塑性指数和密度的土壤是第一优先级土壤特性测量时预测土壤的渗透系数的机器学习模型。
的利益冲突
作者宣称没有利益冲突。