违规和欺诈频繁在房地产市场在保加利亚由于大量缺乏严格的立法。例如,机构频繁发布不真实的或不可用的公寓上市价格低廉,没有意识到潜在的方法来吸引新客户。出于这个原因,系统能够识别不真实的上市和提高上市公司的透明度,真实性和可用性需求。最近的研究强调,出版上市仍然在线的天数可以有很强的相关性与清单的概率是不真实的。出于这个原因,建立一个准确的天数预测模型在线出版上市将会非常有助于完成识别假的任务清单。在本文中,我们调查的使用四个不同的机器学习算法的任务:套索,脊,弹性网,和人工神经网络。获得的结果,在一个巨大的数据集提供的保加利亚公司Homeheed显示套索的适当性回归。
房地产市场在东欧和前苏联国家是新兴的。在保加利亚,情况不会有所不同。鉴于最近的政治和经济的历史的国家,保加利亚的房地产市场的发展可以在三个主要的时间阶段:在社会主义,向市场经济过渡,目前国际上有吸引力的市场。第三阶段是一个时期房地产市场注册两位数的年增长率由于国际投资的兴趣。之后,从2003年到2008年,该行业被盛开的价格导致建立一个气球由房价下降了40%。在这场危机中,房地产投资注册又逐渐增加。统计数据显示,房屋销售增加了11.5%,2018年第一季度的利率保持在低水平。大量新建筑构造,使房屋销售进一步增长6.3% (
贷款利率保加利亚(
所有这些市场波动导致容易入口和出口市场的经纪人、争夺客户。市场不是排他性的,和一个属性可以提供市场上几次,在不同来源和不同的经纪人。经常经纪人把过时的或不真实的,但有吸引力,在线列表,增加获得新客户的机会。这就造成了错误的期望和不好的客户体验。
Homeheed保加利亚启动,试图消除这个问题,通过集中在一个冗余的上市平台。在技术方面,公司使用关键点匹配技术来识别重复的清单中,使用一些技术包括图像识别。然后,它总结了在一个中央单位。目前,网上可以找到一个公寓上市不同的经纪人和/或与描述的变化。这导致困难提取一个独特的识别关键重复的清单。Homeheed发现图像保持唯一的清单提供的一部分可以追踪哪一个公寓。
这一过程的价值主张是充当单点真理,使客户能够看到所有上市的一个属性,以及理解是否可用。Homeheed最近进入市场的第一个原型来验证这个想法和需求。团队为潜在客户提供了一个演示版本的平台,在那里上市仅从假产品和过滤属性匹配的个人偏好通过电子邮件接收。
Homeheed收集有关房地产市场的信息,从2015年到2018年上市。启动旨在分析这些数据来优化其市场准入计划和预测的投资回报(ROI)。这项工作应用数据挖掘技术,基于这一历史信息,预测有多少天上市地产将在线与特定的特征。这将有助于Homeheed和几个类似的组织首先向客户提供最具吸引力的提供和优化收入流。
违规和欺诈的主题,房地产市场已提高保加利亚媒体渠道的激烈的争论在过去的几年里。一般来说,房地产市场是不受严格的法律,导致房地产机构的简单的入口。一些机构频繁发布不真实的或不可用的公寓列表,通常低于市场的平均价格,作为一种方法来获得客户寻找一个新的生活财产。这些不知道客户再也见不到理想的地方,甚至是误导和欺诈计划前预付款的交易。这不仅创建了一个不好的客户体验和nonsatisfaction,但也使找到一个生活的过程属性具有挑战性和费时。这些不稳定和挪用的房地产行业需要更加透明的发展平台,就像一个由Homeheed开发和建立更好的方法来评估房屋的可用性(Vasilev留言。)
Homeheed的核心价值主张的是上市公司的透明度真实性和可用性。创业的目标是提供一个解决方案,可以支持修复市场违规行为的过程中,也应该带来更好的客户体验。目前,Homeheed团队正试图开发有效的方法来识别不真实的上市。有趣的是,这是观察到的天数出版上市仍在线可以有很强的相关性与清单的概率是不真实的。更具体地说,它已被观察到,在所有可用的情况下确定假上市,市场上保持68%左右的天数大于第三四分位数计算在所有可用的数据,而市场上保持21%左右的天数大于中位数计算在所有可用的数据。出于这个原因,构建一个精确的预测模型在线出版上市停留的天数可以非常有用的来完成识别假的任务清单。在这篇文章中,我们倾向于生成预测模型的“days-on-the-market”,而不是直接预测是否上市是假的,因为它可能确定假清单上面我们提到的只是部分虚假上市Homeheed中包含的数据。在其他情况下,欺诈只是怀疑,但这是不确定。最后但并非最不重要,可能存在情况下决定是否上市是真实的还是假的可能是非常困难的,和主观的,任务。出于这个原因,我们相信,在我们研究的具体案例,预测“days-on-the-market”是更可靠的和适当的比“欺诈”。
本文旨在提供一个系统的方法基于数据分析技术,特别是预测模型,应用于识别骗子在房地产广告的问题。这项工作的核心研究目标
预测days-on-the-market住房
识别功能,这使房地产更有吸引力
关于第一点,应该指出,达到一个高度精确的模型,该模型可以预测多长时间给定房地产市场仍将是一个复合的任务:首先,目前数据包含所有必需的信息不能使用,一般来说他们是很难收集由于高数量的不定量测量的因素。其次,days-on-the-market是一个变量,并深受各种动力学、依赖关系、和功能等位置,价格,关于公寓的条件和细节。
第二个目标是第一个密切相关。事实上,不同的研究,集中在预测房价,识别和衡量公共住房价格属性的影响。在这里,感兴趣的点是days-on-the-market衡量这些特性的影响,确定是什么使一个公寓对客户更有吸引力。这个问题的答案将支持Homeheed的产品开发,并让团队为客户提供上市出售/出租的概率更高。
在保加利亚,对房地产市场挑战这个项目将使我们能够(i)探索历史市场数据和获得宝贵的见解,将允许一个更精确的估计上市;(2)简化市场准入程序重要的收入来源和ROI规划;和(3)进一步支持的设计技术,可以评估一个属性的可用性。这项工作的结果将有助于确定重要的住房属性,所以将作为一项重组数据库通过引入新特性为未来数据挖掘项目。
此外,这项工作的目的是为一个平台,作为一个工具来实现更多的保加利亚不受监管的房地产市场上公平竞争。假设结果可以提高商业模式,技术和市场进入策略。数据分析技术可以影响积极的发展系统和增强它,使其更具可持续性,高效,透明,以及通过提高客户满意度和一般公民的经历的过程中寻找一个新家。
一些先前的研究可以发现对数据科学应用到房地产价格预测。在不同时期房地产市场在全球范围内已录得变化,绽放,或下降,房地产价值评估的准确性问题已经出现了。不稳定使房地产学者之间的预测模型研究的主题。文献回顾显示方法,可以估算出房地产的价格相比,基于不同的特性和类似的对象。然而,多久的问题清单将会在市场上尚未进行了广泛的研究。这项工作旨在填补这一空白,通过强调的概念的重要性
本文的组织结构如下:部分
数据挖掘的应用在房地产已成为广受欢迎的在过去的几年里。研究者和企业使用各种预测技术来捕获波动周期和影响因素分析市场趋势通过回归和机器学习算法,来描述属性类型由集群异构住房数据,包括属性和地理信息,寻找客户习惯来确定销售策略(
几项研究分析房地产价格出现了。另一方面,分析
Hengshu朱(
Ermolin [
曹国伟谅解备忘录(
Homeheed提供的数据集包含超过550.000观察点和19个变量,描述公寓、住宅、商店、餐厅、车库、土地,等等,出租或出售在索非亚,保加利亚。收集到的数据从主网络房地产清单网站,包含历史信息列表发表在《从01.07.2015 01.07.2018。表
变量列表和描述。
| 变量名 | 描述 |
|---|---|
|
|
清单ID |
|
|
的日期清单住房对象首先出现在网上 |
|
|
住房对象的日期清单最后一次露面是网上 |
|
|
变量这表明住房对象是否出租或出售 |
|
|
标识属性的类型被出售或出租 |
|
|
城市房地产所在 |
|
|
的邻居财产所在地 |
|
|
街上的一个属性 |
|
|
产权的面积2 |
|
|
房地产的价格在国家货币 |
|
|
房地产的价格在不同的货币 |
|
|
指定的货币 |
|
|
指定建筑材料类型 |
|
|
名字的地板是一个属性 |
|
|
给的条件属性的详细信息 |
|
|
文本描述的属性 |
|
|
照片的属性数量已经包含在清单中 |
|
|
指定清单是否由所有者、代理、投资者等。 |
|
|
账户的名称的清单 |
|
|
代理的名称(公司)保持后面的清单 |
数据集包含定性和定量变量。的变量
的变量
的变量
最后,变量
为读者提供一个视觉的理解所选属性的频率分布类型,图
属性类型房地产所有者提供的类型。
然而,正如上面所讨论的,收集的数据关于DOM的上市房地产公司可能不可靠和在某些情况下甚至可能不是真实的。缺失的部分信息是一个状态变量是否可用清单是目前出版时。因为这个信息不可用,很难收集,建立一个模型,预测清单由房地产经纪人的DOM将高度偏见。为了克服这个问题,我们决定删除所有列表由机构的数据集。
一般来说,房地产所有者/代理商发布不同的概要文件列表被认为有不同的行为。这是一个感兴趣的点观察DOM的分布。
图
DOM根据月出版上市。
在本节中,我们提出的方法用于转换数据,获得更紧凑和翔实的数据集。这个新的数据集将作为输入的计算方法将生成一个房子天市场的预测模型。
本节将使用不同的数据和方法来理解的个人影响连续(或简单的数值,因为他们将被称为延续),文本,分类变量。
图
基本统计数值变量。
对于正态分布数据,大约95%的值位于2个标准差的意思。出于这个原因,观察数据,我们只能说
一些数值变量的直方图。
此外,表
偏态和峰态值的变量。
| 变量 | Skewness_of_variable | Kurtosis_of_variable |
|---|---|---|
|
|
58.55332354 | 4076.35939 |
|
|
6.276439942 | 166.7471085 |
|
|
13.76938472 | 556.4922087 |
|
|
0.09699499 | 1.811480527 |
|
|
−0.019183275 | 1.928599009 |
|
|
−0.005586014 | 1.954408133 |
|
|
0.099231688 | 1.790969492 |
|
|
−0.085003855 | 1.933427314 |
|
|
−0.047972758 | 1.945445542 |
|
|
0.066149649 | 1.778833735 |
|
|
1.464791477 | 6.643659231 |
|
|
1.585019943 | 6.768881337 |
|
|
−1.06531323 | 3.845297287 |
文本特征提取的主要描述房子和收集到的变量称为特价。包括关键字,描述一个属性就其建设和/或设施。给读者一个概述的功能一般用于一个清单,一个词创建云。图
词云变量的特色菜。
组织文本通常是由一个表和一个象征性的每一行表示。令牌是一个重要的组件的文本,例如,一个字,这是值得注意的进行分析,标记和分离的做法,文本到令牌。一个令牌也可以的序列
中的词描述之间的关系。
不仅“家具”和“电梯”是出现最频繁的词,而且这两个词之间的组合重复发生。检查单词之间的相关性,所谓的
单词的相关性。
最后一个类型的变量,可以发现在我们的数据集分类变量。表
交叉表属性类型清单提供者和出租或出售。
| 1 | 2 | 3 | 4 | 公寓 | 多个房间 | 房间 | 工作室 | 总 | |
|---|---|---|---|---|---|---|---|---|---|
| 1 | |||||||||
| 机构(看起来) | 7 | 56 | 54 | 15 | 2 | 5 | 1 | 7 |
|
| 银行 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
|
| 构建器 | 2 | 4 | 2 | 0 | 0 | 1 | 0 | 0 |
|
| 投资者 | 1 | 10 | 7 | 0 | 1 | 1 | 1 | 0 |
|
| 老板 | 3251年 | 7586年 | 4027年 | 455年 | 174年 | 191年 | 1438年 | 449年 |
|
| 2 | |||||||||
| 机构(看起来) | 93年 | 615年 | 695年 | 159年 | 63年 | 89年 | 0 | 44 |
|
| 银行 | 2 | 24 | 25 | 3 | 2 | 8 | 0 | 6 |
|
| 构建器 | 11 | 85年 | 92年 | 21 | 6 | 2 | 0 | 0 |
|
| 投资者 | 11 | 121年 | 156年 | 29日 | 10 | 14 | 0 | 0 |
|
| 老板 | 1571年 | 5015年 | 5165年 | 970年 | 335年 | 393年 | 0 | 157年 |
|
| 总 |
|
|
|
|
|
|
|
|
|
的变量
吸引人的事实,如图
图
缺失值的数据集进行了研究。
其他变量缺失值
在其他变量与大量的缺失值,我们也决定删除变量
下一步转换前的数据异常值的检测和管理。局外人可能产生重大影响的数据如果不采取行动。例如,他们可以增加错误差异和减少数值测试的霸主地位。同时,异常值会影响正常,以及一些统计模型的基本假设。在实践中,局外人可以被解释为一个值的1.5倍差(四分位范围)比分布的四分位数更极端。最适用的和有用的方法来检测一个极端值是通过可视化箱线图。数据
的箱线图
的箱线图
的箱线图
的箱线图
一个方法,可以支持一个更好的理解这些异常值的故障变量,观察基于价值观的另一个特点。这就是所谓的多变量分析。数据
异常值的
异常值的
极端点被发现只有两个变量,
在我们的数据集,不同的变量有不同的可能值的范围。鉴于一些算法的功能是基于距离观测点做出预测,一个常见的规模是需要确保所有的功能将会占主导地位。进一步披露之前,一些变量中的数据显示偏态的分布,这可能代表一个困难的一些研究机器学习算法,可以通过扩展数据得到缓解。常见的归一化方法是Min-Max,尺度范围在0和1之间和z分数,这尺度1和1之间的值。在这部作品中,使用Min-Max值规范化。
表
原始变量的重新编码。
| 变量 | 原始版本 | 记录版本 |
|---|---|---|
|
|
这两个变量在格式“yyyy-mm-dd” | 6新创建的变量,即 |
|
|
“租金”和“卖出”1234多个房间公寓房间工作室 | 记录在−二进制0租金,1销售记录完全数字1,2,3,4,5,6,7,8 |
|
|
包含了许多字符值与邻居的名字 | 的身份证号码被分配不同的社区 |
|
|
包含水平“所有者”、“投资者”,“建设者”,“空白”,机构(的样子)。“价值”机构(看起来)数据收集期间”是错误的。它代表了在现实中投资者或建筑商 | 因为没有严格的条件和投资者之间的识别builder被发现,“代理(看起来)”的价值被随机取代builder或者投资者。创建新变量代码从1到4 |
|
|
原来变量包含,建筑材料 | ——变量被分成了两个新的变量 |
|
|
格式文本变量[\ word1 \ \ word3 \“\ word2 \”,“…) | 二进制变量为每个单词表示存在或缺乏这一特性 |
|
|
原来的格式例如“5到10 | 分成了两个新的变量 |
在报告的其他转换表
另外介绍了——最后,两个新的变量
我们处理的原始数据集包括19个变量。然而,到目前为止提出的转换变量的数量增加到54岁,所以变量选择技术应用到选择的最有价值的预测模型。过滤方法通常采用数据准备一步,选择功能。首先,对相关系数进行研究,有一个连续变量之间的关系。数据
斯皮尔曼相关热点图。
皮尔森相关热点图。
这两个数据显示预期之间的显著相关性只
相关就可以限制多重共线性的检测,因为它仅仅是成对。的技术支持更复杂的检测是使用特征值的关系。一个小大小显示不存在多重共线性,而高之间严重的多重共线性的值是一个信号,这是这里的情况。方差膨胀因子(VIF),这表明回归系数的方差是高估了多少由于多重共线性,可以计算。最短VIF = 1,作为一个经验法则,结果5和10之间视为指标问题。在我们的数据集,
基于这两种过滤方法,即。,correlation and Kruskal–Wallis test, not a significant amount of variables can be excluded. To select the proper variables for the model, we applied an embedded method: Lasso regression. Figure
套索变量的重要性。
观察图
总之,结果,最终的数据集,这是作为输入机器学习方法建立预测模型,包含7个变量。这些变量是
所有的结果显示在这一节中已经获得通过执行30独立执行的每一个学习机器学习算法。对于每一个执行,不同的可用数据分割成一个学习集和测试集被认为是。获得这种分裂,70%的观察,与均匀分布随机选择,被认为是学习,而剩下的30%形成了测试集。对于每一种机器学习方法,研究训练阶段是学习集上执行和报告结果的结果已经获得的测试集,当参数需要设置(是这样的情况,例如,λ参数的套索,脊,和弹性网),只有学习集被用来优化参数的值,以下列方式:学习集划分为5子集和5个不同训练阶段进行不同的参数值。在每一个阶段,4这些子集被用于训练,而另一个用于验证周期,这样每一个只使用一次,一次5子集进行验证(5倍交叉验证)。使用的参数集是那些允许我们获得最好的中间结果验证。
让我们开始讨论实验结果分析获得的结果套索,脊,弹性网。三种模型训练执行网格搜索参数λ的预定义的值。λ的值最小化的RMSE验证被选中。套索获得λ的值分别为0.001,0.0023为脊,0.00014弹性网。这些值λ,结果见表
获得的RMSE套索、山脊和弹性。
| 模型 | 最小值 | 第一曲。 | 中位数 | 的意思是 | 第三曲。 | 马克斯 | NAs |
|---|---|---|---|---|---|---|---|
| 脊 | 0.059 | 0.065 | 0.068 | 0.067 | 0.070 | 0.073 | 0 |
| 套索 | 0.056 | 0.064 | 0.066 | 0.067 | 0.070 | 0.081 | 0 |
| 弹性 | 0.059 | 0.065 | 0.068 | 0.067 | 0.070 | 0.073 | 0 |
如表
表
岭回归系数。
| 变量 | 系数。 |
|---|---|
|
|
0.007812742613 |
|
|
0.017990042310 |
|
|
0.087954307932 |
|
|
0.006890894870 |
|
|
−0.005648094327 |
|
|
0.023199993261 |
|
|
0.012193552241 |
|
|
0.126633821677 |
系数的套索和弹性。
| 变量 | 系数。套索 | 系数。弹性 |
|---|---|---|
|
|
0.008262840044 | 0.006914658626 |
|
|
0.020773920773 | 0.021302049363 |
|
|
0.081148777731 | 0.088121228126 |
|
|
0.006277781636 | 0.006389871295 |
|
|
−0.004166719412 | −0.004836976890 |
|
|
0.020923002635 | 0.022619172277 |
|
|
0 | 0 |
|
|
0.127546013431 | 0.130465654935 |
表
现在让我们讨论人工神经网络得到的结果。网格搜索寻找适当的值执行隐藏层的数量和每个隐层单元的数量。返回的结果,最好的中间结果验证两个隐藏层,3在第一隐层单元,2单位在第二个隐藏层。图
最好的神经网络,我们可以获得我们的实验。
图
实际与预期值神经网络和套索。
散点图表明,神经网络具有更遥远的数据点的线比套索。这给了一个视觉暗示套索可能比神经网络更准确的算法的研究问题。定性定量结果也证实:神经网络获得的RMSE等于0.065,这意味着套索表现略好。
除此之外还可以考虑,一般神经网络是更复杂的解释和解释。
最后,加强使用套索结果的可靠性,我们表现的比较与其他著名的机器学习技术通常用于解决回归问题,即随机森林(RFs),支持向量回归(SVR)和再邻居的事例)。读者被称为材料附录
关注RFs,调优阶段maxnodes 70的参数返回一个值(即。,the parameter that limits the total number of nodes in each tree), 1000 for the number of trees in the random forest, and the function used to measure the quality of a split in the trees was the Gini impurity. The RF with this configuration returned a median RMSE equal to 0.073.
关注的事例,突出的重要性是很重要的参数
过去的机器学习技术的性能考虑,SVR,一般取决于核函数的选择。核函数定义了关系/支持向量和目标之间的距离,通过将输入空间的非线性转换为一个线性空间。SVR背后的基本概念是最大允许误差的预测应低于某个值定义为ε。为了避免过度拟合,回归的惩罚成本参数的使用。在实验阶段,我们使用了自动化核函数的选择,但定义惩罚成本和ε(最大允许误差),我们进行了网格搜索。执行试验ε= 0.5和成本参数等于4.57,我们获得了平均均方根误差为0.066。
表
模型comparison-performance措施。
| 模型 | RMSE | 美 | MDAE |
|
解释方差的分数 |
|---|---|---|---|---|---|
| 随机森林 | 0。073年 | 0.0399 | 0。0202年 | 0。3625年 | 17.5037 |
| 弹性网 | 0.065 | 0.0341 | 0。0176年 | 0.1983 | 9.5736 |
| 套索 | 0.064 | 0.0340 | 0.0177 | 0.1832 | 8.8431 |
| 脊 | 0.065 | 0.0341 | 0。0176年 | 0.1942 | 9.3746 |
| 安 | 0.065 | 0.0339 | 0.0160 | 0。2 | 9.6594 |
| 事例 | 0.064 | 0.0331 | 0.0155 | 0.2394 | 11.5575 |
| SVR | 0.066 | 0.0396 | 0.0321 | 0.0761 | 3.6757 |
总而言之,它是可能的状态,尽管它的简单性,套索是我们找到最合适的技术来解决这个问题。特别是,它产生了竞争(即性能。,low error) by also allowing us to analyse the most important features that characterize the problem. Section
最著名的方法来测量特性的重要性在学习预测模型由模型的测量误差的增加,修改后的值的特性,例如,拖着他们的价值观以及不同的观察结果。换句话说,一个给定的特性被认为是减少或不重要,如果重新安排其值不会导致任何改变在模型的错误,被认为是很重要的,如果它会导致一个重要的修改错误。该方法的一个有趣的点是,它不仅考虑功能与输出变量之间的关系,但也与所有其他的特性。此外,排列不需要再培训模型的重要性,只是一个简单的移动特性的值(
图
功能模型中的重要性。
功能模型中的重要性。
| 变量 | Importance.05 | 重要性 | Importance.95 | 排列错误 |
|---|---|---|---|---|
|
|
1.0611371 | 1.0676099 | 1.119868 | 0.07243278 |
|
|
0.9945100 | 1.0278727 | 1.072171 | 0.06973678 |
|
|
0.9973978 | 1.0262011 | 1.030145 | 0.06962337 |
|
|
0.9818909 | 1.0215203 | 1.032234 | 0.06930579 |
|
|
0.9752772 | 1.0109712 | 1.038632 | 0.06859008 |
|
|
0.9664737 | 1.0071756 | 1.037656 | 0.06833257 |
|
|
0.9698690 | 0.9905373 | 1.030250 | 0.06720373 |
这些结果表明,
本文的目的是开发一个模型来预测
机器学习算法可以预测的吗
哪些特性有效地影响房地产吸引力为客户目标?
调查了各种特性识别的关键因素,影响一个属性的吸引力,导致减少的功能模型中使用的7。然后,学习算法训练和套索回归优于其他算法进行了研究。总之,我们可以开发一个精确的使用套索回归预测模型,预测自变量
为了提高这项工作,可以采取几个补充步骤在未来。在数据收集阶段,本文的范围的一部分,可以考虑其他数据源。例如,小区和住宅数据配置文件(学校、超市、交通等)可以收集并纳入研究。同样为其他相关因素的影响,市场是有效的。另外,正如前面提到的,真正的天房地产市场没有可用的和已知的数据集。为了保证结果的可靠性,属性的流动性需要收集的信息。这不仅费时而且是一个长期的任务,因为这些信息将只提供如果直接提供机构和业主。此外,这里使用的数据只有一个城市;更复杂的数据集覆盖多个城市和地区有自己的规范将会包含更多的信息。从长远来看,我们计划收集统计,用户配置文件和应用程序的行为的数据。 Such information together with macroeconomic statistics for purchasing power, banking interest rates, employment level, wage rates, etc., can provide a broader picture not only about the market, but also about the factors which influence home preferences and attractiveness. Not to forget news and media data, which both can reveal interesting patterns for customer behavior and market fluctuations, as well as can provide some insights for the reputation of different agencies. Last but not least, another field of potential research involves the use of other machine learning algorithms, such as a k-nearest neighbor, support vector machines, and random forest.
回归分析是一种统计技术,模型和近似一个因变量之间的关系和一个或多个自变量。在这项研究中,因变量
简单线性回归,也被称为普通最小二乘法(OLS)试图最小化误差的平方的总和。错误,在这种情况下,实际的区别(观察)数据点和其预测价值。这个模型的方程称为成本函数,找到最优的方法通过最小化误差和测量:
梯度下降算法找到最优成本函数通过数次迭代。但是我们需要定义和分析的数据并不总是那么容易与基础OLS模型描述。情况之一是数据显示多重共线性,这是预测变量时相互关联和响应变量。产生一个更准确的模型复杂的数据,我们可以添加一个惩罚项OLS方程。一个点球添加一个偏向某些值。这些被称为L1正则化(或套索回归)和L2正规化(或岭回归)。
岭回归添加以下惩罚项,称为L2, OLS方程:
L2项等于系数的大小的平方。在这种情况下,如果λ(
套索(至少绝对收缩和选择算子)回归使用L1惩罚项,等于的绝对值的大小系数:
类似地岭回归,也对套索,λ值等于零对应于基本OLS方程。然而,考虑到一个合适的λ值,套索可以驱动一些系数为零。λ的值越大,更多的功能被缩小为零。这可以消除一些特性和给我们的一个子集预测,帮助减少多重共线性和模型的复杂性。如果一个变量不是缩小到零,这意味着变量是很重要的。换句话说,L1正规化允许特征选择(的选择)。
第三个常用的回归模型是弹性网,从L1和L2正规化了处罚:
除了选择一个值λ参数,弹性网还允许我们调整α(
一个人工神经网络(ANN)是一个计算模型基于生物神经网络的结构和功能。它是由一组基本计算单元,称为神经元,强烈相互联系相互之间的连接,或突触,特点是重量。安一个编码函数(或模型)可以产生输出一次输入了。监督学习人工神经网络的研究本文的目标返回预期的输出为输入向量的每一个包含在一个给定的数据集。学习阶段,旨在获得预期的输入/输出匹配,包括修改的权重的连接网络。每一个神经元可以表示如图
人工神经元的一般结构。
一旦设定的值权重的连接已经建立了进入一个神经元,神经元的输出计算
在一个安,神经元通常组织成层。监督学习人工神经网络是由三种不同类型的层形成的人工神经元:
输入层
隐藏层
输出层
输入层与外部环境,提出了神经网络数据。它的职责是处理所有输入值。这些输入值转移到隐藏层,下面解释。每一个输入神经元代表一些独立变量都有一个影响神经网络的输出。隐藏层过渡层,发现输入层和输出层之间。每一个隐层的工作是处理先前获得的输入层。最后,输出层包含的单位计算的结果返回给外面的世界。前馈神经网络的一般结构,即。,one of the most diffused types of supervised ANN and the one used in this work, is shown in Figure
一个前馈人工神经网络的体系结构。
几个学习规则存在,旨在寻找一个配置连接的权重,使一个完美的输入/输出匹配。最分散的之一,本文中使用的一个叫做反向传播。感兴趣的读者被称为格尼(
介绍了支持向量机(SVM)在
线性可分的问题。
一年后的引入支持向量机,Smola [
训练数据集
在哪里
一个非线性函数:
在哪里
目标是适应训练数据集
目标函数的目的在方程(
核函数
C(正则化参数)
再邻居(事例)
事例是监督,非参数,基于实例的分类方法。它不是参数因为之前预测,你不需要做任何假设的分布数据,也不需要考虑模型的形状。它是基于实例的,没有培训阶段:只要我们有监督的数据和我们想要预测的数据,我们可以预测。事例虽非参数,我们通常用两个参数来建立模型:
使用事例有几个优势:这是一个简单的方法,很容易实现和解释,没有模型训练阶段,没有先前的假设数据分布(这是特别有用,当我们有质量差和非结构化数据),并且它通常有相对较高的精度。当然,也有一些缺点:高内存需求(我们需要存储所有训练数据在内存中执行方法)和计算昂贵的(我们需要计算新的数据点之间的距离和所有现有数据点来决定的
随机森林(
决策树是一个预测模型,其中每个内部节点表示一个变量,一个几近一个子节点代表一个可能的属性值,和一片树叶代表目标变量的预测值从其他属性的值。一个决定是由从根节点到叶子节点的路径。
一个预测相结合的方法是一个技术从多个机器学习算法,比任何单一模型预测更准确。装袋代表一个通用程序,可以用来减少方差高方差的算法,如决策树,在随机森林。事实上,决策树是敏感的特定数据。如果训练数据更改(例如,树是训练有素的训练数据的一个子集),由此产生的决策树可以完全不同,反过来,预测可能非常不同。装袋引导程序的应用是一个高方差的机器学习算法。一个随机森林很多决策树结合成一个模型。单独的预测决策树可能并不准确,但是组合在一起,平均预估将更接近的结果。最终结果返回的随机森林只不过是返回的数值结果的平均值不同树木的回归问题,或返回的类最多的分类树。
使用的数据来支持本研究的发现可以从玛丽亚Dobreva要求。
作者宣称没有利益冲突。
这项工作受到了国家基金通过FCT (Fundacao para Ciencia e Tecnologia)由项目设备(DSAIPA / DS / 0022/2018),粘结剂(PTDC / CCI-INF / 29168/2017),和AICE (DSAIPA / DS / 0113/2019)。毛罗·卡斯泰利斯洛文尼亚承认金融支持研究机构(研究的核心资助。p5 - 0410)。