一个完全自动化的整体平差方法在机器学习建模复杂的房地产系统

文摘

抵押品价值之间的密切关系和银行稳定导致相当大的需要快速和经济的房地产估价。更大的可用性与住宅相关的信息引发了所谓的大数据的使用和机器学习的评估房地产价格。虽然这种方法已经应用到房地产市场,以确定哪些变量影响住宅价格,其使用估算的价格属性不是很频繁。这种方法的应用变得更加复杂的随着时间的推移,从运用简单的方法使用所谓的合奏,虽然估计能力有所改善,但它只适用于特定的地理区域。本文的主要贡献在于为整个西班牙市场开发应用程序完全自动为每个市提供了最好的模型。房地产房地产价格在433年市政府估计从790631年的住宅,使用不同的基于决策树的合奏方法如装袋,提振,随机森林。结果估算住宅的价格显示出良好的性能的技术发展,错误措施而言,最好的结果是通过使用装袋的技巧和随机森林。

1。介绍

自2008年以来,全球经济危机导致的经济放缓导致降低房地产价格的属性。财产被认为是关键的评价估值与房地产相关的任何事务,尤其是出售或抵押贷款申请,所以至关重要的是,价格真实反映其价值。银行也需要定期回顾房地产投资组合的价值通过更新他们的评价估值,看到《新巴塞尔协议》(Basel II)国际银行协议(1,2]。通常情况下,评估为目的的抵押贷款是由专业评估人员访问属性。然而,以这种方式发展的评估过程是昂贵的,在时间和金钱方面,并使这个过程不可持续的为大型房地产投资组合的估值。此外,虽然物理存在的评估师可以给出一个更准确的估值的财产,也有偏见的可能性从相关方,如买家、卖家,或银行本身,这可能使估值更主观的。显然是一个需要发展的一个预测模型无偏,现实的估值。

国际评估协会官员(IAAO)认为质量评估是评估过程中使用公共数据的一组属性,标准化的方法和统计程序(3]。这些估值方法通过模型称为自动估值模型实现(AVM),使大型房地产投资组合的评价没有一个评估师的直接干预(4,5]。这些估计过程的发展增强了信息的数量和质量的增长与房地产价格和房地产的特点,研究人员访问。这种级别的信息允许应用程序日益复杂的统计技术发展的评估程序更高的质量和精度。房地产avm允许集体房地产价格的估值,而不需要评估师的物理存在,通过使用计算机辅助任务评估系统(6]。在许多情况下,一个评估师的存在仅仅是必要的对于那些估值被认为是不寻常的(7]。

估计技术包括参数回归分析(8和非参数9)或机器学习方法如神经网络(10,11),决策树(12,13),随机森林14,15),模糊逻辑16),或合奏方法(17]。使用这些技术主要有三个目标:评估房产价格,找出特点的影响房子的价格,并创建一个享乐价格指数。

近几十年来,最常用的程序是基于hedonic-based回归(18,19]。然而,这些模型现在的某些基本问题模型的假设:正常残差的方差齐性,独立性和多重共线性的缺失。这种情况导致了更大的使用模式识别技术,通常被称为数据挖掘技术,包括机器学习。这些技术更加灵活的相关假设分布数据,他们更容易解释,允许分析线性和非线性关系。此外,他们使分类和连续变量(管理13]。虽然这些技术最初使用更多的分类方法,近年来,他们的应用程序被用于确定最具影响力的变量在房子定价和评估住宅价格。Perez-Rave et al。20.)提供了一个两阶段的方法下的大数据回归分析机器学习的方法对推论和预测的目的。

准确、有效地预测房地产价格一直并将继续是一个重要但有争议的问题,和对经济的影响不同的演员如买家、卖家,佣金代理商,政府和银行21,22]。如今,大数据范式提供了令人兴奋的可能性,更准确的预测和处理大数据的一个主要方法是机器学习。

这些机器学习方法应用于房地产属性的估计非常具体的位置。研究由Jaen [12在科勒尔盖布尔斯(美国佛罗里达州);风扇等。13在新加坡(新加坡共和国);Ozsoy和Şahin23]在伊斯坦布尔(土耳其);德尔西班牙(男子14)在马德里(西班牙);战俘et al。17在蒙特利尔(加拿大);Ceh et al。24在卢布尔雅那(斯洛文尼亚);阮(25在美国的5个县;和Dimopoulos et al。26在尼科西亚(塞浦路斯)。相比之下,Perez-Rave et al。20.)处理全国的住宅价格的估计,哥伦比亚,使用独立的变量确定每个属性所在的城市,因此提出一个独特的模型对于整个国家(61826年样本的属性)。

本文的主要新元素,它提出了一个新的方法进行自动评估整个国家的房地产价格在这个案例研究中(西班牙),指定一个不同的模型自动为每一个直辖市,样本量790631房地产属性。整个国家可以被认为是一个复杂的房地产系统由于城乡之间存在的巨大的差异,甚至在城市地区。每个市训练与训练集的信息,每个人会有自己的模式适应其特点和需要。这项研究回答了一个程序能够覆盖不同的模型为每个100多属性拍卖的433个城镇,人口从1559居民在最小的直辖市,3223334年在马德里,最大的一个。我们专注于应用程序的自动评估系统基于机器学习方法在评估房地产价格的准确性和分析他们每个人在经济文献中使用错误措施得到广泛认可。作为一个规则,质量评估模型,使用聚合诊断指标(确定系数)虽然很少有贡献的相关文献的质量过程分析使用一个测量的估计误差15]。在本文中,我们使用四个措施来分析提出的方法的有效性,也就是说,平均比,平均绝对百分比误差(日军),平均绝对百分误差(MdAPE)和弥散系数(COD)。

在本文中,使用机器学习技术在评估住宅的价格是基于决策树技术。然而,一般来说,很难建立一个树做出预测,因为不正确的参数设置,简单的规则,和树的不稳定。克服这些问题和获得更好的行为进行预测时,整体的决策树技术被开发出来,如装袋、促进和随机方法(27]。在装袋,模型安装使用随机独立引导复制,然后结合平均输出的回归(28]。在提高,许多树的拟合模型是一个简单的线性组合迭代拟合,提高了给差模拟观测(29日]。然而,随机森林模型构造一个随机向量的独立数据特征空间采样(30.]。从这个基础,我们自动设计最好的搭配方法,包括装袋,提振了回归树,在每一个直辖市和随机森林,然后做个比较分析他们的行为在不同的情况下。此外,获得的结果与一个包括决策树的好处进行对比分析,利用决策树技术的合奏。

进一步考虑的特别强调专业文献的地方在享乐需要包括空间信息模型,考虑到影响房地产的位置对它的价格,因此对其估值。Ceh et al。24)强调增长的兴趣近年来应用空间统计享乐价格模型,除了耦合地理信息系统和机器学习技术。在本文中,我们在解释变量包括地理坐标关注属性位置当评估一个属性的重要性。

本文提出如下。介绍后,部分2提出了文献综述强调了主要研究迄今为止房地产估价的房地产价格从使用回归树树整体模型。节3,使用的方法是提出一个描述的主要技术以及不同的估值指标的行为模型。节4,实证论证为应用程序的整个西班牙是发达国家和提倡使用整体方法对西班牙的必要性。最后,部分5介绍了主要结论和进一步的研究。

2。文献综述

机器学习方法的应用领域的评估房地产价格吸引了兴趣已有多年了。然而,决策树的应用是相对近期的,最初被用作一个分类技术和确定哪些变量对住房价格的影响最大。决策树的应用被用作预测技术通过所谓的回归树获得住宅价格预测。的第一个提议回归树的应用是由Jaen [12)使用信息从15个变量科勒尔盖布尔斯市的1229个事务(佛罗里达州)从多个清单系统(MLS)。Jaen [12)使用逐步回归测试的有效性,CART决策树和神经网络估算的价格住房和决定最重要的预测变量。最好的结果是实现了从车测量估计能力的平均绝对误差(MAE),使用较少的变量,特别是5和9中使用逐步回归。

后从[12)、风扇等。13]演示回归树的良好行为,使用购物车算法识别的主要决定因素和预测住房的价格。这个应用程序是发达的新加坡公共住房市场转售。然而,尽管这个过程用于识别影响房地产的价格的主要变量是广泛的,其平均价值的评估是完全基于树的叶子节点,这个值被认为是预测价值或价值回归。Ozsoy和Şahin23)开发一个购物车应用程序在土耳其最具影响力的特点来确定房屋在伊斯坦布尔的价格基于数据库2007年来自互联网。结果导致他们得出结论,房子的大小和电梯的存在,安全,中央供暖和视图是最具影响力的变量对房价在伊斯坦布尔。

角等。31日]显示应用程序的主要优点回归树预测房地产价格,考虑到这些模型有助于克服回归模型在非线性关系的问题。作者强调的优点是他们容易理解和解释,及其统计意义很容易计算;他们可以处理分类变量不创建虚拟变量;他们甚至消耗小计算时间与大量数据。此外,作者提出使用过程称为随机增加无限的变量可以是处理好结果,包括经济和人口变量和地方性指标预测模型。回归树是他们的局限性可以展示无限的垂直增长,直到样品的观察可以生成模型泛化能力较差;他们不健壮的训练集的变化;他们通常遭受underfitting效应引起模型预测能力。解决这些局限性,作者提出使用树的集合体,如随机森林。虽然这是事实,这些模型已经使用以前的开创性工作14,15],Breiman [30.)生产的第一篇论文,凸显了需要改进预测使用集合的方法。

从这些文件后,有很多的建议比较整体的行为技术与古典回归模型,得出模型的行为更好的使用机器学习技术。同样,在战俘的工作等。17),他们用25000网络数据与130年蒙特利尔属性特征;70住房本身和相关60社会人口。这些作者使用主成分分析(PCA)减少维度和四个回归技术预测房地产价格:线性回归,支持向量机,再邻居(资讯)和随机森林回归和一个方法结合资讯技术和随机森林。从结果,作者强调的良好行为系综方法与平均绝对百分比差异的要价9.85。此外,他们表明,应用PCA不提高预测误差。

Ceh et al。24]分析随机森林的行为相比,多重回归选择最重要的变量。在多元回归的情况下,分析主要组件允许它从36个变量的10个主成分和随机森林,一个过程进行确定10个最重要的变量。有趣的是,随机森林,销售日期很重要,但不是普通的最小二乘(OLS)。虽然行为的鳕鱼和日军的随机森林比OLS,应该注意的是,高估了最低价格和低估了最高。具体来说,在应用程序开发的公寓的价格在卢布尔雅那(斯洛文尼亚)7497观察6期2008 - 2013,结果在日军的测试集多个OLS的RF为7.27%和17.48%,而在鳕鱼方面获得的值分别为7.28%和17.12%,分别。尽管作者状态,他们的模型没有考虑到潜在的价格分歧六年时间考虑,这个价格变化可能影响他们的结果。在我们的研究中,我们使用一个静态数据库2018年来避免这个问题。

阮(25)开发应用程序的五个县在美国使用Zillow组web数据通过比较线性回归模型,随机森林,和支持向量机。结果导致作者得出结论,随机森林和支持向量机的行为比线性回归的房子的估计价格下降的百分比在5%的范围内的实际销售价格。此外,结论强调没有必要改变使用的变量在每个县和模型的精度几乎是相同的使用一系列的公共属性。Dimopoulos et al。26)开发一个应用程序比较随机森林的行为和线性回归估计住宅公寓的价格在尼科西亚(塞浦路斯)。结果验证,预测方面最好的行为是随机森林,日军值平均为25.2%。Shinde和Gawande的话32]使用数据基于3000与80年观测参数的数据库称为KaggleInc比较逻辑回归的行为,支持向量回归,套索回归、决策树和显示最好的行为,无论是在精度和误差,实现决策树。变量用于估计售价面积平方米,综合素质包括总体情况和完成的住宅,位置,今年建成的房子,卧室和浴室的数量,车库面积和数量的汽车在车库里,游泳池区域,房子是出售的,价格在这房子给卖了。

除了比较文学的机器学习技术与古典回归模型,有一个广泛的文献,比较不同的机器学习方法,得出结论,没有一种技术显示比其他人更好的行为但强调最好的树整体技术的行为。例如,Kagie和Wezel33)使用弗里德曼的LSBoost和LADBoost提高算法设计回归三个主要目标:在荷兰预测六个地区的住宅价格;确定最重要的特点;和建立一个价格指数。要做到这一点,他们使用事务数据从2004年获得Nederlandse Vereniging van Makelaars (NVM,荷兰房地产经纪人协会)的城市格罗宁根,阿,埃因霍温,阿姆斯特丹、鹿特丹和Zeeland 83变量和观测数量从2216年Zeeland为阿姆斯特丹8490,也包括社会人口变量。结果表明,两种提高模型改进的行为六个地区的线性和非线性模型,用改进的约25 - 30%的绝对误差和相对误差约33 - 39%。此外,他们表明,该预测模型提供一个更好的行为错误的房屋和公寓,更糟糕的行为在预测误差分离的房子,这是一致的考虑,最具影响力的特点对住宅价格的大小的房子。

德尔西班牙(男子14)比较不同的乐团在马德里房地产估价的方法,根据25415年样本的观察从网上房地产门户。M5的结果显示更好的整体行为模型树更好的行为装袋unpruned决策树,平均相对误差为15.25%。类似的结果平均误差百分比的15.11%和13.18%获得了英国私人租赁市场使用梯度增加[34]和立体派[35),分别由克拉克和凯文36]。Graczyk et al。37)使用六个机器学习算法:多层感知器(MLP);径向基函数(RBF)神经网络回归问题;修剪树模型(M5P);M5Rules (M5R);线性回归模型(LRM);和NU-support向量机(SVM)的三个系综方法添加剂回归(WEKA增加的一个实现),装袋,对知识和叠加,在怀卡托环境分析(WEKA)。结果表明,简单而有差异的整体方法尽管所有的良好行为的日军值从19.02%到15.89%不等。装袋的结果是最稳定的,使用支持向量机更好的结果。然而,最好的结果是获得使用叠加和支持向量机。一般研究的结论是,没有单一的算法,产生最好的结果,因此,有必要研究不同的行为选择。

Antipov和Pokryshevskaya15]显示随机森林的最佳行为当估算价格每平方米,而不是总价格由于异方差性和其他房地产数据问题。他们建议的行为比较10算法:多元回归;CHAID;详尽的CHAID;车;修改再邻居(2);多层感知器神经网络(MLP);径向基函数神经网络(RBF);提高了树;和随机森林。 In the evaluation of each method, habitual metrics are used in the validation of the predictive capacity of automated valuation models such as the average ratio sale (SR), the coefficient of dispersion (COD), and the mean average percentage error (MAPE). All the analysed techniques showed acceptable values for all the metrics, both in the training set and in the test set and with better results for random forest with a MAPE of 17.25 and a COD of 16.97 while, using a two-step procedure, these are 14.86 and 14.77, respectively. In addition, this study proposes a classification of variables according to their relevance, highlighting the importance of the type of house and the district in which it is located. It also recommends a segmentation-based diagnostic method that determines segments based on the total area and the district in which the house is located, with any overestimated or underestimated value highlighting the need for the intervention of an appraiser. However, the main drawback of this study is that the data are too limited, focusing on 2-bedroom apartments with an area of up to 160 m²和价格低于3000万卢布。这样一个有限的概要文件是大多数城市的一个不现实的反映。

Lasota et al。38)提出,而不是使用一个机器学习专家系统,应该使用这些的组合。他们认为,通过这种方式,选择一个贫穷的风险模型在某些情况下将会减少大量的数据可以分析有效地通过应用程序小分区数据,结合的结果。这个建议与个人方法相比有两个合奏机器学习方法:专家(MoE)和演算法的混合。R2 (AR2),认为演算法和机器学习的混合程序显示更好的行为,与方法之间没有显著差异。在MoE的情况下,算法,多层感知器,一般线性模型,和支持向量回归,而对于AR2,多层感知器,一般线性模型和回归树。这是机器学习过程的混合与多层感知器和一般线性模型显示一个更好的行为,MoE和AR2之间没有显著差异。然而,在研究Lasota et al。38),1998 - 2011年期间他们使用信息的问题,正如作者强调的,数据的可比性。他们也使用只有四个特征作为解释变量,可以产生一个非常简单的模型,可以整体技术的良好行为的原因与简单的基本技术,如一般线性模型。

另一个比较,在这种情况下的随机森林与其他机器学习方法是由Yoo et al。39]。机器学习是用来确定的变量影响最大的奥内达加(纽约)的住房价格,建立评估住宅价格的一种方式。具体来说,OLS回归方法相比,立体派和随机森林。决定的最重要的变量,尽管OLS使用逐步选择基于显著性水准,射频或立体派使用增加或装袋技术许可证的处理非线性模型非参数程序。行为的可预测性,这两个机器学习技术更好,强调射频的根均方误差(RMSE)值,相对而言他们的平均,25.04考虑附近100米半径内半径1公里和22.47,测试集。此外,该模型还包含了环境变量以前没有包含在这些类型的模型。作者强调的应用机器学习方法的选择变量允许选择关键变量而不基于层次的意义。这些方法还允许一个非常吝啬的组重要变量被发现预测,这意味着它并不那么重要的模型包含所有相关变量,只要预测工作。公园和英国宇航系统公司(40)比较C4.5开膛手,朴素贝叶斯和演算法在费尔法克斯县的住宅市场,弗吉尼亚,认为最好的行为是实现开膛手。此外,他们的研究使用这些技术作为分类技术,不回归,当分类属性基于正面或负面的存在价值的区别他们所谓的关闭(出售)价格和价格清单(出售)。

Shahhosseini et al。41)比较几个合奏的行为对住宅价格的预测模型使用两个数据库,广泛引用相关文献,波士顿大都会区数据集(42和住宅的销售数据库在艾姆斯(爱荷华州)(43]。展示整体模型的有效性,他们使用以下算法:多个学习者包括套索回归,随机森林,深层神经网络,极端梯度增加(XGBoost)和支持向量机有三个内核(多项式,RBF和乙状结肠)。基于房价中值预测误差的结果,波士顿,最佳性能的日军出现XGBoost和随机森林与日军的值为16.44%和16.35%,分别。艾姆斯的住房、套索和随机森林模型与最好的日军值的0.66%和0.77%,分别。非常低的错误是由于信息的数量和质量与80年可用变量以及巨大的样本量(2930)的人口规模与艾姆斯(爱荷华州,美国)的50781居民。因此,这些结果导致我们得出这样的结论:没有一个模型执行比其他人更好。

最后,Neloy et al。44)开发一个模型来预测房屋的租赁价格在孟加拉国通过一个网站数据库的3505户19日的信息特征。开发模型,以下简单的算法选择预测:推动线性回归、神经网络、随机森林,决策树支持向量机(SVM)和回归量。此外,整体学习是堆满了以下算法:合奏演算法回归量,合奏梯度增加回归量,合奏XGBoost。岭回归,套索回归,弹性净回归用于结合先进的回归技术。最好的结果,在精度方面,得到的合奏梯度增加88.75%,最差的合奏演算法的82.26%。的均方根误差(RMSE),行为是相似的,值分别为0.1864和0.2340。

决策树的其他用途包括CART算法部分的应用观察和改善的能力评估模型,运用不同的模型段的协助下,甚至一个评估师在必要时(45]。要做到这一点,CART算法,使用误差百分比(估计价值更少的真正价值的绝对值除以实际价值)作为因变量和销售比率(估计价值除以实际价值)确定的观察,让他们从一个通用的日军12688年简单的培训在9783年最好的段值的简单的测试,14859年到12364年。Perez-Rave et al。20.)提出一个方法,包含一个变量选择过程称为简单增量与重采样(MINREM)。这个过程与主成分分析相结合用于两种情况;61826个家庭在哥伦比亚、销售和使用的数据46从2011年大都会与58888年美国房地产调查观测。结果显示一个日军值27%不使用交互和20.9%的使用过程,提出了在哥伦比亚的住房。

从所有这些研究,它遵循不同的机器学习技术的行为的分析来分析房地产的价格已经被广泛的文学。尽管大多数应用程序压力的重要性确定最具影响力的变量对住房的价格,很少有关注预测的应用程序,最重要的是,很少有研究利用日军或鳕鱼等措施来帮助评估模型的预测能力;绝大多数都是基于测量使用确定系数的预测能力。此外,开发的应用程序集中在特定区域或城市没有试图覆盖一个广泛的地理区域(除了在哥伦比亚的情况下研究整个国家使用相同的模型)。在这项研究中,我们通过发展覆盖更广泛的地理区域,通过自动化过程估算模型,模型应用到每个西班牙城市的信息是可用的。这给了我们一共有433个市。

3所示。方法

已经说明,本文的目的是开发一个自动包含的应用程序,对于每一个直辖市,一个模型能够准确地评估房地产的价格。几个模型安装在每一个直辖市,在一系列的机器学习技术竞争。然后,他们将分析,以检查是否存在一个最佳方法,达到最优结果的误差测量解释在本小节的末尾。

选择的模型是装袋、促进和随机森林。他们所有的人都集合算法,和我们使用回归树为基础的学习者。出于这个原因,单一决策树模型的结果也会显示为一个参考与更复杂的模型的结果。整体方法通常提供良好的预测结果虽然是事实,但他们在某种程度上牺牲的可能性解释预测变量和目标之间的关系。在我们的情况下,考虑到大量的估计模型,将完全覆盖西班牙领土,准确的预测更重要,很容易解释模型。

以下简要展示了每一个合奏方法包括。首先,包装是一个方法(47从引导和聚合方法的基础。这种方法的主要优点是减少噪声观测中存在的随机抽样获得替代从原始集。一旦树是安装在引导样本,平均输出。降噪加上个人预测所表现出的不稳定经常导致装袋的改进,特别是对不稳定的程序。

就其本身而言,提高(48)是一个整体的方法能够将弱学习者转化为更高的精度。提高,类似于装袋,应用迭代学习过程。微分这个方法的特点是,每个迭代不是独立于以往而是使用系统重新集中注意力学习过程的观察,在前步骤与更高的错误估计。本文选择算法来实现提高梯度增加[34),由增加弱学习模型,如决策树,通过梯度下降过程以减少损失函数。

随机森林也提出了(30.),它可以被视为一种变异的包装方法,更高剂量的随机性。这增加了随机性因为当连续构建树,给出最优划分并不寻求在所有可用的预测变量,但只在每个节点中随机选择一个子集。这种方法的主要优势是,它带来过度拟合的风险较低,因此,通常提供更准确的估计。应该注意,装袋随机森林是一个特例,当变量候选人的子集包含预测的总数。

所有的模型都使用统计环境应用R (49]。具体来说,R包rpart [50),“绿带运动”(51],randomForest [52)已被用于拟合个人树木,增加和装袋,分别和随机森林。

由于大量的模型安装在这个复杂的问题,在随机森林参数调优优化为每个模型通过插入符号R图书馆(53]。有三个主要参数设置在随机森林。前两个是种植树木的数量和大小。数量不应过小,以确保每一个输入行参与学习过程至少几次。树的大小取决于终端节点的最小大小。设置这个数字大导致较小的树木和更快的学习过程。另一个重要的参数随机森林预测随机取样的数量的候选人在每个分裂。关于装袋,它已经被视为一个特定情况下的随机森林。

关于提高,有四个主要参数设置的“绿带运动”模型。第一个是学习速率(收缩),使用值0.001,0.01,和0.1,控制着多大的变化从一个迭代到下一个,类似于神经网络的学习速率。其次,树是由两个参数控制的复杂性,互动深度(测试在1、3、5、10)和最小数量的观察每个节点,类似于随机森林(1、5、10和20)。最后,也是非常重要的,树木的数量(迭代),一个1000棵树的生成,然后修剪根据最小交叉验证错误。

损失函数为每个监督方法的优化选择的均方误差(MSE)。为了保证良好的泛化能力避免overfitted模型,2/3的观测样本被随机分配到训练集,另1/3验证集。一旦每个技术的最佳模式(回归树、装袋、促进和随机森林)选择在每个市的最终行为四个模型的比较分析了以下错误的措施。他们将能够分析和拟合优度检验模型的预测能力。(一)意味着比(平均销售比率)的平均值老_我,老被定义为销售额的比例在哪里是属性值和是估计的值。(b)平均绝对误差百分比(日军)或相对平均误差: 测量的百分比,因此不同模型之间的比较。(c)平均绝对误差百分比(MdAPE): 在哪里中位数,即。,the value separating the higher half from the lower half of the absolute percentage errors.(d)色散系数(COD): 在哪里的中位数是。它的解释并不依赖于正常的假设。

符合研究Perez-Rave et al。20.),我们进行估算和测量的错误使用货币值因为任何转换变量的估计(价格),如对数变换,会导致结果的改善从一个虚构的统计的观点。此外,价格的估计价值在货币条款和不需要任何转换为其解释和对比位置。

4所示。经验的应用程序

数据库开发经验的应用程序,构建基于信息从免费获得房地产网站。广告在互联网上的数据允许应用大数据技术的发展对住宅价格的分析更准确,因为访问数据量非常大,每天充实,既能够应用这些技术的理想特征。此外,数据相当多样和销售价值在网上和线下销售价值被认为是类似的大小。互联网也提供了信息来源各种财产和邻里特征很难找到从其他来源(20.]。然而,这的信息来源已很少应用虽然取得了巨大的成功开发的应用程序的存在在房地产行业以及其他行业(54]。这些方面突出显示在[55,56]的作者指出,网络价格统计分析提供了一个宝贵的机会,因为不断代的信息,他们的可访问性和可用性以及线下的价格相比是没有显著的差异。在房地产开发的应用程序使用web数据使用Ozsoy和Şahin23]在伊斯坦布尔;德尔西班牙(男子14]在马德里;Larraz和Larraz Poblacion [57,58]在西班牙;战俘et al。17在蒙特利尔);Larraz和Poblacion59在捷克共和国;阮(25]在美国;克拉克和凯文36]在英国;Perez-Rave et al。20.]在哥伦比亚;或Neloy et al。44在孟加拉国。

相关的数据库包含的信息在我们的研究中,房地产的价格(平nonsingle-family家里)及其可靠的地理位置以及信息,具体是指每个属性的特征。我们获得的信息属性在所有销售在2018年西班牙城市。属性的信息包括价格和以下33个变量代表每个属性的特点:一个文本变量显示财产所在地的邮政编码;三个数值变量,包括构造的表面积,卧室,浴室的数量;和29个属性被分为不同的级别。其中,变量被认为是最具影响力的方法实现对住宅价格的位置(经度和纬度坐标),构造区域,卧室,浴室,地板(地下室,正常,或阁楼),保护的状态(新的、重要的改进,适合年龄,或需要进行重大改进),和空调、供热、升力,车库、阳台、绿色区域,游泳池,和存储空间。因此,这些变量是用来估计每个属性的价格。

在第一阶段,广告的数据删除可能的错误,例如,属性与零单价。随后,一个描述性的分析来决定执行什么类型的变量。最后,可用变量的多变量分析的异常值进行,基于距离。初步分析后,我们获得大量数据库的元素均匀分布在整个区域。从这个数据库中,我们与那些城市至少有100样本的观察,待售房屋100年允许程序在每种情况下选择最好的模型。因此,我们的研究提供了一个开发的实证应用程序在433年市(8125年的西班牙)已超过100住宅销售期间的研究。更精确地说,这相当于790631年房地产信息属性分布在48西班牙省(西班牙)52的433个城镇组成。

因为它已经在第三节说,对于不同的回归技术的应用,数据集分为两个;训练集和测试集的三分之二和三分之一的比例,分别。训练集的数据允许符合最佳组合在一个自动化的方式对于每个案例,同时评估了测试集的属性被用来比较不同技术的适用性。

获得的错误估价的房地产价格在433年市政府与信息显示平均日军与决策树技术值为20.49,16.54和装袋,与提高16.98,和16.69用随机森林,而鳕鱼的平均值为20.03,16.03,16.53,和16.23,分别。统计色散通过盒须情节描绘在图1。这些结果显示装袋的良好性能,提高和随机森林技术给定样本的异质性和广泛的地理范围分析。然而,决策树技术,总体而言,并没有给出令人满意的结果。

(一)

(b)

进一步的研究可能会在多大程度上的错误措施取决于人口规模甚至样本量,或可用属性的数量估计作为例子。值得发现是否有更好或更糟的行为分析方法在小,介质,或大城市,或者格言“更大的样本量,更好的估计”。事实上,表1显示4技术显示的结果几乎零线性相关性不同的人口和样本大小不同的误差的措施。这可能是由于开始的质量信息和住房价格存在随意性太大在西班牙。因为开始的质量信息控制在早期阶段的分析,第二个选择是更为合理。


技术
相关系数	决策树	装袋	提高	随机森林

日军vs inhab。	0.10	−0.07	−0.04	−0.07
日军对N	0.26	−0.03	0.02	−0.04
鳕鱼vs inhab。	0.09	−0.07	−0.03	−0.06
鳕鱼和N	0.24	−0.02	0.03	−0.03

请注意。自己的精化。

也有非线性误差测量和人口之间的相关性或样本大小。只是作为一个例子,图2显示了两个主要的散点图误差措施,日军和装袋鳕鱼和人口规模的结果。四个技术现在非常相似的结果。没有回归结构可以推导出的图形。观察到的数据2(一)和2(c),最大的城市在西班牙,马德里和巴塞罗那可以隐藏真正的相关性。但后消除这两座城市(见图2(b)和2(d)),图不显示任何错误和人口规模之间的关系。确定系数是表示在表2,在计算线性、指数、潜力,对数系数。注意,几乎都是零。

(一)

(b)

(c)

(d)


技术:装袋
确定系数	线性	指数	对数	潜在的

考虑所有的位置
日军vs inhab。	0.0053	0.0034	0.0075	0.0040
鳕鱼vs inhab。	0.0044	0.0026	0.0049	0.0023

没有马德里和巴塞罗那
日军vs inhab。	0.0252	0.0246	0.0129	0.0148
鳕鱼vs inhab。	0.0053	0.0028	0.0038	0.0017

请注意。自己的精化。

因为大多数房地产投资组合的评估将在最大的城市,我们决定分析的平均结果市人口大于100000居民(见表3),63,并展示这些详细的结果。获得的结果为每个63个选择城市提出了本研究的四个附件中的表(见表S1- - - - - -S4在补充材料更详细的分析),一个为每个所使用的技术。


63年市(> 100000 inhab。)
技术	日军平均	日军最低	日军最大	鳕鱼平均	鳕鱼最低	鳕鱼最大

决策树	21.92	11.68	30.40	21.22	11.65	27.95
装袋	15.73	8.58	22.93	15.41	8.48	22.19
提高	16.62	10.15	23.45	16.36	10.06	23.28
随机森林	15.93	8.58	23.92	15.56	8.48	23.08

表3改善报告在所有情况下当使用树整体方法(装袋、促进和随机森林)与个人决策树相比,改进的估计能力测量周围的日军通过六个百分点。日军值平均为63年市显示装袋的最佳性能和随机森林平均价值的63城市人口最多的15.73和15.93,分别。这两种技术实现相同的最小日军值(8.58)。然而,的最大值,尽管达成的价值达成的随机森林是一个点高于装袋,既达到可接受的值。鳕鱼,类似的情况观察,装袋和随机森林的结果是最好的,在15%左右,其次是提高技术的平均16.3%的鳕鱼。决策树技术的鳕鱼独自一人在达到一个值高于20%的推荐。图3图形化地显示了这些结果与日军的色散和鳕鱼的措施。请注意,所有的异常值,与日军直辖市,鳕鱼异常高或低已经消失。他们与市只有不到100000名居民。

(一)

(b)

估值分析错误的测试集的属性为每个63个城镇的人口有100000多万的西班牙,值得强调的良好行为的比例,在几乎所有情况下,显示值在0.98和1.1之间(见表S1- - - - - -S4在补充材料)。MdAPE的价值,在装袋的情况下,这一指标的最小值为6.59,最大18.91,这表明最好的城市,百分之五十的估值最低的误差的误差小于6.59,在最糟糕的城市,这个错误是不大于18.91。随机森林,这些值是6.15和19.64,分别达到更高价值的最大和较低的值的最小而装袋。此外,鉴于装袋,促进之间的选择是更加困难的结果相似,应该注意的是,装袋的角度提出了一个更好的行为MdAPE自63年只有4的直辖市现值分析优于16%和10优于15%,而用随机森林这些值6 - 14日。

5。结论

需要快速和经济评价房地产和最新信息的更大的可用性可以通过互联网导致了大数据的应用技术和机器学习进行房地产估价。

这些机器学习技术的最前沿树整体方法,特别是,装袋,提振,随机森林。到目前为止,这些技术已经被应用在很多情况下以外的任何其他目的房地产价格的估计,当他们被应用于房地产估价,他们已经完成在一个有限的方式非常特殊的地理区域。为了促进理解的技术价值的树整体自动化和大规模,这项研究显示了应用程序的结果不同的技术对整个西班牙共有433个城镇分布在48个省份。本文提出了一种自动算法选择最佳模型为每个技术在每一个直辖市。他们的行为的估计能力是通过误差测量措施普遍引用的文献。

树合奏的结果表明,该行为明显优于单独的树木虽然分析的三种方法(装袋、促进和随机森林),没有一个明确的优势。即便如此,更加关注装袋和随机森林方法的行为,似乎稍微更好的结果装袋的日军和鳕鱼的结果而言,MdAPE会让我们选择使用装袋的西班牙。

回顾文献提供到目前为止,可以得出的结论是,日军方面获得的结果比那些获得(26价值的25.2%在尼科西亚或(46美国有20.9%。在获得的结果类似14值,范围从19.02%到15.89%在马德里和不如获得卢布尔雅那(24日军平均为7.28。然而,它应该承担记住,这些应用程序集中在特定的地理区域,在这项研究中开发的应用程序涵盖整个西班牙的领土。错误措施提供每个市的日军和鳕鱼,市政府非常不同的人口,样本大小和社会经济特征。

从全球433个市作为一个整体的分析,可以得出结论,误差测量不取决于人口规模或样本集的大小。这个事实表明,存在一定的随机组件销售价格的确定由于更大的可用的样本信息,效果越好。

最后,应该注意的是,这个研究其他积极的研究,已经被开发,如包含一个动态数据库,使信息的处理不同的时间引用或整体方法的包容,让机器学习技术,而不只是简单的树,结合。

数据可用性

数据库用于支持本研究的发现是由COHISPANIA,许可制Consultoria y Valoracion,所以不能免费提供。请求应该访问这些数据http://www.cohispania.com/contacto。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢的合作Compania伊伯利亚半岛de Tasaciones y Valoraciones, s . a .埃米利奥·l·卡诺部分由西班牙“Estatal de Investigacion通讯社”通过mtm2017 - 86875 - c3 - 1 - r AEI /菲德尔,问题的项目。目前的工作是通过研发资助大学之间的契约恰拉和Cohispania裁判:UCTR180093。

补充材料

表S1:决策树的主要结果。表S2:主要结果装袋。表S3:主要推动的结果。表S4:主要结果随机森林。(补充材料)

引用

国际清算银行,资本计量和资本标准的国际趋同瑞士巴塞尔,巴塞尔银行监管委员会,2006年。
欧洲理事会指令2006/48 / EC的欧洲议会和理事会2006年6月14日有关占用和追求业务的信贷机构,”欧盟官方杂志卷,L177 1 - 200、2006页。视图:谷歌学术搜索
j·k·埃克特,资产评估和评估管理芝加哥国际评估协会官员,美国,1990年。
诉Kontrimas和a . Verikas”质量评估房地产的计算智能,”应用软计算,11卷,不。1,第448 - 443页,2011。视图:出版商的网站|谷歌学术搜索
r·舒尔茨,m .千真万确,a . Werwatz”自动估值建模:规范运动”,房地产研究期刊》的研究没有,卷。31日。2、131 - 153年,2014页。视图:出版商的网站|谷歌学术搜索
o . Kettani和m .口语”,设计和实现一个房地产评估系统:魁北克省的情况下,加拿大,”社会经济规划科学卷,49 - 2015页。视图:出版商的网站|谷歌学术搜索
m . Mooya“人鼠之间”,城市研究,48卷,不。11日,第2281 - 2265页,2011年。视图:出版商的网站|谷歌学术搜索
w .竟敢管和美国Anand,“智能混合动力技术的应用住宅的质量评价,“房地产投资与金融》杂志上,17卷,不。3、218 - 239年,1999页。视图:出版商的网站|谷歌学术搜索
c . m .球场和o .本更“享乐价格通过添加剂非参数回归函数,估计”实证经济学,30卷,不。1,第114 - 93页,2005。视图:谷歌学术搜索
在土耳其h·斯莱姆”,房价的决定因素:享乐回归和人工神经网络,”专家系统与应用程序,36卷,不。2、2843 - 2852年,2009页。视图:出版商的网站|谷歌学术搜索
n .加西亚·m·布莱恩,大肠居多,“安+ GIS:一个自动化系统,用于房地产估价,”Neurocomputing,卷71,不。4 - 6,733 - 742年,2008页。视图:出版商的网站|谷歌学术搜索
r·d·Jaen“数据挖掘:实证应用在房地产估价,”喇叭裤会议,s·m·哈勒和g·西蒙斯。,pp. 314–317, AAAI Press, Palo Alto, CA, USA, 2002.视图:谷歌学术搜索
G.-Z。粉丝,s .大肠Ong和h . c . Koh“房价的决定因素:决策树的方法,”城市研究,43卷,不。12日,第2315 - 2301页,2006年。视图:出版商的网站|谷歌学术搜索
c . Del西班牙,男子比较的数据挖掘方法大规模房地产评估德国慕尼黑,慕尼黑大学图书馆,2010年,https://mpra.ub.uni-muenchen.de/id/eprint/27378MPRA纸27378号,。
e·a·Antipov和e . b . Pokryshevskaya”住宅公寓的质量评价:应用随机森林的估值和CART-based模型诊断方法,”专家系统与应用程序,39卷,不。2、1772 - 1778年,2012页。视图:出版商的网站|谷歌学术搜索
m . Theriault f . Des乐观,f . Joerin”造型使用模糊逻辑可访问性城市服务,“房地产投资与金融》杂志上,23卷,不。1,22-54,2005页。视图:出版商的网站|谷歌学术搜索
n战俘、大肠Janulewicz和l .刘”应用机器学习项目4预测房地产房价在蒙特利尔,”2014年,http://rl.cs.mcgill.ca/comp598/fall2014/comp598_submission_99.pdf。视图:谷歌学术搜索
o .本”,房屋销售价格的预测比较参数与semi-parametric回归,”房地产经济学杂志,13卷,不。1,第84 - 68页,2004。视图:出版商的网站|谷歌学术搜索
Shabana、g·阿里·m·k·巴希尔和h·阿里,“房地产估值不同城镇使用享乐模型:一个案例费萨尔巴德市的巴基斯坦,“栖息地的国际,50卷,第249 - 240页,2015年。视图:出版商的网站|谷歌学术搜索
j . i Perez-Rave j . c . Correa-Morales, f . Gonzalez-Echavarria“机器学习方法大数据回归分析房地产价格推论和预测的目的,“房地产研究期刊》的研究,36卷,不。1,59 - 96年,2019页。视图:出版商的网站|谷歌学术搜索
j .本s . Tang y刘et al .,“回归模型对房地产估价使用递归神经网络和提高树”学报》2017年第2 IEEE国际会议上计算智能和应用程序(ICCIA)IEEE,页209 - 213年,北京,中国,2017年9月。视图:谷歌学术搜索
r·a·杜宾“使用多个清单数据,预测房价”《房地产金融和经济学杂志》上,17卷,不。1,35-59,1998页。视图:出版商的网站|谷歌学术搜索
o . Ozsoy和h .Şahin房价因素在伊斯坦布尔,土耳其,”国际期刊的住房市场和分析,卷2,不。2、167 - 178年,2009页。视图:出版商的网站|谷歌学术搜索
m . Ceh m . Kilibarda a Lisec, b . Bajat”估计随机森林的性能与多元回归预测公寓的价格,”国际期刊的信息,卷1,p。168年,2018年。视图:谷歌学术搜索
阮,“房价预测”,2018年,https://pdfs.semanticscholar.org/782d/3fdf15f5ff99d5fb6acafb61ed8e1c60fab8.pdf。视图:谷歌学术搜索
t . Dimopoulos h . Tyralis n·巴卡和d . Hadjimitsis”精度测量的随机森林和质量评价模型的线性回归估计住宅公寓的价格在尼科西亚,塞浦路斯,”地球科学进展,45卷,第382 - 377页,2018年。视图:出版商的网站|谷歌学术搜索
m . Skurichina和r·p·w·Duin装袋,增加和线性分类器的随机子空间方法,”模式分析与应用,5卷,不。2、121 - 135年,2002页。视图:出版商的网站|谷歌学术搜索
b·埃夫隆和r . Tibshirani介绍了引导查普曼&大厅,纽约,纽约,美国,1993年。
j . Elith j . r . Leathwick, t . Hastie”提高了回归树,一个工作指南》动物生态学杂志,卷77,不。4、802 - 813年,2008页。视图:出版商的网站|谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
n . Kok E.-L。Koponen, c . a . Martinez-Barbosa”在房地产大数据?手动评价自动估值。”项目组合管理》杂志上,43卷,不。6,202 - 211年,2017页。视图:出版商的网站|谷歌学术搜索
n Shinde k Gawande的话,“房价估值使用预测技术”,国际期刊的电子和计算机科学的进步,5卷,不。6,34-40,2018页。视图:谷歌学术搜索
m . Kagie和m . v . Wezel“享乐价格模型和指标的基础上增加应用于荷兰的住房市场,”智能系统在会计、金融和管理,15卷,不。3 - 4、85 - 106年,2007页。视图:出版商的网站|谷歌学术搜索
j·h·弗里德曼“机”,统计年报卷,29号5,1189 - 1232年,2001页。视图:出版商的网站|谷歌学术搜索
l . Breiman j·h·弗里德曼,r . a . Olshen和c . j .石头,分类和回归树沃兹沃思,贝尔蒙特、钙、美国,1984年。
s·d·克拉克和n凯文,”英国住房租赁市场的大众市场评估使用各种各样的造型技术,”《大数据,5卷,不。1,43页,2018年。视图:出版商的网站|谷歌学术搜索
m . Graczyk t . Lasota b Trawiński, k . Trawiński”比较装袋,增加叠加应用于房地产估价,”聪明的信息和数据库系统。ACIIDS 2010。在计算机科学的课堂讲稿,r . Goebel j . Siekmann和w . Wahlster, Eds。,卷。5991,pp. 340–350, Springer, Berlin, Germany, 2010.视图:谷歌学术搜索
t . Lasota b . Londzin z Telec, b . Trawiński”合奏的比较方法:混合专家和演算法的回归问题,”聪明的信息和数据库系统。ACIIDS 2014年计算机科学的课堂讲稿:t·阮b . Attachoo Trawiński,和k . Somboonviwat Eds。施普林格,卷。8398年,可汗,瑞士,2014。视图:谷歌学术搜索
柳,j . Im和j·e·瓦格纳”为享乐模型变量选择使用机器学习的方法:一个案例研究在奥内达加县,纽约,”景观和城市规划,卷107,不。3、293 - 306年,2012页。视图:出版商的网站|谷歌学术搜索
b .公园和j·k·Bae”,使用机器学习算法对房价预测:费尔法克斯县的情况下,弗吉尼亚楼市数据,”专家系统与应用程序,42卷,不。6,2928 - 2934年,2015页。视图:出版商的网站|谷歌学术搜索
m . Shahhosseini g·胡,h·范教授,“优化整体重量的机器学习模型:一个案例研究对房价预测,“智能服务系统、运营管理和分析施普林格,柏林,德国,2019年,https://lib.dr.iastate.edu/imse_conf/185/。视图:谷歌学术搜索
d·哈里森和d . l . Rubinfeld解释道。“享乐房价和清洁空气的需求,”环境经济与管理杂志》上,5卷,不。1,第102 - 81页,1978。视图:出版商的网站|谷歌学术搜索
d . De Cock,”爱荷华州艾姆斯:选择波士顿楼市数据作为项目结束学期回归,”统计教育杂志,19卷,不。3,p。115年,2011年。视图:出版商的网站|谷歌学术搜索
a . Neloy m . Sadman Haque, m·马哈茂德Ul伊斯兰教,“整体学习建立租赁公寓价格预测模型的分类特征分解,”学报2019年11日国际会议在机器学习和计算珠海,页350 - 356年,中国,2019。视图:谷歌学术搜索
e . b . Pokryshevskaya和e·a·Antipov”应用CART-based质量评价模型的诊断方法,”经济学公告没有,卷。31日。3、2521 - 2528年,2011页。视图:谷歌学术搜索
s和j·穆雷风这位“机器学习:应用计量经济学的方法,”《经济视角没有,卷。31日。2、87 - 106年,2017页。视图:出版商的网站|谷歌学术搜索
l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:出版商的网站|谷歌学术搜索
r·e·Schapire“弱易学性的力量,”机器学习5卷,第227 - 197页,1990年。视图:出版商的网站|谷歌学术搜索
R核心团队,接待员:统计计算的语言和环境,R统计计算的基础,维也纳,奥地利,2019年,https://www.R-project.org/。
t . Therneau和b·阿特金森Rpart:递归分区和回归树。-15 R包的4.1版本,2019,https://CRAN.R-project.org/package=rpart。
b . Greenwell b Boehmke和j·坎宁安,“绿带运动”:广义回归模型。2.1.5 R包版本,2019,https://CRAN.R-project.org/package=gbm。
a . Liaw和m·维纳“随机森林分类和回归,”R新闻,卷2,不。3,在18到22岁,2002页。视图:谷歌学术搜索
m·库恩、j .翼和韦斯顿,脱字符号:分类和回归训练。-84 R包的6.0版本,2019,https://CRAN.R-project.org/package=caret。
m . e . Beręsewicz”代表性网络数据源的房地产市场在波兰,”奥地利《统计,44卷,不。2,45-57,2015页。视图:谷歌学术搜索
a·卡瓦略刮数据和价格粘性,社会科学研究网络,罗切斯特,纽约,美国,2012年,SSRN学术论文ID 1711999。
李东旭,“线上和线下的价格是类似的?从大型多渠道零售商的证据。”美国经济评论,卷107,不。1,第303 - 283页,2017。视图:出版商的网站|谷歌学术搜索
b . Larraz”在线估值住宅,一个专家系统”回顾经济学与金融学,2卷,第82 - 69页,2011年。视图:谷歌学术搜索
b . Larraz和j . Poblacion”在线房地产估价模型控制冒险:空间的方法,”投资分析师期刊,42卷,不。78年,第96 - 83页,2013年。视图:出版商的网站|谷歌学术搜索
e . Hromada”映射使用数据挖掘技术对房地产价格,”Procedia工程卷,123年,第240 - 233页,2015年。视图:出版商的网站|谷歌学术搜索

复杂性

计算方法应用于数据分析建模复杂的房地产系统

文摘

1。介绍

2。文献综述

3所示。方法

4所示。经验的应用程序

5。结论

数据可用性

的利益冲突

确认

补充材料

引用

版权

更多相关文章

相关文章