研究文章|开放访问
Mauro Castelli,Maria Dobreva,Roberto Henriques,Leonardo Vanneschi, "预测市场天数,优化房地产销售策略”,复杂性, 卷。2020, 文章的ID4603190, 22. 页面, 2020. https://doi.org/10.1155/2020/4603190
预测市场天数,优化房地产销售策略
抽象的
由于缺乏严格的立法,保加利亚的房地产市场经常出现违规和欺诈行为。例如,中介机构经常以低廉的价格发布不真实或无法获得的公寓列表,以此来吸引不知情的潜在新客户的注意。因此,能够识别虚假清单并提高清单真实性和可用性透明度的系统非常受欢迎。最近的研究强调,上市公司保留在网上的天数与上市不真实的可能性有很强的相关性。出于这个原因,建立一个准确的预测模型,一个已发布的清单将在网上发布的天数可以非常有助于完成识别假清单的任务。在本文中,我们研究了四种不同的机器学习算法在这个任务中的使用:Lasso, Ridge, Elastic Net和Artificial Neural Networks。在保加利亚Homeheed公司提供的大量数据集上获得的结果显示了Lasso回归的适当性。
1.介绍
东欧和前苏联国家的房地产市场正在出现。在保加利亚,情况没有差异。鉴于近期全国的政治和经济史,保加利亚物业市场的发展可以在三个主要的时间阶段提出:社会主义期间,向市场经济的过渡,以及目前的国际吸引力的市场。第三阶段是由于国际投资利息,房地产市场注册了两位数年增长的时期。后来,在2003年至2008年期间,该部门正在盛开,这导致了在房价下降40%的价格上形成的价格气球。在这场危机之后,物业投资再次逐步增加。统计数据显示,2018年第一季度住房销售额增长了11.5%,利率持续低级别。此外,建造了许多新建筑,允许进一步的住房销售增长6.3%[1]。数字1报告从2008年到2018年的利率和银行物业贷款的趋势。
所有这些市场的波动导致了经纪人在市场上的容易进出,他们争夺客户。这个市场不是排外的,一套房产可以在市场上出售好几次,有不同的来源,也有不同的经纪人。经纪人经常在网上保留过时或不真实但有吸引力的房源,以增加获得新客户的机会。这通常会产生错误的期望和糟糕的客户体验。
Homeheed是一家保加利亚的初创公司,它试图通过将冗余的列表集中在一个平台上来解决这个问题。在技术上,该公司使用关键点匹配技术来识别清单的副本,使用了包括图像识别在内的多种技术。然后,它在一个中心单元总结清单。目前,一套公寓可以通过不同的经纪人在网上找到,或者在描述上有变化。这导致了为重复清单提取唯一标识键的困难。Homeheed发现图片仍然是唯一可以追踪公寓的部分。
这个过程的价值主张是作为一个单一的事实点,并使客户能够看到所有的财产清单,以及了解它是否可用。Homeheed最近带着第一个原型进入市场,以验证这个想法和需求。该团队为潜在客户提供了该平台的演示版本,其中列表从虚假产品中过滤出来,只通过电子邮件接收符合个人偏好的房产。
主页良好收集了2015至2018年房地产市场和地点的信息。启动旨在分析这些数据,以优化其市场进入计划并预测投资回报(ROI)。这项工作根据此历史信息应用数据挖掘技术,以预测列出特定特性的列出的属性将在线。这将有助于主页和几个类似组织为客户提供最有吸引力的优惠,以优化收入流。
1.1.背景和问题识别
在过去几年中,房地产市场中违规行为和欺诈的主题一直在保加利亚媒体渠道中提高了激烈的辩论。一般来说,房地产市场不受严格的法律监管,这导致了房地产代理商的轻松入口。一些机构经常发布虚幻或不可用的公寓名单,通常以低于市场的平均价格,作为一种获取客户寻找新生活财产的方法。这些不知道客户无论是从未看到所需的地方,还是甚至误导了交易前的高级付款的欺诈计划。这不仅创造了糟糕的客户体验和不满意,而且还使寻找生活财产挑战和耗时的过程。这些不稳定性和财产部门的挪用误区需要开发一个更透明的平台,例如由首页开发的平台,以及建立更好的评估家庭可用性的方法(Vasilev,N.D.)[2]。
Homeheed价值主张的核心是上市的透明度、真实性和可用性。初创公司的目标是提供一种解决方案,既能支持修复市场不规范的过程,又能带来更好的客户体验。目前,Homeheed团队正试图开发有效的方法来识别不真实的清单。有趣的是,有人观察到,网上上市的天数与上市不真实的概率有很强的相关性。更具体地说,据观察,在所有已知的虚假上市案例中,约68%的案例在市场上停留的天数比所有可用数据计算的第三个四分之一的天数还要多,而大约21%的人在市场上停留的时间比根据所有可用数据计算的中位数还要长。出于这个原因,建立一个准确的预测模型来预测一个已发布的列表在网上停留的天数,这对于完成识别假列表的任务非常有帮助。在这篇文章中,我们倾向于生成预测模型的“days-on-the-market”,而不是直接预测是否上市是假的,因为它可能确定假清单上面我们提到的只是部分虚假上市Homeheed中包含的数据。在其他情况下,欺诈只是被怀疑,但没有被查明。最后但并非最不重要的是,在某些情况下,判断清单是真实的还是虚假的可能是一项非常困难和主观的任务。 For this reason, we believe that, in the specific case of our study, predicting “days-on-the-market” is more reliable and appropriate than “fraud.”
1.2。研究目标
本文旨在提出基于数据分析技术的系统方法,特别是预测建模,适用于识别房地产广告中的欺诈问题。这项工作的核心研究目标是(1)预测住房的日子市场(2)识别使房产更具吸引力的功能
关于第一点,应该指出,获得高度准确的模型,该模型可以预测给特定财产在市场上仍将保持多长时间是复合任务:首先,包含所有所需信息的数据目前不可用,并在一般难以由于高量的不是定量可测量的因素而难以收集。其次,市场上的天数是一个受到各种动态,依赖性和特征的变量,例如地点,价格和有关公寓状况的细节。
第二个目标与第一个目标密切相关。事实上,不同的研究,重点是预测房价,确定和衡量普通住房属性对价格的影响。在这里,兴趣点是衡量这些特征在市场上市场的效果,并确定了对客户更具吸引力的原因。这个问题的答案将支持主页的产品开发,并将允许团队为客户提供具有较高销售/租金的概率。
1.3。研究相关性和重要性
关于保加利亚房地产市场的挑战,这个项目将允许我们(1)探索历史市场数据,并获得有价值的见解,这将允许更准确地估计上市;(ii)简化对收入流和ROI规划有重要意义的市场进入计划;(iii)进一步支持能够评估可获得物业的技术设计。这项工作的结果将有助于确定重要的住房属性,因此将作为一项建议,通过为未来的数据挖掘项目引入新的特性来重组数据库。
此外,该工作旨在为一个作为实现更公平竞争的工具,旨在为保加利亚不受管制的房地产市场进行更具公平竞争的贡献。假设调查结果可以增强业务模式,技术和市场进入策略。数据分析技术可以积极影响系统的开发,并通过使其更加可持续,高效,透明,以及通过提高客户满意度和普通公民在寻找新家的过程中的经验。
可以找到关于将数据科学应用于住房价格预测的几个先前研究。在不同时期,当地房地产市场录得变更,盛开或下降时,提出了关于财产价值评估准确性的问题。该稳定性使住房预测模型成为学者研究的主题。文献综述显示了可以根据不同的功能估计属性价格的方法,并与类似对象相比。但是,目前上市将在市场上有多长的问题尚未广泛研究。这项工作旨在通过突出概念的重要性来填补这一差距days_on_market,作为投资和投资回报率规划的重要特征。
1.4。手稿组织
论文组织如下2包含文献的批判性评论。节3.,我们描述了可用数据。部分4介绍已允许我们获得紧凑且信息数据集的数据预处理阶段,以用作机器学习算法的输入。部分5讨论了得到的实验结果。最后,部分6总结工作并对未来的研究提出建议。最后但同样重要的是,附录一个提供二手机器学习算法的演示文稿。
2.之前和相关的工作
数据挖掘在房地产中的应用已经在过去几年中广泛流行。研究人员和公司使用各种预测技术来捕获波动时期,影响它们通过回归和机器学习算法分析市场趋势,通过聚类异构住房数据来描述物业类型,包括房子属性和地理信息信息,并找到确定销售策略的客户习惯[3.]。
迄今为止出现了几项研究,分析了房地产价格。另一方面,分析了days_on_market(DOM)和财产的普及仍然是一个被人深受的地区。DOM是一个必要的因素,尽管对房地产上市的挑战挑战,因为它与住房对象的普及高度相关。文献综述表明,一些出版物的重点是研究DOM(或市场上的时间)与不同因素,如价格,经纪人/经纪商代理商,营销策略等[4,5]。结果表明了矛盾的结果。例如,Belkin [6,认为DOM与房屋售价之间没有关系,而Miller [7]使用DOM来解释销售价格并显示这两个变量之间的正相关。其他研究表明,由于质量,上市策略和房地产机构等各种因素,DOM和销售价格具有相关的联系,这增加了这种关系的复杂性[8]。
Hengshu朱(9]提出了一项研究,作者通过发展一种预测DOM的方法来衡量房地产市场的流动性。作者使用基于多任务学习的回归来克服位置依赖的问题,并通过使用基线模型(如线性回归(LR)、Lasso、特定位置的线性回归、决策树(DTs)等)进一步比较结果。他们的结果也说明了不同研究特征的相互重要性。该方法的性能评估使用真实世界的数据和设计的系统原型,显示了他们的分析的实际用途,这可以作为Homeheed软件的参考[9]。
艾莫林[10.]使用DTS在7天内预测DOM。作者假设由于住房市场的季节性,应当被视为一周以上的任何准确性。在艾尔莫林的工作中,得出结论,地理空间功能没有向预测增加价值[10.]。
赵某[11.]提出一个预测短DOM的系统。这项工作提供了一个框架,可以作为估计住房物业市场价值的参考。作者假设真正的市场价值可以近似于房源价格,因为房地产经纪人具有相似的优惠,因为很少有经纪人愿意以低价销售房产。此外,通过比较他们的上市价格和估计的市场价值来检测带有短DOM的外壳[11.]。
3.数据描述
主页提供的数据集由550,000多个观察点和19个变量组成,描述了公寓,房屋,商店,餐馆,车库,土地等,在保加利亚索菲亚出租或出售。这些数据将从主要在线房地产上市网站收集,其中包含在01.07.2015至01.07.2018期间发布的列表的历史信息。桌子1列出从数据集中表征列表的功能,具有相应的描述。
|
||||||||||||||||||||||||||||||||||||||||||||||||
数据集包含定性和定量变量。变量date_first./last_seen分别描述一个列表首次上线的日期和它不再可用的日期。这两个变量用于创建我们称之为d的因变量(所建议的系统旨在预测的变量)Ays_on_market..的变量城市对于所有观察点,即索非亚城市,且它将被从数据集中删除,因此不会为模型添加任何有用信息而删除。此外,变量broker_name.由于质量差(大部分名称都处于西里尔)和数据隐私问题,不会考虑不会考虑。关于变量李斯特_用户名,也可能存在一些数据隐私问题,但它们已经通过使用唯一的数字id编码名称来解决。这些id的相关性将在模型开发中进行检查,因为这可能为欺诈检测提供进一步的见解。其余的变量根据位置、值和特定属性描述属性。
变量特价和描述包含所列属性的详细信息。的变量描述提供关于物业设施的全文,同时特价仅包含表征属性的外部或内部的关键字。我们决定从DataSet中删除该变量描述因为内容是用西里尔文写的但是,该变量所提供的特性特价总结财产的一些主要属性,并将通过一些文本挖掘技术进行进一步分析,如部分所述4.
的变量地板上主要通知其属性的地板,以及建筑物中的楼层总数,例如,“12”中的第5条“。但是,它还包含关于M中花园区域的错位值2对于房屋和别墅,或其他一些单词无法识别数据集的目的,并且被视为错误。为了探索性目的,一个名为的新变量space_m2_garden.被创建。
最后,变量build_type.包含关于建筑的一些信息,即建造它所用的砖块类型、梁、MICCS、采用的混凝土结构类型、滑动模板(SF)、面板、在建中以及建筑建成的年份。
为读者提供视觉理解所选属性类型的频率分布,图2说明了每一个财产的清单的总量和它们的分布按房地产所有者类型。我们可以看到,大部分的房源都是由房地产中介公司提供的。
但是,如前所述,房地产中介所收集的关于房地产上市DOM的数据可能并不可靠,在某些情况下甚至不真实。这里缺少的信息是一个变量,该变量表示一个清单在发布时是否真的可用。由于这些信息是不可获取的,而且很难收集,因此建立一个模型来预测房地产中介所列的DOM将会有很大的偏差。为了克服这个问题,我们决定从数据集中删除所有由机构制作的列表。
一般来说,不同的房地产业主/代理商发布的房源被认为有不同的行为。观察DOM的分布是一个有趣的地方。
数字3.显示7月份发布的列表具有大多数属性类型的最大DOM。
4.数据预处理
在本节中,我们将介绍用于转换数据的方法,以获得更紧凑和信息更丰富的数据集。这个新的数据集将作为计算方法的输入,生成市场上的房屋天数的预测模型。
4.1。单变量分析
本节将使用不同的统计和方法来了解连续(或简单数值,因为在延续),文本和分类变量中的个人影响。
以下4.4.1。数值变量
数字4报告描述我们数据集的数字变量的一些基本统计数据,包括集中趋势、变异性、标准偏差和其他一些度量。这项研究是针对原始数据集(用红色标记)中可用的数字特征进行的,也针对为这项工作的目的而创建的一些额外特征进行的。
对于正常分布的数据,大约95%的值位于2标准偏差范围内。出于这个原因,观察我们的数据,我们只能说明这一点年末和year_start可以假设为正态分布。当变量中的值不是正态分布时,标准差并不是研究数据分布的最合适的度量。另一方面,直方图是最常见的可视化工具之一,用于快速调查数据,并对集中趋势、传播、模态、形状和离群值做出结论。此外,直方图支持对数据分布的说明,并作为一种方法来预测偏度和峰度。偏度测量不对称性,而峰度与正态分布相比决定“峰度”。这些测量对于极值的微分是有用的。在正偏斜(右偏斜)中,远离模态的数据值更规则,通常平均值大于模态。如果偏度为负,则均值小于众数。关于峰度,一个正的峰度允许解释远离中心趋势的值更有可能,以及形状更集中的峰度,但尾部更大。当峰度为负时,与正态分布相比,峰值的“肩”更宽[12.]。数字5显示DataSet中某些变量的分布。
此外,表格2代表变量的偏振和峰度的值。负值意味着数据的分布在左侧或负面上偏斜。较近零,倾斜越小较小,同样,如果该数字比零更远。相反,当值大于零时,可变数据的分布在左侧是正/偏斜的。关于刚性病,一个小于3的值意味着负或扁平和广泛的分布,而大于3的值应被解释为高和“苗条”分布[13.]。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
4.1.2。文本变量
从房屋的主要描述中提取了文本特征,并在称为特价的变量中收集。它们包括描述其建筑和/或设施的财产的关键字。为了使读者概述一般在列表中使用的功能,创建了一个单词云。数字6展示“电梯”和“家具”是房屋描述中最常复发的词语,其次是“互联网”和“砖”。必须通过文本建模作为数据准备的重要组成部分来提取这些功能。
有组织的文本通常由表格表示,每行一个令牌。令牌是文本的一个重要组成部分,例如,一个值得值得注意的分析,令牌化是将文本分成代币的做法。令牌也可以是一系列N单词(叫做N-gram)甚至是一个完整的句子。例如,在我们的数据集中,存在诸如“入口控件”之类的单词的多种组合,并且它们称为Bigrams。此外,变量特价本身包含多个定义属性功能的单词。因此,检查关系和共同发生是有趣的。数字7显示可以在中找到的连续单词序列描述属性。
不仅“家具”和“电梯”是出现频率最高的词,而且这两个词之间的组合也反复出现。为了检验词语之间的相关性,所谓披- 使用是二进制结合特征的措施的COFEFIT。该系数量化了两个单词一起出现在一起的概率与独立出现的两个单词之间的相关性。数字8说明了最常出现的四个单词以及最常与它们相关联的单词。这里,应该提到,例如,“下”和“建设”具有相同的披-系数与“砖”相关,因为“在建中”是一个预定义的特殊字母组合。这同样适用于更多的单词组合。有趣的一点是研究“家具”和“电梯”这两个词之间的相关性,由于它们的常见出现,但分析表明披- 只有0.096的控制。
4.1.3。分类变量
可以在我们的数据集中找到的最后类型变量是分类变量。桌子3.显示业主是研究中的主要上市发布商,其中2或3间客房的单位具有最高的供应水平,适用于租金或销售。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
的变量邻里包含大量可能的值。中心地区提供更多的列表,但仍然没有邻近占优势的。
吸引人的事实,如图9,是变量type_built通常只在房产挂牌出售时才包含重要价值。当一份清单被标记为出租时,建筑类型通常是未知的。在管理缺失值时应该考虑到这一点。
4.2。缺失价值观管理
数字10.提供原始数据集中缺失值的概述。的变量space_m2_garden.有最大数量的价值缺失,因为它只对房屋和别墅有意义。然而,对于其他类型的住宅,这个变量可以提供信息,因此它被留在数据集中。另一方面,Homeheed目前把它的兴趣和服务集中在一般可以聚集为“家”的财产上。因此,本作品的重点只放在居住类房产上,主要是公寓。公寓的类型存储在变量中property_type,它可以假设值为1、2、3、4,或多个房间、工作室、公寓和房间,并且没有丢失的值。我们的数据包含了40多万次关于这种类型的住宅的观察。其他类型的清单将不会被分析,并将从数据集中排除。
具有缺失值的其他变量是街道,broker_name., 和build_type..考虑到缺失值,变量的高百分比街道和broker_name.从数据集中删除。关于变量build_type.,因为它将在本文档后面讨论,因此采取了一个决定拆分此变量中包含的信息,从而创建两个新变量:年_ Built.和type_built,分别载有与建造年份和建筑材料有关的资料。有趣的是,这两个变量对于出租的房屋都有大量的缺失值,而对于出售的房屋则没有缺失值。尽管如此,我们还是决定搬走年_ Built.和type_built从数据集。事实上,即使两个变量都包含用于待售的属性的信息,即使是出售的属性,50%的观察点的估算或预测也是非常耗时的或不可靠的。
在其他有大量缺失值的变量中,我们也决定删除该变量lister_username从数据集。
4.3.管理的异常值
在数据转换之前的下一步是异常值的检测和管理。如果没有采取任何操作,异常值可能对数据产生重大影响。例如,它们可以提高误差差异并降低数值测试的至高无上。此外,异常值可能会影响正常性,以及某些统计模型的基本假设。在实践中,异常值可以被解释为IQR(句子范围)比分布的四分位数更极端的1.5倍的值。检测极值的最适用和有用的方法是通过可视化盒子。数字11.- - - - - -14.说明四个特性的箱线图。可以看到需要注意的极端值,以及这些值的分布中的长尾。
可以支持更好地理解这些异常值的一种方法是基于另一个特征中的值观察变量的崩溃。这称为多变量分析。数字15.和16.显示一个分隔的例子space_m2.基于property_type并按货币保加利亚莱的价格。散点图表明,1-,2-或3室公寓主要有异常值,并且具有极端空间的地方具有极端价格。
极值点只在两个变量中检测到,price_in_bgn和space_m2.,它们的总量很小,对整体分析来说无关紧要,所以这些点被从数据集中删除了。
4.4。数据转换
在我们的数据集中,不同的变量有不同的可能值范围。由于一些算法的功能是基于观察点之间的距离来进行预测,因此需要一个共同的尺度来确保没有一个特征会占主导地位。此外,如前所述,数据在某些变量中的分布显示出偏斜度,这可能代表了一些已研究的机器学习算法的困难,而这可以通过缩放数据来缓解。常用的归一化方法是Min-Max(在0到1之间缩放)和Z-score(在-1到1之间缩放)。在本工作中,使用Min-Max对值进行了归一化。
桌子4报告对变量进行的一组其他修改,以获取更具信息性,并且可能更有用的数据集。
|
|||||||||||||||||||||||||||||||||
在表中报告的其他转型中4,值得讨论我们如何决定改变文本变量特价.第一个任务是去掉标点符号,因为它对信息没有附加价值。此外,所有的字母都被转换为小写。这可以防止同一单词的多个副本被提取。由于变量本身只包含关键字,所以没有执行一些基本的预处理过程,如stop words removal或词干提取(removal of sufficient)。然而,最后一步是将单个单词转换为二进制变量。
最后,还引入了两个新变量-price_per_m2.和n_features.第一个是基于space_m2.和price_in_bgn.第二个代表了总数,包括作为关键字描述,可用于列表。
4.5。特征选择
我们使用的原始数据集包括19个变量。然而,到目前为止所提出的转换已经将变量的数量增加到54个,因此必须应用变量选择技术来为模型选择最有价值的预测器。过滤方法通常用作数据准备步骤,以选择特征。首先,对相关系数进行研究,了解连续变量之间的关系。数字17.和18.显示Pearson和Spearman相关系数的热矩阵。
这两个数字都显示了预期之间的显着相关性year_start和年末之间Price_bgn.和price_per_m2..
仅单独的相关性可以限制多型性的检测,因为它仅成对。支持检测更复杂的关系的技术之一是使用特征值。小幅度表明,没有多色性,而值之间的高范围是用于显着的多色性的信号,这是这里的情况。可以计算差异膨胀因子(VIF),其指示由于多型性能而估计回归系数的差异多大刺激。最小可能的VIF等于1,作为拇指的规则,5到10的结果被视为问题的指标。在我们的数据集中,year_start和年末显示出高于20的极端结果Price_bgn.结果左右9.要解决此问题,我们已决定从数据集中删除这些变量。为了检查分类变量与目标之间的显着性水平,进行了Kruskal-Wallis测试。一个P.小于0.05的值表示组之间的显着性水平。只有从中提取的变量描述,telephone_exchange, 和电梯有A.P.值大于0.05。所有其他的,有一个较小的P.值,不能从数据集中排除。
基于这些过滤方法,即相关性和Kruskal-Wallis测试,不能排除大量变量。要选择模型的适当变量,我们应用了嵌入式方法:套索回归。数字19.说明了根据其重要性排序的变量,并基于套索方法进行排序。
观察图19.,我们可以看出,在重要性大于0.05的8个变量中,有两个变量之间高度相关:price_per_m2.和Price_bgn..鉴于这两个变量实际上包含相同类型的信息,只选择其中一个并从数据集中删除另一个是有意义的。显而易见的选择是保持在数据集中的变量,根据套索算法具有最高的变量,并忽略另一个。为此原因,price_per_m2.保存在数据集中,而Price_bgn.被删除。
总之,由此产生的最终数据集作为用于构建预测模型的机器学习方法的输入,包含7个变量。这些变量是(一世)李斯特(ii)rent_or_sell.(3)🚧正在施工🚧(iv)space_m2.(v)砖(vi)家具(七)price_per_m2.
5.实验结果
本节中所示的所有结果都是通过执行来自所学习的机器学习算法的30个独立执行来获得的。对于这些执行中的每一个,考虑了将可用数据的不同分割成学习集和测试集。为了获得这种分裂,70%的观察结果,随机选择,被认为是学习集,而剩余的30%形成了测试集。对于每个研究的机器学习方法,在学习集上执行训练阶段,报告的结果是在测试集上获得的结果。When parameters needed to be set (it is the case, for instance, of the lambda parameter of Lasso, Ridge, and Elastic Net), only the learning set has been used to optimize the parameters’ values, in the following way: the learning set was partitioned into 5 subsets and 5 different training phases were performed with different values of the parameters. In each one of these phases, 4 of these subsets were used for training, while the other one was used for validation cyclically, so that each one of these 5 subsets was used once and only once for validation (5-fold cross-validation). The set of parameters that were used are the ones who allowed us to obtain the best median results on validation.
让我们通过分析Lasso、Ridge和Elastic Net得到的结果来开始讨论实验结果。这三个模型中的每一个都经过训练,执行参数lambda的预定义值的网格搜索。选择了使验证时的RMSE最小的lambda值。得到的lambda值Lasso为0.001,Ridge为0.0023,Elastic Net为0.00014。使用这些lambda值,结果如表所示5获得:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
作为表5显示,套索在最小和中位数的RMSE方面都表现出脊和弹性网。
桌子6和7显示,对于每个使用的特征,为每个研究的算法获得的系数的值。
|
||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||
桌子6和7概念对每个研究算法的变量的相对重要性。正如我们所看到的,除了变量系数之外,没有一个系数等于零price_per_m2.适用于套索和弹性网。这证实了在特征选择阶段完成的工作的适当性,证实了7个所选功能对预测很重要。
现在让我们讨论人工神经网络获得的结果。执行网格搜索以查找隐藏层数的适当值和每个隐藏层的单位数。返回最佳中位数的验证结果的结果是2个隐藏层,第一个隐藏层中的3个单位,第二个隐藏层中的2个单位。数字20.说明了可通过此配置获得的训练神经网络。黑线表示连接及其权重的可见性,而蓝线和值表示在每一步上添加的偏差项。
数字21.报告神经网络与套索回归之间的比较,显示了真实的VS预测值。数据指向较近行,模型越好(理论上,在最佳情况下,数据点应与线条完全对齐,当RMSE等于0时)。
(一)
(b)
(c)
散点图表明,神经网络与套索相比,神经网络具有稍微远的数据点。这给出了视觉指示,即套索可能是比研究问题的神经网络更准确的算法。该定性结果也定量化:神经网络获得的RMSE等于0.065,这意味着套索略微表现稍好。
此外,人们还可以考虑神经网络一般对解释和解释更复杂。
最后,为了加强使用套索获得的结果的稳健性,我们对通常用于解决回归问题的其他知名机器学习技术的比较,即随机林(RFS),支持向量回归(SVR),以及K-最近的邻居(k-nn)。读者称为附录中的材料一个浏览这些技术的简要概述。为了确保公平的比较,我们通过执行一个初始调优阶段来选择表征不同技术的参数值。特别是,与使用神经网络和Lasso进行的实验类似,我们进行了网格搜索,以确定所考虑的机器学习技术最合适的参数。
关注RFs,调优阶段maxnodes 70的参数返回一个值(即参数限制在每棵树的节点总数),1000年在随机森林,树木的数量和功能用来测量质量的分裂在树上基尼杂质。具有这种配置的RF返回的中值RMSE等于0.073。
针对K-NN,强调参数的重要性是很重要的k(即,邻居数量)在模型的性能上。特别是,文献报告了一个具有非常低的值的模型k可能倾向于过度装覆数据,而较高k值可能导致垫底。网格搜索过程返回了一个值k等于15,导致最终模型,RMSE为0.064。虽然该值与套索实现的那个值相当,但K-Nn在这里研究的问题的背景下存在一些弱点。特别地,K-NN需要一种难以忍受的时间来返回对未经证明数据的预测,因为它必须计算每个新观察和训练集中的样本之间的距离。此外,通过惩罚回归产生的模型的可解释性高于K-Nn之一,因为不能从k-nn中提取特征的重要性。
最后一种机器学习技术SVR的性能通常取决于核函数的选择。核函数通过将非线性输入空间转换为线性空间,定义支持向量与目标之间的关系/距离。支持向量机的基本概念是预测的最大容许误差应小于定义为的某一值。为了避免过拟合,使用代价参数对回归进行惩罚。在实验阶段,我们使用了自动核函数选择,但是为了定义惩罚成本和最大允许误差,我们执行了网格搜索。在ε = 0.5和代价参数等于4.57的情况下进行实验,我们得到的中值RMSE为0.066。
桌子8提出了几个绩效指标来总结和比较针对所提出问题所训练的模型。MAE (mean absolute error)和MDAE (median absolute error)都是合适的测量方法,因为所考虑的数据具有DOM的一些极值特征。解释方差得分考虑了平均误差,而R2在计算中没有考虑平均误差,这使度量更有偏差,这可能导致高估或低估模型在预测者解释目标的方面有多好。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
总而言之,尽管它很简单,但套索是我们发现最适合解决手头问题的技术。特别是,它还通过允许我们分析表征问题的最重要的特征来产生竞争性能(即,低错误)。部分5.1专门用于此分析。
5.1。Lasso发现模型中的特征重要性
在一个学习预测模型中,度量特征重要性的最知名方法之一是,在修改特征的值之后,测量模型误差的增加,例如,随着不同的观测值变换它们的值。换句话说,如果重新排列其值不会导致模型错误的任何改变,则认为给定的特性不重要或不重要,如果它导致对错误的重大修改,则认为它重要。这种方法的一个有趣之处在于,它不仅考虑了一个特征与输出变量的关系,而且还考虑了所有其他特征的关系。此外,排列重要性不需要对模型进行再训练,而只是对特征值进行简单的调整[14.]。
数字22.显示了根据他们的重要性进行排序的特征(从最重要的是从顶部报告的最重要的一个,底部报告的重要版本)。对于每个特征,其重要性被测量为使用特征的原始值执行的模型之间的RMSE和在洗牌后执行的模型之间的差异。桌子9给出了特征重要性测试结果的详细信息。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
这些结果表明李斯特被认为是套索模型最重要的特征,随后,按顺序rent_or_sell.,🚧正在施工🚧,space_m2.,砖, 和家具.最后,price_per_m2.被认为是更少的预测特征。
6.结论和未来的工作
本文的目的是开发一个模型来预测days_on_market变量通过应用几种算法,特别是Lasso, Ridge,和Elastic Net回归和神经网络。这项工作的出发点是提出下列研究问题,下文各段将回答这些问题:(1)机器学习算法能预测吗days_on_market房屋单位的变量?(2)哪些功能有效地影响了客户目标的财产吸引力?
研究了各种特征,以确定影响物业吸引力的关键因素,这导致模型中使用的特征减少到7.然后,训练研究算法和套索回归优于其他研究的算法。总之,我们能够使用套索回归开发一个准确的预测模型,以预测独立变量days_on_market选择一个鉴别器,这将在第二个研究问题中讨论。第二个问题(2)的答案与第一个问题的发现密切相关:识别哪些特征会使一处房产对市场更有吸引力。由于许多研究都关注于衡量因素对房价的影响,这里的重点是衡量特征对吸引力的影响。根据这个特定的数据集,找出对数据集影响最大的特性days_on_market是李斯特,Rent_or_sell, under_construction, space_m2, brick, 和家具.这项工作的主要限制之一是可用数据给出的。例如,大量的变量字符在西里尔,而虽然可以用英语翻译其中一些,但其他人包含一个主要的字符,这使得自动和正确的平移是不可能的。例如,分析了列表的完整描述,或者考虑出版上市的代理商/业主的名称可以提供更深入的见解。
为了改善这项工作,将来可以采取几个补充步骤。在数据收集阶段,这不是本文范围的一部分,可以考虑其他数据源。例如,可以收集附近和住宅概况(学校,超市,运输等)的数据并包括在研究中。对于影响市场的其他因素也是有效的。此外,如前所述,属性市场上的现实日期不可用,在此数据集中已知。为了确保结果的可靠性,需要收集有关物业流动性的信息。这不仅耗时,而且是一个长期任务,因为只有在代理商和业主直接提供的情况下,才能使用此类信息。此外,这里使用的数据仅适用于一个城市;一个更复杂的数据集,覆盖各个城市和各地区,具有自己的规格将是更有信息的。从长远来看,我们计划收集人口统计数据,用户简介和应用程序内行为数据。 Such information together with macroeconomic statistics for purchasing power, banking interest rates, employment level, wage rates, etc., can provide a broader picture not only about the market, but also about the factors which influence home preferences and attractiveness. Not to forget news and media data, which both can reveal interesting patterns for customer behavior and market fluctuations, as well as can provide some insights for the reputation of different agencies. Last but not least, another field of potential research involves the use of other machine learning algorithms, such as a k-nearest neighbor, support vector machines, and random forest.
附录
回归分析是一种统计技术,其模型和近似于依赖变量和一个或多个独立变量之间的关系。在本研究的情况下,依赖变量是days_on_market(DOM),而独立变量是由复杂的数据预处理阶段产生的,介绍4.本附录描述了本文中用于解决手边回归问题的不同技术。
A.1。套索,山脊和弹性网
简单的线性回归,也称为普通的最小二乘(OLS)试图最小化平方的误差之和。在这种情况下,错误是实际(观察到的)数据点及其预测值之间的区别。该模型的等式称为成本函数,是通过最小化和测量它来找到最佳误差的方法:
采用梯度下降算法通过多次迭代求出最优代价函数。但是我们需要定义和分析的数据并不总是那么容易用基本OLS模型来描述。一种情况是数据显示多重共线性,这是预测变量和响应变量相互关联的情况。为了生成更精确的复杂数据模型,我们可以在OLS方程中添加惩罚项。惩罚增加了对某些值的偏见。这些被称为L1正则化(或拉索回归)和L2正则化(或岭回归)。
岭回归在OLS方程中加入了以下罚项,称为L2项:
L2项等于系数幅度的平方。在这种情况下,如果lambda(λ.)为零,则等式是基本OLS。如果Lambda大于零,则将约束添加到系数。该约束具有最小化系数的目标(或非正式地说,缩小)。随着Lambda的值变大,系数的值趋于零。缩小系数导致较低的方差,又误差值。因此,RIDGE回归降低了模型的复杂性。然而,RIDGE不会减少它的变量数量,而是仅缩小其效果。
套索(最小绝对收缩和选择操作员)回归使用L1罚款项,该罚款术语等于系数幅度的绝对值:
类似于Ridge回归,也适用于Lasso, lambda值等于零对应于基本的OLS方程。然而,给定一个适当的lambda值,Lasso可以使一些系数为零。lambda值越大,越多的特性被压缩到零。这可以消除一些特征,并为我们提供一个有助于减轻多重共线性和模型复杂性的预测器子集。如果一个变量没有缩小到零,这意味着这个变量是重要的。换句话说,L1正则化允许特征选择(稀疏选择)。
第三种常用的回归模型是弹性网,它包含了L1和L2规则化的惩罚:
除了选择Lambda参数的值外,弹性网还允许我们调整alpha(α.)参数。alpha值等于零对应Ridge;等于1的值对应于Lasso。如果我们在0和1之间选择alpha值,我们可以结合L1和L2规则化的惩罚,alpha允许我们决定这两个惩罚的相对重要性。感兴趣的读者可参考Fonti [15.]深化套索,脊和弹性网回归方法的功能和性质。
A2。人工神经网络
人工神经网络(ANN)是基于生物神经网络的结构和功能的计算模型。它由一组基本计算单元组成,称为神经元,通过连接或突触强烈地互连,或者突触,其特征在一起。ANN编码一旦呈现输入,可以产生输出的函数(或模型)。在本文中研究的监督学习ANN具有返回给定数据集中包含的每个输入矢量的预期输出的目的。旨在获得此预期输入/输出匹配的学习阶段包括修改网络中连接的权重。每个神经元都可以表示,如图所示23..
一旦建立了进入神经元的连接的一组重量的值,所以通过的输出由neuron计算
在ANN中,神经元通常组织成层。监督学习Anns由三种不同类型的人工神经元形成:(一世)输入层(ii)隐藏层(3)输出层
输入层与向神经网络呈现数据的外部环境通信。它的工作是处理所有输入值。这些输入值被传送到隐藏的层,这在下面解释。每个输入神经元表示一些独立变量,对神经网络的输出产生影响。隐藏层是中间层,在输入层和输出层之间找到。每个隐藏图层的作业是处理其上一层获得的输入。最后,输出层包含将计算结果返回到外部世界的单位。前馈ANN的一般结构,即,在本工作中使用的最多扩散的ANN和中使用的类型之一,如图所示24..
存在几个学习规则,旨在寻找允许完美输入/输出匹配的连接权重的配置。本文中使用的最漫长的一个最多的一个被称为backpropagation。感兴趣的读者称为Gurney [16.]加深这个主题。
出具。支持向量回归
支持向量机(SVM)在[17.,用于分类问题。目标是在类之间寻找最优的分离超平面。位于类边界上的点称为支持向量,中间空间称为超平面;当线性分离器无法找到解时,数据点被投影到高维空间中,在高维空间中,之前的非线性可分离点变成了线性可分离点,利用核函数。整个任务可以表述为一个二次优化问题,可以用精确的技术来解决。在图25.给出了一个线性可分分类问题的实例。支持向量机的目标是使支持向量与超平面之间的距离最大化。
SVM引入一年之后,Smola [18.]提出了一种替代损失功能,允许SVM也适用于回归问题。在SVR中,想法是映射数据事件X进入A.k- 统计特征空间F,通过非线性映射 ,因此,可以将线性回归模型适合该空间中的数据点。然后,获得的线性学习者在新的特征空间中预测。再次,从输入空间映射到新功能空间中由内核函数定义。SVR最具吸引力的特征之一与模型错误有关;SVR而不是最小化观察到的训练误差,而不是最小化观察到的训练误差,最大限度地减少了训练误差和正则化术语的组合,旨在提高模型的泛化能力。SVR的其他有吸引力的属性与核功能的使用有关,这使得它们可以适用于线性和非线性预测问题,并且由于健身功能的凸起及其约束而误差表面的局部最小值。给予(一世)培训数据集T,代表 在哪里是培训输入和是培训预期的产出;(ii)非线性功能: 在哪里是体重矢量,b是偏见,还是是高维特征空间,从输入空间线性映射X.
目标是拟合训练数据集T,通过查找函数f(X)具有最小可能的偏差ε.从目标 .等式(A.7)可以重写为约束的凸优化问题,如下所示:
方程式中所示的目标函数的目的(如系)是最小化 ,同时满足其他约束条件。一个假设是f(X)存在,即凸优化问题是可行的。这个假设并不总是如此;因此,人们可能希望通过估计的平整度来折衷错误。有这一点,VAPNIK重新制定了方程式(如系) 作为 在哪里C < 0 is a prespecified constant that is responsible for regularization and represents the weight of the loss function. The first term of the objective function是正规化的术语,而第二个术语 被称为实证术语并测量 -不敏感损耗功能。解决方程(A.9),拉格朗日因子 可用于消除一些原始变量。转换SVR双优化问题的最终方程 在哪里 为核函数;上述公式允许将SVR扩展到非线性函数,因为核函数允许非线性函数的逼近,同时保持了线性SVR的简单性和计算效率。SVR的性能和良好的泛化依赖于三个训练参数:(一世)内核功能(ii)c(正则化参数)(3)ε.(不带)
A.4。k - 最近邻居
K-CORMALY邻居(K-NN)[19.]是现有的最简单的机器学习算法之一,尽管其简单性,但通常能够对大量应用进行准确的预测。K-Nn的基本思想如下:假设我们想将数据集分区为类并假设我们有一个监督培训数据集,其中一些培训观察已经分为正确的类。现在假设我们有一个新数据X我们想预测哪个课程X属于。这个想法是考虑k培训最接近或最相似的观察X(其中相似性通过预定义距离测量量化)并返回到大多数这些观察属于哪些(多数票)的类。在同样的想法之后,对于回归问题,在看不见的实例上的输出X由平均产出给出k培训观察最相似X.
K-Nn是一种受监督的非参数实例的分类方法。它不是参数,因为在进行预测之前,您不必对数据分发的任何假设,也不是模型的形状。基于实例的实例是没有培训阶段:只要我们拥有我们想要预测的监督数据和数据,我们就可以进行预测。虽然K-NN是非参数,但我们通常使用两个参数来构建模型:k(邻居的数量)和距离度量。没有严格的选择规则k.实际上,这种选择取决于数据集和选择最佳值的经验。一般来说,当k小,预测会很容易受到噪音的影响k是更大的,同时减少了异常值的影响,它将显示更多的偏差(作为一个极限情况,当我们增加k达到培训数据的数量,预测将始终是培训集中的多数课程)。距离度量的选择也在不同的情况下变化。默认情况下,最常用的指标是欧几里德距离(L2标准),曼哈顿距离和Minkowski距离。
使用事例有几个优势:这是一个简单的方法,很容易实现和解释,没有模型训练阶段,没有先前的假设数据分布(这是特别有用,当我们有质量差和非结构化数据),并且它通常有相对较高的精度。当然,它也有缺点:内存要求高(我们需要将所有训练数据存储在内存中来执行该方法),计算代价高(我们需要计算新数据点与所有现有数据点之间的距离来决定是哪个数据点)k是最近的),这是相当昂贵的计算和敏感的噪音(特别是当我们选择一个小k,预测结果可能会受到噪声的影响,如果有的话)。
A.5。随机森林
随机森林(20.]是一种集合模型,它使用装袋作为集合方法和决策树作为单独的模型。
决策树是一种预测模型,其中每个内部节点表示变量,朝向子节点的边缘表示该属性的可能值,并且叶子表示从其他属性的值开始的目标变量的预测值。通过从根节点到叶节点的路径表示判定。
合并方法是一种与多机器学习算法相结合的技术,使预测比任何单个模型更准确。袋装代表了一种可以用于减少随机森林的情况下具有高方差的算法的方差的算法。事实上,决策树对形成它们的特定数据敏感。如果改变了训练数据(例如,树上培训训练数据的子集),所得到的决策树可能完全不同,并且又可以完全不同。BAGGANG是将引导过程应用于高方差机器学习算法。一个随机的森林将许多决策树结合到一个模型中。单独地,决策树的预测可能不是准确的,但组合在一起,平均将平均更接近结果。随机森林返回的最终结果只不过是在回归问题的情况下由不同树木返回的数值结果的平均值,或者由最大数量的分类返回的班级。
数据可用性
用于支持本研究结果的数据可根据要求从Maria Dobreva获得。
利益冲突
作者声明他们没有利益冲突。
致谢
This work was supported by national funds through the FCT (Fundação para a Ciência e a Tecnologia) by the projects GADgET (DSAIPA/DS/0022/2018), BINDER (PTDC/CCI-INF/29168/2017), and AICE (DSAIPA/DS/0113/2019). Mauro Castelli acknowledges the financial support from the Slovenian Research Agency (research core funding no. P5-0410).
参考
- P. Stoykova,ОсновниΠоказателизажилищнияΠазарВБълγарияΠрез2018:保加利亚物业,https://www.bulgarianproperties.bg/novini-za-imoti/pokazateli-imoten-pazar-2018-7555.html, 2018年。
- BTV,保加利亚。BTV幼稚, 2012,https://btvnovinite.bg/bulgaria/falshivi-brokeri-zalivat-pazara-na-imoti.html..
- 问:M.仙光李,数据挖掘技术在房地产市场预测中的应用,Fraunhofer空间和建筑IRB信息中心,德国斯图加特,2006年,https://www.irbnet.de/daten/iconda/CIB5807.pdf.
- 许德明、黄建华、黄建堂,《营销时间与定价策略》,房地产研究学报第34卷第3期3, pp. 375-398, 2012。查看在:谷歌学术
- G. D.Que,“市场上的时间:住宅经纪的影响,”房地产研究学报,卷。12,不。3,第447-458,996,996。查看在:谷歌学术
- D. D. Belkin,“使用住房市场的多维细分市场的实证研究,”房地产经济学,第4卷,第4期。第2页57-75,1976。查看在:出版商网站|谷歌学术
- N.米勒,《市场上的时间和售价》房地产经济学,卷。6,不。2,pp。164-174,1978。查看在:出版商网站|谷歌学术
- J. Z. Catherine-Tucker,J. Zhang和T.朱,“市场和家庭销售天”,兰德经济学杂志,卷。44,不。2,pp。337-360,2013。查看在:出版商网站|谷歌学术
- 朱恒树,《市场上的天数:衡量房地产市场的流动性》第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集,PP。393-402,中国,中国,2016年。查看在:出版商网站|谷歌学术
- s . v . Ermolin预测住宅房地产销售日的市场,计算机科学系斯坦福大学,斯坦福大学,加利福尼亚州,2016年,http://cs229.stanford.edu/proj2016/report/ermolin_predicting_days_on_market_for_residential_real_estate_sales_report.pdf..
- Q. Z. Chao Mou,“推荐房地产代理商短期市场,”环境智能与人性化计算杂志,第9卷,第5期。6,第2077-2092页,2018。查看在:出版商网站|谷歌学术
- H. Seltman,探索性数据分析。实验设计与分析,卡内基梅隆大学,匹兹堡,帕,美国,2015年,https://www.stat.cmu.edu/~hseltman/309/book/hapter4.pdf..
- A. A. Asaad,抗畸形和峰度的措施。博客, 2013,https://www.r-bloggers.com/measures-of-skewness-and-kurtosis/.
- c . Molnar可解释的机器学习。制作黑匣子型号的指南可解释。Christopher Molnar., 2019,https://christophm.github.io/interprodable-ml-book//.
- 诉Fonti,商业分析中的研究论文:套索功能选择, VU Amsterdam, Amsterdam, Netherlands, 2017。
- K. Gurney,神经网络介绍,大学学院(UCL)新闻,伦敦,英国,2004年。
- C. Cortes和V.Vapnik,“支持 - 传染媒介网络”,机器学习,卷。20,没有。3,PP。273-297,1995。查看在:出版商网站|谷歌学术
- A. J. Smola,“回归估计与支持向量学习机,”TechnischeUniversitätMünchen,慕尼黑,德国,1996年,硕士论文。查看在:谷歌学术
- N. S. Altman,“内核和最近邻的非参数回归介绍”美国统计学家第46卷,第46期3,第175-185页,1992。查看在:出版商网站|谷歌学术
- E. Bauer和R. Kohavi,“投票分类算法的经验比较”,机器学习,卷。36,不。1/2,pp。105-139,1999。查看在:出版商网站|谷歌学术
版权
版权所有©2020 Mauro Castelli等人。这是一篇发布在知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。