raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

复杂性

1099 - 0526 1076 - 2787

Hindawi

10.1155 / 2020/4603190

4603190

研究文章

市场预测天优化房地产销售策略

https://orcid.org/0000 - 0002 - 8793 - 1451

卡斯泰利

毛罗。

¹ Dobreva

玛丽亚

¹ 戴安娜

罗伯特。

¹ Vanneschi

莱奥纳多

¹ ² 塔亚尼

弗朗西斯科

新星信息管理学校(NOVA IMS)

里斯本新大学德葡京

校园de Campolide

1070 - 312年葡京

葡萄牙

unl.pt

LASIGE

Departamento de Informatica

Faculdade de Ciencias

葡京大学

1749 - 016年葡京

葡萄牙

ulisboa.pt

2020年

25 2 2020年

2020年 07年 11 2019年 16 01 2020年 25 2 2020年

2020年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

违规和欺诈频繁在房地产市场在保加利亚由于大量缺乏严格的立法。例如,机构频繁发布不真实的或不可用的公寓上市价格低廉,没有意识到潜在的方法来吸引新客户。出于这个原因,系统能够识别不真实的上市和提高上市公司的透明度,真实性和可用性需求。最近的研究强调,出版上市仍然在线的天数可以有很强的相关性与清单的概率是不真实的。出于这个原因,建立一个准确的天数预测模型在线出版上市将会非常有助于完成识别假的任务清单。在本文中,我们调查的使用四个不同的机器学习算法的任务:套索,脊,弹性网,和人工神经网络。获得的结果,在一个巨大的数据集提供的保加利亚公司Homeheed显示套索的适当性回归。

Fundacao对位Tecnologia Ciencia e

DSAIPA / DS / 0022/2018

PTDC CCI-INF / 29168/2017

DSAIPA / DS / 0113/2019

Javna Agencija咱Raziskovalno Dejavnost RS

p5 - 0410

1。介绍

房地产市场在东欧和前苏联国家是新兴的。在保加利亚,情况不会有所不同。鉴于最近的政治和经济的历史的国家,保加利亚的房地产市场的发展可以在三个主要的时间阶段:在社会主义,向市场经济过渡,目前国际上有吸引力的市场。第三阶段是一个时期房地产市场注册两位数的年增长率由于国际投资的兴趣。之后,从2003年到2008年,该行业被盛开的价格导致建立一个气球由房价下降了40%。在这场危机中,房地产投资注册又逐渐增加。统计数据显示,房屋销售增加了11.5%,2018年第一季度的利率保持在低水平。大量新建筑构造,使房屋销售进一步增长6.3% ( 1]。图 1报告的趋势利率和银行房地产贷款从2008年到2018年。

图1

贷款利率保加利亚( 1和数量的住房贷款 1]。

所有这些市场波动导致容易入口和出口市场的经纪人、争夺客户。市场不是排他性的,和一个属性可以提供市场上几次,在不同来源和不同的经纪人。经常经纪人把过时的或不真实的,但有吸引力,在线列表,增加获得新客户的机会。这就造成了错误的期望和不好的客户体验。

Homeheed保加利亚启动,试图消除这个问题,通过集中在一个冗余的上市平台。在技术方面,公司使用关键点匹配技术来识别重复的清单中,使用一些技术包括图像识别。然后,它总结了在一个中央单位。目前,网上可以找到一个公寓上市不同的经纪人和/或与描述的变化。这导致困难提取一个独特的识别关键重复的清单。Homeheed发现图像保持唯一的清单提供的一部分可以追踪哪一个公寓。

这一过程的价值主张是充当单点真理,使客户能够看到所有上市的一个属性,以及理解是否可用。Homeheed最近进入市场的第一个原型来验证这个想法和需求。团队为潜在客户提供了一个演示版本的平台,在那里上市仅从假产品和过滤属性匹配的个人偏好通过电子邮件接收。

Homeheed收集有关房地产市场的信息,从2015年到2018年上市。启动旨在分析这些数据来优化其市场准入计划和预测的投资回报(ROI)。这项工作应用数据挖掘技术,基于这一历史信息,预测有多少天上市地产将在线与特定的特征。这将有助于Homeheed和几个类似的组织首先向客户提供最具吸引力的提供和优化收入流。

1.1。背景和问题识别

违规和欺诈的主题,房地产市场已提高保加利亚媒体渠道的激烈的争论在过去的几年里。一般来说,房地产市场是不受严格的法律,导致房地产机构的简单的入口。一些机构频繁发布不真实的或不可用的公寓列表,通常低于市场的平均价格,作为一种方法来获得客户寻找一个新的生活财产。这些不知道客户再也见不到理想的地方,甚至是误导和欺诈计划前预付款的交易。这不仅创建了一个不好的客户体验和nonsatisfaction,但也使找到一个生活的过程属性具有挑战性和费时。这些不稳定和挪用的房地产行业需要更加透明的发展平台,就像一个由Homeheed开发和建立更好的方法来评估房屋的可用性(Vasilev留言。) 2]。

Homeheed的核心价值主张的是上市公司的透明度真实性和可用性。创业的目标是提供一个解决方案,可以支持修复市场违规行为的过程中,也应该带来更好的客户体验。目前,Homeheed团队正试图开发有效的方法来识别不真实的上市。有趣的是,这是观察到的天数出版上市仍在线可以有很强的相关性与清单的概率是不真实的。更具体地说,它已被观察到,在所有可用的情况下确定假上市,市场上保持68%左右的天数大于第三四分位数计算在所有可用的数据,而市场上保持21%左右的天数大于中位数计算在所有可用的数据。出于这个原因,构建一个精确的预测模型在线出版上市停留的天数可以非常有用的来完成识别假的任务清单。在这篇文章中,我们倾向于生成预测模型的“days-on-the-market”,而不是直接预测是否上市是假的,因为它可能确定假清单上面我们提到的只是部分虚假上市Homeheed中包含的数据。在其他情况下,欺诈只是怀疑,但这是不确定。最后但并非最不重要,可能存在情况下决定是否上市是真实的还是假的可能是非常困难的,和主观的,任务。出于这个原因,我们相信,在我们研究的具体案例,预测“days-on-the-market”是更可靠的和适当的比“欺诈”。

1.2。研究目标

本文旨在提供一个系统的方法基于数据分析技术,特别是预测模型,应用于识别骗子在房地产广告的问题。这项工作的核心研究目标 (1)

预测days-on-the-market住房

(2)

识别功能,这使房地产更有吸引力

关于第一点,应该指出,达到一个高度精确的模型,该模型可以预测多长时间给定房地产市场仍将是一个复合的任务:首先,目前数据包含所有必需的信息不能使用,一般来说他们是很难收集由于高数量的不定量测量的因素。其次,days-on-the-market是一个变量,并深受各种动力学、依赖关系、和功能等位置,价格,关于公寓的条件和细节。

第二个目标是第一个密切相关。事实上,不同的研究,集中在预测房价,识别和衡量公共住房价格属性的影响。在这里,感兴趣的点是days-on-the-market衡量这些特性的影响,确定是什么使一个公寓对客户更有吸引力。这个问题的答案将支持Homeheed的产品开发,并让团队为客户提供上市出售/出租的概率更高。

1.3。研究意义和重要性

在保加利亚,对房地产市场挑战这个项目将使我们能够(i)探索历史市场数据和获得宝贵的见解,将允许一个更精确的估计上市;(2)简化市场准入程序重要的收入来源和ROI规划;和(3)进一步支持的设计技术,可以评估一个属性的可用性。这项工作的结果将有助于确定重要的住房属性,所以将作为一项重组数据库通过引入新特性为未来数据挖掘项目。

此外,这项工作的目的是为一个平台,作为一个工具来实现更多的保加利亚不受监管的房地产市场上公平竞争。假设结果可以提高商业模式,技术和市场进入策略。数据分析技术可以影响积极的发展系统和增强它,使其更具可持续性,高效,透明,以及通过提高客户满意度和一般公民的经历的过程中寻找一个新家。

一些先前的研究可以发现对数据科学应用到房地产价格预测。在不同时期房地产市场在全球范围内已录得变化,绽放,或下降,房地产价值评估的准确性问题已经出现了。不稳定使房地产学者之间的预测模型研究的主题。文献回顾显示方法,可以估算出房地产的价格相比,基于不同的特性和类似的对象。然而,多久的问题清单将会在市场上尚未进行了广泛的研究。这项工作旨在填补这一空白,通过强调的概念的重要性 days_on_market作为一个重要的特性方面的投资和投资回报计划。

1.4。手稿组织

本文的组织结构如下:部分 2包含一个关键文献之回顾。节 3,我们描述可用的数据。部分 4介绍了数据预处理阶段,使我们获得一个紧凑和翔实的数据集,使用机器学习算法作为输入。部分 5讨论了实验结果。最后,部分 6总结工作,并建议未来研究的灵感。最后但并非最不重要,附录一个提供了一个使用机器学习算法的演示。

2。之前和相关工作

数据挖掘的应用在房地产已成为广受欢迎的在过去的几年里。研究者和企业使用各种预测技术来捕获波动周期和影响因素分析市场趋势通过回归和机器学习算法,来描述属性类型由集群异构住房数据,包括属性和地理信息,寻找客户习惯来确定销售策略( 3]。

几项研究分析房地产价格出现了。另一方面,分析 days_on_market(DOM),房地产仍然是一个可以理解的流行区。DOM是一个重要的因素虽然具有挑战性的衡量房地产清单,因为它是与住房对象的受欢迎程度高度相关。文献综述表明,一些出版物的重点是研究之间的关系DOM(市场上或时间)和不同的因素,如价格、经纪/代理机构、营销策略等( 4, 5]。结果显示矛盾的结果。例如,贝尔金( 6)表明,DOM和销售价格的住房没有相互之间的关系,而米勒( 7)使用DOM来解释销售价格和显示了这两个变量之间的正相关关系。其他研究表明,DOM和销售价格都有一个关联的连接由于各种因素,如质量、上市策略,和房地产机构,增加了复杂性的关系( 8]。

Hengshu朱( 9)提出了一个研究的作者衡量房地产市场的流动性通过开发一种方法预测DOM。作者使用多任务上优于回归进一步克服问题的位置依赖和比较结果通过使用基线模型,如线性回归(LR)套索,具体地点的线性回归,决策树(DTs)等等。他们的研究结果也说明相互不同的特性研究的重要性。使用实际数据方法的性能评估和设计的原型系统显示的实际应用分析,可以用作参考Homeheed软件( 9]。

Ermolin [ 10)利用DTs预测7日内DOM。作者的假设任何一个多星期的准确性应考虑任意由于季节性的房地产市场。在Ermolin的工作,认为地理空间特征不增加价值的预测( 10]。

曹国伟谅解备忘录( 11)提出了一个系统来预测短DOM。这项工作提供了一个框架,可以作为参考来估计房产的市场价值。作者的假设可以近似真实的市场价值清单价格当房地产经纪人提供相似因为一些经纪人愿意出售财产以更低的价格。此外,住房与短检测到DOM通过比较他们的清单价格和市场价值估计 11]。

3所示。数据描述

Homeheed提供的数据集包含超过550.000观察点和19个变量,描述公寓、住宅、商店、餐厅、车库、土地,等等,出租或出售在索非亚,保加利亚。收集到的数据从主网络房地产清单网站,包含历史信息列表发表在《从01.07.2015 01.07.2018。表 1列出了一个清单的特性描述数据集,与各自的描述。

表1

变量列表和描述。

变量名	描述
盖子	清单ID
date_first_seen	的日期清单住房对象首先出现在网上
date_last_seen	住房对象的日期清单最后一次露面是网上
rent_or_sell	变量这表明住房对象是否出租或出售
property_type	标识属性的类型被出售或出租
城市	城市房地产所在
社区	的邻居财产所在地
街	街上的一个属性
space_m2	产权的面积²
price_in_bgn	房地产的价格在国家货币
price_in_currency	房地产的价格在不同的货币
货币	指定的货币
build_type	指定建筑材料类型
地板上	名字的地板是一个属性
特价	给的条件属性的详细信息
描述	文本描述的属性
n_photos	照片的属性数量已经包含在清单中
lister_type	指定清单是否由所有者、代理、投资者等。
lister_username	账户的名称的清单
broker_name	代理的名称(公司)保持后面的清单

数据集包含定性和定量变量。的变量 date_first/ last_seen描述了清单日期一直在网上第一次和它变得不再可用,分别。这两个变量是用于建立因变量的变量(该系统旨在预测),我们称之为d ays_on_market。的变量城市所有观测点是恒定的,即索非亚的城市,所以它将被删除的数据集,因为它不添加任何有用的信息模型。另外,变量 broker_name都不会考虑由于质量差(大部分在斯拉夫字母名称)和数据隐私问题。有关的变量李斯特_ 用户名,也可能存在一些数据隐私问题,但他们已经找到了解决办法编码名称,使用独特的数字id。这些id将检查的相关性模型发展,因为这可能会为欺诈检测提供进一步的见解。其余的变量描述属性的位置,价值,和特定的属性。

的变量特价和描述包含关于上市地产的细节。的变量描述提供关于酒店设施的全文,而特价只包含关键字描述属性的外部或内部。我们决定从数据集中删除变量描述因为内容是在西里尔。然而,提供的特性变量特价总结的一些主要属性的属性,并将与一些文本挖掘技术,进一步分析了部分的解释 4。

的变量地板上主要通知地板的一个属性,以及建筑楼层的总数,例如,12个“5”。然而,它还包含错误的值关于花园的面积²住宅和别墅,或者其他一些词不能识别和数据集的目的被认为是错误。用于探测的目的,一个新的变量 space_m2_garden被创建。

最后,变量 build_type包含一些信息关于建筑,即砖用于构建它的类型,梁、MICCS,类型的混凝土结构,滑动模板(SF),面板,和在建,连同这座建筑被建的一年。

为读者提供一个视觉的理解所选属性的频率分布类型,图 2演示了清单的每一个属性的总量及其分布由房地产所有者类型。我们可以观察到,大多数上市公司由房地产机构提供。

图2

属性类型房地产所有者提供的类型。

然而,正如上面所讨论的,收集的数据关于DOM的上市房地产公司可能不可靠和在某些情况下甚至可能不是真实的。缺失的部分信息是一个状态变量是否可用清单是目前出版时。因为这个信息不可用,很难收集,建立一个模型,预测清单由房地产经纪人的DOM将高度偏见。为了克服这个问题,我们决定删除所有列表由机构的数据集。

一般来说,房地产所有者/代理商发布不同的概要文件列表被认为有不同的行为。这是一个感兴趣的点观察DOM的分布。

图 3显示列表发表在7月有最大DOM的属性类型。

图3

DOM根据月出版上市。

4所示。数据预处理

在本节中,我们提出的方法用于转换数据,获得更紧凑和翔实的数据集。这个新的数据集将作为输入的计算方法将生成一个房子天市场的预测模型。

4.1。单变量分析

本节将使用不同的数据和方法来理解的个人影响连续(或简单的数值,因为他们将被称为延续),文本,分类变量。

以下4.4.1。数值变量

图 4报告一些基本的统计描述数据集的数字变量,包括措施集中趋势,可变性,标准差和其他几个人。这项研究是进行数值特性在原始数据集(标有红色)和一些附加功能创建这项工作的目的。

图4

基本统计数值变量。

对于正态分布数据,大约95%的值位于2个标准差的意思。出于这个原因,观察数据,我们只能说 year_end和 year_start可以假设为正态分布。标准差并不是最合适的测量来研究数据分布,当一个变量的值并不是正态分布。另一方面,直方图是最常见的一种可视化工具迅速调查数据和结论集中趋势,传播,形态、形状、和离群值。此外,直方图支持数据分布的插图和作为一个方法来想象偏态和峰态。偏态措施不对称,而峰态决定了“尖峰”比正态分布。这些测量是有用的分化极端值。在积极倾斜(右偏态)远离模式更常规的数据值,通常意味着大于模式。如果偏态是负的,那么平均小于模式。关于峰度,积极让远离中央的解释,价值观倾向更可能,以及形状更集中的峰值,但尾巴更大。峰度是负的,那么峰值相比有更广泛的肩膀,“正态分布( 12]。图 5显示在我们的数据集分布的一些变量。

图5

一些数值变量的直方图。

此外,表 2代表的偏斜度和峰度值的变量。的负值意味着分布数据倾斜到左边的还是消极的。接近零,同样很清楚偏态,如果数量更遥远的从0。在相反的位置,当值大于零,变量的分布数据是正/向左倾斜。关于峰度值小于3意味着负面或平坦的和广泛的分布,而一个值大于3应该解释为高和“苗条”分布[ 13]。

表2

偏态和峰态值的变量。

变量	Skewness_of_variable	Kurtosis_of_variable
space_m2	58.55332354	4076.35939
price_in_bgn	6.276439942	166.7471085
price_in_currency	13.76938472	556.4922087
n_photos	0.09699499	1.811480527
year_start	−0.019183275	1.928599009
month_start	−0.005586014	1.954408133
day_start	0.099231688	1.790969492
year_end	−0.085003855	1.933427314
month_end	−0.047972758	1.945445542
day_end	0.066149649	1.778833735
floor_new	1.464791477	6.643659231
total_floors	1.585019943	6.768881337
year_built	−1.06531323	3.845297287

4.1.2。文本变量

文本特征提取的主要描述房子和收集到的变量称为特价。包括关键字,描述一个属性就其建设和/或设施。给读者一个概述的功能一般用于一个清单,一个词创建云。图 6表明“电梯”和“家具”是最经常性的在房子的描述,其次是“互联网”和“砖。“这些特性必须通过文本中提取模型作为数据准备的一个重要组成部分。

图6

词云变量的特色菜。

组织文本通常是由一个表和一个象征性的每一行表示。令牌是一个重要的组件的文本,例如,一个字,这是值得注意的进行分析,标记和分离的做法,文本到令牌。一个令牌也可以的序列 n单词(称为 n克),甚至一个完整的句子。例如,在我们的数据集,几个组合“入口控制”等词的存在,他们被称为三元。另外,变量特价本身包含多个词定义属性特征。因此,有趣的是检查和同现关系的词。图 7显示文字的连续序列中可以找到描述的财产。

图7

中的词描述之间的关系。

不仅“家具”和“电梯”是出现最频繁的词,而且这两个词之间的组合重复发生。检查单词之间的相关性,所谓的 φ系数,这是一个衡量二进制协会的功能,是使用。这个系数量化两个词出现的概率之间的关系在一起,相同的两个词单独出现。图 8说明了最常出现的四个单词和单词通常与他们有关。这里,应该提到,例如,“下”和“建设”是一样的 φ相关系数“砖”,因为“在建”是一个预定义的特殊的三元。也是有效的几个词组合。有趣的一点是研究之间的关系词“家具”和“电梯”由于他们经常发生的自然现象,但分析显示 φ只有0.096的系数。

图8

单词的相关性。

4.1.3。分类变量

最后一个类型的变量,可以发现在我们的数据集分类变量。表 3表明,业主清单出版商在研究的是主要的,这公寓有2或3房间供应最高水平的租金或出售。

表3

交叉表属性类型清单提供者和出租或出售。

	1	2	3	4	公寓	多个房间	房间	工作室	总
1
机构(看起来)	7	56	54	15	2	5	1	7	147年
银行	0	0	0	0	0	0	0	0	0
构建器	2	4	2	0	0	1	0	0	9
投资者	1	10	7	0	1	1	1	0	21
老板	3251年	7586年	4027年	455年	174年	191年	1438年	449年	17571年
2
机构(看起来)	93年	615年	695年	159年	63年	89年	0	44	1758年
银行	2	24	25	3	2	8	0	6	70年
构建器	11	85年	92年	21	6	2	0	0	217年
投资者	11	121年	156年	29日	10	14	0	0	341年
老板	1571年	5015年	5165年	970年	335年	393年	0	157年	13606年
总	4949年	13516年	10223年	1652年	593年	704年	1440年	6663年	33740年

的变量社区包含大量可能的值。中心地区提供稍微上市,但是,没有一个社区明显占优势。

吸引人的事实,如图 9是变量 type_built通常包含重要的价值只有当房地产上市销售。标记为租赁清单时,那么建筑类型往往是未知的。这应该考虑在管理缺失值。

图9

type_built出租或出售。

4.2。管理的缺失值

图 10概述了缺失值的原始数据集。的变量 space_m2_garden最大数量的缺失值仅为住宅和别墅,因为它是有意义的。然而,对于其他类型的住宅,这个变量可以是有益的,所以它的数据集。另一方面,目前Homeheed集中其利益和服务属性,一般可以集群为“回家。“因此,这项工作的重点是只在属性列出生活的目的,主要是公寓。公寓是存储在变量的类型 property_type它可以假设值,如1、2、3、4,或多个房间,工作室,公寓,和房间,没有缺失值。我们的数据包含超过400.000观察这种类型的住宅。其他类型的清单将不会分析和将被排除在数据集。

图10

缺失值的数据集进行了研究。

其他变量缺失值街, broker_name, build_type。鉴于其高百分比的缺失值,变量街和 broker_name从数据中删除。有关的变量 build_type,因为它将在本文稍后讨论,决定将这个变量中包含的信息,从而创建两个新的变量: year_built和 type_built,其中包含的信息相对于建筑和建筑材料,分别。有趣的是,这两个变量有大量的缺失值的房子出租,虽然他们现在不出售房屋时缺失值。然而,我们决定删除 year_built和 type_built从数据集。事实上,尽管这两个变量包含属性的销售信息,归罪或预测50%的观察点是极其耗费时间或不可靠。

在其他变量与大量的缺失值,我们也决定删除变量 lister_username从数据集。

4.3。管理的异常值

下一步转换前的数据异常值的检测和管理。局外人可能产生重大影响的数据如果不采取行动。例如,他们可以增加错误差异和减少数值测试的霸主地位。同时,异常值会影响正常,以及一些统计模型的基本假设。在实践中,局外人可以被解释为一个值的1.5倍差(四分位范围)比分布的四分位数更极端。最适用的和有用的方法来检测一个极端值是通过可视化箱线图。数据 11- - - - - - 14说明四箱线图的特性。可以看到极端值,需要关注,以及长尾分布的值。

图11

的箱线图 price_in_bgn。

图12

的箱线图 total_floors。

图13

的箱线图 space_m2。

图14

的箱线图 floor_new。

一个方法,可以支持一个更好的理解这些异常值的故障变量,观察基于价值观的另一个特点。这就是所谓的多变量分析。数据 15和 16展示一个例子与分离 space_m2基于 property_type和价格的货币保加利亚列弗。散点图显示,主要有离群值在1 - 2 -或3室公寓,极端的地方空间极端价格。

图15

异常值的 space_m2基于 property_type。

图16

异常值的 space_m2基于 price_in_bgn。

极端点被发现只有两个变量, price_in_bgn和 space_m2,他们的总金额是小和无关紧要的整体分析,所以这些点从数据集中删除。

4.4。数据转换

在我们的数据集,不同的变量有不同的可能值的范围。鉴于一些算法的功能是基于距离观测点做出预测,一个常见的规模是需要确保所有的功能将会占主导地位。进一步披露之前,一些变量中的数据显示偏态的分布,这可能代表一个困难的一些研究机器学习算法,可以通过扩展数据得到缓解。常见的归一化方法是Min-Max,尺度范围在0和1之间和z分数,这尺度1和1之间的值。在这部作品中,使用Min-Max值规范化。

表 4报告的其他修改的变量,获得更多的信息,且更有效的数据集。

表4

原始变量的重新编码。

变量	原始版本	记录版本
date_first / last_seen	这两个变量在格式“yyyy-mm-dd”	6新创建的变量,即 year_start /结束;月开始/结束;和 day_start /结束
rent_or_sell property_type	“租金”和“卖出”1234多个房间公寓房间工作室	记录在−二进制0租金,1销售记录完全数字1,2,3,4,5,6,7,8
lister_type附近	包含了许多字符值与邻居的名字	的身份证号码被分配不同的社区
lister_type	包含水平“所有者”、“投资者”,“建设者”,“空白”,机构(的样子)。“价值”机构(看起来)数据收集期间”是错误的。它代表了在现实中投资者或建筑商	因为没有严格的条件和投资者之间的识别builder被发现,“代理(看起来)”的价值被随机取代builder或者投资者。创建新变量代码从1到4
build_type	原来变量包含,建筑材料	——变量被分成了两个新的变量 year_built和 type_built
特价	格式文本变量[\ word1 \ \ word3 \“\ word2 \”,“…)	二进制变量为每个单词表示存在或缺乏这一特性
地板上	原来的格式例如“5到10	分成了两个新的变量 floor_new和 total_floors

在报告的其他转换表 4,值得讨论我们决定如何改变文本变量特价。第一个任务是标点符号的删除,因为它没有附加值的信息。此外,所有字母都转换为小写。这可以防止多个副本中提取相同的词。由于变量本身只包含关键词,一些基本的预处理程序,如停止词删除或阻止(删除就足够了),没有执行。然而,最后一步是一个词的转换为二进制变量。

另外介绍了——最后,两个新的变量 price_per_m2和 n_features。第一个是基于计算 space_m2和 price_in_bgn。第二个代表总数的特性,包括关键字的描述,提供一个清单。

4.5。特征选择

我们处理的原始数据集包括19个变量。然而,到目前为止提出的转换变量的数量增加到54岁,所以变量选择技术应用到选择的最有价值的预测模型。过滤方法通常采用数据准备一步,选择功能。首先,对相关系数进行研究,有一个连续变量之间的关系。数据 17和 18显示两个热的皮尔森和斯皮尔曼相关系数矩阵。

图17

斯皮尔曼相关热点图。

图18

皮尔森相关热点图。

这两个数据显示预期之间的显著相关性只 year_start和 year_end和之间的 price_bgn和 price_per_m2。

相关就可以限制多重共线性的检测,因为它仅仅是成对。的技术支持更复杂的检测是使用特征值的关系。一个小大小显示不存在多重共线性,而高之间严重的多重共线性的值是一个信号,这是这里的情况。方差膨胀因子(VIF),这表明回归系数的方差是高估了多少由于多重共线性,可以计算。最短VIF = 1,作为一个经验法则,结果5和10之间视为指标问题。在我们的数据集, year_start和 year_end20以上,表现出极端的结果 price_bgn有一个结果在9。为了解决这个问题,我们决定从数据集中删除这些变量。检查分类变量和目标之间的显著性水平,克鲁斯卡尔-沃利斯的测试执行。一个 p值小于0.05表明团体之间的显著性水平。只提取的变量描述, telephone_exchange, 电梯有一个 p值高于0.05。所有的其他人,有一个小 p值,不能排除在数据集。

基于这两种过滤方法,即。,correlation and Kruskal–Wallis test, not a significant amount of variables can be excluded. To select the proper variables for the model, we applied an embedded method: Lasso regression. Figure 19说明了变量根据其重要性排序和基于套索的方法。

图19

套索变量的重要性。

观察图 19,我们可以评论,在8变量重要性大于0.05,两个变量相互之间高度相关: price_per_m2和 price_bgn。鉴于这两个变量,实际上,包含相同类型的信息,可以只选择其中一个,删除其他的数据集。显而易见的选择是保持数据集的变量重要性最高根据套索算法和漠视。由于这个原因, price_per_m2保存在数据集,而 price_bgn被删除。

总之,结果,最终的数据集,这是作为输入机器学习方法建立预测模型,包含7个变量。这些变量是 (我)

李斯特

(2)

rent_or_sell

(3)

under_construction

(iv)

space_m2

(v)

砖

(vi)

家具

(七)

price_per_m2

5。实验结果

所有的结果显示在这一节中已经获得通过执行30独立执行的每一个学习机器学习算法。对于每一个执行,不同的可用数据分割成一个学习集和测试集被认为是。获得这种分裂,70%的观察,与均匀分布随机选择,被认为是学习,而剩下的30%形成了测试集。对于每一种机器学习方法,研究训练阶段是学习集上执行和报告结果的结果已经获得的测试集,当参数需要设置(是这样的情况,例如,λ参数的套索,脊,和弹性网),只有学习集被用来优化参数的值,以下列方式:学习集划分为5子集和5个不同训练阶段进行不同的参数值。在每一个阶段,4这些子集被用于训练,而另一个用于验证周期,这样每一个只使用一次,一次5子集进行验证(5倍交叉验证)。使用的参数集是那些允许我们获得最好的中间结果验证。

让我们开始讨论实验结果分析获得的结果套索,脊,弹性网。三种模型训练执行网格搜索参数λ的预定义的值。λ的值最小化的RMSE验证被选中。套索获得λ的值分别为0.001,0.0023为脊,0.00014弹性网。这些值λ,结果见表 5得到:

表5

获得的RMSE套索、山脊和弹性。

模型	最小值	第一曲。	中位数	的意思是	第三曲。	马克斯
脊	0.059	0.065	0.068	0.067	0.070	0.073
套索	0.056	0.064	0.066	0.067	0.070	0.081
弹性	0.059	0.065	0.068	0.067	0.070	0.073

如表 5所示,套索表现脊和弹性最小和平均净无论是RMSE获得。

表 6和 7显示,对于每一个使用的一个特性,系数的值,得到的每一个学习算法。

表6

岭回归系数。

变量	系数。
(拦截)	0.007812742613
rent_or_sell	0.017990042310
space_m2	0.087954307932
砖	0.006890894870
家具	−0.005648094327
under_construction	0.023199993261
price_per_m²	0.012193552241
李斯特	0.126633821677

表7

系数的套索和弹性。

变量	系数。套索	系数。弹性
(拦截)	0.008262840044	0.006914658626
rent_or_sell	0.020773920773	0.021302049363
space_m2	0.081148777731	0.088121228126
砖	0.006277781636	0.006389871295
家具	−0.004166719412	−0.004836976890
under_construction	0.020923002635	0.022619172277
price_per_m2	0	0
李斯特	0.127546013431	0.130465654935

表 6和 7给一个想法的为每一个变量的相对重要性的学习算法。正如我们所看到的,没有一个系数等于零,除了变量的系数 price_per_m2套索和弹性。这证实了适合的工作是做在特征选择阶段,确凿的7选择特性是重要的预测。

现在让我们讨论人工神经网络得到的结果。网格搜索寻找适当的值执行隐藏层的数量和每个隐层单元的数量。返回的结果,最好的中间结果验证两个隐藏层,3在第一隐层单元,2单位在第二个隐藏层。图 20.说明了经过训练的神经网络可以获得与该配置。连接上的黑色线条给可见性及其权重,而蓝线和值代表偏差项添加每一步。

图20

最好的神经网络,我们可以获得我们的实验。

图 21报告比较神经网络和套索回归,显示真正的vs预测值。线数据点,越接近越好模型(从理论上讲,最好的情况是,数据点与线应该完全一致时,当RMSE = 0)。

图21

实际与预期值神经网络和套索。

(一) (b) (c)

散点图表明,神经网络具有更遥远的数据点的线比套索。这给了一个视觉暗示套索可能比神经网络更准确的算法的研究问题。定性定量结果也证实:神经网络获得的RMSE等于0.065,这意味着套索表现略好。

除此之外还可以考虑,一般神经网络是更复杂的解释和解释。

最后,加强使用套索结果的可靠性,我们表现的比较与其他著名的机器学习技术通常用于解决回归问题,即随机森林(RFs),支持向量回归(SVR)和再邻居的事例)。读者被称为材料附录一个这些技术的简要概述。确保公平的比较,不同的技术参数描述的值是通过执行一个初步优化阶段。特别是,类似于实验进行神经网络和套索,我们进行了网格搜索来确定最合适的参数被认为是机器学习技术。

关注RFs,调优阶段maxnodes 70的参数返回一个值(即。,the parameter that limits the total number of nodes in each tree), 1000 for the number of trees in the random forest, and the function used to measure the quality of a split in the trees was the Gini impurity. The RF with this configuration returned a median RMSE equal to 0.073.

关注的事例,突出的重要性是很重要的参数 k(即。,number of neighbors) on the performance of the model. In particular, the literature reports that a model with a very low value of k可能倾向于overfit数据,而高 k值会导致underfitting。网格搜索程序返回一个值 k等于15,导致最终模型的RMSE 0.064。虽然这个值是与一个套索,实现基于事例的上下文中有一些弱点问题研究。特别是,事例需要一个无法忍受的时间返回一个看不见的数据的预测,因为它必须计算之间的距离每一个新的观察和训练集的样本。此外,生成模型的可解释性的处罚回归高于事例之一,因为功能的重要性不能从事例中提取。

过去的机器学习技术的性能考虑,SVR,一般取决于核函数的选择。核函数定义了关系/支持向量和目标之间的距离,通过将输入空间的非线性转换为一个线性空间。SVR背后的基本概念是最大允许误差的预测应低于某个值定义为ε。为了避免过度拟合,回归的惩罚成本参数的使用。在实验阶段,我们使用了自动化核函数的选择,但定义惩罚成本和ε(最大允许误差),我们进行了网格搜索。执行试验ε= 0.5和成本参数等于4.57,我们获得了平均均方根误差为0.066。

表 8提出了几个性能措施,总结和比较了模型训练提出了问题。平均的平均绝对误差(MAE)和MDAE(平均绝对误差)都是合适的措施作为数据考虑DOM的特点是一些极端值。解释方差分数的平均误差考虑在内, R²不考虑计算的平均误差,这使得度规有点偏见,这可能会导致高估或低估了模型的预测解释目标。

表8

模型comparison-performance措施。

模型	RMSE	美	MDAE	R²	解释方差的分数
随机森林	0。073年	0.0399	0。0202年	0。3625年	17.5037
弹性网	0.065	0.0341	0。0176年	0.1983	9.5736
套索	0.064	0.0340	0.0177	0.1832	8.8431
脊	0.065	0.0341	0。0176年	0.1942	9.3746
安	0.065	0.0339	0.0160	0。2	9.6594
事例	0.064	0.0331	0.0155	0.2394	11.5575
SVR	0.066	0.0396	0.0321	0.0761	3.6757

总而言之,它是可能的状态,尽管它的简单性,套索是我们找到最合适的技术来解决这个问题。特别是,它产生了竞争(即性能。,low error) by also allowing us to analyse the most important features that characterize the problem. Section 5。1致力于这一分析。

5.1。功能重要性模型中发现的套索

最著名的方法来测量特性的重要性在学习预测模型由模型的测量误差的增加,修改后的值的特性,例如,拖着他们的价值观以及不同的观察结果。换句话说,一个给定的特性被认为是减少或不重要,如果重新安排其值不会导致任何改变在模型的错误,被认为是很重要的,如果它会导致一个重要的修改错误。该方法的一个有趣的点是,它不仅考虑功能与输出变量之间的关系,但也与所有其他的特性。此外,排列不需要再培训模型的重要性,只是一个简单的移动特性的值( 14]。

图 22显示的特性,根据其重要性排序(从顶部的最重要的一个报道,底部的不太重要的一个报道)。对于每一个功能,它的重要性是衡量不同模型之间的RMSE执行原始值的特性和模型洗牌后执行。表 9给详细信息重要性的特性测试的结果。

图22

功能模型中的重要性。

表9

功能模型中的重要性。

变量	Importance.05	重要性	Importance.95	排列错误
李斯特	1.0611371	1.0676099	1.119868	0.07243278
rent_or_sell	0.9945100	1.0278727	1.072171	0.06973678
under_construction	0.9973978	1.0262011	1.030145	0.06962337
space_m2	0.9818909	1.0215203	1.032234	0.06930579
砖	0.9752772	1.0109712	1.038632	0.06859008
家具	0.9664737	1.0071756	1.037656	0.06833257
price_per_m2	0.9698690	0.9905373	1.030250	0.06720373

这些结果表明, 李斯特被认为是最重要的特征的套索模型,之后,在订单 rent_or_sell, under_construction, space_m2, 砖, 家具。最后, price_per_m2被认为是预测功能越少。

6。结论和未来的工作

本文的目的是开发一个模型来预测 days_on_market变量通过应用一些算法,特别是,套索,脊,弹性净回归和神经网络。工作的起点是制定以下研究问题,将在即将到来的段落回答: (1)

机器学习算法可以预测的吗 days_on_market变量的住房吗?

(2)

哪些特性有效地影响房地产吸引力为客户目标?

调查了各种特性识别的关键因素,影响一个属性的吸引力,导致减少的功能模型中使用的7。然后,学习算法训练和套索回归优于其他算法进行了研究。总之,我们可以开发一个精确的使用套索回归预测模型,预测自变量 days_on_market选择鉴别器,将在第二个研究问题讨论。第二个问题的答案(2)密切相关的发现第一个:识别的特性使房地产市场更有趣。尽可能多的研究集中在测量的影响因素对房屋的价格,这里感兴趣的点是测量功能吸引力的影响。基于这个特定的数据集,最具影响的特性 days_on_market是李斯特, rent_or_sell、under_construction space_m2砖, 家具。这项工作的一个主要的限制是由可用的数据。例如,大量的可变字符在斯拉夫字母,虽然可以翻译一些英文,其他主要包含的字符数的自动和正确的翻译是不可能的。例如,进一步分析的完整描述列表,或考虑机构的名称/业主发布清单可以提供更深入的见解。

为了提高这项工作,可以采取几个补充步骤在未来。在数据收集阶段,本文的范围的一部分,可以考虑其他数据源。例如,小区和住宅数据配置文件(学校、超市、交通等)可以收集并纳入研究。同样为其他相关因素的影响,市场是有效的。另外,正如前面提到的,真正的天房地产市场没有可用的和已知的数据集。为了保证结果的可靠性,属性的流动性需要收集的信息。这不仅费时而且是一个长期的任务,因为这些信息将只提供如果直接提供机构和业主。此外,这里使用的数据只有一个城市;更复杂的数据集覆盖多个城市和地区有自己的规范将会包含更多的信息。从长远来看,我们计划收集统计,用户配置文件和应用程序的行为的数据。 Such information together with macroeconomic statistics for purchasing power, banking interest rates, employment level, wage rates, etc., can provide a broader picture not only about the market, but also about the factors which influence home preferences and attractiveness. Not to forget news and media data, which both can reveal interesting patterns for customer behavior and market fluctuations, as well as can provide some insights for the reputation of different agencies. Last but not least, another field of potential research involves the use of other machine learning algorithms, such as a k-nearest neighbor, support vector machines, and random forest.

附录 raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

回归分析是一种统计技术,模型和近似一个因变量之间的关系和一个或多个自变量。在这项研究中,因变量 days_on_market(DOM),而独立变量是一个复杂的数据预处理阶段,描述的部分 4。本附录描述本文中使用的不同的技术来解决回归问题。

. 1。套索、山脊和弹性

简单线性回归,也被称为普通最小二乘法(OLS)试图最小化误差的平方的总和。错误,在这种情况下,实际的区别(观察)数据点和其预测价值。这个模型的方程称为成本函数,找到最优的方法通过最小化误差和测量: (.) ∑ 我 = 1 米 y 我 − y ^ 我 2 = ∑ 我 = 1 米 y 我 − ∑ j = 0 p w j × w 我 j 2 。

梯度下降算法找到最优成本函数通过数次迭代。但是我们需要定义和分析的数据并不总是那么容易与基础OLS模型描述。情况之一是数据显示多重共线性,这是预测变量时相互关联和响应变量。产生一个更准确的模型复杂的数据,我们可以添加一个惩罚项OLS方程。一个点球添加一个偏向某些值。这些被称为L1正则化(或套索回归)和L2正规化(或岭回归)。

岭回归添加以下惩罚项,称为L2, OLS方程: (a) + λ ∑ j = 0 p w j 2 。

L2项等于系数的大小的平方。在这种情况下,如果λ( λ)是零,那么方程是基本的OLS。如果λ大于零,然后添加一个约束系数。这种约束最小化的目标系数(或者非正式的演讲,萎缩)。系数的值趋向零当λ的值变大。收缩系数导致降低方差,进而降低错误值。因此岭回归降低模型的复杂度。然而,脊并不减少变量的数量,而只是收缩它们的效果。

套索(至少绝对收缩和选择算子)回归使用L1惩罚项,等于的绝对值的大小系数: (a) + λ ∑ j = 0 p w j 。

类似地岭回归,也对套索,λ值等于零对应于基本OLS方程。然而,考虑到一个合适的λ值,套索可以驱动一些系数为零。λ的值越大,更多的功能被缩小为零。这可以消除一些特性和给我们的一个子集预测,帮助减少多重共线性和模型的复杂性。如果一个变量不是缩小到零,这意味着变量是很重要的。换句话说,L1正规化允许特征选择(的选择)。

第三个常用的回归模型是弹性网,从L1和L2正规化了处罚: (各) ∑ 我 = 1 n y 我 − x 我 j β ^ 2 2 n + λ 1 − α 2 ∑ j = 1 米 β ^ j 2 + α ∑ j = 1 米 β ^ j 。

除了选择一个值λ参数,弹性网还允许我们调整α( α)参数。α等于零的值对应于山脊;α等于1的值对应于套索。如果我们选择一个alpha值在0和1之间,我们可以将处罚L1和L2正规化和α允许我们决定这两个点球的相对重要性。感兴趣的读者被称为Fonti [ 15)深化套索的功能和属性,脊,弹性净回归方法。

由信用证。人工神经网络

一个人工神经网络(ANN)是一个计算模型基于生物神经网络的结构和功能。它是由一组基本计算单元,称为神经元,强烈相互联系相互之间的连接,或突触,特点是重量。安一个编码函数(或模型)可以产生输出一次输入了。监督学习人工神经网络的研究本文的目标返回预期的输出为输入向量的每一个包含在一个给定的数据集。学习阶段,旨在获得预期的输入/输出匹配,包括修改的权重的连接网络。每一个神经元可以表示如图 23。

图23

人工神经元的一般结构。

一旦设定的值权重的连接已经建立了进入一个神经元,神经元的输出计算 (本) y = f ∑ 我 = 1 n w 我 x 我 + θ 。

在一个安,神经元通常组织成层。监督学习人工神经网络是由三种不同类型的层形成的人工神经元: (我)

输入层

(2)

隐藏层

(3)

输出层

输入层与外部环境,提出了神经网络数据。它的职责是处理所有输入值。这些输入值转移到隐藏层,下面解释。每一个输入神经元代表一些独立变量都有一个影响神经网络的输出。隐藏层过渡层,发现输入层和输出层之间。每一个隐层的工作是处理先前获得的输入层。最后,输出层包含的单位计算的结果返回给外面的世界。前馈神经网络的一般结构,即。,one of the most diffused types of supervised ANN and the one used in this work, is shown in Figure 24。

图24

一个前馈人工神经网络的体系结构。

几个学习规则存在,旨在寻找一个配置连接的权重,使一个完美的输入/输出匹配。最分散的之一,本文中使用的一个叫做反向传播。感兴趣的读者被称为格尼( 16深化主题。

出具。支持向量回归

介绍了支持向量机(SVM)在 17),对于分类问题。目标是寻找最优分离超平面类之间。点躺在类的边界被称为支持向量,中间的空间,超平面;当一个线性分离器不能找到一个解决方案,数据点投影到一个更高维的空间,在非线性分离点前变得线性可分的,使用内核的功能。整个任务可以制定为一个二次优化问题,能够解决具体技术。在图 25线性可分的一个例子,使用SVM分类问题解决了。支持向量机的目的是最大化利润支持向量和超平面之间。

图25

线性可分的问题。

一年后的引入支持向量机,Smola [ 18)提出了一个替代损失函数,使得支持向量机也被应用于回归问题。SVR的想法是地图数据的事件 X成一个 k维特征空间 F通过一个非线性映射 φ j X ,这样可以适合线性回归模型在这个空间数据点。获得的线性学习者用于预测在新的特征空间。再次,从输入空间映射到新的特征空间是由内核函数定义的。SVR的最有吸引力的特点之一是与模型相关的错误;观察到的训练误差最小化,而是SVR最小化的组合训练误差和正则化项,旨在提高模型的泛化能力。SVR的其他有吸引力的特性相关的内核函数的使用,使他们既适用于线性和非线性预测问题,以及缺乏局部最小值的误差表面由于适应度函数的凸性及其约束。鉴于 (我)

训练数据集 T,由

(要求寄出) T = x 1 , y 1 , x 2 , y 2 , … , x 米 , y 米 ,

在哪里 x ∈ X ⊂ ℝ n 是输入和培训 y ∈ Y ⊂ ℝ 是培训预期输出;

(2)

一个非线性函数:

(A.7) f x = w T Φ x 我 + b ,

在哪里 w 权向量, b是偏见, Φ x 我是高维特征空间,它是线性映射从输入空间 x。

目标是适应训练数据集 T,通过一个函数 f( x)尽可能最小的偏差 ε从目标 y 我。方程( A.7)可以改写成一个受约束的凸优化问题如下: (如) 最小化 1 2 w T w , 受 y 我 − w T Φ x 我 − b ≤ ε , w T Φ x 我 + b − y 我 ≤ ε 。

目标函数的目的在方程( 如系)是最小化 w ,同时满足其他约束。一个假设是, f( x)存在,也就是说。,the convex optimization problem is feasible. This assumption is not always true; therefore, one might want to trade off errors by the flatness of the estimate. Having this in mind, Vapnik reformulated equation ( 如系), (A.9) 最小化 1 2 w T w + C ∑ 我 = 1 米 ξ 我 + + ξ 我 − , 受 y 我 − w T Φ x 我 − b ≤ ε + ξ 我 + , w T Φ x 我 + b − y 我 ≤ ε + ξ 我 − , ξ 我 + ξ 我 − ≥ 0 , 在哪里 C指定< 0是一个常数,负责正规化和代表的重量损失函数。目标函数的第一项 w T w 正则化项,而第二项吗 C ∑ 我 = 1 米 ξ 我 + + ξ 我 − 被称为经验条件和措施 ε 不敏感损失函数。求解方程( A.9),拉格朗日因子 ∝ 我 + , ∝ 我 − , η 我 + , η 我 − 可以用来消除的一些原始变量。最后方程将SVR的双重优化问题 (A.10) 最小化 1 2 ∑ 我 , j = 1 米 K x 我 , x j ∝ 我 + − ∝ 我 − ∝ j + − ∝ j + + ε ∑ 我 = 1 米 ∝ 我 + + ∝ 我 − − ∑ 我 = 1 米 ∝ 我 + − ∝ 我 − , 受 ∑ 我 = 1 米 ∝ 我 + − ∝ 我 − = 0 , ∝ 我 + , ∝ 我 − ε 0 , C , 在哪里 K x 我 , x j 核函数;上述配方允许SVR的扩展非线性函数,因为内核函数允许非线性函数近似,同时保持了线性SVR的简单性和计算效率。SVR的性能和良好的泛化取决于三个训练参数: (我)

核函数

(2)

C(正则化参数)

(3)

ε(不带)

各。再邻居

再邻居(事例) 19)是最简单的一个现有的机器学习算法,尽管它很简单,往往是能够做出准确的预测上大量应用。基于事例的基本思想如下:假设我们想要的数据集分割成类,假设我们有监督训练数据集,在一些训练观察已经分为正确的类。假设我们有一个新的数据 x我们要预测哪些类 x属于。这个想法是考虑的 k训练观察最近或最相似 x(相似性量化是一个预定义的距离测量)并返回到这些观察所属类(多数投票)。同样的想法后,回归问题,输出在一个看不见的实例 x给出的平均输出 k训练观察最相似 x。

事例是监督,非参数,基于实例的分类方法。它不是参数因为之前预测,你不需要做任何假设的分布数据,也不需要考虑模型的形状。它是基于实例的,没有培训阶段:只要我们有监督的数据和我们想要预测的数据,我们可以预测。事例虽非参数,我们通常用两个参数来建立模型: k(邻居)的数量和距离度量。没有严格的选择规则 k。事实上,这个选择取决于数据集和经验选择一个最优值。一般来说,当 k小,预测将很容易受到噪声的影响,什么时候 k较大,同时减少异常值的影响,它会显示更多的偏见(极限情况,当我们增加 k训练数据的数量,预测将永远是多数类训练集)。距离度量的选择在不同的情况下也有所不同。默认情况下,最常用的指标是欧几里得距离(L2标准),曼哈顿距离和闵可夫斯基距离。

使用事例有几个优势:这是一个简单的方法,很容易实现和解释,没有模型训练阶段,没有先前的假设数据分布(这是特别有用,当我们有质量差和非结构化数据),并且它通常有相对较高的精度。当然,也有一些缺点:高内存需求(我们需要存储所有训练数据在内存中执行方法)和计算昂贵的(我们需要计算新的数据点之间的距离和所有现有数据点来决定的 k最近),这是相当昂贵的计算和对噪声敏感(尤其是如果我们选择小 k,预测结果可能会受到噪声的影响,如果有的话)。

本。随机森林

随机森林( 20.]是一种整体模型,它使用装袋作为一个整体法和决策树模型作为一个个体。

决策树是一个预测模型,其中每个内部节点表示一个变量,一个几近一个子节点代表一个可能的属性值,和一片树叶代表目标变量的预测值从其他属性的值。一个决定是由从根节点到叶子节点的路径。

一个预测相结合的方法是一个技术从多个机器学习算法,比任何单一模型预测更准确。装袋代表一个通用程序,可以用来减少方差高方差的算法,如决策树,在随机森林。事实上,决策树是敏感的特定数据。如果训练数据更改(例如,树是训练有素的训练数据的一个子集),由此产生的决策树可以完全不同,反过来,预测可能非常不同。装袋引导程序的应用是一个高方差的机器学习算法。一个随机森林很多决策树结合成一个模型。单独的预测决策树可能并不准确,但是组合在一起,平均预估将更接近的结果。最终结果返回的随机森林只不过是返回的数值结果的平均值不同树木的回归问题,或返回的类最多的分类树。

数据可用性

使用的数据来支持本研究的发现可以从玛丽亚Dobreva要求。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作受到了国家基金通过FCT (Fundacao para Ciencia e Tecnologia)由项目设备(DSAIPA / DS / 0022/2018),粘结剂(PTDC / CCI-INF / 29168/2017),和AICE (DSAIPA / DS / 0113/2019)。毛罗·卡斯泰利斯洛文尼亚承认金融支持研究机构(研究的核心资助。p5 - 0410)。

Stoykova

P。

2018年ОсновниΠоказателизажилищнияΠазарвБълΓарияΠрез:保加利亚属性, https://www.bulgarianproperties.bg/novini - za - imoti/pokazateli imoten pazar - 2018 - 7555. - html,2018年

北京电视台

保加利亚。北京电视台Novinite 2012年

https://btvnovinite.bg/bulgaria/falshivi-brokeri-zalivat-pazara-na-imoti.html

西安广李

问:M。

数据挖掘技术的应用在房地产市场预测 2006年

德国斯图加特

弗劳恩霍夫信息中心的空间和建筑IRB

https://www.irbnet.de/daten/iconda/CIB5807.pdf

回族

e . c . M。

黄

j . t . Y。

黄

k . T。

营销时间和定价策略

房地产研究杂志》上 2012年 34 3 375年 398年

Jud

g D。

时间在市场上:住宅经纪业务的影响

房地产研究杂志》上 1996年 12 3 447年 458年

贝尔金

D D。

实证研究的时间使用多维市场细分的房地产市场

房地产经济学 1976年 4 2 57 75年

10.1111 / 1540 - 6229.00156

2 - s2.0 - 0002645059

米勒

N。

时间在市场和销售价格

房地产经济学 1978年 6 2 164年 174年

10.1111 / 1540 - 6229.00174

2 - s2.0 - 84983978851

Catherine-Tucker

j . Z。

张

J。

朱

T。

天市场和房屋销售

兰德经济学杂志 2013年 44 2 337年 360年

10.1111 / 1756 - 2171.12022

2 - s2.0 - 84879326938

Hengshu朱

h . X。

天市场:衡量房地产市场的流动性

22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘

2016年

中国,北京

393年 402年

10.1145/2939672.2939686

2 - s2.0 - 84984996835

Ermolin

s V。

预测Days-on-Market住宅房地产销售 2016年

斯坦福,加州,美国

斯坦福大学计算机科学系

http://cs229.stanford.edu/proj2016/report/ermolin_predicting_Days_on_market_for_Residential_Real_Estate_Sales_report.pdf

曹国伟谅解备忘录

问:Z。

推荐与短days-on-market房地产房地产经纪公司

环境智能和人性化计算杂志》上 2018年 9 6 2077年 2092年

10.1007 / s12652 - 017 - 0508 - 2

2 - s2.0 - 85049560033

Seltman

H。

探索性数据分析。实验设计与分析 2015年

美国宾夕法尼亚州匹兹堡

卡内基梅隆大学

https://www.stat.cmu.edu/ hseltman / 309 /书/ chapter4.pdf

项目中

答:一个。

措施偏度和峰度。R博客 2013年

https://www.r-bloggers.com/measures-of-skewness-and-kurtosis/

Molnar

C。

可翻译的机器学习。导游让黑盒模型可辩解的。克里斯托弗•莫尔纳 2019年

https://christophm.github.io/interpretable-ml-book/

Fonti

V。

在业务分析研究论文:特征选择套索 2017年

荷兰阿姆斯特丹

VU阿姆斯特丹

格尼

K。

介绍神经网络 2004年

英国伦敦

伦敦大学学院(UCL)出版社

议会

C。

Vapnik

V。

支持向量网络

机器学习 1995年 20. 3 273年 297年

10.1023 /:1022627411411

2 - s2.0 - 34249753618

Smola

a·J。

与支持向量回归估计的学习机器

1996年

德国慕尼黑

慕尼黑技术大学

硕士论文

奥特曼

n S。

介绍内核和加权非参数回归

美国统计学家 1992年 46 3 175年 185年

10.1080 / 00031305.1992.10475879

2 - s2.0 - 0000581356

20.

鲍尔

E。

Kohavi

R。

实证比较投票的分类算法

机器学习 1999年 36 1/2 105年 139年

10.1023 /:1007515423169