文摘

最大的一个国家,项目经理和退休审核人员的项目数量和成本,都是公共采购机构。因此,了解和描述公共采购公告(招标)是基本管理公共资源。本文介绍了西班牙的公共采购的情况下,分析从2012年到2018年的数据集:58337投标314.26亿欧元的成本。全球公共采购进行的许多研究或理论,但缺乏数据分析,特别是关于西班牙。定量、图形和数据集的统计描述。主要的分析是该合同价格和投标价格之间的关系。合同价格估计提出了使用随机森林回归方法。好估计会非常有用和有价值的公司和公共采购机构。这将是一个项目管理决策的关键工具。最后,一个类似的分析,从欧洲国家使用数据集,提出了比较和归纳结果和结论。 Hence, this is a novel study which fills a gap in the literature.

1。介绍

每年,政府当局在欧洲国家花费公共采购约占国内生产总值的14%,约1.9万亿欧元(1),这是最新的估计(2017)不包括公用事业公司的消费。西班牙也类似,这花约占GDP的10%到20% (2]。公共采购是非常重要的在民用建筑等行业,能源、交通、国防、或卫生服务。至关重要。因此,分析公共采购通知,也称为请求招标或投标,理解他们的行为在价格方面,招标公司、项目持续时间、类型的工作,等等。

公共采购作为一个日益增长的意识创新政策工具最近引起了政策制定者和研究者的兴趣(3]。与公共采购相关的公开数据和其他开放政府数据项目(4)增加主要是由于以下因素:(我)技术因素:软件工具来操作大数据和机器学习算法来分析数据(例如,进行预测)5,6]。(2)官僚主义的因素:合同语言的标准化电子采购(7,8)和公共采购机构的数字化的好处(9]。(3)政治因素:更大的透明度在政治决策和设计的方法为公共采购选择供应商的10]。(iv)经济因素:成本的估计的准确性(11),合同谈判(12),风险和不确定性在合同13),投标人参与投标的估计(14和它对价格的影响15],globalisation-companies远离他们的起源在市场竞争1]。(v)社会因素:减少对效率低下的政治管理或政治过程中的违规行为(16奖励机制)和更大的透明度和灵活性之间的公共采购机构和私人公司(17]。

这篇文章的布局与方法的研究工作,如图1。部分2总结了关于公共采购立法通知。招标组织领域,然而,有必要进行预处理生产数据集的信息。过程中所涉及的数据字段以及如何将数据预处理。部分3分析数据集(主要特征值、相关性、分散,等等),列表(类型的错误),使用的评价指标,使定量和图形分析的两个基本领域:投标价格和合同价格。公开招标的竞争及其对储蓄的影响进行了分析:该合同价格是如何影响企业的竞争力。节4奖的一个估计价格使用机器学习算法提出了随机森林回归。温柔的几个字段(公共采购机构的名称,类型的合同,地理位置,类型的工作或服务,持续时间、日期、等)被用来预测。估计量的成功是基于前面定义的评价指标进行了分析。此外,从欧洲其他国家类似的分析使用一个数据集。最后,提出了一些结论和未来研究的方向5

据我们所知,本文是第一个试图提供一个奖项的所有类型的招标价格估计一个国家使用机器学习算法。类似的文章处理这个话题(18,19)最近发表的只有建筑工程和小数据集。发现是典型的文学只应用于建设项目;这主要是因为他们是最大的公共采购项目。相反,本文的方法从多学科的角度来看,它使用机器学习技术分析大量的数据。

2。西班牙公开招标(2012 - 2018):数据集的描述

在本节中,西班牙公共采购过程的起源和性质进行了分析。部分2。1总结了相关的立法与公共采购和公共信息的重用。部分2。2列表的字段公共采购通知和公告中出现的信息。部分2。3解释了原始信息预处理,最终获得一个数据集的统计和数学分析是有效的。

2.1。欧洲和西班牙立法对公共采购和公共信息的重用

在欧盟和西班牙语水平,相关法律已经开发的重用公共部门信息和采购或承包在公共部门。他们是列于表1。根据西班牙法律20/2013,公共部门承包的网站平台(P.S.C.P.)西班牙发布公共采购通知和决议的承包机构属于西班牙的公共部门。

关于西班牙的官方公告招标西班牙以外,第135条法律9/2017建立,当投标主体统一规定(金额大于一个阈值或某些特征,文章19 - 23)规定,投标也必须被发表在欧盟的官方杂志(OJEU) [20.]。当公众订约当局认为合适,投标不受统一规定OJEU可以宣布。欧洲联盟(欧盟)有一个公开数据门户(21)成立于2012年,之后2011/833 /欧盟委员会的决定重用的委员会文件。所有欧盟机构邀请尽可能让他们的数据公开。

此外,有门户叫投标电子日报(TED) [22致力于欧洲公共采购。它提供了免费获取商业机会在欧盟,欧洲经济区域,甚至更远。

2.2。数据字段的西班牙公共采购通知

公共采购通知中定义的信息西班牙法律9/2017,附件III”信息出现在公告。“P.S.C.P.开放数据重用的部分信息(遵守宣传义务成立于法律9/2017),这将在本文中用于生成数据集。财政部提供的信息在数据可用性部分(链接),自2012年以来一直发布为公开数据以XML格式每月更新。

公共采购通知的领域很多,他们可以完全定义招标。最重要的字段如下(表的更多细节2):(我)宣布字段:温柔的状态,合同文件数量,合同对象,投标价格(预算),合同期限,CPV分类、合同类型、合同亚型,执行的地方,很多,类型的过程中,承包系统,类型的处理,身体萎缩,地点和期限提交的投标,参与需求,奖励标准,分包条件,合同修改,等等。(2)奖:奖结果,赢得公司的身份(CIF和公司名称),合同价格,报价数量,最大和最小收到报价,等等。

不是所有的领域都有被选中(最后一列的表2)数学分析招标有几个原因:(1)一些字段通常是空的或不一致的数据或错误。(2)不是所有的领域都有同样的重要性。例如,投标价格是比招标文件的语言更重要。(3)许多这些字段的文本的内容,使他们的数学模型非常复杂。

2.3。数据预处理

需要执行几个步骤进行预处理数据。这是一个艰难的任务,因为招标的信息没有被验证自动纠正人为错误。预处理可分为以下5个任务:(1)数据提取。结构化数据存储在文本文件(XML格式)。创建了一个脚本读取字段递归,保存在数据库中每行的温柔和尽可能多的列字段存储。(2)数据简化。大约60个字段选择;先天的他们是有趣的统计和数学分析的性能。(3)数据清理。数据清洗。例如,删除空格、标点符号和特殊字符,转换为大写字母,删除数据和固定结构(邮政编码、CPV CIF等)不遵守的规则结构,等等。(4)数据转换。基本上,进行四种类型的转换:(一)正常化。这包括均衡的字段。例如,将日期转换为时间戳。(b)聚合。这包括添加新的有用的领域分析。例如,创建一个新字段的前两个数字CPV分类(普通的采购词汇)。(c)数据增强。它创建字段与外部信息,从而使检查提取数据的一致性。例如,采用招标的邮政编码,生成其地理位置(经度和纬度),直辖市、省、自治社区。(d)转换。这包括将字段从一种格式转换为另一个。例如,转换的文本字段(字符串),一个独特的数字标识符(整数),因为使用的回归算法仅适用于数值变量:string_1 = > 1, string_2 = > 2,……,string_N= >N(5)数据过滤。这些数据为我们的分析过滤丢弃无用的数据。基本上,这涉及到以下几点:(一)只有正式或招标选择。(b)删除一个温柔当它有一个或几个空字段。(c)删除一个温柔当它有一个异常巨大的积极的价格(合同价格或投标价格)删除离群值。(d)招标是由几个不同的合同(称为很多)。这是因为它并不给每个合同的投标价格,这是一个基本领域进行进一步分析。

起初,有232175招标。数据预处理后,有58337招标。

3所示。统计分析的数据集

3.1的定量描述数据集和数据集字段之间的相关分析。节3.2,定义了9个评价指标。节3.3之间的误差,它们是用来计算两个非常重要的领域:投标价格与合同价格。

3.1。一般的描述

这些数据预处理操作准备一个结构化的和有组织的数据集分析准备数据。从2012年到2018年有58337投标遍布西班牙。表3显示数据集的定量描述:总数,意味着,中位数,最大,等数据集有19个字段或变量:15日宣布字段和字段4奖。特别强调Tender_Price Award_Price。量是最重要的一个变量在任何项目。此外,本文基本是因为奖项数量价格估计量。

看表3发现以下问题:(我)有很多赢得公司和招标机构。平均每个公共采购机构使16.46投标和每个公司赢得3.37招标。(2)色散很大的价格(Tender_Price和Award_Price)观察值,均值和最大。(3)Tender_Price有很大区别,Award_Price观察两种媒介(€14897)和之间的区别意味着(€135812的相关性)。因此,有必要提出一个预测Award_Price因为Tender_Price不是一个精确的估计量。(iv)5类型的CPV与更大的重量加起来总数的48.55%的投标。

通过变量,获得新的相关信息采用斯皮尔曼相关法;图2显示了斯皮尔曼相关矩阵(对称矩阵的对角线)。在三种典型相关方法(皮尔森,肯德尔和枪兵),斯皮尔曼相关方法的选择,因为它评估两个变量之间的单调关系的力量。一个单调函数保存订单(增加或减少)。斯皮尔曼相关系数 定义样本的尺寸吗n,n原始分数 , 转换为排名 , : 在哪里 协方差的变量和排名 的标准偏差等级变量。

查看图2,最大的相关性如下:(我)Tender_Price与Award_Price(0.97):这个高相关性是依照常识,因为投标与高奖和低出价较低的奖项。(2)Type_code与Subtype_code(0.74):每种类型的合同相关的子类型的合同。这是高度相关的原因。(3)Name_Organisation与Postalzone_Municipality(0.42):每个公共采购机构有一个相关联的位置一个邮政编码。(iv)Type_code vs CPV(0.38):每种类型的合同通常是用于特定类型的作品。(v)Procedure_code与Tender_Price(−0.38)和Award_Price(−0.36):每种类型的合同过程往往对应于一系列招标和裁定。(vi)CPV与持续时间(0.34):每种类型的工作通常是与时间相关的范围(持续时间)的认识。(七)Received_Offers与Type_code(0.33)和Subtype_code(0.32):经过投标报价的数量相关合同的类型和子类型。(八)Winner_Province与Postalzone_Municipality(0.29):有一个关联的起源(省)赢得公司和招标的位置(直辖市)。一般来说,招标从一个特定的地理区域,来自同一地区的公司。有不同的社会经济原因。

更高的相关性值尚未获得的数值形式表达的信息和相关法的局限性(所有方法都有缺点)。例如,Name_Organisation和Postalzone_Municipality有直接关系:一个组织通常有一个独特的指定的邮政编码。然而,这种关系可以按照任何数学模式或函数。

分析数据的另一种方法是通过散射矩阵(见图3绘制2×2)变量和矩阵的对角线对应变量的概率密度函数。虽然它不能欣赏大量的详细的数据和变量,见以下关系:(我)Procedure_code、Urgency_code Type_code, Subtype_code生成直线,因为它们与一些值的变量(代码),但有很大的色散时面对的其他变量。(2)Name_Organisation、Postalzone Postalzone_Municipality有很大的分散性。Postalzone的概率密度函数,一个伟大的最大值是在马德里的邮政编码。这是因为许多投标在西班牙已经提出的机构位于首都(马德里)。(3)cpv表明,一些规范招标和合同价格高,持续时间更长,和更多的报价。这是真的,因为每一种工作都有某些特征,如价格、时间或能力。(iv)Tender_Price之间的关系和Award_Price将详细分析之后,可以看到但一定关系。它已经出现在相关矩阵。

3.2。评价指标

比较的变量和计算错误或偏差预测算法,首先需要定义一些错误指标。指标的使用基于中位数和相对比例是有用的在这个调查因为数据异常值的重量,和使用这些指标有助于我们来抵消这些异常值的影响。

绝对误差(AE),绝对误差百分率(猿),平均绝对误差(MAE)、平均绝对百分比误差(日军),平均绝对误差(MdAE),平均绝对百分比误差(MdAPE),均方根误差(RMSE)正常化均方根误差(NRMSE),和确定系数( )被选为评估标准(2)- (10): 的实际价值t, 是预期的或估计价值t, 是时间的数量。 在哪里 的意思是:

3.3。投标价格与合同价格

4(一)显示图形变量投标价格与合同价格对所有投标时投标价格小于€3000000。这个阈值是投标价格的平均值的3.5倍。可以看到一条线45度;点满足条件,投标价格等于合同价格。因此,在这一行,没有两个变量之间的误差,所以投标价格将是一个完美的估计量。下面这条线,有一个大分散的点。当一个点之间的距离和行高,误差也很高。最后,还有一些点线以上。这是因为很少授予价格高于投标价格。这可能发生由于特殊的合同条件,另外,它可以是错误的数据。 There is no information about how the public procurement agencies calculate the tender price or if it is validated before entering the dataset.

4 (b)显示了这两个变量的频率直方图。频率是招标的数量为每个块€5000。例如,最常见的投标价格范围是30000 -€€35000;该奖项的价格,它是€20000 -€25000。图4 (c)展示了这两个变量之间的频率直方图的AE€1000的范围。它可以观察到,大约18000投标(总额的30%)小于€1000错误。有很大区别与其他酒吧。

4介绍了误差指标(或评价指标)计算变量投标价格和合同价格之间的整个数据集。一个错误在投标价格和合同价格之间,在项目管理方面,意味着有一个预算偏差之间的投标价格,价格最终授予。

一个有趣的分析是该合同价格是如何影响企业的竞争力(见表5)。需要集团根据投标报价的数量。为此,创建了四组:没有竞争力(1提供),低竞争力(2 - 4提供)、媒介竞争力(5 - 10提供),和高竞争力(超过10提供)。随着竞争力的增加,合同价格和投标价格之间的差异更大,因为MdAE MdAPE,梅,日军大。这表明公司更积极赢得投标(报价更低的价格)。因此,该合同价格低与更少的竞争力或一个场景,换句话说,公共采购机构省钱。

5箱线图显示了猿CPV的分组。箱图是一个标准的方法通过四分位数值数据图形化表示。数据集的异常值没有被代表,因为它们值非常远,这将使其难以规模坐标轴。日军(红色)和MdAPE(绿色)为每个CPV组明显。猿的巨大差异,日军,MdAPE根据CPV清晰可见。一般来说,MdAPE在20%和40%之间,日军高于40%。日军的总价值和MdAPE(没有除以CPV)已经计算,如表所示4

总之,针对图形和定量的结果,它可以确认投标价格是一个糟糕的合同价格的估计量。也许是不过分坏中值(11.84%),但这已意味着(39.79%)。这当然是由于高色散之间的价格(见图4(一))。这是创建一个奖的原因价格估计在接下来的部分。

4所示。合同价格估计量

好奖的价格估计会非常有用和有价值的公司和公共采购机构。这将是一个关键工具在他们的项目管理决策,因为它减少了经济风险。由于涉及的复杂性,机器学习技术已经选择创建估计量,特别是,随机森林。节4.1,提出了随机森林回归,从理论框架应用到西班牙投标的数据集。节4.2,实证结果和分析,例如,创建奖价格估计的误差指标。节4.3类似的分析提出了使用来自其他国家的数据集,创建一个新的合同价格估计量。

4.1。随机森林回归

随机森林(RF),引入了Breiman [24)于2001年,是一个学习方法回归或分类,通过构建多种决策树训练时间和输出的模式类的类(分类)或意味着个人的预测(回归)树。它是一个流行的学习算法,提供了优秀的性能(25,26),没有过度拟合(27],适用于大规模问题的多功能性和处理不同类型的数据25,28]。它提供了它自己的内部概括错误估计,称为out-of-bag (OOB)错误。

简化算法的射频回归(29日]:(1)bB = 1:(一)画一个引导样品 的大小N从训练数据。(b)随机森林的树生长 引导数据,通过递归重复以下步骤为每个终端节点的树,直到最小节点大小 是达到了。(我)选择 的随机变量 变量。(2)中挑选最好的变量/点 (3)将节点分为两个子节点。(2)输出树的合奏

在一个新的点做出预测x,

在每棵树每一个分割,分割的改善标准是归因于分裂变量重要性的衡量,是积累所有的树在森林里分别为每一个变量。它被称为变量重要性(24]。

还有其他的RF算法的实现,比如Boruta [30.),主旨是随机森林(RRF) [31日),有条件的森林(32),分位数回归森林(QRF) [33),或极随机回归树(extraTrees) [34]。最后一个是用这种数据集进行测试,但它的精度比随机森林,所以最后丢弃。原因是函数来衡量质量的分裂是基尼系数,这是比梅(平均绝对误差)或MSE(均方误差)。比较使用美和MSE图所示6在射频30到1000棵树生成。美作为功能显然更好的质量值误差指标(特别是日军和NRMSE)比这个数据集的MSE质量函数。因此,函数选择的是美。

随机森林方法已用于多种不同的实际应用25),如交通汽车问题的估计(35- - - - - -37),风速预测(38),蛋白质序列的分类(39),地震活动之间的歧视和核爆炸40],行人检测[41),聚合推荐系统(42在医院),床占用预测(43),网络钓鱼电子邮件分类(44),网络入侵检测(45),和员工流动预测(46]。

7显示不同的训练和测试子集之间的比率(火车:测试在百分比):65:35,70:30,75:25,80:20,85:15,90:10。在这项研究中,最重要的错误MdAPE日军,不断的9%和30%,分别。OBB和NMRSE没有显著变化。因此,火车:测试比率是不相关的。典型的比例80:20将在本文中使用。

RandomForestRegressorScikit-learn,这是一个机器学习库Python编程语言,有400棵树是本文中使用的函数。14个输入变量用于射频Tender_Price,日期、持续时间、Name_Organisation, CPV, CPV_Aggregated, Procedure_code, Type_code, Subtype_code, Urgency_code, Postalzone, Postalzone_CCAA Postalzone_Province, Postalzone_Municipality。Award_Price变量进行回归,生成的输出射频(预测)将被称为Forecast_Price。

本文没有使用招标的其他三个变量的决议(Winner_Province、CIF_Winner Received_Offers;表3),因为他们不变量的招标通知。在真实的场景中,合同价格估计只有温柔的可以使用变量的通知。然而,如果这三个输出变量用于射频+ 14输入变量,将降低逻辑上的错误。这是显示如图8:MdAPE日军分别持股5%和25%。MdAPE和日军分别低于4%和5%真实的场景只有变量招标的通知(见图7)。变量重要性(射频输出参数)下令Tender_Price从最高到最低(0.870%),Received_Offers(0.035%)、时间(0.017%)、日期(0.013%)、Name_Organisation (0.012%)、CIF_Winner (0.010%)、CPV (0.009%)、Postalzone (0.007%)、Subtype_code (0.006%)、CPV_Aggregated (0.005%)、Winner_Province (0.004%)、Type_code (0.004%)、Procedure_code (0.003%)、Postalzone_Municipality (0.002%)、Postalzone_Province (0.001%)、Postalzone_CCAA(0.001%),和Urgency_code (0.0001%)。很明显,三个输出变量是重要的在前面的排名。

4.2。实证结果与分析

射频训练了招标(46670)的80%。剩下的20%(11667年)被用作测试组。图9展示了预测价格和合同价格之间的散点图的测试组。正如已经提到的,如果估计完美,直线上的所有点必须在45度。

预测的错误展示在表6。此外,在第三列,而错误由Tender_Price(见表4),以检查是否该估计量是好还是坏。是没有意义的比较绝对的错误因为数据集的大小是不同的。最好是比较比例错误,如MdAPE和日军;他们是显著降低,mdape - 2.58%,日军- 11.19%。

10显示了猿的箱线图(灰色颜色)之间的合同价格和预期价格按CPV分组。也出了猿参考(蓝色),提出了以前在图5。它是清晰可见的猿如何估计量与小箱线图四分位范围(差)。一般来说,MdAPE和日军低于猿猴参考。总之,该估计量极大地降低了错误对投标价格(分析部分3.3)。

变量重要性(射频输出参数)下令Tender_Price从最高到最低(88.34%),日期(1.84%)、时间(1.83%)、Name_Organisation (1.56%)、Subtype_code (1.52%)、CPV (1.10%)、Postalzone (1.09%)、Type_code (0.97%)、Procedure_code (0.66%)、CPV_Aggregated (0.49%)、Postalzone_Municipality (0.24%)、Postalzone_Province (0.18%)、Postalzone_CCAA(0.17%),和Urgency_code (0.03%)。

4.3。为其他国家实证结果与分析

在本节中,一项研究是由来自其他国家的投标,类似于上一个西班牙招标。目的是评估奖价格估计不同的数据集,使用相同的机器学习技术(随机森林)。从欧盟国家选择,因为他们几乎相同的特征与公共采购公告:立法、招标的规定,公共管理部门,采购程序等。原始数据已经从欧洲门户开放数据下载(21),特别是2017年招标的数据库在数据可用性部分(链接)。然而,数据的质量并不好:字段没有数据,错误在招标和合同价格,中标公司没有税务识别号码,招标和合同价格有相同的值,等等。这是一个官方数据集提供了欧盟,但它没有好的质量为西班牙的数据集。一开始,有706104招标。数据预处理后,只有41556招标。

7显示数据集的定量描述以下8个欧洲国家:法国、德国、意大利、克罗地亚、斯洛文尼亚、保加利亚、匈牙利和拉脱维亚。他们已经选择,因为他们有最多数量的数据预处理后投标。

这个数据集训练了招标(33244)的80%。剩下的20%(8312年)被用作测试组。随机森林的过程类似于西班牙。10个输入变量用于射频日期,Name_Organisation, Postalzone, ISO_country_code, Main_activity, Type_code, CPV, CPV_Aggregated Tender_Price, Procedure_code。Award_Price变量进行回归,生成的输出射频(预测)将被称为Forecast_Price。

错误MdAE MdAPE,日军,NRMSE和 如表所示8。第二列显示了合同价格与投标价格(参考),第三列显示合同价格与预测价格(RF)创建的估计量。MdAPE之间的合同价格和投标价格很低(4.17%)相比,如果是西班牙MdAPE(11.84%,见下表4)。这意味着授予价格非常接近投标价格,或者换句话说,很多招标都有相同的价格,因此,没有错误。日军也比西班牙日军低(27.49%)(39.79%)。估计是更好的在日军(−3.92%)但在MdAPE(+ 2.31%)(见第四列在表8)。

11显示了猿的箱线图(灰色颜色)之间的合同价格和预期价格按CPV分组。猿猴引用(蓝色)之间的合同价格和投标价格也绘制。这不是清晰可见的猿如何估计量与小箱线图四分位范围(差)。一般来说,MdAPE和日军类似猿猴参考。

总之,这个数据集创建的估计量指标对投标价格也有类似的错误。为什么很多招标通知欧洲国家拥有相同的值的投标价格和合同价格吗?为什么不是在西班牙?这可能是由于坏的欧洲质量数据集(招标与错误的通知),或者一个不太可能的假设,西班牙公共采购机构无法估计投标价格和欧洲机构从未在任何失败。该方法可能是有用的和generalisable到其他国家有一个大型数据集没有错误。

5。结论和未来的研究

欧盟和西班牙的公共采购立法提出了。58337年西班牙公开招标的数据集从2012年到2018年进行了分析。之间的关系的主要领域公共采购通知研究数学。误差度量之间的投标价格和合同价格计算(MdAPE = 11.84%,日军= 39.79%)。合同价格估计量,减少了以前的错误(MdAPE = 9.26%,日军= 28.60%),提出了通过使用机器学习算法(随机森林)。估计有14个字段作为输入变量,其中最重要的是投标价格,日期、持续时间、公共采购机构名称、子类型代码,CPV分类,和邮政区。

良好的合同价格估计对于公司和公共采购机构将是有用的。它将对公司是有用的,因为它可以是一个关键的工具在他们的项目管理决策:将降低经济风险,从而更容易赢得投标。公共采购机构,它会有用,因为,例如,在西班牙的数据集,投标价格可能已经减少了2.24%(减少MdAPE),相当于大约8.11亿欧元。这是一个很大的错误减少,因此,将改善公共采购预算的准确性。

一个类似的分析已经由8个欧洲国家(法国、德国、意大利、克罗地亚、斯洛文尼亚、保加利亚、匈牙利和拉脱维亚)概括奖价格估计其他真实情况并检查结果。有41556个投标使用的数据集,但数据的质量比西班牙的数据集。新合同价格估计获得预测与误差指标之间类似的投标价格和合同价格。估计是更好的在日军(−3.92%)但在MdAPE (+ 2.31%)。

一个准确的估计是不可能实现的,因为理论上市场开放和自由,因此,不可预测的。此外,该合同价格并不总是公共采购机构支付的最终价格,因为合同在执行过程中可能会修改。然而,本文说明了如何有用的机器学习算法。特别是,随机森林预测合同价格较低的不确定性,适应真正的市场。这个市场现实是聚集含蓄地通过公共采购通知。因此,该估计量是有趣的公共采购机构和公司因为他们的风险会降低。

由于公共采购的公开数据来源,可以避免根据政府统计部门如西班牙(INE [47])或欧洲(欧盟统计局23])。因此,独立,有资源来执行低级的分析与其他数据库或外部服务或交叉数据中提取有价值的信息。

本文打开门未来的研究与大规模的公共采购数据的分析,特别是:(我)实现更准确的估计量由中标人将业务数据:位置、核心业务,年营业额,员工人数,财务状况,等。用新的数据,估计有更多的输入变量,可以预测相关的合同价格。(2)它比其他机器学习算法来估算价格,报价,和其他有趣的领域。(3)它执行数据业务分析等公司具有更高的成功率在公共采购或中标人的描述:公司类型、大小、国籍或外国等等。

数据可用性

处理过的数据用于支持本研究的发现可以从相应的作者。来自西班牙的原始数据是可用在财政部,西班牙。开放数据的西班牙招标驻留在http://www.hacienda.gob.es/es-ES/GobiernoAbierto/Datos%20Abiertos/Paginas/licitaciones_plataforma_contratacion.aspx。原始数据从其他国家在欧盟开放数据门户(欧盟)的出版物办公室主办https://data.europa.eu/euodp/en/data/dataset/ted-csv

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的计划科学、技术和创新的阿斯图里亚斯公国(Ref: FC-GRUPIN-IDI / 2018/000225)。