文摘

本研究提出了一种结合长期短期记忆和极端梯度增加(LSTM-XGBoost)航班抵达机场的流量预测的方法。之间的相关分析进行了历史性的到来流和输入功能。XGBoost方法应用于识别各种变量的相对重要性。机场到达的历史时间序列数据流和选定的功能是作为输入变量,以及后续的航班到达流的输出变量。顺序模型参数更新基于最近收集的数据和新的预测结果。发现预测精度大大提高了结合气象特征。数据分析结果表明,开发的方法能够很好地描述机场到达流的动力学,从而提供令人满意的预测结果。预测性能与基准方法包括反向传播神经网络相比,LSTM神经网络,支持向量机,梯度增加回归树,XGBoost。结果表明,拟议中的LSTM-XGBoost模型优于基准和最先进的神经网络模型。

1。介绍

机场是飞机起飞和降落的终端。这也是乘客的转移点分布。每日空中交通流有很强的周期性和随机性。机场到达流的影响因素有很多,其中最广为人知的是复杂的气象因素,例如,短期到达流的变化引起的雷雨等恶劣天气夏季和冬季暴风雪,以及不利的天气条件可能影响能见度(1,2]。实时和高精度抵达机场的流量预测具有重要意义识别类似的模式,实现旅客疏散策略,缓解机场拥塞,提高航空运输管理系统(3- - - - - -5]。它还可以帮助乘客更好的交通方式选择决策。因此,有必要考虑气象因素在预测短期流到达机场。

最近,一系列的研究都是关于进行短期交通流预测基于时间序列数据。常用的方法可分为两类,包括参数的算法,如线性回归、时间序列模型、卡尔曼滤波和非参数算法再等方法,支持向量回归,深度学习方法如神经网络(例如,卷积神经网络和递归神经网络),和这些方法的结合6- - - - - -11]。参数算法易于实现,并能体现独立变量和因变量之间的关系,而非参数算法,特别是深度学习方法,显示优势和更高的预测精度和计算时间少的大型数据集。例如,陆等人提出了一个结合短期高速公路交通流预测方法基于递归神经网络(12]。Asadi和里根提出的时空decomposition-based深层神经网络时间序列预测与公路交通的情况下从加州湾区的流数据。一个multikernel卷积层的目的是保持网络结构和提取短期和空间模式(13]。李等人提出了一个具有条件下自适应实时预测模型。模型由两个阶段组成,包括一个在线序列极限学习机的遗忘因素噪声处理和交通流预测的隐马尔科夫模型(14]。

与高速公路交通流预测,机场到达流的短期预测往往是更复杂的,由于空中交通流的特性转化和动态性质考虑各种影响因素如天气状况(15- - - - - -17]。直到最近,空中交通流量的短期预测仍然是一个热点问题。尽管不同的统计方法已经使用在过去的研究中,每个建议有意义的各种输入变量之间的关系和交通流量(18- - - - - -20.]。仍然需要进一步发展推进的预测方面之间的联系机场到达流和输入变量包括气象变量,然后使用数据挖掘技术来预测未来的到来流。

本文的主要目的,首先,发现如果有重要机场到达流和各种气象变量之间的关系;第二,确定哪些因素可以用作输入估计机场到达流;第三,选择适当的模型,可用于预测机场到达流与体面的表现。为此,历史性的到来流和各种特性之间的相关性计算。然后,结合长短期记忆和极端梯度增加(LSTM-XGBoost)方法提出了机场到达流的预测。选择的功能,包括气象变量是输入到网络。

剩下的纸是组织如下。部分2说明了数据收集和准备过程。部分3介绍了拟议的框架将长期短期记忆神经网络和极端的梯度提升算法组件。部分4描述了数据分析结果通过比较该方法的性能与常用的基准方法。部分5讨论了结论和未来的工作。

2。数据准备

达到研究目标,机场所需的性能数据和各种因素的收集数据挖掘过程。分析的数据来源可以分为两类:航班抵达机场数据和气象信息。

2.1。航班到达的数据

本文选择南京禄口国际机场的航班到达数据(NKG)从1月1日,2018年12月31日,2018年,共有113243条记录的数据提取和分析的信息。具体航班信息包括身份证、飞机类型,起飞机场、目的地机场,预计起飞时间,估计到达时间,实际起飞时间,实际到达时间和状态的飞行。

每日航班信息分为48记录,30分钟的时间记录。根据提供的航班信息,航班日期、计划和实际飞机到达的时间,航班的最后状态用于计算每个时间片的计划和实际流量数据。取消了航班和改变航班在那一天被排除在外。图1说明了每天的到来,并在2018年取消了航班。它可以发现飞行到达周期性波动的趋势,而取消航班的趋势往往是随机和不定期的。除了取消航班,也有一些情况下,可能会导致航班数量之间的差异和实际飞行,也就是说,改变飞行路线,转移到备用机场,和缺失值。至于30分钟数据记录,定期航班数量之间的差异和实际飞行数量范围从0.014到6.803,平均值为2.027,占17.56%到88.47% %,平均为34.94%。

2.2。机场气象信息

机场气象信息来自OGIMET [21),它提供了当地的天气状况。数据从机场的气象报告条件(航空例行)南京禄口机场2018年收集,包括朝四字代码的机场,UTC时间,风向,风速、阵风、温度、露点温度、能见度(跑道视程),气压,云高,云层,湿度、压力,和天气现象,如降水、雷雨、大雾、降雪和阴霾。变量对一些天气现象是设置为虚拟变量。以降雨为例,1表示的降雨,0表示没有降雨。收集到的航空例行消息进行了总结。表1提出了部分数据的实时气象指标南京禄口国际机场从10点到6月28日,14:00 2018年为例证。

航空例行信息大约每小时发出,线性插值方法用于获得30分钟粒度气象数据匹配的流动数据每天48-time片。考虑到气象信息不仅包括连续的气象因素,如风速、温度、和可见性也离散等气象因素雨,雪,和雷暴,分段线性插值方法用于插入每小时连续的气象数据,虽然天气现象被认为是一致的在当前的小时的时期。图2说明了每日到达航班以及占领时间NKG 2018年5月的雨水和雷暴。

2.3。数据预处理

收集到的数据预处理的过滤、正常化和重构,有效改善模型的收敛速度和预测精度。最终数据集包含一个实际流入作为输出变量和十二个特征包含十一个实时天气特征和一个计划流量作为输入变量。所有的变量都使用以下方程变换成一个无量纲归一化值从0到1: 在哪里x”代表了规范化和无量纲值x代表了原始值。模型校准使用数据从1月到13104年9月共有30分钟记录然后验证使用数据从10月到4416年12月共有30分钟记录。

3所示。方法

在本节中,联合LSTM-XGBoost方法构建短期机场到达流的预测。提出LSTM-XGBoost方法包含两个组件,长期短期记忆神经网络和极端梯度增强算法。每个组件使用的方法简要讨论。

3.1。LSTM方法

LSTM是复发性神经网络的重要变量之一(RNNs)。已经证明,LSTM适用基于任务和长期依赖性。与传统的人工神经网络相比,LSTM网络实现长期和短期记忆的组合通过设置特殊结构如忘记门,输入通道和输出门(22]。近年来,LSTM方法经常应用在短期预测性能较好23,24]。

如图3,xt是输入变量和ht是输出变量在时间吗t。ơ网络的激活函数和双曲正切,其中ơ表示乙状结肠函数和双曲正切是双曲正切函数。他们的角色是在神经网络引入非线性转换为了使网络具有较强的非线性表达能力。数据处理过程中的一个单元LSTM网络结构是这样的。首先,xt输入与输出数据在上一次进入网络。然后,长期记忆状态变量通过忘记门,选择性地记忆和一个新的内存状态变量是由基础当前状态与长期状态之前的时候通过一个输入通道。最后,输出变量t可以获得的长期记忆状态变量通过输出门:

在方程(2)(6), , , , , 正在学习参数。 是两个常用的非线性激活函数。

3.2。XGBoost方法

极端的梯度提升(XGBoost)方法是一种改进的基于梯度的方法提高了决策树(GBDT)提出的陈和卡洛斯(2016)(25]。XGBoost的特征使它不同于其他梯度增强算法包括聪明处罚的树木,叶子节点的比例缩小,牛顿提振,和额外的随机参数。摘要XGBoost方法用于提取特征和评价相对特征的重要性。并给出了程序如下。

对于一个给定的数据集n样品和特点,表示为 ,假设XGBoost模型K决策树,航班流量预测模型表示如下: 在哪里 预测的值在时间吗; 相应的输入变量吗 ; 相对应的预报函数吗k决策树,定义如下: 在哪里 代表的结构功能映射 kth决策树与叶子节点对应; 是量子化的叶节点的权向量;和是树中的叶子节点的数量。

的损失函数lXGBoost算法包括误差项l和正则化项Ω。预测模型是学会了通过最小化损失函数的公式。本文选择均方根误差作为误差项l,定义如下:

在正则化项公式,可以防止模型过度拟合。

3.3。结合LSTM-XGBoost方法

正如上面提到的,每日空中交通流有很强的周期性和随机性。数据分析表明,有几个高峰航班到达时间,从上午8:30到晚上11点,下午13:30在12:30,下午17:00至晚7点。机场到达流受到很多外部因素的影响,其中气象因素通常认为可能是重要的。LSTM模型已被广泛用于处理时间序列问题,可以捕获时间序列数据的时间相关。然而,传统的LSTM缺乏外部特征的提取的能力可能影响预测变量。为此,本文提出了一个LSTM-XGBoost模型,可以很好描述时间相关以及外部特征的影响。

LSTM-XGBoost模型的结构如图4。LSTM单元的输入数据由两部分组成,包括航班流数据 和历史性的飞行流数据 ,构成的输入矩阵 ,在哪里 ;T代表了预测步伐。LSTM层后,修正线性单元(Relu)用作激活函数输出预测值 时间,如下所示:

然后,XGBoost模型用来预测流到达时间T+从输入的特性 ,包含了从LSTM预测价值在时间吗T+()( )和外部气象特征 :

3.4。评价指标

评估该模型的性能,平均绝对误差(MAE)、根均方误差(RMSE)和平均绝对百分比误差为每个方法(日军)计算,分别。方程如下所示: 在哪里y代表样本的实际价值; 代表样本的预测价值; 代表真实数据的平均值;和n是样本容量。

4所示。数据分析结果

4.1。相关分析的输入特性

正如上面提到的,十二个特性收集和整合模型,包括定期航班、风速、温度、露点温度、可见性、大气压力在航海高度(进),云,雨,雷雨、大雾、降雪和阴霾。确定各种因素的关系,皮尔逊相关系数(r)实际到达流和解释变量之间以及不同的解释变量之间的相关性计算。所示的方程如下:

在这个公式,x是独立变量;y是因变量; 独立变量的均值;和 因变量的均值。皮尔森相关系数(r)范围从−1比1,这表示两个变量之间的线性相关的力量。结果如图所示5

如图5,可以发现,除了定期航班是高度相关的,实际的航班也正相关的可见性、风速、雾和温度,而负相关。此外,能见度是正相关的温度、风速、预定航班,和露点温度,而负相关雾、云、雨、进和阴霾。还应该指出的是,尽管雷暴和降雪有弱相关的其他特性与当前数据,它并不表明这两个因素可以排除在考虑之外。相反,罕见的事件,这些极端恶劣天气条件可能严重影响航班的到来。考虑到,作为输入功能,温度是高度正相关的露点温度和高度积极消极进,这两个变量(露点温度和进)从输入功能在后续的模型。

4.2。分析变量的重要性

与所选择的特性,XGBoost方法应用于识别各种变量的相对重要性。结果如图6(一)- - - - - -6 (c)30分钟、60分钟、120分钟预测时间范围,分别。一般来说,气象变量产生类似的影响到达流的所有三个场景。最重要的有影响力的特点是定期航班,与常识是适宜的。另外两个重要影响力的特性包括温度和可见性。至于温度,正是由于原因,首先,收集的数据表明,在一般情况下,人们更喜欢去旅游在温暖的日子里,除了传统的节日。第二,有更多的航班在白天温度较高,而夜间。考虑到能见度,承认有可见性要求的操作飞机。低能见度的航班会推迟,直到它返回到正常的条件。

有一些轻微的差异变量的相对重要性的不同时期的预测模型,这是温度,其次是能见度、风速、云,和雪30分钟的毁灭之路模型;能见度、温度、风速、云、雪60分钟毁灭之路模型;和可见性、温度、风速、雪、雷暴120分钟的毁灭之路模型。

也发现F-scores气象特征相对较低,虽然极端天气条件可能有强烈的对实际飞行到达率的影响。收集的数据表明,实际流量之间的差异和预定流量在恶劣天气条件下有较高的波动。小F-scores的原因是,几乎所有的极端天气条件是罕见的事件。根据生成的特征重要性程度的特性对预测的准确性的影响过程中生成模型。除此之外,一些天气情况发生在一天的特定时段内。例如,雾通常出现在清晨到达流率较低。因此,计算功能的重要性将根据收集到的数据小。此外,它是承认大多数的气象特征与能见度相关联。这些恶劣天气条件的影响通过的特性的角度反映能见度在某种程度上,而不是发生的雪,雷暴,下雨,阴霾,雾,等等,虚拟变量。

4.3。预测结果的比较

选定的特征作为输入,LSTM-XGBoost模型构造。hyperparameters作证,包括隐藏层,每个隐层神经元的数目,和步伐LSTM组件树的深度、学习速率,XGBoost组件的决策树。输入值如表所示2

作证的性能提出LSTM-XGBoost模型中,几种基准方法也进行了测试和比较。选定的基准方法包括反向传播(BP)神经网络,LSTM神经网络,支持向量机(SVM),梯度提高回归树(GBRT)和XGBoost通常用于短期交通流预测的先前的研究。的英国石油公司和选择LSTM hyperparameters LSTM-XGBoost模型类似的方式。所有基准方法相同的训练和测试数据和输入变量,以确保模型是类似的。结果总结在表3

如表所示3为每个方法6到达短期流量预测模型开发,与30分钟、60分钟、120分钟预测时间水平,以及历史和定期航班和历史和定期航班和气象变量作为输入功能。根据数据分析结果,得到以下结果。

第一,为每个方法,美、MSE和RMSE急剧增加的增长预测时间范围,而日军略有减少。具体来说,美和RMSE为30分钟最低的预测时间范围,随着两个指标的增加与原始到来流数据的大小,而日军,120分钟的模型表现出最好的性能预测的时间范围。

第二,所有的五个方法,模型的性能可以通过加入气象变量,提高尤其是120分钟预测时间范围,表明这些因素可能对机场到达流产生重大影响,尤其是极端天气条件。提出的改进是最突出的LSTM-XGBoost方法。

第三,提出LSTM-XGBoost方法通常优于所有其他机器学习技术的较低的美,MSE, RMSE,日军,其次是XGBoost GBRT, LSTM。这证实了该模型的优越性和可行性,可以成功地捕获时间特性和影响因素。

进一步研究该模型的性能受到各种气象因素的影响,机场到达流的预测精度不同的天气条件下进行测试和比较,如图7

在图7,x设在代表了30分钟的随机选择的样本数据为每个样本。的y设在表示航班的数量。预测结果LSTM、XGBoost LSTM-XGBoost方法与实际数据进行比较。发现该LSTM-XGBoost模型优于其他两种方法对所有场景。结果进一步说明了模型的鲁棒性和适用性。

5。结论

本文提出了一种结合长期短期记忆和极端梯度增加(LSTM-XGBoost)抵达机场的流量预测的方法。传统的短期记忆(LSTM)网络和XGBoost模型合并通过时间序列信息和气象特征考虑在内。计算皮尔逊相关系数来描述两个变量之间的线性相关的力量,和确定变量的重要性。预测结果与一些基准方法相比,包括英国石油(BP) LSTM,支持向量机,GBRT, XGBoost。该算法提高了短期机场到达流预测的准确性和稳定性。

尽管提出了短期预测LSTM-XGBoost方法表现出巨大的潜力的机场到达流,一些局限性仍需要解决在这个研究。首先,本研究重点是结合气象因素在机场到达流的预测。事实上,实时机场到达流受到一系列因素的影响。未来的研究还需要确定其他重要的影响变量。其次,论文使用的数据来自南京禄口国际机场为例。其他机场的数据也可以用于进一步研究该模型的鲁棒性和适用性,特别是那些极端的天气状况。作者建议,未来的研究可以关注这些问题。

数据可用性

飞行数据。rar file is provided as supplementary materials, containing all the flight arrival data for Nanjing Lukou Airport in 2018. The airport meteorological information is collected from OGIMET (http://ogimet.com/metars.phtml.en)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由中国中央大学的基础研究基金(NS2020046),中国国家自然科学基金(51608268,U1933119, 71971112),并为大学生科技创新项目(2020 cx00760和2020 cx00753)。