文摘
航空运输是一个复杂的系统,安全是至关重要的,因为飞机故障往往涉及人员伤亡。预防显然是航空运输安全的最佳策略。学习从过去的事件数据,以防止潜在的事故发生已经证明是一个成功的方法。为了防止潜在的安全隐患,使有效的预防计划,航空安全专家确定主要因素和事件报告。然而,安全专家的审查过程现在已经变得非常昂贵。事件报告的数量迅速增加,由于加速信息技术的进步和商业和私人航空运输产业的发展。因此,先进的文本挖掘算法应该应用于帮助航空安全专家促进事件数据提取的过程。本文构建deep-learning-based模型来识别因果因素从事件报告。首先,我们准备使用的数据集训练、验证和测试的大约200000个合格的事件报告航空安全报告系统(曾经)。然后,我们采取一个开源自然语言模型,与一个大型语料库训练有素的维基百科文本,基线和调整它与事件报告的文本,使之更适合我们的具体的研究任务。 Finally, we build and train an attention-based long short-term memory (LSTM) model to identify primary and contributing factors in each incident report. The solution we propose has multilabel capability and is automated and customizable, and it is more accurate and adaptable than traditional machine learning methods in extant research. This novel application of deep learning algorithms to the incident reporting system can efficiently improve aviation safety.
1。介绍
在过去的二十年里,我们见证了迅速变化的客户期望和聚合业务合并和收购在航空业的迅速发展。在这个竞争激烈的环境下,航空公司越来越多地利用信息技术将挑战转化为商机和支持决策。自动决策支持技术仍在航空运输的一个主要挑战[1]。航空事故报告和调查系统中的一个重要部分在进行数字化的安全工作。事件是任何异常,影响或可能影响航空安全的操作(2]。与事故通常涉及人员死亡或重伤,事件更频繁和更少的昂贵的比事故。他们是一个有价值的数据来源来帮助识别潜在危险。事件报告记录各种异常事件和提供参考数据,美国联邦航空管理局,国家航空和宇宙航行局和美国国家运输安全委员会,在决策的过程中,程序设计、威胁识别、培训等等(3]。由于航空运输是一个高度复杂的系统,许多因素,如人为错误,飞机机械故障,极端天气,和不合理的公司政策,或它们的组合,可能导致事故。由于事件数据的重要价值,国家和跨国机构投入大量努力收集和存储事件报告为分析决策。
航空安全报告系统(曾经),共同由美国联邦航空管理局和美国国家航空航天局(NASA)是一个领先的航空事故报告系统和广泛使用在北美。系统收到航空事件报告提交的机场,航空公司飞行员和机组人员的日常。然后系统分析和响应事件报告及早发现潜在危险和预防航空事故。事故报告和调查系统是至关重要的组件的安全管理在航空运输(4]。经常遇到的事件调查的信息包括事件导致事故,风险增加的因素,发现问题,并尝试解决问题,所有这些都可以由个人提供参与事件(5]。曾经,一个丰富而可靠的航空事故信息数据库,使用美国国家航空航天局和美国联邦航空局对风险管理措施的有效性进行评估。安全管理作为一个独特的贡献,反馈事件报告系统是一个重要的决策者和规划者负责改善安全预警工具面对利润增加一倍或翻了两番操作(4]。
大多数事件报告提交给曾经自愿。记者参与事件可以匿名填写一个曾经报告表格。叙事是最有益的事件报告的一部分。记者讲述了真实事件之前、期间和之后的事件。叙事文本主要描述机械故障,观察,行为,和天气条件与事件有关。所有曾经提交的报告目前手工分析和指定至少一个十六岁的主要因素和不超过4个16个因素由经验丰富的航空安全分析师(6]。识别的主要因素是至关重要的一步。记者的表格收集的数据包括96表格属性,如记者的角色,资格,和经验,涉及的飞机类型,类型的操作符,机舱活动,天气,和许多其他相关的细节。不幸的是,基于随机选择10000事件的报道,超过50%的事件报告失踪至少一半的这些属性,和大部分的属性往往存在,例如日期,当地时间和状态,似乎没有相关性的原因事件。因此,现在的困境是,每个事件报告的叙述文本数据是唯一的可靠和便捷的源识别incident-causing因素。表1是一个典型的一个例子曾经事件报告和结论由人类专家(表吗1和2)。
分析事件原因的事件报道一直在帮助调查航空事故的根源。的研究(7]研究design-induced问题在飞行管理系统(fms)通过选择99事件报告与fms的曾经。它的结论是相当数量的操作和design-induced问题存在于fms,因为fms不是最佳的用户界面设计。制造商应该找到一个更好的平衡在FMS设计逻辑与易用性,以减少错误的发生。另一项研究[8)使用37事件报告从国家运输安全委员会(NTSB)数据库研究中的错误决策在航空领域,讨论了此类错误的性质,主要因素,什么,可能会减轻他们的解决方案。文献[9]分析了航空维修的因果因素通过调查3783年曾经事件报告与维护相关事件。它的结论是,individual-related和管理相关的因素有维护错误的最常见原因。nonmaintenance角度应给予更多的关注,因为它可以提供丰富的信息通常不包含在维修人员报告。研究单因素和多因素影响人类在空中交通管理(ATM), (10)使用超过400欧洲航空事件报告与ATM作为他们的源数据。研究得出结论,研究聚焦于单因素(压力、疲劳、通讯等)对人类的影响性能难以适应当代ATM的复杂性,因为事件报告通常表示多因素共存。总之,一系列的航空安全研究和分析依赖于事件报告和结论因果因素。目前,曾经严重取决于人类专家确定因果关系的因素。然而,越来越多的事件报告提交的每一天,由于航空业的快速发展,使新生成的事件报告的分析被推迟三至六个月。这延迟降低了曾经的有效性作为决策者的一个早期预警系统,航空组织和政府机构。
上述情况已成为近年来日益紧迫由于蓬勃发展的商业航空运输的增长,私人飞机和无人机系统在航空工业1),从而产生数量急剧攀升的事件报告。图1显示年度事件报告曾经收到了在过去的28年。例如,曾经只收到大约4600事件报告1981年,相比之下,2019年每月约108000事件报告。更糟的是,缺乏及时、准确的分析事件报告大幅减少的价值数据,制定有效的安全预防和改善策略越来越有挑战性(图1)。
航空运输安全是至关重要的。事件报告分析快速、准确地大规模地促进了决策过程,使早期检测和预防潜在的危险。在这项研究中,我们建立一个深度学习模型,该模型不仅可以识别主要因素但也促成因素和有前景的结果描述。我们的研究减少差距的主要贡献在现存的研究总结如下:(1)而不是直接解决事件报告分类的任务,我们尽早尝试引入一个训练有素的深度学习语言基线模型,可以“理解”一般英语文本,然后我们完善我们的模型基于基准模型的性能来应对这一事件报告。我们的研究显示,约4%的准确率。(2)我们所知,我们的研究是第一个试图执行一个多级和multilabel操作曾经大规模事件报告。我们的研究推动深度学习方法的应用在安全管理域。我们建议合适的指标来评估性能的多级multilabel分类,这是很少使用在现存的研究主要专注于二进制或单标牌分类。(3)我们的研究表明高深度学习方法的适应性和可重用性。因此,我们提出了深度学习方法适用于许多任务文本分析的需求,尤其是在一个自动化的方法。此外,一旦数据被更新或任务有些变化,发达深学习模式可以相应地修改没有从头重新开始。
本研究建立了一个富有成果的研究基础研究人员寻求深层学习方法应用到大量的文本分析问题的解决方案,特别是对于那些全集包括一个定制的技术术语的词汇表。我们建议的方法揭示了重要的优化改善基线模型的准确性,当我们努力提供一个程序开发深度学习模型来帮助解决航空安全决策支持的迫切的问题。
本文的其余部分展开如下。部分2回顾相关研究。节3,我们描述原始数据和统计数据,如何准备他们适合在下一步的培训。部分4简要介绍了主要步骤建立一个深循环网络模型使用Python深度学习库和精炼它基于我们的特定任务。部分5实验模型中确定hyperparameters的缩影。我们经常强调的关键参数显著影响深度学习的性能模型,我们引入新的指标评价结果与现存的相关研究进行比较。部分6讨论我们的研究的潜在影响,部分7介绍了本研究的结论和局限性。
2。相关工作
2.1。自动化的事件分析安全管理
安全管理是一个持续改进的过程,减少危害和防止事件在航空。事件报告系统是安全管理的一个重要部分,因为它收集数据和证据决策,识别潜在风险,帮助防止事故发生,并提供例子教育人员。现存的研究主要集中在文本挖掘技术自动化事件报告的分析。因此,现存的研究试图应用机器学习技术来提取文本信息。表2比较研究与现存的研究,使用航空事件数据。Tixier et al。11]检查2200建设事件报告通过应用基于规则的自动内容分析系统。在他们的论文中给出的示例报表的长度通常是不到50个字,他们主要是手动将关键字映射到特定的事件。因此,他们提出的方法不容易适用于漫长而复杂的故事。Mousa et al。12]提出了XGboost算法分类13165 highway-railroad穿越事件和报告99.11%的准确性。然而,其他基线方法,如决策树或随机森林,也达到98.5%的准确率。因此,它是可能的事件报告处理自然容易区分。施等。4]应用手动功能工程曾经数据集与术语Frequency-Inverse文档频率(TF-IDF)和美联储的特性分成三个监督机器学习算法,朴素贝叶斯、随机森林,和支持向量机(SVM),来确定最频繁的两个主要因素:“人为因素”和“飞机。“这项研究的缺点是主要因素,“人为因素,”和“飞机”约占81%的事件相结合,,甚至只有选择最频繁的两个主要因素,研究中使用的三种传统的机器学习方法只能达到平均精度约为81%。因此,一个实际的模型,可以处理更多的因素和提高精度是必要的。Tanguy et al。2)建立分类器与法国航空(DGAC发生数据1)。作者采用手动功能工程使用- gram和主题建模和用提取的特征来训练支持向量机分类器。而不是试图识别事件报告的主要因素,他们的目标是发现这一事件的主要话题,如“小屋”,“,”和“天气。“他们的方法的缺点是,即使像“小木屋”、“天气”是在事故报告中提到的,他们不一定是实际的因素导致了事件。罗宾逊(13)是第一个作者应对multilabel使用一个曾经数据集分类。作者建立了潜在语义分析(LSA)模型,训练4497起,2987其他事件和测试模型。然而,作者报道平均模型性能差得分是0.409由于小样本用于研究过于雄心勃勃的尝试所有的因素进行分类。
我们的文献回顾表明研究现存的研究中存在的差距。大多数现存的研究只使用数量相对较小的样本数据来开发他们的模型。模型开发了以这种方式可能只适用于有限的数据集。然而,交通事件报告通常是高度结构化的。此外,虽然史等。4)使用了一个广泛的数据集在他们的研究中,他们只处理最频繁的两个因素,人为因素和飞机,占大约80%的所有事件,忽略了休息。这种简化模型限制有限的应用程序。现存研究提出的方法有两个重要的缺点:(1)缺乏高精度(少于80%)和(2)有限数量的主要因素。因此,有效地自动识别多个事件的因素来支持决策仍然是航空报告系统的主要挑战之一。由于各种因素,如人为因素,飞机,天气,和公司的政策16),航空业务的固有复杂性要求评论家航空经验做出明智的判断。积累的证据深度学习方法的成功应用事件报告的分析可能带来的接受这种方法作为航空安全管理解决方案。
2.2。交通运输新兴深度学习方法
在过去的几年里,深复发性网络,深度学习的一个子类的方法,被广泛应用于交通决策系统,并取得了可喜的成果。董et al。17]深层神经网络应用于预测交通事故。研究显示的优点深在支持向量机学习方法,包括自动特征提取,性能优越,处理异构数据的能力。科尔特斯et al。18)使用双向长期短期记忆(LSTM)预测紧急事件使用数据从2015年朝鲜的内部,和LSTM模型表现出更好的性能比支持向量机和时间序列模型。最近航空研究[19)反复使用网络来预测飞行轨迹和他们的结果说明了承诺的性能混合深度学习模型在预测飞行轨迹和评估航路飞行安全。罗等。20.结合资讯和LSTM预测交通流量。然而,被用来解决空间数据和LSTM时态数据。研究报道,深度学习方法实现优越的性能在实际交通数据。上述研究表明已经成功地深大学习方法的优越性和非结构化数据集在传统的机器学习算法。
深层神经网络模型,结合无监督和监督学习算法的优势,优于传统的机器学习算法在很多方面,尤其是在这个“大数据”时代。而不是手动功能的工程要求传统的机器学习算法,深入学习方法可以提取固有特性而无需人工干预。手动功能工程主要是基于词频统计(21),如TF-IDF和字格。它的主要缺点是,它很难准确捕捉文本数据之间的关系。在深层神经网络,另一方面,这个词表示为一个高维向量使用skip-gram技术(22]。通过这种方式,内在的单词和每个词的意义之间的关系可以构建和计算,和这种方法取得了优异的成绩23]。第二,深层神经网络的另一个优点是,传统的机器学习方法主要是预测仅通过计数频率或概率这个词的词汇出现在一起,提取这个词的意思,而不是根据其语义上下文。然而,深层神经网络能够“记住”或存储以前的信息。这种能力有利于建立词语之间的关系没有接近对方。这种能力对我们是至关重要的任务,因为事件报告可能不是写在一个有组织的和简洁的方式。这是其中一个主要原因事件报告的自动分析是具有挑战性的。最后,深层神经网络天生适合使用大量的文本数据。更多的数据有助于改进嵌入(这个词24]。字嵌入也称为词向量。他们是将文本数据的一种方式o数字。不像其他常见的嵌入方式,如频率嵌入,TF-IDF,数向量,和词向量随机初始化,然后训练,完善大型语料库的文本。字嵌入的本质是所有上下文的句话说决定一个词向量的值。Mikolov et al。25)开发的这种方法,在自然语言处理中获得了相当大的关注。字嵌入应用,模型可以发展随着事件报告的积累,随着曾经不断地接受它们。
尽管是强大的和有效的类型的算法成功地应用于许多领域,深度学习方法发现有限的交通事故报告系统中实现,需要自然语言处理。本文的目的是介绍这一研究空白递归神经网络,通过建立深可以自动化航空事故报告与更好的性能比现存的研究分析。
3所示。数据准备
3.1。数据描述
我们从曾经数据库下载大约200000事件报告从1988年1月至2020年7月访问时在10月2日,2020年,共有181651个合格的报告。其他不合格报告,比如那些没有标签或那些太短(不到20字),被丢弃。每一个事件报告由四块文本从两个人(他们的叙述和回调),我们合并为一个单一的叙事文本发送给我们的模型。图2显示的单词和句子的数量分布在我们的数据集。许多单词和句子的相当大的变化使其更难以构建一个健壮的模型。
(一)
(b)
有16个主要因素被人类专家在航空事故;然而,我们只使用事件报告包括六类最常见的人为因素(高频)飞机(交流),公司的政策(CP),过程(公关),天气(我们)机场(美联社),占95%的事件报告。事件归因于罕见的在这个研究因素不考虑,因为他们只占一小部分的事件,需要更多的数据来生成有意义的结果。我们相信,我们的研究从而达到一个合理的平衡性能,可行性,合理简化。表3列出所有主要因素及其所有事件的百分比。本研究中使用的突出因素和其他罕见的因素被忽略。
在这项研究中,我们使用叙事文本作为输入到我们的模型,根据输入,我们的模型预测的主要(单标牌)和因素(multilabel),比较其与实际的标签来评估模型的性能。我们不使用“简介”部分的报告作为一个额外的输入,因为它不是原创内容的事件报告,并将使我们的自动文本分析那么令人信服。
表4总结了基本的统计信息的多种因素在曾经的数据集。因子(或标签)基数(26,27]表明,有1.47因素(1主和0.47因素)平均每报告所有事件报告。这是我们决定的潜在原因来训练我们的模型来预测两个因素一个事故报告,如前所述2。确定以上两个因素为每个事件报告没有必要在我们的研究因为超过两个因素是罕见的情况下,它将引入不必要的复杂性没有明显的性能提升。有28个不同因素集cooccurring事件报告,其中最常见的是人为因素和飞机。
表5显示的分布六个最频繁的详细原因。的整体发生人为因素(高频)的26倍机场(美联社)。数据分布的不平衡可能会导致分类器偏向占主导地位的范畴,在这种情况下,人为因素。过采样是应用于增强罕见的样本来克服这个问题。我们使用的其他方法来减轻偏差是应用一定的阈值人为因素。都是讨论的部分5。
3.2。数据预处理
我们的叙事文本预处理减少复杂性,使模型更加健壮。最初,这句话在报告中被分割成其组成单词的列表。标点符号和停止词在这一步中移除不用于文本分析28]。阻止和词元化也应用于输入减少截然不同的单词的数量,从而降低模型的复杂度。执行遏制和词元化精确,一个公认的Python库,自然语言工具包(NLTK) [29日),是利用。537年曾经广泛使用的单词和短语的缩写频繁出现在原始文本简洁叙述。例如,“短距起落”代表“短起飞和着陆,”和“甚低频”代表“非常低的频率。“这些缩写词是解码全部单词缩写的单词向量中未见pretrained字嵌入,已与维基百科语料库训练。此外,有许多无意义的词(或噪声)现有的语料库,如“shedcb,”和“eeegl3, sewart。“因此,我们删除任何词出现少于四次在我们曾经的数据集。研究[30.)也使用这个简单但有效的方法去除不常见的、无用的词汇。通过这种方式,许多不常见的词删除,而每个事件报告的重要信息保存完好无损。预处理后,共有6960个独特的单词仍从181651年的事件报告。
如表所示5事件类别的分布高度不平衡。过采样是用来增加原始数据,因为删除过多的数据类,称为欠采样,不会有利于我们深入学习方法,随着深度学习的提高更多的数据。过采样是一个过程,增强弱势类的样本数据通过复制他们一定次数。在这项研究中,事件报告标签复制两次“飞机”,这些标记“机场”的十倍,并将在训练数据集。最后,如表所示6,181651年的事件报告,80%是随机选为训练数据集,10%作为验证数据集,保留10%作为测试数据来衡量模型性能(31日]。我们应用过采样后分裂之间的数据,避免数据泄漏培训,验证集和测试集。与使用的验证数据模型来监控其性能在培训过程中,测试数据是相互独立,直到评估阶段,以保证测试的有效性的数据集。
在这项研究中,我们只使用过采样,以增加训练数据集确定主要因素。有关因素,没有明显的性能获得过采样根据我们的实验,因为因素已经混合。
4所示。方法
4.1。分析和处理航空事件报告
航空事故报告主要是自由格式的文本描述每个事件。几个事件报告可能包括一些表格数据,如时间和地点,但在大多数事件报告表格数据丢失。因此,事件数据有很强的时间和空间相关性,因为自然语言是顺序的,作为一个词的意义取决于它之前或之后的单词。然而,传统的机器学习对数据(字)独立分布在上下文中按照特定的模式,可以发现统计上。提出的Hochreiter和。施密德胡贝尔表示第一LSTM模型(32),这是一个高级形式的递归神经网络(RNN),因为它引入了“记忆”和“忘记”细胞。这些细胞可以有效地解决问题,如梯度消失和长期依赖RNNs斗争。本研究使用一个LSTM神经网络模型来处理词向量,使分类。
我们的整体过程模型如图3。就像前面提到的1我们通过开发模型探讨这一问题,可以识别的主要贡献因素曾经事件报告基于深度递归神经网络。具体来说,我们从一般无监督语言模型称为通用语言模型微调(ULMFiT),彻底的训练,维基百科的文章(33]。接下来,我们使用一个归纳学习技术转移到完善该通用模型在我们特定的数据集曾经熟悉的叙事文本的结构和语义事件报告。灵感来自[34),我们实现一个通用语言模型基于平均随机梯度下降的体重锐减LSTM (AWD-LSTM),最先进的变体的RNNs语言建模和文本分类任务。该模型使用各种有效的正则化技术,显著提高香草LSTM复发性神经网络的泛化性能。之后,使用监督学习和事件报告的80%作为训练数据集,我们构建和调整分类器使用AWD-LSTM模型和额外的连接和前馈层预测主要和文本中的多个因素报告。
我们地址的识别主要因素(单标牌)和因素(multilabel)作为两种不同的分类任务,尽管它们共享相同的架构,直到最后一层。你可能想要使用最高的,第二高的概率因素multilabel结果,因此,只有一个模型是充分的分类multilabel,多级的任务。然而,这个研究显示低的实验结果使用这种方法,结果可能会偏向数据集的主导因素,而单个标签和多个标签的训练过程必须与相应的单独运行真理标签。表3显示了我们的方法的一个完整过程。在数据预处理阶段明确解释部分3,我们应用神经网络文本数据。解释的主要步骤如下。
4.2。基线自然语言模型
与现存的研究,不使用任何文本数据除了数据用于每个研究的首要任务,从而限制了质量和数量的数据集,我们首先介绍一个通用语言模式35维基百科)与一个大型的、pretrained准备文本语料库,多亏Salesforce的研究2。这种方法的好处是3倍:(1)彻底pretrained开源模型训练。它被称为“万能”涵盖了大量的文本数据,包括大部分的单词出现在事件报告。(2)可用文本数据的数量大大增加。尽管我们有181651事件报告共有约4600万字,这仍然不是一个足够大的语料库训练深神经网络模型。谷歌3推荐约08亿字的语料。(3)这种方法节省了大量计算资源。否则,一台超级计算机将一个月培养一个准备周全的语言模型,这是大多数学术研究者并不可行。
4.3。基线语言模型微调
我们有一个制作精良的基线自然语言模型,但问题是,这似乎是与我们无关的特定任务。毕竟,这一事件叙述数据与维基百科不同文本语料库。这就是微调进场(36]。使基线语言模型适合我们的特定任务,我们完善我们的通用语言模型使用曾经灵感来自数据集。(34),我们实现一个基于AWD-LSTM通用语言模型。
4.4。小学和预测因素
如图3所示,在文字处理的语言模型,他们现在在高维向量和美联储将人工神经网络(ann)生成预测。现存的研究已经证明了人工神经网络在分类任务成功(37]。自然,有概率最高的分数在6个因素应该确认为主要因素。然而,由于样本的不平衡数据和叙事文本的内在复杂性,我们运用新颖的可调阈值只“人为因素”来控制误报率,在部分将更详细地讨论5。没有阈值应用到其他主要因素或当识别多个因素。这样,我们之间实现更好的平衡常见的6种主要因素在整体性能没有添加太多的复杂性。
5。实验装置和结果讨论
如表所示4,每个报告包含一个主因子和平均1.47因素。因此,我们设计的模型来预测两个因素为每个事件报告在权衡利弊后的额外的复杂性。在这项研究中,两个分类器开发:(i)单标牌标识符预测的主要因素,(ii)multilabel分类器预测两个因素。这两个分类器按照相同的方法部分中解释4真理,除了不同的标签和标签集培训期间使用的步骤。这是一个明显的例子的深度学习模型的适应性和可重用性。通常,只有项目层需要更新任务改变,虽然主要的模型是相同的。我们将讨论的细节我们的实验装置和结果之后在这一节中。
5.1。配置
在本节中,我们简要讨论的配置和关键hyperparameters我们的模型,也就是说,学习速率,批量大小、隐层大小,辍学,等等。我们使用一个网格搜索算法(38找到最佳值,导致训练集上的最高性能。
主要和识别分类器使用一个三层LSTM作出贡献4模型1152隐藏单位的隐藏层。我们训练我们的模型在一个特斯拉V100-SXM2 GPU机16 GB的内存。我们使用一个批处理大小为128为最佳,基于随机梯度下降法的计算稳定性和内存限制的GPU的机器。每个单词是矢量化到400维使用的词汇量大小为60000。最优数量的尺寸通常是在300年至500年之间,根据行业的实验和研究39]。在这项研究中,一个序列的最大长度是700个单词,以避免更大网络的收益递减(40]。如图2,大多数的事件报告不超过700个单词;对报告有更多的话说,所有超出700字只是截断和忽略。因此,输入形状(128、700、400)。
就像前面提到的4,深RNN语言模型是基于AWD-LSTM,它使用辍学的复发性权重有效的正规化和防止模型过度拟合。辍学等正则化的一种手段,可以有效地减少过度拟合问题41]。在这项研究中,嵌入辍学值,输入/输出的每一个中间层,最后一层的输出,和hidden-to-hidden权重(复发性体重锐减)是0.25,0.15,0.1,和0.2,分别。
训练我们的深层神经网络参数与曾经事件报告,我们使用斜三角学习速率(33]。它迅速增加在第一几百迭代,然后逐渐衰减直至时代结束。这种动态学习速率使模型能够快速学习损失高时开始,逐步完善参数当损失小5。
5.2。语言建模和再培训影响因素识别
如前所述在分段4.3、AWD-LSTM最初训练一个准备周全的wiki文本语料库,是我们的基线LSTM模型。它使用曾经重新训练数据集,使其工作在这个研究。这样的培训是特别有用如果文本数据的目标任务是巨大的。图4显示了如何训练损失,确认损失,和语言模型的预测精度变化在训练时期。每个时代大约需要45分钟才能完成。最初,训练和验证减少损失,损失和精度逐渐提高,这表明该模型能更好地预测在每个时代。换句话说,模型是学习。后一定时期后,在我们的案例中,时代,培训损失继续减少线性,而验证损失和精度稳定在特定值,表明最优时间终止培训;否则,该模型将overfit训练集,深度学习的一个臭名昭著的问题(42]。在我们的研究中,再培训的语言模型提高了识别精度的主要因素为3.6%,符合描述的培训获得文献[33,43]。
5.3。评价指标
主要因素识别结果标准化以防止主导类的结果重太多了。因此,在这项研究中,百分比的真阳性,假阳性、假阴性,而不是他们的,是用来计算精度和召回。标准化对稀有类的重视,这通常是更合理的测量类不均匀分布44]。
一个“完全匹配”指标意义评估的主要因素识别的性能,当只有一个每个事件报告的主要因素。然而,“完全匹配”不能很好地工作评估多种因素识别的性能,因为“完全匹配”完全忽略了部分的正确性。因此,(45]介绍了11多病原的通用评价指标(multilabel)识别。摘要汉明损失,微- ,和宏观选择来衡量我们的结果,因为这三个通常识别和选择在先前的研究13,46]。
汉明损失的分数是标签错误的预测。与“完全匹配”不同,汉明损失更宽容,它只惩罚个人标签不匹配事实标签(47]。汉明损失是一个损失函数;因此越低越好。
除了hamming-loss度量,宏观和微是两个传统的方法来评估性能的多种因素识别(48]。关键宏观之间的区别和微是宏观平均每一类,虽然微平均每个样本点。这些指标计算根据以下方程: 在哪里是目标,是预测,样品的数量,是标签的数量。
5.4。主要因素(单标牌)识别性能
“人为因素”仍占25.4%的过采样事件后,分类器往往是偏向“人为因素。”来进一步减少偏见,我们应用一个信心阈值来控制假阳性的比例在“人为因素”的类别。例如,置信阈值等于0.55意味着分类器只有标签事件“人为因素”如果它有55%信心或更多;否则,类别与第二高的信心,甚至是低于高频,选择。见表7了一个例子。
主要因素识别结果如表所示8。我们应用门槛“人为因素”类只减少误报,因为它的速度大大超过了其他的类的数量。根据我们实验用不同的阈值从0.3到0.7的增量0.05开始,我们发现一个高频阈值0.55有效地减少了高频的误报率。考虑到每个因素的数据样本不平衡,我们相信微是一个更好的方法来评估模型的性能,因为微-平均每个样本点(见方程(3))。如表所示9,微分数的所有类除了我们提高(表8和9)。
5.5。因素(Multilabel)识别性能
在这项研究中,每个事件的因素准备通过结合原来的小学和因素(如果有的话)的事件。一个例子是显示在表10。
就像前面提到的5,我们的模型预测两个因素为每个事件报告。因此,任何预测绝对是一个不匹配的事件标记有超过两个因素。然而,multilabel评价指标考虑部分匹配(见方程(1)- (3节)5.3)。表11总结了multilabel性能模型的每个类别和总体性能。我们的模型实现了一个平均得分是0.763,平均四:micro-avg macro-avg weighted-avg, sample-avg。如表所示5、“人为因素”和“飞机”的人数明显多于其他四个类别的总和。因此,micro-avg,计算通过计算真正的阳性,假阴性,并积极在全球范围内,最好是评估我们的模型的性能。Sample-avg,平均基于样本,weighted-avg平均基于标签,调整版本的micro-avg和输出类似的结果。另一方面,macro-avg度量可以产生最坏的打算F1分数能公平对待所有类,完全忽略了每个类的样本数量。因此,它比其他三个指标不准确,由于数据的不平衡(表11)。
5.6。比较我们的先前的研究结果
为了更好地理解我们的模型的性能,我们比较我们的结果与先前的研究解决类似的任务,以及一个没有微调的基本模型。比较有效的和令人信服的,我们使用相同的数据集的先前的研究。因为单标牌和multilabel任务有不同的评价指标,我们分别进行比较。
表12清楚地表明,我们的模型优于史et al。(4)的标签分类和模型精度。我们不仅识别常见的6种因果因素也扩大我们的模型来解决的多种因素。此外,我们的高频精度更好,虽然交流的准确性是等价的。改进的高频精度,综合精度显著提高,因为它是最常见的类。罗宾逊的研究(13)是最密切相关的研究我们可以发现multilabel分类。他实现了潜在语义分析算法分类所有16类只有4497事件报告,与138392年相比报告培训。就像前面提到的1,十个稀有类占不到事件报告总数的5%。因此,他的研究尝试分类16类等小数据不是很合理,结果不如我们。此外,调整语言模型的优点也证明,因为它改进嵌入这个词与目标数据集。表12表明的LSTM调整语言模型优于没有微调3.3%高频精度和1.9% AC单标牌分类的准确性。在multilabel分类,调整语言模型的LSTM汉明损失较低但更高F1与基本模型相比。总之,这些结果表明使用精确语言模型可以提高分类精度。
6。影响
我们建立两个分类器识别的主要因素,使用深周期性网络算法。这些模型训练与曾经的叙事文本事件报告。与我们的分类模型,事件报告的数量分析可以显著减少由人类专家。当一个事件生成报告,我们的第一个分类器识别的主要因素,然后适当的索引数据库。然后,第二个分类器识别额外的因素。我们的模型可以自动化的大部分任务,人类专家可能只需要检查事件分类与低信心我们的模型。我们的研究的意义在下面四个方面进行了总结。
首先,从航空安全审核者的角度来看,我们的研究可以帮助他们促进因果因素的识别。证明在节5,我们的模型的平均精度达到82%,六个最常见因素和大约89%的平均两个最常见的因素。另外,我们的模型取得了最好的multilabel多级识别结果与现存的研究。我们的研究表明,这种方法可以识别因果因素95%的事件报告数据库很少人工干预。如果他们采用我们的方法,航空事故报告系统可以快速问题初步结果有关各方,如空中交通管制、航空公司和机场当局。
第二,确定高信心的事件报告我们的模型不需要安全专家的审查。预计不到4.7%的事件报告(概率阈值较低的信心0.55)。安全专家可能只需要审查这些事件报告,以确保因果因素是正确地识别。图5事故报告的一个例子是由我们的模型与解析的注意机制应用(50]。注意机制是一个算法来计算每个单词和句子的相对重要性基于所需的输出。例如,如果真相标签(输出)是“飞机”,那么单词和句子可能相关的“飞机”分配更高的重要性或概率的事件文本。如图5所示,强调单词和句子很可能相关的关键信息这一事件的真正原因。这些亮点可以帮助安全专家定位的信息更快,这大大加快了手动审查过程。同时,安全专家正确标签的手动审查事件报告可以提高模型的性能从长远来看。该模型可以进一步演变成一个文本摘要系统通过生成一个“简介”51),目前必须由安全专家手工生成的。通过回顾“简介”生成的每个事件报告,事件的数量可以处理人类专家的单位时间大大增加。
第三,从报告系统的角度来看,这样的自动化使统计报表的生成更容易。由于自愿性质的报告提交给曾经,NASA的主要使用的数据作为一个下界的估计。例如,有112305人为错误事件报告提交给曾经从1988年1月到2020年7月。它可以自信地认为,至少有112305人为错误导致航空事件在此期间。在此基础上下界估计,决策者可以确定是否存在一个问题,需要进一步的调查(52]。很容易提供聚合甚至动态事件统计一旦因果因素识别自动化具有满意的性能。
第四,深度学习解决方案在这项研究中,一个非常通用的技术,可以重新设计和适应不同的领域之外的其他航空公司。本研究选择了曾经作为一个显式的例子来展示深度学习技巧可以帮助安全专家过程大量的文本数据快速、准确。这项技术的应用可以帮助航空安全专家发现新兴危险和潜在危险立即从大量的事件报告。虽然事件报告在其他运输领域可能有所不同就数量而言,文本特征、报告格式,等等,本文中设计的方法适用于解决这些不同的任务。
7所示。结论和局限性
事故报告分析是提高高危工作环境的安全管理的关键。虽然每天生成大量的事件数据与数据存储管理和物联网的发展(物联网),有效和及时的利用这些资源已经受到巨大的人类工作需要确定事故原因。本研究提出了因果因素模型,可以自动识别曾经事件报告基于深度递归神经网络。我们的研究结果表明,深度递归神经网络算法,训练和调整与适当的转移学习技术,多才多艺,足以构建分类器预测的主要因素或多个因素与次要的修改。因此,初步理解事件报告的因素可以从自动获得事故报告分析。考虑到这些潜在的好处,这项研究的有前景的结果可能鼓励科学家去探索深学习算法的应用到其他领域,如autotransportation、医疗设施、信息技术失败,和受伤报告,自动文本分析是急需的。
有几个局限性这深度学习的方法。目前,我们只能够在曾经六个最频繁的类别进行分类的数据集。十其他少见的多类别,占约5%的事件报告,都没有得到解决,主要是由于缺乏足够的样本数据进行训练的深度学习的方法。需要额外的努力,找到一个深度学习架构,需要较少的数据或找出有效的方法来增加有限的数据样本。我们研究的另一个限制是,我们有限multilabel分类器不超过两个因素。然而,约9%的事件报告有两个以上的标签。更复杂的模型可能会进一步提高识别精度。最后,表格数据,如位置和时间不习惯在学习模式提出了研究。未来的研究可以探讨表格数据和事件因素之间的因果关系来确定哪个位置或时间更有可能与人类factor-related事件有关。
数据可用性
本文使用的数据收集从asrs.arc.nasa.gov /搜索/ database.html。研究人员可以从曾经请求数据,或者他们可以从网站下载。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究受到了三一大学教师研究创业基金和2018年夏季研究奖学金计划。