文摘

雷达信号检测的异常值是在海上监视应用程序中一个相当大的挑战。高频距离地波雷达(HFSW)吸引了重大利益作为远程目标识别和孤立点检测的潜在工具在超视距(OTH)的距离。然而,许多缺点,比如他们的低空间分辨率和杂乱,有负面影响其准确性。在本文中,我们探索深度学习技术的适用性检测偏离行为模式的规范船舶(异常值)从一个OTH雷达跟踪。拟议的方法利用深堆叠的非线性映射功能autoencoders结合density-based集群。比较实验评价方法展示了希望的结果而言,该方法的性能。

1。介绍

在雷达信号检测的目标和离群值是一个研究问题,受到很大的关注在学术和工业研究社区,主要是因为相关的重要相关的大面积应用于测量的影响。瞬态面波法的(HFSW)高频雷达是雷达的类别在频带3-30 MHz,与其他雷达相比,使用地面波或天波传播和电离层反射的电磁波对目标探测,它允许实现更长时间范围,微波雷达无法执行(1),但损害达到的精度。多年来,HFSW雷达或超视距雷达(OTH),它们通常被称为远程被用来测量海洋参数,提供信息的表面电流,波光谱,风向和强度等等(2]。这些非同寻常的范围(200海里)结合他们的连续操作方式使一个理想的候选人长期海洋监测的工具。然而,许多相关的缺点,例如,空间分辨率低、高非线性、和重要的杂乱,负面影响他们的表现作为检测预警工具,跟踪和识别的船只。

OTH雷达的有前途的功能吸引了大量的兴趣研究社区和已经导致了各种方法(例如,3,4])。然而,相关研究问题继续存在重大挑战,这可以归因于几个原因,简述如下:(我)不同的目标可能存在类似的介电和频率特性使得很难作出明确的区分。(2)鉴于粗糙表面多路径传播的影响,从一些对象往往压倒弱者反向散射散射的目标。(3)由于大气和土壤状况的变化,添加噪声可以迷惑雷达信号的分析。(iv)海洋和电离层杂波产生噪声尤其是HFSW雷达。在不同的注意,深度学习和伟大的结果产生了在其他信号分析领域,如计算机视觉、语音识别、自然语言处理,创建特定的期望关于其在雷达信号分析应用程序的潜在功效。深度学习允许多个处理层的计算模型与多个抽象层次学习和表示数据模仿大脑如何感知和处理多通道信息,从而含蓄地捕捉复杂的大数据量规模结构。复杂抽象的学习在一个给定的水平是基于相对简单抽象制定前层的层次结构。

本文的目的是提供一个框架,用于检测偏离常态的行为模式(此后称为离群值),因为他们从一个OTH雷达跟踪。拟议的方法利用深堆叠的非线性映射功能autoencoders (SAs) (5)结合density-based集群。堆叠autoencoders被用在一个无监督的方法追踪历史的容器映射到一个紧凑和翔实的特征向量。然后,随时跟踪船只预计到一个新的特征空间和集群使用density-based算法,如光学(6]。聚类阶段的结果表明可能的异常值。

本文的其余部分的结构如下:部分2概述了相关的工作。节3我们详细描述了OTH雷达信号中的异常值检测方法,然后就是实验评价方法的部分4。最后,部分5总结了纸。

在文献中,一些信号处理和机器学习方法进行了调查并提出获取更可靠的数据较低噪音,从雷达信号中提取语义信息。Kouemou和Opitz7]介绍了噪声特性分析结合隐马尔可夫模型(HMM)对实际雷达信号为预定义的类别进行分类。光谱分析(8)使用Garbanzo-Salas和霍金9]从谐波脉冲雷达数据检测小物体。在线引导机器学习工具的使用来提高目标探测雷达信号的速度也是一个主要研究领域(10]。雷达数据可以使用转移的概念分析了学习因为我们常常只有少量的标签数据虽然大多数信号捕获未标记的(nonannotated) [11]。其他作品关注建模电离层扰动的星载干涉合成孔径雷达(SAR)通过Echo-State网络(12,13]或系综分类器(14]。

对雷达信号去噪技术包括低层次处理,如中值滤波或其他的非线性卷积计划(15]。其他时空分解雷达信号的小波变换的方法(16,17]。通过这种方式,我们可以找到模式分布在空间和时间域来提高目标探测效率。这些方法可以扩展到分析合成孔径雷达(SAR)图像(11),或通过合并sparsity-based信号分析(18]。基于神经网络的检测方案突出的SAR图像中的对象是最近提出的19]。我们的目标是识别SAR内容的变化。类似的方法检测变化给出了使用非线性叠加限制玻耳兹曼机工作的刘et al。20.),而多层功能学习提高检测精度的SAR图像描述谢et al。21]。此外,低功率高频距离地波雷达(HFSW)已经证明是一个有效的远程预警传感器船舶检测和跟踪(22,23]。各种方式的详细描述HFSW雷达技术可以用于海上监视由Braca et al。24]。

关于深和“浅”的学习计划,传统的机器学习技术利用浅架构;也就是说,他们使用一个层数据/功能转换,甚至在一个高度非线性的空间。浅薄这里指这些架构的简单性,只使用一个(或几个)层的处理,负责将原始输入信号或功能问题特定的特征空间。相反,在深入学习范式,许多(深)的体系结构是由非线性处理阶段(25]。深度学习已经广泛应用于许多领域,如计算机视觉(26)(例如,行为识别(27和人类的跟踪28])和语音识别29日]。然而,它的适用性在雷达信号处理没有被调查,直到最近[30.]。即便如此,大多数的作品属于对象检测在SAR图像数据31日),基本上类似于视觉分析方法。

3所示。提出的方法

拟议的方法利用叠autoencoders的非线性映射能力(SAs) (5)结合density-based集群、识别不规则的出现,使用超视距雷达数据。这种方法是基于两个主要假设:(1)海军舰艇的历史,速度,位置,当然,信号频率,或其他相关数据,提供的地面雷达,可以提取有意义的功能。(2)意想不到的偏离常态是观察几船,表示今后作为离群值。方法是相对简单的:给定一组超视距数据条目,情景应用程序中使用一个无监督的方法追踪历史的容器映射到一个紧凑而丰富的特征向量。然后,随时跟踪船只预计到一个新的特征空间和集群使用光学[6),一种广泛使用的density-based算法。聚类结果通知可能离群值。下面提出了方法论的不同阶段,所涉及的数据的简要描述。图1提供了一个建议的方法的高级视图。

3.1。另外和AIS数据

异构数据,如数据自动识别系统(AIS),高频表面波(HFSW)雷达数据,和合成孔径雷达(SAR)数据,在研究利用海上监视的目的(32]。在我们的例子中,两个的信息来源是融合支持孤立点检测的过程:OTH雷达和AIS数据。

OTH雷达数据用于设置和评价提出的收购工作HFSW弦乐器雷达Diginext [33]。OTH雷达检测(图)和跟踪(记录)数据的输出OTH雷达对于一个给定的时期。情节和追踪提供包括数据估计位置坐标,速度,当然,多普勒频率,全球和当地的噪音水平,方位,和其他参数,适当的时间戳。

在一个不同的注意,AIS是一个自动跟踪系统用于避碰船舶和船舶交通服务。AIS信息补充航海雷达,它仍然是避碰水运输的主要方法。船舶配备AIS可以追踪的AIS基站收发器位于海岸沿线。国际海事组织的国际海上人命安全公约需要目前AIS在国际航行船舶的总吨位300或更多,所有客船无论大小(34]。AIS报告包含动态信息(例如,经度,纬度,课程在地面,在地面的速度,和时间)和静态信息(如船舶类型和尺寸信息)。

3.2。Density-Based集群作为异常值检测的基础

聚类是指确定组织的任务或集群在一个数据集。在density-based集群,集群是一组数据对象的数据空间中传播的相邻地区高密度的对象。Density-based集群分开相邻地区的低密度的对象。数据对象位于低密度区域通常被认为是噪声或离群值35]。光学算法(6),作为一个在各种方法分层density-based集群,包括订购点识别集群结构。光学是基于DBSCAN [36)和Stuetzle工作(37]。

光学计算最小生成树(MST)的数据,在那里边的权值表示两两距离。这些距离平滑的密度估计量,被称为核心的距离。核心的一个点的距离 是最小的阈值 这样 仍然被认为是一个核心对象的DBSCAN算法;也就是说, 至少有 对象在它的邻域半径之内 由此产生的距离,用于构建MST,叫做距离可达性(RD)。采取 作为平滑输入参数密度估计,距离可达性的观点 定义相对于参考对象 的最低核心的距离 和之间的实际距离 算法的结果可以提供我们的信息聚类的对象(见部分3.4)。

3.3。使用堆叠Autoencoders数据表示

Density-based算法,传统上,使用欧式距离度量[38]。这样的距离度量容易高维度的相关问题。如果我们有一个特征空间的维度,也就是说,追踪的一艘船,集群性能降低。

分来自d维高斯分布,因此 。他们预期的距离满足(39] 因此,这个词 ,在那里 是一个标量表示的尺寸高斯分布,阴影笼罩着的词吗 此时,需要强劲的低维特征变得明显。在这种情况下使用autoencoders建议(5]。

一个autoencoder是训练一个神经网络试图复制其输入输出。在内部,它有一个隐藏层 描述一个代码用于表示输入。网络可以被看成是由两部分组成:一个编码器函数 和译码器产生一个重建 。Autoencoders设计无法学会复制完美,因为他们是这样训练出来的 而不是 。模型经常学习有用的属性数据,因为它是被迫优先考虑哪些方面的输入应该复制。

通常情况下,培训autoencoder执行将导致输入复制任务 在有用的属性,限制 尺寸小于 一个代码尺寸小于输入的autoencoder维度称为undercomplete。学习一个undercomplete表示强迫autoencoder获取训练数据的最显著特征

学习过程简单描述作为损失函数最小化,例如, ,在那里 是一个损失函数惩罚 或者是不同的 ,如均方误差。当解码器是线性的 均方误差,是一种undercomplete autoencoder学会跨PCA子空间一样。在这种情况下,autoencoder训练执行复制任务获悉的主要子空间训练数据作为一个副作用

稀疏autoencoder只是一个autoencoder涉及稀疏惩罚的培训标准 在代码层 ,除了重建误差, 。稀疏autoencoders通常用于学习特性等另一个任务的分类。一个autoencoder已经稀疏正规化必须应对独特的统计特征的数据集训练,而不是简单地作为一个身份的功能。

我们工作的核心理念在于使用堆叠autoencoders捕捉出现在数据表示的主要模式。通过这样做,任何异常数据样本将被解释不好使用,表示。换句话说,异常值将有重大变化的数据。

3.4。识别异常值

异常检测是一个结合的基于阈值的方法建立在四分位范围规则,如(40),光学输出(参见3.2)和AIS / OTH匹配数据(见部分3.5)。

光学输出(即。,reachability distances of the ordered ships) are treated as a continuous signal, over which we identify the peaks. Peaks correspond to significant changes between the closest compared vehicles. As such, anything that varies from the norm has a peak, allowing the easy identification of a possible outlier. Then, we calculate a threshold value 定义为 , ,在那里 表示船只的数量 可达性是距离向量,降序排列。

局外人提供了AIS数据,发现关于这船将被忽略。首先,为一个特定的时间,船舶命令density-reachable方式(图2)。点接近彼此应该属于同一集群中,除非有重大变化在RD价值。然后,局外人RD值阈值定义RDs最高的10%以上。

3.5。匹配OTH AIS数据

节中解释3.1AIS数据包含等船的轨迹点。这些坐标雷达相比,识别轨迹之间的相似性。让我们表示为 可用离散时间情况下,创建地面雷达的船 , 。相当于AIS数据 对于任何一个船 , ,提供了AIS数据。

3说明了可用的轨迹在指定区域雷达和AIS数据。在这一点上,我们应该注意到轨迹计算为各种时间间隔,不,通常情况下,两个系统之间的一致。通常情况下,同样的船 ,比四个雷达时间实例一个AIS实例。另外,请注意, ,这样一对一的匹配跟踪雷达与AIS船是不可行的。因此,我们应该考虑时间和空间信息,找到匹配。算法(算法的伪代码1执行船匹配(图)4),另外和AIS信息记录在同一时间(详情参见使用数据4.2)。

输入:另外,AIS轨迹和其他为一组过去实例提供了信息
输出: 矩阵的每个本地条目最近的AIS条目组过去一段时间的实例
为每次实例
为每个跟踪船 ,
为每个AIS发射船
检查追踪时间的差异和AIS传输时间
找到相应的时间情况下
如果
没有AIS条目匹配
其他的
运行 使用坐标之间的神经网络搜索
保持4最亲密的条目
结束
结束
结束
结束
输入: 矩阵的每个本地条目最近的AIS条目组过去一段时间的实例
输出: 数组的索引匹配的AIS的每一个 另外一些履带式车辆
初始化 矩阵的票
为每个OTH跟踪船
为每次实例
如果船 有船 在附近
结束
结束
结束
而AIS船仍然无可匹敌的
如果
保持接近对方车辆AIS条目
结束
更新
结束

匹配过程是基于投票机制。为每个雷达跟踪船只 ,一次实例 , ,我们计算 最近的船 ,根据他们的AIS在特定的时间位置。为了确定相应的船舶(最近的)AIS时间实例 雷达条目 ,一次 ,我们计算时间的差异 ;然后实例给出相应的时间 。在情况下, ,AIS条目 不匹配 在时间 然后,一旦我们有一组匹配的实例 , ,我们发现 最近的条目 (即根据他们的位置。经度,纬度),所以 ,

4所示。实验结果

下面我们描述数据集用于实验中,使用的绩效评价指标,系统设置的细节,之前的实验评估拟议的框架。

4.1。计算复杂度

数据预处理创建一个组 另外一些相关数据条目,对一组预定义的过去的时刻,每一个的 跟踪船只,在一个时刻 因为两个 由用户定义的常量,所需的运行时是什么 一个训练有素的SA的映射过程 每个数据,因为SAs与定义神经网络神经元的数量。每点一次,执行一个光学过程 邻域查询在这个处理。给定一个空间索引,资助社区查询 运行时,整体的运行时 是获得。AIS和另外一些条目之间的匹配过程需要一个整体的运行时 , ,因为我们比较的 另外一些船只的跟踪 船配备了AIS。表1显示不同的处理步骤的计算复杂度。

4.2。利用数据集

利用数据集捕捉属于大约6个小时的数据从法国地中海沿岸Diginext 2016年7月在护林员的背景下欧盟地平线2020项目。AIS数据也获得同期用作地面真理。

总共556条船是6小时的数据集。以下条目使用提供的数据:(1)经度和纬度:位置值提供的学位。典型的范围是 ,分别(2)课程和速度:度计算中,通常的范围 ,和m / s的速度(3)多普勒频率:计算赫兹,通常的范围 (4)生Rx方位:方位角Rx网站的原始空间网格(相当于接待梁),通常的范围 (5)本地噪声:噪音水平在周围的阴谋。它是计算dBm,在范围内 (6)全球噪声:背景噪音水平的所有range-Doppler地图。它是计算dBm,在范围内

4.3。性能指标

在形式上,可以被描述为一个集群分析分区数 分类对象 组或集群 , 。鉴于 对象 ,在那里 表示 th元素 所有对象的分组 , ,在 集群可以定义如下: 上述配方确保协会的每个对象到一个集群是独一无二的。一个独特的协会是一个有效的分层和分区聚类分析。给定的矩阵 ,各种内部质量指数计算,以确定最优聚类。

4.3.1。Calinski-Harabasz指数

Calinski-Harabasz指数(气)41)定义根据以下方程: 在哪里 被定义为 被定义为 是从一个相对较大的值。与越来越多的集群 ,接近最优聚类解决方案 组,值应该显著减少由于增加每个集群的密实度。一旦超过最优解密实度的增加,从而减少价值仍然可能发生。然而,任何减少值应该是明显的小。

对于每一个可能的集群解决方案,计算最大CHI值表示最好的集群分区的数据。

4.3.2。Davies-Bouldin指数

Davies-Bouldin指数(DBI) [42)是一个内部评估方案,验证集群已经完成了如何使用数量和特性固有的数据集。DBI定义如下: 在哪里 被定义为 是一个距离函数,定义为 , 被定义为 上述方程假设

每个集群 一个最大相似cluster-regarding星团内误差平方之和搜索,导致 然后定义了平均指数这些值。在这种情况下,最小索引值对应于最好的集群解决方案。

4.3.3。轮廓

轮廓值是衡量自己的集群是多么相似的对象(凝聚力)比其他集群(分离)。轮廓范围从−1比1,高值表明对象是匹配自己的集群和邻近的集群很不相配。如果大多数对象有高价值,那么集群配置是恰当的。如果许多点很低或负值,那么集群配置可能过多或过少的集群。

为每个数据 , 的平均不同(距离) 与所有其他数据在同一个集群 不同的是最低的平均水平 任何其他集群 , ,其中 不是一个成员。我们现在定义一个剪影 因此, 。值接近1表明基准 适当地聚集在 平均轮廓在所有数据值,也就是说, 质量,是另一个测量生成的集群。

4.4。实验装置

第一步应该是雷达数据的特征空间的定义映射。作为一个起点,我们调查了维空间提供的PCA,保持99.1%的原始变异。采用了堆叠autoencoder方法由三层或四层,根据主成分分析的结果。损失函数是著名的均方误差(43]L2和稀疏regularizers [44]。

船舶跟踪历史是连续9帧组成的,每一节中描述包含所有数据4.2。之前数据规范化使用min-max方法,映射或聚类方法。系统忽略了附带一个狭窄的跨度。任何船没有足够的足够的条目,也就是说,3/4追踪过去的时刻,不考虑。

4.5。评价的结果

光学算法结果取决于最小集群大小的选择。我们已经调查了集群输出假设至少2,5,8,11日,14日,17日,20日,23日,26日在每个集群成员。集群在SA映射数据表现好于使用原始或PCA映射数据,对于大多数的调查情况。

根据气(图5),最高分数是实现当使用26船每个集群。,有趣的是,集群性能得分优于主成分分析的原始数据映射数据的分数。有一个增加的趋势在气的最小集群大小增加。SAs的趋势是清楚地说明了,对原始数据少,稍微PCA投影数据。

下一步是DBI的调查分数相同的最小集群大小设置(图6)。这一次,最好的成绩是通过使用集群大小14到20。SA映射提供了更好的聚类分数在五个调查案件。不管映射方法,气的分数,在SA映射数据,提高集群的数量上升,但不单调。

最后一个集群性能指标是平均轮廓距离(图7)。结果表明,接受两艘船作为最小集群大小是最好的设置中,PCA映射数据。另一方面,如果我们使用SA进行数据映射,最小集群大小应该设置为20。

另一个重要性能指标是平均距离可达性本身。点的距离可达性越小,密度越高。建议的方法的核心思想是,只有离群值应该从规范变化显著,投影特征空间。因此,所有的船只,减去异常值,应该有类似的特征值,从而减少了可达性的距离。

提供更多的培训数据允许SA调整映射过程规范。如图8往往一个平均可达性距离,速度缓慢,而增加训练样本的数量。RD的方差也,,减少在使用更多的时间训练实例,如图9。此外,SA映射允许创建的集群相比,PCA或原始数据集群(图10)。

无论采用特征映射方法,光学输出至少四倍的价值低,相比使用原始数据(参见图计算RDs(11日)11 (b),最高)。此外,导致更多的集群,在大多数的情况下(见图(11日)11 (b),底部)。增加最低船只的数量每个集群,关闭对象有几乎相同的距离可达性,导致几乎线性条件,在RD曲线。

最后一步的性能分析提供了实证研究结果。在大多数情况下,SAs映射数据结果检测更多的异常值相比其他方法(图12)。检测到异常值的最大数量是3。在任何时候PCA导致没有检测。

有多余的离群值识别的可能性。特别是,船只提供AIS数据被认为是,几次,可能离群值。图13说明了情况。通常,使用SAs导致一些可能的异常值,但是没有接受有效的检测,如解释部分3.4

5。结论

在我们的文章中,小说在船的方法,来识别异常行为情节和跟踪模式,作为超视距雷达,被提出了。的核心思想是一个映射的无监督发展过程,它可以在一个紧凑的项目的原始数据,降低特征空间。异常值将相同的空间应该有显著不同的值。堆叠autoencoders和PCA用于映射过程和原始数据的开发相比,识别的不寻常的行为。Density-based聚类算法(光学)用于clustering-based异常值检测。基于SAs的实验结果表明,该方法优于其他方法在生成的聚类质量和异常值的识别。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

导致这些结果的研究已经收到了欧盟委员会的资助H2020研究和创新计划,根据授权协议。700478 (RANGER项目)。作者要感谢所有项目合作伙伴的合作,特别是伴侣Diginext的条款和AIS数据和文档。