提出了一种水下单眼深度估计的方法,这是一个开放的问题在机器人和计算机视觉。为此,我们利用公开的空中RGB-D形象对水下深度估计在球形领域无监督方法。为此,空中图像style-transferred水下风格的第一步。给那些合成的水下图像和地面实况深度,然后我们训练一个网络评估的深度。这样,我们的学习模式是为了获得深度范围内,不需要相应的地面实况水下深度的数据,这通常是不可用的。我们测试方法style-transferred空中图像以及我们自己的真正的水下数据集,我们计算稀疏地面实况深处通过立体观测数据。这个数据集提供下载。实验数据与最先进的空中网络以及不同的人工输入显示风格转移以及深度估计展览有前途的性能。
海洋机器人水下深度估计是一个开放的问题(
除了正常的针孔摄像头,全向相机越来越受欢迎,由于其大视场(FOV)。他们被广泛应用在地面机器人(
此外,有时长在水中可见距离增加该地区的未定义的深度,特别是相对于室内场景,使深度估计更困难。虽然有一些论文活跃水下三维成像方法(
在我们的前期工作
我们所知,我们是第一批使用CycleGAN球形水下图像
上优于方法深度估计是受欢迎的。然而,对于敌对的环境,比如水下或森林场景,带注释的数据难以获得。因此,监督学习困难实现良好的性能与缺乏大量的标记数据。无监督学习和self-supervised学习两种方法利用未标记数据的学习过程。利用未标记数据的一个原因是,产生一个数据集和清晰的标签是昂贵的,但无标号数据生成的所有时间。更大的动机是利用大量的未标记数据。self-supervised学习的主要思想是生成的标签标记数据,根据数据本身的结构和特点,通过监督和培训与无监督数据的方式。Self-supervised学习广泛用于表示学习制作模型学习的潜在特征数据。这些方法广泛应用于计算机视觉(
有很多以前的工作深度估计self-supervised相关方法。2017年,(
不同于几何constraints-based方法,有些方法尝试利用不同模式之间的约束,称为wrapped-based方法。这项研究在
这个想法也扩展到更多的计算机视觉任务结合起来。这项研究在
目前,无人监督的深度估计是成功的在室内或城市场景。但是仍然有一些应用程序在敌对的场景。这项研究在
与陆上场景相比,水下深度估计是更具挑战性由于散射和吸收效应(
介绍了在节
我们的工作是受WaterGAN [
我们想要强调的是,一般来说,从一个RGB图像深度估计是一个非常具有挑战性的问题。作为我们的实验后将显示,我们的方法不提供非常准确的估计,也不这一部分中提到的其他深度估计方法。同时,与任何单眼视力问题一样,我们的研究结果是一个未知的比例因子。不过,我们相信这是值得的,因为它铺平了道路走向更成功的方法(见未来的工作),即使不是很准确,有可能用例,例如导航或色彩校正。
图 生成对抗网(甘斯)是专为数据增加,现在广泛用于style-transfer任务。甘斯之间的两方mini-max游戏生成模型<我nline-formula>
水下style-transfer算法CycleGAN [ 我们使用<我nline-formula>
此外,CycleGAN应用一个新的想法关于周期的一致性,这是<我nline-formula>
最后,CycleGAN的全面客观 因为方法pixel-to-pixel,数据集预处理图像调整到一个合理的大小。与WaterGAN相比,CycleGAN只需要水下和空中图像作为输入,而WaterGAN需要深度作为输入来模拟衰减和散射的影响。
最近成功的卷积神经网络,提出了不同的CNN-based方法解决监管深度估计任务( 最近成功后的深度估计球域( 平滑正规化经常使用在平面图像深度估计在先前的研究 的equirectangular投影<我nline-formula>
最终损失的是上述因素的加权组合<我nline-formula>
我们用两个实验评估我们的方法。首先,我们使用合成水下斯坦福2 d-3d-s与精确地面实况数据集定量评估算法。在这里,我们也比较SOTA算法空中球图片:FCRN [
在下面,我们首先介绍了数据集,hyperparameters,用于实验和评价指标。
斯坦福大学2 d-3d-s [ 此外,我们使用一个数据集,我们收集的大堡礁潜水。我们使用这个培训与原始CycleGAN,球形水下图像以及用于测试我们的方法。这全向风格转移和测试数据集与一个Insta360收集<我talic>
X我talic>( 评价最终结果从我们两级管道,地面真理深度的水下场景生成基于对极几何。生成步骤如下:首先,一对立体影像与一个已知的基准是用来估计稀疏图点特征匹配,五点算法( 然后,两对立体图像,在不同的时间,有足够大的空间差异,包括一个用于映射点,用于调整地图分束的位置调整。最后,这些映射点的深度是归一化到0 - 255和用作up-to-scale地面真理。
图 风格的hyperparameters转移包括输入图像的分辨率、设置<我nline-formula>
我们实施深度估计FCRN PyTorch框架和训练我们的网络在pretraining以下hyperparameters设置:minibatch大小(8)、学习速率(1<我talic>
e我talic>2)、动量(0.9)、体重衰变(0.0005),和时代的数量(50)。我们逐渐减少0.1每10时代的学习速率。最后,我们调整整个网络学习速率(1<我talic>
e我talic>4)对20世纪。<我nline-formula>
对于我们的深度估计网络,我们采用FCRN [ 评估我们的两阶段方法的最终结果,我们依靠稀疏地面实况点捕获节中描述的方法 在这里,操作<我nline-formula>
在本节中,我们将演示结果转换斯坦福2 d-3d-s收集的数据集和真实的水下图像在大堡礁。
因为很少有水下深度数据集与地面真理,我们合成的水下图像数据集从斯坦福2 d-3d-s风格。CycleGAN [ 中一个有趣的现象是,如果我们试图转移训练许多style-transfer网络时代,很多不必要的和不合理的功能也学会了。然而,在大多数情况下,我们只需要传递一些特定的功能,如颜色。测试自己的水下数据集显示,只有部分的估计结果不够准确。这也可能是由于这一事实室内场景太不同的水下域。
图 也可以从FCRN RGB实验,使用RGB图像训练SOTA相比,我们的网络给了更糟糕的结果而且还与氮化镓FCRN训练图像。因为style-transferred图像主要模仿颜色信息,采用网络估计从这些图像的深度信息。
合成数据集上实现可接受的结果之后,我们也评估结果真正的水下图像。注意,我们不能与任何其他的方法,因为我们所知,我们是第一个提出球面水下图像深度估计算法。图 因为我们的网络是基于斯坦福2 d-3d-s数据集,在原始图像都缺乏的上半部分和下半部分(<我nline-formula>
虽然我们的水下数据集没有地面实况深度地图,我们可以评估结果与稀疏点地图。我们随机选择20个图像与相应的地面实况测试计算立体观测。
根据给出的指标,结果显示在表的第一行 为了更好地理解我们的方法的属性,把评价结果为我们的方法,我们使用相同的测试帧与其他三个病例。表的新行 其他两个情况下,我们显示在表 其次,我们使用相同的数据如上(黑色,白色,随机噪声、灰度输入图像)作为输入我们的方法。这可以被看作是一个测试网络是否过度拟合的太多了。产生好的结果无意义的数据将是一个过度拟合的明显迹象,例如,由于训练数据不够多样化。我们可以看到平均中值误差范围的结果。我们认为这是由于两个原因:(i)提供了毫无意义的数据,网络似乎有点像典型的深度图像生成深度图像;因此,它可能会过度拟合。(2)重新调节我们的评估过程优化生成的深度地图,这样他们最适合地面真理(不是用在这里的水下图像)。地面真值的平均误差可能是很小的“典型”的深度图像生成的无意义的数据。但看着平均平均误差和标准差,我们看到那些生成深度地图有一个非常大的错误,从而表明我们的结果显然是更好的。 在最后一行中,我们使用颜色的灰度版本框架作为输入。可以预计,这合理,次优的结果。然而,它仍然是比输入的颜色,所以颜色似乎是重要的。比较我们的所有其他方法测试的结果,我们可以看到,平均中值错误,平均平均误差和平均标准偏差是更好的为我们的方法,清楚地表明,我们的方法做一定的扩展工作。
本文提出了一个监督水下球面图像的深度学习方法。首先,我们实现了基于CycleGAN风格转移合成水下图像。结果表明,CycleGAN学习水下场景和综合的特点很好的图像在水下的风格。然后使用这些图像在第二个网络,一个完全卷积残余网络(FCRN),训练水下球形深度估计。网络监督的方式训练。我们的第一个实验是利用合成图像与FCRN CycleGAN进行评估和比较。此外,我们测试了我们的方法在实际水下数据从大堡礁,我们估计稀疏点使用立体观测和地面实况深度包调整。我们也比较人工输入和输出数据,结果表明,网络确实执行深度估计。实验表明,转让、风格以及深度估计的结果,是令人信服的。我们的方法达到更好的结果比训练不甘。 It achieves slightly better results than FCRN trained with GAN, so our updated loss function is beneficial. The experiments also showed that the estimated depth on real underwater images is somewhat reasonable and better than all other methods and options we compared to.
然而,远非完美的方法,特别是关于深度估计的准确性。这主要是由于这一事实估算深度从单个图像是一个非常具有挑战性的任务。我们的方法也不是很一般。水下数据集是只在一个位置很好的可视性。有更多的水下场景不同风格。因此,需要更多的水下训练数据。在未来,我们打算做一个统一的方法,可以在各种不同的水下的情况下工作。此外,真正的水下环境中进行测试,我们还计划面具只有区域分割过程。收集一个空中看起来更接近水下图像数据集与深度也可能进一步提高我们的表现。这些可能是一些峡谷或沙漠。 Since the underwater data we collected actually also contains spherical videos from two more cameras, we will investigate using this stereo data for depth training. Furthermore, more complicated network structures that take previous frames into account may provide even better results.
水下图像的数据集,包括地面实况数据评估,可以发现
作者宣称没有利益冲突。