水下深度估计的球面图像

文摘

提出了一种水下单眼深度估计的方法,这是一个开放的问题在机器人和计算机视觉。为此,我们利用公开的空中RGB-D形象对水下深度估计在球形领域无监督方法。为此,空中图像style-transferred水下风格的第一步。给那些合成的水下图像和地面实况深度,然后我们训练一个网络评估的深度。这样,我们的学习模式是为了获得深度范围内,不需要相应的地面实况水下深度的数据,这通常是不可用的。我们测试方法style-transferred空中图像以及我们自己的真正的水下数据集,我们计算稀疏地面实况深处通过立体观测数据。这个数据集提供下载。实验数据与最先进的空中网络以及不同的人工输入显示风格转移以及深度估计展览有前途的性能。

1。介绍

海洋机器人水下深度估计是一个开放的问题(1,2),通常用于三维重建,为水下导航和中间步骤(颜色相关性3,4]。由于水下环境的属性,水下感知是完全不同于空中的感觉。图像捕捉水下通常看起来蓝色因为长波长的可见阳光吸收比短的波长。水下图像也可能更多的绿色,因为在水中的藻类。除此之外,水下图像模糊,比空中被相同的相机,由于浊度。这些原因增加从图像深度估计的困难。因此,许多研究者把精力放在水下图像处理。例如,使用暗通道先验恢复提出了水下图像(5,6],灵感来自[7在消除烟雾在空气中。这项研究在8基于光谱方法)实现水下图像缝合,这是更健壮的浊度比基于特征的方法。除了图像增强,一些工作专注于深度估计。这项研究在9)利用水下图像的深度和模糊强度之间的关系来估计深度。此外,深度学习也应用于水下图像的深度估计,例如,研究[4)使用卷积神经网络(CNN)生成相对深度,当时的一个输入一个色彩校正网络。上优于方法是非常受欢迎的这些天,有很多应用深度估计,例如在一些微系统公司(10,11]。

除了正常的针孔摄像头,全向相机越来越受欢迎,由于其大视场(FOV)。他们被广泛应用在地面机器人(12- - - - - -16]。一些研究小组还研究了全向相机为水下使用,因为它们提供更多的信息比视角的目标检测、定位和映射。这项研究在17)设计全方位视频设备和把它放在海豚捕捉数据。这项研究在18)改善陆上全向摄像机用于水下提出了相机标定的方法。

此外,有时长在水中可见距离增加该地区的未定义的深度,特别是相对于室内场景,使深度估计更困难。虽然有一些论文活跃水下三维成像方法(19),捕获全向水下深度图像仍然是一个巨大的挑战,这使得地面实况深度不可用。本文提出了利用公开的空中球图像深度估计的水下域。具体地说,我们的方法是一个两级管道。(i)鉴于空中RGB-D球面双从斯坦福2 d-3d-s数据集(20.),我们的火车style-transfer网络(21]空中图像转换为水下域。(2)考虑到生成的水下图像及其深度地图,我们训练的深度估计网络专门为球面图像。在测试过程中,我们可以直接从输入图像生成深度。我们的方法是,只有水下图像(即无监督。,no ground truth underwater depth) are required for the whole training process.

在我们的前期工作22),我们的论文的主要贡献如下:(我)我们所知,我们是第一批使用CycleGAN球形水下图像(2)这也是第一个方法采用深度学习估算深度在球形的水下图像(3)我们提供一个球形水下数据集,它包含3000个高质量的图像从大堡礁(iv)我们提供了一个基准的网络对手工制作的图片

2.1。无人监督的深度学习

上优于方法深度估计是受欢迎的。然而,对于敌对的环境,比如水下或森林场景,带注释的数据难以获得。因此,监督学习困难实现良好的性能与缺乏大量的标记数据。无监督学习和self-supervised学习两种方法利用未标记数据的学习过程。利用未标记数据的一个原因是,产生一个数据集和清晰的标签是昂贵的,但无标号数据生成的所有时间。更大的动机是利用大量的未标记数据。self-supervised学习的主要思想是生成的标签标记数据,根据数据本身的结构和特点,通过监督和培训与无监督数据的方式。Self-supervised学习广泛用于表示学习制作模型学习的潜在特征数据。这些方法广泛应用于计算机视觉(23- - - - - -27,视频处理28,29日),机器人控制(30.- - - - - -32]。

有很多以前的工作深度估计self-supervised相关方法。2017年,(33)提出了monodepth框架利用对极几何约束和训练他们的模型提出了一个新颖的培训损失沿self-supervised方式。之后,有一些相关的方法使用几何约束来实现自身的监督。这项研究在34)利用对极几何约束估计深度和表面法线。这项研究在35]调查完成任务的多峰性深度self-supervised方法通过构造一个与光度约束损失函数,和他们的方法实现艺术的状态(SOTA) KITTI深度完成基准。这项研究在36)利用双边循环立体差异之间的关系,提出了一种自适应正则化方案一对立体处理covisible和堵塞问题。

不同于几何constraints-based方法,有些方法尝试利用不同模式之间的约束,称为wrapped-based方法。这项研究在37)提出了一个wrapped-based方法估计深度和姿势。他们设计了一个基于包装损失附近的观点到目标使用计算深度和姿势。这项研究在38]提出monodepth2结合深度和相机的姿势和几何约束。改进模型的鲁棒性,他们也提出了最低reprojection损失和利用多尺度采样方法的框架。目前,monodepth2达到SOTA结果KITTI基准。因为这些方法可以预测深度和相机的姿势,它们广泛用于机器人和无人驾驶汽车作为一个视觉里程计(VO)系统。詹等人研究了端到端无监督depth-VO [39)和集成的深度与Perspective-n-Point (PnP)方法实现高鲁棒性(40]。

这个想法也扩展到更多的计算机视觉任务结合起来。这项研究在41)利用内容深度和语义信息之间的一致性。这项研究在42)提出了地理网利用深度之间的几何关系,光流,相机的姿势和使用一个无监督学习框架来预测它们。这项研究在43)提出了一个竞争协作框架来预测深度,姿势,光流,和运动分割与一个无监督的方法。

目前,无人监督的深度估计是成功的在室内或城市场景。但是仍然有一些应用程序在敌对的场景。这项研究在44)提出了一种生成模型和利用cycle-consistent约束训练模型以一种无监督的方式。他们的方法达到SOTA数据集,但也很难实现真正的水下应用程序和可用的数据量也没有足够的培训。

2.2。水下深度估计和色彩校正

与陆上场景相比,水下深度估计是更具挑战性由于散射和吸收效应(9,45),如上所述。为此,几种方法联合优化深度估计和色彩校正。换句话说,准确的深度还可以帮助恢复图像的颜色和深度信息的估计颜色失真。例如,作者的9,46)提出了一个图像配方模型估算深度图像模糊强度。在[5之前),一个黑暗的通道用于水下深度估计和图像恢复将衰减,反向散射的影响。这项研究在47)提出了自适应图像dehazing基于深度信息。

介绍了在节2.1深度(无监督学习),有许多成功的学习方法为空中图像深度估计。因此,天真的水下深度估计的方法是恢复空中的水下图像风格这深度学习策略可以应用。在[48),这种策略被证明是有效的水下深度估计。深度学习和数学方法都是非常受欢迎的图像恢复。在[49),他们使用Jaffe-McGlamery模型(50,51),一个数学方法,来处理问题,降低了吸收和散射效应基于辐照度和深度。在[52),提出了学习型方法解决深度估计和色彩校正球面领域同时通过求解摄像机设置下左右一致性。然而,深度学习通常需要大量的数据,这对水下字段不可用。要解决这个问题,研究在4)提出了一种生成对抗网络从空中生成合成水下图像数据集。

我们的工作是受WaterGAN [4),也不同于它。WaterGAN需要深度作为输入来模拟衰减和散射效应,而我们水下GAN只需要水下和空中图像作为输入。我们的初步工作报告(22),我们提出了两级管道来解决水下全方位深度估计。在第一视角图像管道,WaterGAN [4)是用于RGB-D图像转移到水下RGB-D图像。然后,一个完全卷积残余网络(FCRN) (53)深度估计网络训练与水下图像作为输入。第二全方位阶段,我们从空中equirectangular图像合成图像水下equirectangular图像通过减少红色通道中的值(由于其波长短自然在水下环境中)和模糊图像基于其与摄像机之间的距离。最后,灵感来自[54),distortion-aware卷积模块取代了正常的卷积FCRN基于球面longitude-latitude映射。在这项工作中,我们把简单的操作在红色通道学习方法来生成合成水下全向图像。此外,我们改进的方法来估计水下深度。最后,我们更彻底地评估我们的算法的结果,通过估计地面实况深处独特的特征点。在[54),FCRN (53)被确认为最先进的全向cnn (SOTA)网络,因此我们采用它和比较。

我们想要强调的是,一般来说,从一个RGB图像深度估计是一个非常具有挑战性的问题。作为我们的实验后将显示,我们的方法不提供非常准确的估计,也不这一部分中提到的其他深度估计方法。同时,与任何单眼视力问题一样,我们的研究结果是一个未知的比例因子。不过,我们相信这是值得的,因为它铺平了道路走向更成功的方法(见未来的工作),即使不是很准确,有可能用例,例如导航或色彩校正。

3所示。方法

图1展示了我们的两级管道。(我)空中RGB-D球面双从Stanford2D-3D-S数据集20.],我们训练CycleGAN [21]空中图像转换为水下域。(2)考虑到生成的水下图像及其深度地图,我们训练深度估计网络学习深度。在下面,我们分别介绍这两部分。

3.1。风格转移

生成对抗网(甘斯)是专为数据增加,现在广泛用于style-transfer任务。甘斯之间的两方mini-max游戏生成模型和歧视模型(55]。值函数关于这个对抗的过程在哪里表示数据和特性起初是随机值。这个值函数也深的损失函数神经网络。

水下style-transfer算法CycleGAN [21)包含两个网络,网络向前映射和网络F逆映射。给定的输入图像,网络转换到目标域和网络F转换回原来的领域。一个周期是强制执行的一致性反之亦然,确保映射将受限。因此,损失函数的映射函数是

我们使用输入域和输入域。我们的输入图像的例子中演示了两个域的数据2和3。因为我们两下输入和输出操作球面领域,我们直接采用卷积运营商网络,没有修改。

此外,CycleGAN应用一个新的想法关于周期的一致性,这是。这一步是损失函数

最后,CycleGAN的全面客观

因为方法pixel-to-pixel,数据集预处理图像调整到一个合理的大小。与WaterGAN相比,CycleGAN只需要水下和空中图像作为输入,而WaterGAN需要深度作为输入来模拟衰减和散射的影响。

3.2。深度估计

最近成功的卷积神经网络,提出了不同的CNN-based方法解决监管深度估计任务(53,56]。然而,大多数上述方法需要大量的准确的图像和地面真理深度对,目前在球形水下域不可用。相反,我们建议使用一个可用的空中球面数据集,斯坦福2 d-3d-s基准(20.,把它与StyleGAN水下风格。具体地说,鉴于 , 对从原始斯坦福2 d-3d-s基准,我们第一次转换水下域 : 在哪里表示原始空中图像的数据集,其相应的深度是水下图像转换。我们可以训练我们的网络与转换和对。

最近成功后的深度估计球域(57),我们采用FCRN,其中一个最先进的单模型NYUv2 (53]。网络由特征提取模型,然后几个upconvolutions层增加分辨率。在这里,一个UNet [58)作为骨干在我们所有的实验。最后,l1之间的差异将计算输出深度和地面实况深度地图: 在哪里表示网络的预测,表示地面真理深度地图, 列举所有输入图像的像素。

平滑正规化经常使用在平面图像深度估计在先前的研究33,38)鼓励深度估计局部相似。在透视图像深度估计,这个术语的定义如下: 在哪里是一个平滑项,处罚l1阶规范深度渐变的和方向2 d空间。

的equirectangular投影形象,然而,与失真,直接利用深度平滑条款意味着我们必须施加更大的权重较大的点对纬度。只是结合上述损失为视角图像设计到培训过程中可能导致次优的结果。原因在于equirectangular oversamples球面图像的投影图像在极地地区。从最近的工作学习的灵感球形域(59),我们建议两个点的距离的重量是基于他们的球面距离,之后我们到达以下球形深度平滑调整: 在哪里为每个点和权重。相对应的立体角采样区深度地图上位于。是空间平滑项,处罚l1范数的二阶梯度沿深度的和方向2 d空间。

最终损失的是上述因素的加权组合作为权重因子:

4所示。实验的细节

我们用两个实验评估我们的方法。首先,我们使用合成水下斯坦福2 d-3d-s与精确地面实况数据集定量评估算法。在这里,我们也比较SOTA算法空中球图片:FCRN [53),在两个设置。我们测试FCRN合成(GAN)图像,以及原始RGB图像作为输入。使用水下图像合成算法都是训练有素的。第二个实验中使用真正的全向水下图像和稀疏的地面实况点估计通过束调整与原位测试算法的数据。

在下面,我们首先介绍了数据集,hyperparameters,用于实验和评价指标。

4.1。数据集

斯坦福大学2 d-3d-s [20.)是空中的标准基准数据集之一。数据集提供了全方位的RGB图像和相应的深度信息,这些数据深度估计是必需的培训。此外,它还提供了语义在2 d和3 d、3 d网格和表面法线。

此外,我们使用一个数据集,我们收集的大堡礁潜水。我们使用这个培训与原始CycleGAN,球形水下图像以及用于测试我们的方法。这全向风格转移和测试数据集与一个Insta360收集X(https://www.insta360.com/product/insta360-onex相机之间的深度1米至25米。

评价最终结果从我们两级管道,地面真理深度的水下场景生成基于对极几何。生成步骤如下:首先,一对立体影像与一个已知的基准是用来估计稀疏图点特征匹配,五点算法(60),和三角测量61年]。

然后,两对立体图像,在不同的时间,有足够大的空间差异,包括一个用于映射点,用于调整地图分束的位置调整。最后,这些映射点的深度是归一化到0 - 255和用作up-to-scale地面真理。

图4显示了一个示例的点(绿点)作为地面实况。可以看出,大多数的这些点礁代替水,因为打开水,表面没有特征点。虽然只有稀疏点生成,我们相信他们是足够深度的评估结果。在水下数据集用于评估,我们为每个图像生成大约100点。

4.2。Hyperparameters

风格的hyperparameters转移包括输入图像的分辨率、设置像素。然后火车CycleGAN [21与这些hyperparameters:学习速率(2e4)和时代的数量(8)。

我们实施深度估计FCRN PyTorch框架和训练我们的网络在pretraining以下hyperparameters设置:minibatch大小(8)、学习速率(1e2)、动量(0.9)、体重衰变(0.0005),和时代的数量(50)。我们逐渐减少0.1每10时代的学习速率。最后,我们调整整个网络学习速率(1e4)对20世纪。设置为1e4我们所有的实验。

4.3。指标

对于我们的深度估计网络,我们采用FCRN [53)和比较模型与最初的损失函数和我们的新功能损失。除了这两个网络,我们也使用FCRN基于最初的空中图像,而不是由CycleGAN处理。评价,我们使用以下共同的标准对上述数据集比较:均方根误差(RMS) ,平均相对误差(Rel) ,的意思是错误( ) ,和像素精度与像素的比例为。表示像素的数量和代表了地面真理和深度图的预测,分别。

4.4。指标真实的实验

评估我们的两阶段方法的最终结果,我们依靠稀疏地面实况点捕获节中描述的方法4所示。1。(数据)。所有非零的点的位置将会用 ,我们发现地面真理和相应的深度估计深度。我们估算的结果是一个未知的比例因子。我们因此最小化误差通过计算地面真理最合适的比例因子。为此,我们计算每一对地面真理之间的尺度参数和结果,然后得到中间值的因素。更具体地说,在一个对地面真理和结果,地面真值的比值结果值对于每个点对。然后,使用这些比率为一个图像,我们可以计算其值模拟优化过程,如最小二乘法,并设置值地面实况之间的尺度参数和结果。最后,我们重新调节结果和计算错误每一个点。这个错误关于计算每个图像

在这里,操作是计算所有情况下地面真理的中值点,结果点。

5。结果

在本节中,我们将演示结果转换斯坦福2 d-3d-s收集的数据集和真实的水下图像在大堡礁。

5.1。评价合成图像

因为很少有水下深度数据集与地面真理,我们合成的水下图像数据集从斯坦福2 d-3d-s风格。CycleGAN [21)是用于生成合成水下图像在这工作。图4显示了合成图像的几个例子。它可以看到生成的图像成功空中图像转移到水下的风格,尤其是颜色。

中一个有趣的现象是,如果我们试图转移训练许多style-transfer网络时代,很多不必要的和不合理的功能也学会了。然而,在大多数情况下,我们只需要传递一些特定的功能,如颜色。测试自己的水下数据集显示,只有部分的估计结果不够准确。这也可能是由于这一事实室内场景太不同的水下域。

图5礼物的结果估计从合成深度水下斯坦福2 d-3d-s数据集,在亮像素代表一个更大的深度和较暗的像素更近。可以看出,右边的深度估计的数字5对应于左图是可以接受的,尤其是进一步的区域。此外,表1给出了一个更严格的评估结果。比较经典的FCRN网络,我们的损失函数给略有提高更好的结果所显示的更小的RMS, Rel和log10。


方法	RMS (m)	Rel (m)	log10

我们:+	0.683	0.177	0.075	0.744	0.919	0.972
FCRN甘	0.687	0.181	0.078	0.737	0.920	0.972
FCRN RGB	1.281	0.327	0.181	0.387	0.648	0.801

所有测试使用图像转换与氮化镓作为输入。我们的方法和FCRN GAN训练有素的合成图像,而FCRN RGB使用,相比之下,RGB图像作为训练数据。下面的术语解释。小的箭头表示或更大值是更好。

也可以从FCRN RGB实验,使用RGB图像训练SOTA相比,我们的网络给了更糟糕的结果而且还与氮化镓FCRN训练图像。因为style-transferred图像主要模仿颜色信息,采用网络估计从这些图像的深度信息。

5.2。评估真正的水下图像

合成数据集上实现可接受的结果之后,我们也评估结果真正的水下图像。注意,我们不能与任何其他的方法,因为我们所知,我们是第一个提出球面水下图像深度估计算法。图6证明了估计深度水下数据集。同样,可以看出,右边的明亮部分对应区域更遥远的人物6至少,这意味着网络估计正确的深度在一些地区。

因为我们的网络是基于斯坦福2 d-3d-s数据集,在原始图像都缺乏的上半部分和下半部分(图像的高度对于每一个部分),这些部分充满了纯黑色像素。因此,上下部分的最终结果对水下深度估计也不是评估。换句话说,我们只使用代替球面全景图像图像。

虽然我们的水下数据集没有地面实况深度地图,我们可以评估结果与稀疏点地图。我们随机选择20个图像与相应的地面实况测试计算立体观测。

根据给出的指标,结果显示在表的第一行2。在那里,每一列显示所有图片结果平均值。在第一列,我们以错误的像素的中值为我们地面实况图像,在第二列,我们把每个像素的平均误差,最后一列显示在每幅图像的标准差,每个平均超过所有图片。我们可以看到平均估计深度的平均误差为22%,平均误差为40%,标准差为62%。当然,这些值表明,估计深度是非常不准确的。尽管如此,我们相信他们仍然有些有用的对于某些应用程序,例如,导航、着色、dehazing或位置指纹。此外,我们希望,在未来,这些值可以提高,例如更好和更多的训练数据和通过提供几个连续或立体框架作为输入。


结果类型	平均中值错误	平均平均误差	平均标准偏差

我们的	0.22	0.40	0.62
与RGB FCRN(训练)	0.30	3.76	7.16
黑色的结果	1.00	1.00	0.00
白色的结果	0.95	1.10	0.65
随机噪声的结果	0.96	2.83	3.31
灰度的结果	0.95	1.10	7.12
黑色的输入	0.27	3.75	7.18
白色的输入	0.31	3.70	6.91
随机噪声的输入	0.32	3.77	7.00
灰度输入	0.24	0.51	1.26

更多细节见补充材料。

为了更好地理解我们的方法的属性,把评价结果为我们的方法,我们使用相同的测试帧与其他三个病例。表的新行2原始FCRN显示的结果,与正常的训练从斯坦福大学2 d-3d-s RGB图像。测试此网络与我们真正的水下数据时,我们看到的平均平均误差和平均标准偏差非常大,而我们建议的方法。这表明使用CycleGAN合成图像在训练是非常有利的。尽管这并不能证明CycleGAN提供了一个非常现实的水下转移,这是一个非常强劲的迹象。

其他两个情况下,我们显示在表2旨在表明,我们的方法确实是做一些有用的东西,而不仅仅是随机值。首先,我们四个不同的假深度结果比较。“黑结果”深度图像都是黑色的(0距离),“白结果”深度图像都是白色的,和“随机噪声结果”深度图像随机距离。最后,还有一个深度图像称为“灰度的结果,”,这就是输入水下图像的灰度。请注意,在“黑结果”的情况下,图像中都是0,所以规模参数不能通过上述指标。然而,任何规模,本身就是作用于0。因此,我们只是改变度量到一个特定的方式,也就是说,设置参数。然后,错误在这种情况下总是1;因此,标准偏差为0。我们可以看到,那些虚假的评估结果是比我们更糟的结果。

其次,我们使用相同的数据如上(黑色,白色,随机噪声、灰度输入图像)作为输入我们的方法。这可以被看作是一个测试网络是否过度拟合的太多了。产生好的结果无意义的数据将是一个过度拟合的明显迹象,例如,由于训练数据不够多样化。我们可以看到平均中值误差范围的结果。我们认为这是由于两个原因:(i)提供了毫无意义的数据,网络似乎有点像典型的深度图像生成深度图像;因此,它可能会过度拟合。(2)重新调节我们的评估过程优化生成的深度地图,这样他们最适合地面真理(不是用在这里的水下图像)。地面真值的平均误差可能是很小的“典型”的深度图像生成的无意义的数据。但看着平均平均误差和标准差,我们看到那些生成深度地图有一个非常大的错误,从而表明我们的结果显然是更好的。

在最后一行中,我们使用颜色的灰度版本框架作为输入。可以预计,这合理,次优的结果。然而,它仍然是比输入的颜色,所以颜色似乎是重要的。比较我们的所有其他方法测试的结果,我们可以看到,平均中值错误,平均平均误差和平均标准偏差是更好的为我们的方法,清楚地表明,我们的方法做一定的扩展工作。

6。结论

本文提出了一个监督水下球面图像的深度学习方法。首先,我们实现了基于CycleGAN风格转移合成水下图像。结果表明,CycleGAN学习水下场景和综合的特点很好的图像在水下的风格。然后使用这些图像在第二个网络,一个完全卷积残余网络(FCRN),训练水下球形深度估计。网络监督的方式训练。我们的第一个实验是利用合成图像与FCRN CycleGAN进行评估和比较。此外,我们测试了我们的方法在实际水下数据从大堡礁,我们估计稀疏点使用立体观测和地面实况深度包调整。我们也比较人工输入和输出数据,结果表明,网络确实执行深度估计。实验表明,转让、风格以及深度估计的结果,是令人信服的。我们的方法达到更好的结果比训练不甘。 It achieves slightly better results than FCRN trained with GAN, so our updated loss function is beneficial. The experiments also showed that the estimated depth on real underwater images is somewhat reasonable and better than all other methods and options we compared to.

然而,远非完美的方法,特别是关于深度估计的准确性。这主要是由于这一事实估算深度从单个图像是一个非常具有挑战性的任务。我们的方法也不是很一般。水下数据集是只在一个位置很好的可视性。有更多的水下场景不同风格。因此,需要更多的水下训练数据。在未来,我们打算做一个统一的方法,可以在各种不同的水下的情况下工作。此外,真正的水下环境中进行测试,我们还计划面具只有区域分割过程。收集一个空中看起来更接近水下图像数据集与深度也可能进一步提高我们的表现。这些可能是一些峡谷或沙漠。 Since the underwater data we collected actually also contains spherical videos from two more cameras, we will investigate using this stereo data for depth training. Furthermore, more complicated network structures that take previous frames into account may provide even better results.

数据可用性

水下图像的数据集,包括地面实况数据评估,可以发现https://robotics.shanghaitech.edu.cn/static/datasets/underwater/UW_omni.tar.gz(780 MB)。

的利益冲突

作者宣称没有利益冲突。

补充材料

表S1、S2和S3中值,意思是,和标准偏差地面真相和结果之间的误差估计从不同的方法。列“我们”是该方法估计的结果。“灰度”从输入RGB图像转换。剩下的“随机噪声”,“白色”和“黑色”手动生成。以“结果”列计算通过对比地面真理和形象直接与计算的“输入”而首先提出了网络的图像作为输入,然后比较输出与地面真理。“我们不甘”表示结果的模型由原来的空中训练数据集,没有CycleGAN。此外,“gt大小”是地面实况提供的点的数量。(补充材料)

引用

答:戈麦斯查韦斯,徐,c·a·穆勒s Schwertfeger和a·比尔克”自适应导航方案最优深海本地化使用多通道感知线索,”《IEEE / RSJ智能机器人和系统国际会议(——)2019年11月,澳门,中国,。视图:谷歌学术搜索
刚才他和m .西方,“水下机器人,”先进的机器人,15卷,不。5,609 - 639年,2001页。视图:出版商的网站|谷歌学术搜索
c .北奥b·j·劳伦斯Viorela, d·弗兰克,“水下结构的三维重建,”学报2010年IEEE / RSJ智能机器人和系统国际会议IEEE,页4418 - 4423年,台北,台湾,2010年9月。视图:谷歌学术搜索
j . Li k·a·斯金纳e·瑞恩和m . J.-R。Watergan”,无监督生成网络启用实时单眼水下图像的色彩校正,”IEEE机器人与自动化字母(RA-L),第394 - 387页,2017年。视图:谷歌学术搜索
p . l . j .德鲁·e·r·Nascimento s . s . c . Botelho和m . f .黑山Campos”水下深度估计和基于单一的图像,图像恢复”IEEE计算机图形学和应用程序,36卷,不。2、巢族,2016页。视图:出版商的网站|谷歌学术搜索
t .Łuczyński和a·比尔克”水下图像烟雾去除underwater-ready黑暗的通道前,”海洋2017,页1 - 6,IEEE,安克雷奇,正义与发展党,美国,2017年9月。视图:谷歌学术搜索
k .房型,j .剑太阳和x Xiaoou唐,“单一图像烟雾去除之前使用黑暗通道,”IEEE模式分析与机器智能,33卷,不。12日,第2353 - 2341页,2011年。视图:出版商的网站|谷歌学术搜索
m . Pfingsthorn a·比尔克s Schwertfeger h·布劳和k·帕沙克,“与光谱图像配准最大似然映射,”学报2010年IEEE机器人与自动化国际会议上安克雷奇,页4282 - 4287年,正义与发展党,美国,2010年5月。视图:谷歌学术搜索
Y.-T。彭、赵x和p . c . Cosman”单一的水下图像增强使用深度估计基于模糊强度,”学报2015年IEEE国际会议上图像处理(ICIP)加拿大魁北克,页4952 - 4956,2015年9月。视图:谷歌学术搜索
s p•阿南丹Gagliano, m . Bucolo”计算模型在微流体泡沫”的逻辑,微流体和纳米流体力学,18卷,不。2、305 - 321年,2015页。视图:出版商的网站|谷歌学术搜索
介绍,和m . Bucolo p•阿南丹“非线性系统同步建模两相流体流动,”非线性动力学,卷92,不。1,第84 - 75页,2018。视图:出版商的网站|谷歌学术搜索
答:a . Argyros k . e .白克力s . c . Orphanoudakis和l . e . Kavraki“机器人导航利用全景视野,”自主机器人,19卷,不。1,7-25,2005页。视图:出版商的网站|谷歌学术搜索
r . Benosman美国康,o . Faugeras全景视觉斯普林格出版社,纽约,柏林,德国,2000年。
h .旷问:徐,长x,和s . Schwertfeger”全方位摄像机使用正弦曲线拟合,姿势估计”《IEEE / RSJ智能机器人和系统国际会议(——)2019年11月,澳门,中国,。视图:谷歌学术搜索
t·勒梅尔和s . Lacroix”与全景视野,大满贯”《机器人技术领域,24卷,不。1 - 2、91 - 111年,2007页。视图:出版商的网站|谷歌学术搜索
问:徐,a·戈麦斯查韦斯h·布劳a·比尔克和s . Schwertfeger”改进傅里叶梅林不变的健壮的旋转与omni-cameras估计,”学报2019年26日IEEE国际会议上图像处理。IEEE,台北,台湾,2019年9月。视图:谷歌学术搜索
b·特里“鸽子:海豚全方位的视频设备,”机器人与自动化国际会议的程序,页214 - 220年,巴黎,法国,2000年5月。视图:谷歌学术搜索
j .博世:谢谢,p . Ridao和d·里巴斯”全向水下照相机设计和校准”,传感器,15卷,不。3、6033 - 6065年,2015页。视图:出版商的网站|谷歌学术搜索
f·布鲁诺·g·比安科,m . Muzzupappa s巴龙和a . v . Razionale”实验结构光和立体视觉的水下三维重建,”ISPRS《摄影测量与遥感,卷66,不。4、508 - 518年,2011页。视图:出版商的网站|谷歌学术搜索
Armeni, s . Sax a . r . Zamir和s . Savarese”联合2 d-3d-semantic数据对于室内场景的理解,”2017年,https://arxiv.org/abs/1702.01105。视图:谷歌学术搜索
J.-Y。朱,t .公园,p .伊索拉,a . a .埃“未配对image-to-image翻译使用cycle-consistent敌对的网络,”学报2017年IEEE计算机视觉国际会议(ICCV)2017年10月,威尼斯,意大利,。视图:谷歌学术搜索
h .旷、问:徐和s . Schwertfeger“深度估计在水下使用深层神经网络全方位的图片,”2019年,https://arxiv.org/abs/1905.09441。视图:谷歌学术搜索
c . Doersch a·古普塔和a . a .埃,“无监督学习的可视化表示上下文预测,”《IEEE计算机视觉国际会议,页1422 - 1430,圣地亚哥,智利,2015年12月。视图:谷歌学术搜索
j·多纳休,p . Krahenbuhl和特雷弗·达雷尔”对抗的特点学习”,2016年,https://arxiv.org/abs/1605.09782。视图:谷歌学术搜索
Dosovitskiy p·费舍尔,j . Tobias Springenberg m . Riedmiller和t . Brox”区别的无监督特征与范例卷积神经网络学习,”IEEE模式分析与机器智能,38卷,不。9日,第1747 - 1734页,2015年。视图:谷歌学术搜索
s . Gidaris p·辛格(manmohan Singh)和n . Komodakis“无监督学习通过预测图像旋转,表示”美国学习国际会议上表示温哥华,加拿大,2018年4月。视图:谷歌学术搜索
p . r . Zhang伊索拉,a . a .埃“彩色图像彩色化”欧洲计算机视觉的诉讼,页649 - 666年,荷兰阿姆斯特丹,2016年10月。视图:谷歌学术搜索
c . Vondrick a Shrivastava a . Fathi s Guadarrama和k·墨菲,着色跟踪出现的视频,“计算机视觉的欧洲会议(大会),页391 - 408,德国慕尼黑,2018年9月。视图:谷歌学术搜索
王x和a·古普塔,“无监督学习使用视频的视觉表示,”《IEEE计算机视觉国际会议,页2794 - 2802,圣地亚哥,智利,2019年12月。视图:谷歌学术搜索
e .张成泽c . Devin诉文森特,s . Levine”Grasp2vec:从self-supervised掌握学习对象表示,”学习机器人的会议2018年10月,瑞士苏黎世。视图:谷歌学术搜索
a . Nair巴尔,k .亚历山大,p . Vitchyr g . Berseth和s·莱文,“上下文想象self-supervised机器人学习的目标,”学习机器人的会议2019年10月,日本大阪,。视图:谷歌学术搜索
x x智,他和s . Schwertfeger”学习自主探索和视力语义的映射学报》国际会议图片,视频和信号处理。IVSP2019年2月,上海,中国。视图:谷歌学术搜索
c·戈达尔、o . Mac Aodha和g . j . Brostow”与左右一致性、无监督单眼深度估计”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页270 - 279年,美国,2017年7月,你好。视图:谷歌学术搜索
h·詹,c . s . Weerasekera r . Garg。里德,“Self-supervised学习单一视图深度和表面正常的估计,”机器人和自动化学报2019年国际会议上)举行(“国际机器人与自动化会议”加拿大蒙特利尔,页4811 - 4817,,2019年5月。视图:谷歌学术搜索
f, g . v . Cavalheiro, s . Karaman”Self-supervised稀疏和稠密:Self-supervised深度完成从激光雷达和单眼相机,”机器人和自动化学报2019年国际会议上)举行(“国际机器人与自动化会议”加拿大蒙特利尔,页3288 - 3295,,2019年5月。视图:谷歌学术搜索
a . Wong和美国Soatto双边循环约束和无监督单眼深度预测,自适应正则化”《IEEE计算机视觉与模式识别会议长滩,页5644 - 5653年,CA,美国,2019年6月。视图:谷歌学术搜索
周t . m .布朗,n . Snavely d·g·劳,“无监督学习的深度和ego-motion视频,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页1851 - 1858年,美国,2017年7月,你好。视图:谷歌学术搜索
戈达尔,o . Mac Aodha, m .诏书和g . j . Brostow”挖掘self-supervised单眼深度估计,”《IEEE计算机视觉国际会议3838年,页3828 - 2019年11月首尔,韩国。视图:谷歌学术搜索
詹·h·r·Garg c . s . Weerasekera k . Li h·阿加瓦尔和里德,“无监督学习的单眼深度估计和视觉测程法与深度功能重建,”《IEEE计算机视觉与模式识别会议长滩,页340 - 349年,CA,美国,2019年6月。视图:谷歌学术搜索
h·詹,c . s . Weerasekera j .扁和里德,“视觉测程法回顾:应该学什么?“2019,https://arxiv.org/abs/1909.09803。视图:谷歌学术搜索
P.-Y。陈,h·亚历山大,研究。刘和研究。f .王”,对场景的理解:非监督单眼深度估计semantic-aware表示,”《IEEE计算机视觉与模式识别会议长滩,页2624 - 2632年,CA,美国,2019年6月。视图:谷歌学术搜索
z阴和j·史,“地理网:非监督学习的密集深度、光流和相机姿势,”《IEEE计算机视觉与模式识别会议长滩,页1983 - 1992年,CA,美国,2019年6月。视图:谷歌学术搜索
a .野生动物诉Jampani l .球et al .,“竞争协作:联合无监督学习的深度,相机运动,光流和运动分割,”《IEEE计算机视觉与模式识别会议长滩,页12240 - 12249年,CA,美国,2019年6月。视图:谷歌学术搜索
h·古普塔和k . Mitra“水下无人监督的单一图像深度估计,”学报2019年IEEE国际会议上图像处理(ICIP),页624 - 628,台北,台湾,2019年9月。视图:谷歌学术搜索
f·莫拉·d·保罗,大肠Nascimento, s . Botelho m·坎波斯,“估计在水下单一传播图像,”《IEEE计算机视觉国际会议研讨会830年,页825 - 2013年4月澳大利亚悉尼。视图:谷歌学术搜索
Y.-T。彭和p . c . Cosman“水下图像恢复基于图像模糊强度和光吸收,”IEEE图像处理,26卷,不。4、1579 - 1594年,2017页。视图:出版商的网站|谷歌学术搜索
j . x, y . Wang,傅x,“水下图像dehaze使用场景深度估计和自适应颜色校正,”海洋2017在苏格兰阿伯丁,页1 - 5,2017年6月。视图:谷歌学术搜索
c . O Ancuti c . Ancuti c . De Vleeschouwer l·诺伊曼和r·加西亚”颜色传输水下dehazing和深度估计,”学报2017年IEEE国际会议上图像处理(ICIP),第699 - 695页,北京,中国,2017年9月。视图:谷歌学术搜索
k·a·斯金纳、e·伊斯卡和m . Johnson-Roberson“自动颜色校正水下场景的三维重建,”学报2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,页5140 - 5147,新加坡,2017年5月。视图:谷歌学术搜索
j·s·贾菲,”计算机建模和优化水下成像系统的设计,“IEEE海洋工程》杂志上,15卷,不。2、101 - 111年,1990页。视图:出版商的网站|谷歌学术搜索
b . l . McGlamery“水下摄像系统的计算机分析和仿真性能,”SIO参考,卷75,不。2、1975。视图:谷歌学术搜索
k·a·斯金纳j .张e·a·奥尔森和m . J.-R。Uwstereonet”,非监督学习的深度估计和水下立体图像,色彩校正”机器人和自动化学报2019年国际会议上)举行(“国际机器人与自动化会议”,页7947 - 7954,新加坡,2019年5月。视图:谷歌学术搜索
Laina, c . Rupprecht诉Belagiannis f . Tombari和n .布”更深的深度与完全卷积残余网络预测,”学报》2016年第四次国际会议3 d视觉(3 dv)斯坦福大学,页239 - 248年,加利福尼亚,2016年10月。视图:谷歌学术搜索
k . Tateno:布,f . Tombari”Distortion-aware卷积过滤器密度预测的全景图像,”计算机视觉的欧洲会议(大会),页707 - 722,德国慕尼黑,2018年9月。视图:谷歌学术搜索
格拉汉姆·古德费勒,j . Pouget-Abadie m . Mirza et al .,“生成敌对的网,先进的神经信息处理系统,第2680 - 2672页,2014年。视图:谷歌学术搜索
d特征、c . Puhrsch和r·费格斯“深度从单个图像使用多尺度地图预测深层网络,”先进的神经信息处理系统,第2374 - 2366页,2014年。视图:谷歌学术搜索
l .金y, z贾et al .,“基于几何结构和正规化的深度估计从360年室内图像,”《IEEE / CVF计算机视觉与模式识别会议,第898 - 889页,西雅图,佤邦,美国,2020年6月。视图:谷歌学术搜索
o . Ronneberger、p·费舍尔和t . Brox”U-net:卷积网络生物医学图像分割”《医学影像计算和计算机辅助介入的国际会议,页234 - 241,德国慕尼黑,2015年10月。视图:谷歌学术搜索
徐z, y, j . Yu和美国高,“360年卓越检测视频,”计算机视觉的欧洲会议(大会),页488 - 503,德国慕尼黑,2018年9月。视图:谷歌学术搜索
h . Stewenius d nist、f·卡尔和f . Schaffalitzky”最小的解决方案相对与未知的焦距,姿势”2005年IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 05),卷2,页789 - 794,圣地亚哥,加利福尼亚,2005年6月。视图:谷歌学术搜索
r·哈特利,a . Zisserman计算机视觉中的多视图几何英国剑桥,剑桥大学出版社,2003年。

机器人杂志

文摘

1。介绍

2.1。无人监督的深度学习

2.2。水下深度估计和色彩校正

3所示。方法

3.1。风格转移

3.2。深度估计

4所示。实验的细节

4.1。数据集

4.2。Hyperparameters

4.3。指标

4.4。指标真实的实验

5。结果

5.1。评价合成图像

5.2。评估真正的水下图像

6。结论

数据可用性

的利益冲突

补充材料

引用

版权

更多相关文章

相关文章

机器人杂志

水下深度估计的球面图像

文摘

1。介绍

2。相关工作

2.1。无人监督的深度学习

2.2。水下深度估计和色彩校正

3所示。方法

3.1。风格转移

3.2。深度估计

4所示。实验的细节

4.1。数据集

4.2。Hyperparameters

4.3。指标

4.4。指标真实的实验

5。结果

5.1。评价合成图像

5.2。评估真正的水下图像

6。结论

数据可用性

的利益冲突

补充材料

引用

版权

更多相关文章

相关文章