方法利用RealSense相机估计任何单眼相机的深度图

文摘

机器人探测、识别、定位和其他应用程序需要不仅实时视频图像信息,而且目标与摄像机之间的距离,也就是说,深度信息。本文提出了一个方法来自动生成任何单眼相机深度地图基于RealSense相机数据。通过使用这种方法,任何当前单摄像检测系统可以在线升级。在不改变原系统,原来的单眼相机的深度信息可以获得简单,和从2 d检测过渡到3 d检测可以实现。为了验证该方法的有效性,构建硬件系统使用Micro-vision RS-A14K-GC8工业相机和英特尔RealSense D415深度相机,和深度地图匹配算法提出了用于测试系统。结果表明,除了少数depth-missing地区,其他地区的结果随深度还好,基本上可以描述区分目标和摄像机之间的距离。此外,为了验证该方法的可伸缩性,新的硬件系统是由不同的相机,和图片收集在一个复杂的农田环境。生成深度图很好,基本上描述了目标和摄像机之间的距离。

1。介绍

与技术在机器人行业的迅速发展,应用领域越来越广泛,如蔬菜采摘(1)、工业测试(2,医疗援助3),自动驾驶(4)等,和防疫机器人(5),近年来一直是一个热门话题。大多数机器人的视觉信息是主要的渠道与外界进行交互。它通常依赖于图像传感器采集视频图像,然后通过各种算法分析了图像获取感兴趣的信息,如位置、形状、颜色和类别的目标。通常图像传感器获取二维图像,缺乏目标与摄像机之间的距离,也就是说,深度信息。与RGB信息相比,深度信息介绍了目标与摄像机之间的距离,增加了一个空间维度,可以更好地了解现场,显著改善机器人的精度检测、识别和定位应用程序(6]。

一般来说,深度图采集方法分为两类:主动和被动。主动法的最明显的特点是设备本身需要传递能量完成深度信息的收集。这确保了深度图像获得独立的彩色图像。近年来,积极的深度图获取方法主要包括TOF(飞行时间)7),结构光和Kinect (8,9),激光雷达(10,11),等等。TOF相机的原则(7)来获取深度图像如下:通过连续近红外脉冲传输到目标场景,光脉冲反射的对象由传感器接收。通过比较发射光脉冲间的相位差,光脉冲反射的对象,可以计算光脉冲之间的传输延迟和物体的距离相对于发射器,导致深度图像。它有一个大的红外传感器大小,更广泛的视野角度,一个高质量的深度地图。然而,深度图像的分辨率远低于彩色图像的分辨率。深度值被很大的噪音,特别是在物体的边缘。此外,TOF相机通常是昂贵的。基于结构光深度图像采集的原则(8)是结构光投射到现场,和相应的模式与结构光捕获的图像传感器。由于结构光的模式会改变物体的形状,场景中每个点的深度信息可以通过计算获得模式图像捕获的图像的位置和程度的变形通过三角测量原理。这种方法可以获得目标的三维信息,精度高和速度。然而,由于结构光方法很容易受到强烈的室外自然光,它不能用于室外环境。此外,深度时,将发生损失对象是黑色或物体的表面是光滑的。Kinect (9)采用一种技术称为光编码。不同于传统结构光,Kinect的光编码红外发射机发出“立体代码”与三维深度。这种方法也可以获得目标的三维信息准确性和高速度,但有效范围很小,深度值是失踪,深度图像的边缘不对应于彩色图像的边缘,有一些噪音。激光雷达的深度信息采集原理(10,11)是激光发射进入太空在特定的时间间隔,和每一个扫描点的信号记录从激光雷达测量场景中的对象,以及之间的间隔时间后的信号反射激光雷达对象,以便计算物体的表面之间的距离和激光雷达。因为它的广泛范围和测量精度高,激光雷达广泛用于户外三维空间感知的人工智能系统,如自主避障导航车辆、三维场景重建和其他应用程序。然而,其价格相对较高,缺乏目标的纹理信息。

被动深度采集方法主要包括双目或multiocular立体匹配(12- - - - - -14)和单眼深度估计(15]。双目或multiocular立体匹配方法使用多个摄像头隔开一段距离来获取同一场景的多个图像在同一时间。立体匹配算法用于在多个图像找到对应的像素,然后计算差异信息根据三角测量的原理。差异信息可以转化为代表场景中物体的深度信息。该方法硬件要求低,适用于室内和室外的场景。然而,它具有较高的计算复杂度进行逐像素立体匹配,匹配,很难与严重缺乏纹理场景和场景照明的变化。此外,这种方法需要复杂的摄像机标定。校准完成后,相机的相对位置不能移动和灵活使用。单眼图像深度估计(15)是一种方法,仅依赖于一个单一视图图像或视频数据的深度估计。因为相机是将三维空间投影到图像平面上,它将不可避免地导致深度信息的损失。因此,它一直被认为是一个病态问题恢复深度信息只能通过一个图像,这是难以实现的。然而,近年来,深入学习发展迅速。卷积神经网络(CNN) (16各领域不断刷新记录的计算机视觉以其高效的图像特征提取和表达的能力,这为深度信息的估计提供了一个新想法的单眼图像(17- - - - - -20.]。该方法具有硬件成本低的优势,灵活使用,高精度深入地图生成。然而,学习和建模需要先进行,所以大量的数据集和需要复杂的操作过程,通用性不强,所以它不适合推广。

本文的特点,主动和被动获取深度地图集成,并采用硬件和软件相结合的理念获得深度图的单眼相机,可以改善现有的单眼相机。RealSense相机被添加到相机的安装位置。RealSense得到的RGB图像匹配与原来的高精度RGB图像获得的单摄像机获取的空间位置对应点。然后,深度映射得到RealSense映射根据位置对应符合最初的单眼相机的深度图。该方法保留了原来的相机的性能。图像分辨率和视场范围内保持不变,它克服了获得深度图的缺陷只有通过硬件。此外,收购深度地图不计算三维坐标通过摄像机的图像坐标,所以不需要校准的硬件,也没有学习和模型现场,不需要大量的先验知识,适合推广应用。

2。单眼相机的深度图生成方法

2.1。硬件结构

系统的硬件结构相对比较简单。任何单眼相机和RealSense相机固定在一起。一般来说,两个摄像头需要水平或上下紧密相连。这个安装的目的是基于假设相同的场景被两个摄像头有相同的深度,和深度的地图RealSense相机是用来适应传统的单眼相机的深度图。对于普通的单眼相机,会有很少的错误生成的绝对深度,因为两个摄像机的图像平面不完全一致,但不同的场景中物体的相对深度将不会受到影响。

根据这个结构要求,设计硬件系统如图1,图1(一)是系统结构图,图呢1 (b)是系统实物图。

(一)

(b)

在图1(一)相机:①是一个任意的单眼相机。摘要Micro-vision RS-A14K-GC8采用工业相机。相机②使用英特尔RealSense D415深度相机。此外,相机②还可以使用英特尔RealSense D435深度相机。单眼相机①的快速安装板安装在第一pan-tilt③。的第一个pan-tilt③pan-tilt固定板⑤是固定的。⑥传输帧由塑性材料对地震缓冲。相机②的快速安装板安装在第二pan-tilt④。的第二个pan-tilt④pan-tilt固定板⑤是固定的。此外,单眼相机①配备散热片⑦在顶部,下,左,右的方向。 This is because industrial cameras have high power consumption and easily generate heat when in use, and they must be dissipated. In terms of structural features, the monocular ① and the RealSense camera ② need to be closely matched in the horizontal or vertical direction. In this specific embodiment, the monocular camera ① and the RealSense camera ② are closely matched in the horizontal direction. A tripod ⑧ is installed under the pan-tilt fixing plate ⑤. By adjusting the posture of tripod ⑧, the optical axis of monocular camera ① and the optical axis of RealSense camera ② can be kept horizontal.

硬件系统设计可以实现系统升级通过添加RealSense相机没有取代现有的单机系统。图像原始系统获取的信息是完全保留,和深度图对应于原始图像可以安装。

2.2。深度地图匹配算法

想收集的RGB图像原来的单眼相机。RealSense相机捕捉两种图像。一个是RGB图像,表示 ,,另一个是与RGB图像,对应的深度图表示。该算法的目的是获得相应的匹配的特征点位置之间的关系和 ,然后适应深度地图对应的RGB图像收集的单眼相机 ,这是由。算法步骤的示意图如图2。

步骤1。抽样的RGB图像捕获原始单眼相机,将它转换为相同的分辨率图像被RealSense相机。由于低分辨率RealSense相机,例如,在本文中使用的两个模型是D415 D435,分别最大深度映射可以输出分辨率1280×720,而普通相机高分辨率。由于RealSense相机的分辨率是相对较小,本文使用的两个模型是D415 D435,分别和深度图的最大分辨率,可以输出1280×720的分辨率常用的普通相机更高。因此,首先,应该downsampled变换到一个新的形象吗相同的分辨率。假设的解决是 ,然后可以通过方程(1), 是图像抽样函数。的详细使用情况,请参阅OpenCV文档(22]: 与此同时,也有必要执行superpixel分割(22) ,和现场分析应分为区域。分割后的图像表示。

步骤2。匹配特征点之间和 ,消除点大错误,和保持良好的匹配点。由于两个相机模型之间的巨大差异,视场角是不同的,捕获的图像的相机,更大的视场角双方将会有更多的不重合的区域。然而,由于相机紧密相连,中间的重叠部分的图像相似性的视野非常高,它可以减少匹配的难度。因此,更多的匹配点对这个地区通常生成
假设一对匹配点的图像坐标是 ,和协调是。由于不同型号的两个摄像头,这两个坐标通常是不同的。然而,两个摄像头紧密连接从左到右或从上到下,和前后位置是一致的。因此,对于同一场景,绝对深度是相似的,而相对深度是一样的。自从RealSense相机有一一对应的RGB图像点的深度图,我们使用的深度值点坐标在图像随着深度价值坐标在图像。根据这一通信,所有匹配点的深度值位置可以组建一个新的图像生成。使用代表图像的灰度值在协调 , 代表图像的灰度值在协调 , 代表图像的灰度值在协调 ,和代表图像的灰度值在协调。然后每一个点的灰度值图像可以通过以下方程: 在图的示意图2的背景,漆成白色以更清楚地表达图像的特点。实际的算法是设置背景的灰度值区域尚未成功匹配0。

步骤3。段地区, ,superpixel分割的结果在第一步是必要的。Superpixel分割组成相似的相邻像素纹理,颜色,亮度,和其他特征形成不规则的像素块与一定的视觉意义。这些小块作为一个单位和充满了相同的深度值。因此,这一步是分区特征点的深度值的散列分布根据的结果并生成。假设有分区 ,然后是把到相同的形象区域。使用来表示年代th分区的 ,使用代表图像的灰度值在协调 ,和使用来表示年代th分区的映像 ,然后图像可以通过下面的方程来描述: 的原理图在图2分区的结果。该地区分界线被添加到更清楚地表达算法的意义。实际的算法没有分界线。

步骤4。对于每个地区 ,所有特征点的平均深度是算作本地区和灌装操作的深度值。填充的结果为代表。假设有特征点在一个特定的区域 ,和的灰度值用于表示jth特征点。在这方面,使用代表图像的点的灰度值在协调 ,然后使用方程(5)计算各点的灰度值在这个区域对应的坐标。方程(5在每个地区的)计算每个区域的平均深度和完成灌装。所示的效果在图2。在实际操作中,发现场景的一些特征点,将会有一些地区没有特征点,所以背景灰度值0是用来填补。
最后,是upsampled适合深度地图吗与原始图像相同的分辨率。假设的解决是 ,然后通过方程(6), 是图像抽样函数。的详细使用情况,请参阅OpenCV文档(21]。除了地区并不检测特征点和区域外RealSense相机可能无法捕捉的图像 ,其他点的深度值对应一一对应。

3所示。实验和结果分析

为了验证该方法的有效性,构建硬件系统使用Micro-vision RS-A14K-GC8工业相机和英特尔RealSense D415深度相机,如图3。其中,工业相机消耗大量的电力,在使用后很容易产生热量,所以散热片安装在四个方向,下,左,右。三脚架上的螺孔的大小pan-tilt快速释放板是1/4英寸,但有两个M3孔螺丝孔在工业相机,不匹配。因此,3 d打印机被用于制造一个转换框架。块3 d打印机打印的具有良好的灵活性、良好的缓冲和防振能力。

(一)

(b)

在这里,工业相机的分辨率是4384×3288。深度相机的分辨率是不同的。由于算法的要求,一项决议的比例符合工业相机被选中时,这里是640×480。拍照的一个示例图像如图4,(a)是大型的形象收集的工业相机,(b)是RGB图像收集的深度相机。自从两个安装在关闭位置,图像场景很近。(c)是深度图收集的深度相机,这正值RGB地图点对点。

(一)

(b)

(c)

工业应用图像清晰度和对比度有很高的要求,所以的图像质量不能使用,只有可以使用,但缺乏相应的深度图。因此,本文的目的是使用图中描述的算法2生成一个点对点的深度图关于。在图所示的三张图片4用于验证算法,和一些中间结果和最终结果如图5,(a)的特征点检测结果 ,(b)的特征点检测结果 ,(c)是特征点匹配的结果。虽然分辨率的影响,图像质量差,它几乎没有对特征点的影响。检测到的特征点基本上是一样的高分辨率的工业相机,和匹配的结果也很好。(d)是superpixel分割后的图像,这是 ,(e)的深度图相应的大图工业相机的算法,最后安装的深度(f)是地图对应的小图片自动生成的深度相机。自从两个场景都是一样的,它们可以用于比较。

(一)

(b)

(c)

(d)

(e)

(f)

黑色区域的数据5 (e)和5 (f)都是depth-missing地区。通过比较这两个数据,可以发现,深度地图(f)自动生成的深度相机是相对完整的,只有一个小面积深度失踪的两边的形象,而本文的算法更缺少深度的地区,主要分布在图像。有两个主要原因缺乏深度的算法:一个是,尽管工业相机和深度相机是紧密相连的,他们仍然没有完全一致的。拍摄的图片不完全重叠,这将导致缺乏深度。第二,一些地区相对光滑,缺乏特征点,这可能发生在中间和形象。通过分析结果图5 (e),除了一些depth-missing地区,其他深度区域的结果相对较好,基本上可以描述区分目标和摄像机之间的距离。

的主要创新的方法获得的深度图的单眼相机在本文提出RealSense相机直接安装接近于原始单眼相机没有替换原有的硬件系统,和深度的单眼相机可以安装地图根据位置两个摄像头之间的映射关系,而原始的高分辨率相机可以保留。为了验证这种方法的可伸缩性,下面的另外两组实验进行验证。

第一组实验:这个系统中使用的工业相机是尼康D7500取代,常见的手持单反相机,RealSense D415相机仍然使用。现场被一个户外农田环境,纹理相似性和遮挡等问题。传统的双目立体视觉很难通过算法生成一个稠密深度图。使用本文设计的方法,结果如图所示6:

(一)

(b)

(c)

(d)

(e)

(f)

第二组实验:这个系统中使用的工业相机换成了一个普通的手机,和RealSense相机模型D435所取代。现场也是一个复杂的户外农田环境。采用本文方法设计,结果如图7:

(一)

(b)

(c)

(d)

(e)

(f)

结果在图6和7表明,该方法用于获得深度图本文具有较高的可伸缩性。工业相机、单反相机、手机、和其他摄影设备可以用来获得高分辨率的RGB图像。无论是RealSense D415和D435模型可以用来协助生成相对应的深度地图上面的单眼相机的RGB图像。它可以用在各种室内或室外场景。事实上,该方法提出了旨在直接改变现有的单眼相机系统的帮助下简单的硬件设备成本较低,深度信息采集的功能,并添加一个空间维度的传统的单眼图像检测系统,以便更好地了解现场。

4所示。结论

本文提供了一个深度图拟合方法现有的单眼图像或视频检测系统相结合的思想主动和被动深度图获取方法。通过使用这种方法,任何单摄像检测系统可以在线升级。不改变原系统的前提下,原单摄像机的深度信息可以通过添加获得低成本的硬件和用简单的算法相结合,实现资源的有效利用。使用不同的硬件测试方法分别在不同的环境中,和实验证明,该方法具有良好的有效性和可伸缩性。与现有的深度信息采集方法相比,该方法的特点和优势如下:(1)与传统的积极方法相比,虽然这种方法还需要额外的硬件设备,成本更低。更重要的是,系统保留原来的单眼相机的性能,因此RGB图像通过这个系统有更高的分辨率。(2)与传统的被动方法相比,这种方法要求更低的位置硬件,只要两个摄像头是紧密相连的,不需要复杂的相机标定过程。此外,由于援助的深度图的深度相机,本文只需要一个相对简单的算法恢复原始相对应的点对点的深度地图单眼相机。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

作者欣然承认提供的财政支持重点工程科学技术研究计划的湖北省级教育部门(D20192701)和湖北省教育研究项目(T201716)。

引用

w·k·贾,y, j .连y . j .郑d . a .赵c·j·李,“苹果采摘机器人在信息技术:复习一下,”国际先进的机器人系统杂志》上,17卷,不。3,2020。视图:出版商的网站|谷歌学术搜索
y . f .香港和j.p.谭”,工业检测平面cable-driven机器人的轨迹规划,“物理学杂志》的系列会议,卷1570,不。1,2020。视图:出版商的网站|谷歌学术搜索
t . Ginoya y Maddahi, k . Zareinia“历史回顾医疗机器人平台,”机器人杂志ID 6640031条,卷。2021年,13页,2021。视图:出版商的网站|谷歌学术搜索
y . f . Cai k . s .大y . c, h . Wang和l .陈”行为识别算法研究周围车辆的无人驾驶汽车,”Qiche Gongcheng /汽车工程,42卷,不。11日,第1472 - 1464页,2020年。视图:谷歌学术搜索
k·f·c·郭m . y . Wang高,j . n . Liu和w·w·左,“基于位置的服务技术的重大公共卫生事件:说明了COVID-19流行的情况下,“武汉大学学报(新禧《禁止)/武汉大学测绘学和信息科学,46卷,不。2、150 - 158年,2021页。视图:谷歌学术搜索
f·萧p·李,“自主室内通道发现使用立体视觉的三维场景重建,”《航空,航天和航空,52卷,不。4、361 - 370年,2020页。视图:谷歌学术搜索
h . j . Issaq t·d·Veenstra t·p·康拉德和d . Felschow”seldi-tof ms蛋白质组学方法:蛋白质分析和生物标志物识别、”生物化学和生物物理研究通信,卷292,不。3、587 - 592年,2002页。视图:出版商的网站|谷歌学术搜索
y和z h .阮y z . Wang Wang”单发3 d形状重建使用结构光和深卷积神经网络,”传感器(瑞士),20卷,不。13日,1-13,2020页。视图:出版商的网站|谷歌学术搜索
m . Tolgyessy m .院长、l . Chovanec和p . Hubinsky”评估azure Kinect和Kinect V1和V2 Kinect相比,“传感器,21卷,不。2,页1 - 25,2021。视图:出版商的网站|谷歌学术搜索
y l . Chen, j·陈,李问:问:邹,“将3 d激光雷达点云转换成二维稠密深度图通过一个参数自适应框架,“IEEE智能交通系统,18卷,不。1,第176 - 165页,2017。视图:出版商的网站|谷歌学术搜索
毛g .问:陈z z, h·l·易et al .,“行人检测基于全景深度地图从3 d-lidar数据,”Periodica Polytechnica电气工程和计算机科学,卷64,不。3、274 - 285年,2020页。视图:谷歌学术搜索
W.-P。妈,W.-X。李,P.-X。曹”,双目视觉对象定位机器人基于coarse-fine立体匹配的方法,”国际期刊的自动化和计算,17卷,不。4、562 - 571年,2020页。视图:出版商的网站|谷歌学术搜索
m .姚明,w·b·欧阳,b . g .徐“混合成本聚合密集立体匹配,”多媒体工具和应用程序,卷79,不。31-32,23189 - 23202年,2020页。视图:出版商的网站|谷歌学术搜索
p . Rogister r . Benosman s . h .应p . Lichtsteiner t·德尔布吕克,“异步事件的双目立体匹配,”IEEE神经网络和学习系统,23卷,不。2、347 - 353年,2012页。视图:出版商的网站|谷歌学术搜索
孟y、x、c .风扇和h . Yu”深度学习单眼深度估计:复习一下,”Neurocomputing卷。438年,14-33,2021页。视图:出版商的网站|谷歌学术搜索
d .特征和r·费格斯”预测深度、表面法线和语义标签与一个共同的多尺度卷积架构,”《IEEE计算机视觉国际会议(2015年ICCV),页2650 - 2658,圣地亚哥,智利,2015年2月。视图:谷歌学术搜索
a·戈登·h·h·李,r . Jonschkowski和a . Angelova“深度视频在野外:无监督单眼深度学习未知的相机,”《IEEE计算机视觉国际会议(2019年ICCV),页8976 - 8985,首尔,韩国,2019年10月。视图:谷歌学术搜索
h .傅m . m .龚k . Batmanghelich c . h . Wang和d . c .道,“深序数回归单眼深度估计网络”《IEEE计算机学会学报计算机视觉与模式识别会议(2018年CVPR)2011年,页2002 - 2018年6月美国盐湖城。视图:谷歌学术搜索
赵h . t . y . r . Chen, z . w . Hu和j·c·彭”引起上下文聚合网络单眼深度估计,“国际期刊的机器学习和控制论卷。11日,1 - 14,2021页。视图:谷歌学术搜索
r·d·门德斯e·g·里贝罗n d·罗莎和诉格拉希,“深入学习为自主导航技术来提高单眼深度估计,“机器人和自治系统文章ID 103701卷,136年,2021年。视图:谷歌学术搜索
g . r . Bradski A . Kaehler,学习OpenCV,Oreilly媒体,牛顿,妈,美国,2018年。
r . Achanta a .沙棘k . Smith, a . Lucchi p . Fua和s . Susstrunk”SLIC superpixels先进的superpixel方法相比,“IEEE模式分析与机器智能,34卷,不。11日,第2282 - 2274页,2012年。视图:出版商的网站|谷歌学术搜索

电气和计算机工程杂志》上

文摘

1。介绍

2。单眼相机的深度图生成方法

2.1。硬件结构

2.2。深度地图匹配算法

3所示。实验和结果分析

4所示。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章