文摘

在这项研究中,我们提出一个方法来有效地提高小对象的性能检测使用有限的训练数据。我们旨在检测多个对象在一个图像使用训练数据中的每个图像只包含一个对象。医学药各种形状和颜色的被用作学习和检测目标。我们提出一个标签自动化过程轻松地创建标签文件学习和三维(3 d)增强技术,应用立体视觉与3 d照片修复(3 dpi),以避免造成过度拟合数据有限。我们还应用在意nonmaximum抑制和投票来提高检测性能。拟议中的3 d增大,2 d旋转,nonmaximum抑制,投票算法应用于实验与20和40种药。精度、召回、个人精度,结合实验的准确性有20种药分别为0.998,1.000,0.998,和0.991,分别和实验的40种药分别为0.986,0.999,0.985,和0.940,分别。

1。介绍

药物处方和库存管理是重要的,以确保安全的药品调剂和需要迅速和准确。医院处理500 - 1000类型的药,和各种处方需要根据病人的治疗条件。药物处方和库存管理流程需要很长一段时间在许多医院和药店,因为药丸手工分类和包装由药剂师基于处方。此外,由于执行简单任务的重复导致疲劳,错误可能发生在药片分类,这可能会导致医疗事故。最近,自动化设备,如自动药品调剂机(1- - - - - -3)获得了声望和使用在药店和医院和包药。基于自动配药机种类和包装药物的处方输入从一个计算机程序。然而,由于有一个自动配药机误差的风险,有必要检查准备产品。

目视检查使用数码相机被广泛用作药物检验方法。现有的视觉检测方法包括基于规则的分析产品特性进行了比较和分析,和模板匹配方法与参考图像的相似性进行了分析(4- - - - - -7]。深度学习目标检测算法最近积极研究[8- - - - - -11]。在基于规则的算法中,对象的特点,比如他们的颜色,大小,形状,和识别标志进行了比较。一种图像处理方法用于提取算法中的对象的特点,和一个二进制阈值应用于背景和对象进行分类。然后使用形态学去除斑点噪声后生成的二进制阈值过程和直方图均衡化,伽马变换,和retinex过滤进行捕获的图像的亮度均匀(12- - - - - -14]。

模板匹配是另一种类型的基于规则的算法的模板图像的分类登记,和输入图像与模板。一般来说,反对在基于规则的检测图像处理方法阻碍了反射光和相邻的对象,而类似形状的物体,很难只使用基于规则的方法进行分类。此外,模板匹配方法存在多个模板需要为每个对象,因为对象是模板的影响。模板数量的增加降低了处理速度。

基于卷积神经网络(CNN)的深度学习算法最近成为活跃的学科研究,因为他们使各种类型的对象的检测,无法轻易发现利用现有的基于规则的算法。cnn克服不足的问题表示本地信息在图像像素在早期神经网络引入卷积操作。cnn随后增加的识别率VGG的出现,RestNet, GoogleNet,改变层深度或结构(15- - - - - -17]。对象检测方法应用深度学习可以分为两个,一步结构算法。两步算法有两步结构对象候选人组织的首次发现和确定候选人集团随后被分类。代表算法包括R-CNN、快速R-CNN, R-CNN更快,面具R-CNN R-CNN系列(18- - - - - -21]。相比之下,one-step-structure算法同时确定物体的位置和类型的功能从CNN层生成的地图。你只看一次(YOLO)意思是代表one-step-structure算法(22]。YOLO可以训练速度比R-CNN意思使用相同数量的训练数据。此外,实时检测65 fps的检出率在YOLO。意思是可能的

需要大量的训练数据,以确保深度学习算法的性能。出现过度拟合模型和变得难以推广使用如果只有少量的数据。各种数据扩增方法因此被用来避免过度拟合(23]。数据扩增方法补充不足培训数据通过人为地改变形象。代表数据扩增方法包括旋转、亮度和饱和度的调整,扩大,减少剪切变换,噪音,和图像的运动。在这些方法中,数据乘以转换拍摄的二维(2 d)信息对象。然而,当从一个捕获的图像训练视频,物体形状和位置的变化在小距离相机可能会影响收购的对象的深度信息。这些变化很难表达在二维和三维(3 d)图像需要增加高度和考虑的对象。

3 d增强要求深度映射到被收购。现有技术获取深度信息包括结构光相机、激光扫描、飞行时间(TOF)相机,和立体相机的方法(24]。在结构光相机方法中,物体的深度信息是通过投射结构光与各种形状,如点或飞机,到一个对象和分析结构光变化信息从捕获的图像25]。这个方法需要一个单独的投影结构光照明和遭受的劣势明显受到外界光的影响。在激光扫描方法中,一个对象的深度估计通过扫描激光光源。虽然极其精确的深度信息可以获得1毫米的精度,需要一个机械装置将激光光源和传感器,和需要很长一段时间扫描。相机TOF法,距离估计通过发射红外线信号和测量信号所需的时间到达后,反映从一个对象在测量范围内26]。在短时间内可以测量的深度信息的速度大约30 fps。但是,传感器和对象必须由至少2米,和可以获得的图像分辨率较低。立体相机的方法,深度信息预测对象的相对位置信息的图像使用两个或两个以上的摄像头捕捉到的。立体相机的方法是影响性能的相机和镜头和相机之间的距离,但相对较少受到外界光的优势比其他方法。

在本文中,我们提出一个deep-learning-based小对象识别算法,从有限的训练数据提供更好的检测性能。方法旨在检测多个个体对象在一个图像基于最小基本捕获图像。一般来说,当一个对象是被发现在一个图像,包括多个对象,包括多个对象的图像也应该用于训练阶段。增加,然而,随着类型的检测目标的情况下组合数量可能存在于一个图像呈指数增加。为了解决这个问题,有限的数据量在本研究中通过捕获图像训练数据只包含一个对象。补充培训,期间获取的数据不足stereo-vision-based应用3 d图像增强和旋转增大。一个OpenCV-based图像处理算法自动生成所需的标签文件的培训。在意nonmaximum抑制(NMS)是应用于提高重叠的检测对象在同一位置。此外,提高检测性能,方法比较结果提出了通过指定立体图像分成组。培训,进一步研究多目标检测和识别方法优化基于YOLOv4模型,定量评估结果和验证。 To verify the proposed method, pills of various colors and shapes are used for training and detection, and quantitative comparisons are made with existing algorithms and data augmentation techniques. The proposed method is verified to be superior to the existing methods. The main contributions of this study are as follows:(我)我们提出一个方法来提高检测性能对训练数据以最小的捕获图像。提出的捕获系统可以有效地生成训练和测试数据只使用4个摄像头(2)操作员干预在训练数据的获取是减少为每个药丸的三倍。三个场景记录下来,前面,后面,一边一个药丸(3)图像处理是用来检测避孕药在训练图像自动生成相应的标签文件(iv)3 d增强基于立体视觉和3 dpi是用来增加训练数据的数量。提出的图像旋转方法可以填补空的区域旋转图像不失真(v)在意NMS和投票算法用于改善模型性能的决定阶段。

2.1。YOLOv4

YOLO是一个意思从整个图像中提取模型特性和用来预测对象的位置的搜索区域。YOLO模型意思,细胞是通过将每个对象划分为一个显示 在图像网格,边界框的位置和类为每个网格单元预测概率信息。YOLO表示意思的四个版本v1、v2、v3和v4开发。边界框的概念用于YOLOv1直接解决回归问题。锚盒子随后被介绍在以后版本的YOLO促进意思的解决回归问题。

YOLOv2 [27)达到改善目标检测采用批处理规范化,锚盒子,直接位置预测,和多尺度的训练方法。目标检测性能进一步改善YOLOv3 [28通过预测在不同的尺度和残块。这个边界框是预测在不同尺度YOLOv3通过组合特征图从三个不同尺度的结构类似于一个特征金字塔网络。这允许从上一层中提取有意义的信息,获取细分信息从当前层。

YOLOv4 [29日类似YOLOv3]有一个结构。其检测性能得到了改进运用其他技术,如cross-stage-partial-connection (CSP) [30.)、空间金字塔池(SPP) [31日),和路径聚合网络(PAN) (32]。YOLOv4结构包括骨干、颈部和头部。支柱,这是根据一批CSPDarknet53结构标准化和米什激活函数,生成从输入图像特征图。CSPDarknet53略有提高目标检测的深化Darknet53 YOLOv3中使用的网络。此外,因为只有一半的功能映射通过CSPDarknet53的残块,一个瓶颈层不是必需的。颈部连接骨干和头部,在重建过程中发挥作用和精炼功能映射。颈部YOLOv4包括SPP和锅。SPP对上下文特征的提取,有效增加了接受域四层连接到一个max-pooling层。平底锅是一种网络结构,提高了信息流动的颗粒状框架结构通过扩大之间的路径信息流量低,最主要的功能层。这可以提高整体的功能层,从而定位性能。 The head in YOLOv4 is the same as that in the prediction structure of YOLOv3. It enables predictions across different scales by predicting boxes using feature maps from three different scales. Furthermore, YOLOv4 uses Mosiac and CutMix [33)来提高其训练数据中检测对象的能力。图1显示YOLOv4的结构。

2.2。立体视觉差异图

在立体视觉方法中,物体上各点的三维坐标重建估计其深度。两个摄像头同时放置水平,用来捕获两个图像生成差异图,代表的数量水平下左边和右边的图像之间的变化。Stereo-vision-based差异映射算法可以分为全局和本地方法(34]。在当地的方法,计算差异使用一个预定义的窗口内像素的亮度信息。因为一个本地方法只使用内部信息窗口,其计算复杂度低于全球的方法。本地方法包括匹配代价计算的四个步骤,聚合,成本差异选择,和差异细化35]。匹配的成本被定义为一个点的差距区图像。常见的匹配代价函数包括绝对或平方的总和差异,归一化互关联,排名和普查变换。相邻的像素信息用于聚合成本最小化匹配的不确定性。差距在差异计算和优化选择,和差距的噪声地图减少差异细分的过程中,由正则化和闭塞的灌装。在前、过滤用于消除整体噪音和后者,不确定的地区差异值插值使用他们相邻的值。相比之下,全球能源的成本函数的差异值最小化在全球的方法。各种方法来解决全球能源最小化问题提出了利用马尔可夫随机域(36,37]。虽然全球方法提供良好的性能,他们不适合实时处理由于较高的计算复杂度。

2.3。3 d照片修复

3 d图像转换技术呈现一个2 d图像被相机捕获到一个新的视图。它可以用来繁殖并记录从各种角度视觉感知。经典的基于图像的渲染技术需要复杂的拍照技术和专门的硬件。3 d图像转换方法,使用RGB-depth (RGB-D)获得的图像从小型数码相机或手机配备双透镜代替昂贵的专用设备最近被开发出来。3 dpi提供了一种方法来分离视差和恢复丢失的信息时的形象呈现一个新的视图使用RGB-D形象。3基于dpi技术可以分为基于图像和学习渲染技术。在基于图像的渲染技术,一个新的视图的图像合成使用的集合构成的图像。基于图像的渲染时具有良好的性能的多视图立体算法适用或者当使用深度传感器捕获的图像。几上优于基于cnn最近的渲染技术研究[38,39]。这些技术的优势是不需要昂贵的设备,因为他们可以合成图像的新视图使用单一和区图像。施等。40使用分层深度图像(LDIs)减少任意深度信息的复杂性。输入LDI图像分为几个当地地区基于像素之间的连接,与合成的图像修复算法融合到一个新的LDI形象。深度信息随后改变,这个过程反复应用。算法由三个子网的颜色、深度与边缘修复。的边缘区域,要求恢复被修补优先恢复网络。边缘恢复后,图像的颜色和深度信息恢复了边界区域的颜色和深度修复网络。

3所示。提出的方法

在这项研究中,我们提出一个方法来提高检测性能的小对象检测基于多级培训期间有限的训练数据。该方法包括数据增加补充不足,一个自动化的方法来处理学习和训练数据到合适的形式,进一步研究多目标检测过程来提高性能。图2显示了该方法的流程图。

3.1。药丸数据标签

执行方法,药丸位置检测pretraining阶段过程中捕获的图像到合适的培训形式和自动生成标签文件,记录在培训对象的位置信息。如图3丸的位置决定基于边缘组件的药丸。在本例中为一个透明的药丸,蓝色通道,而标准差最大像素值之间的背景和前景的RGB通道,用于边缘检测的药丸。图4显示像素亮度的分布和标准偏差为每个RGB通道中心线的透明的药丸。可以看出,蓝色通道的最大标准差。中值滤波是应用于一个预处理步骤去除噪声,同时保留图像的边缘。随后,一种自适应阈值算法应用于获得边缘地区信息的药丸。很难全球或大津阈值方法应用于透明的药丸,因为亮度分布并不均匀,取决于药物的位置。

5显示了全球应用的结果,首先,自适应阈值方法。药片的形状是准确地检测到自适应阈值方法。一些地区的药丸也检测到的全局阈值方法;然而,阈值的方法有不足需要调整根据药物的类型。门槛一步后,形态学技术被用来结合分离地区的药丸,和部分地区的图像裁剪去除大的噪音最外层的形象的一部分。在下一步中,轮廓线算法应用于检测药片的位置。等高线算法生成每个团的面积和重心在一个二进制图像。获得相对应的blob避孕药在几个斑点生成的二进制算法,最大团的重心位于不到50像素的图像中心被选中。最后,药丸获得的位置信息的边界矩形选定的blob。表1列出了主要工艺参数确定避孕药的位置。

3.2。数据增加

深度学习模型需要大量的数据进行有效的培训。然而,它是不容易获得大量的数据适合训练,和获得的类的数据可能是不平衡的。当一个深度学习与不平衡类模型训练数据,模型可能偏向特定类,大大影响其性能。数据增加用于解决这个问题。数据扩增方法等不同的亮度,颜色,和图片比并不需要在这项研究中,因为数据是在一个固定的拍摄环境。相反,一个3 d图像增强方法,提出了三维变化的应用根据对象的位置。RGB图像和深度地图中使用这种方法。对于每一个标本,深度图生成的,下来,左,和正确的方向使用四个摄像机连接到捕获系统,和一个3 dpi算法应用基于生成深度图和四个RGB图像生成多个训练图像。

3.2.1之上。三维数据增加

因为亮度、颜色和相机位置被固定在拟议的捕捉,大小和颜色的训练图像中的对象总是相同的测试图像。常用的2 d增强等方法调整,翻转,剪切和改变颜色,接触可以扭曲物体的形状和颜色,降低模型的检测性能。然而,实际的变化出现的药丸,药丸位于不同位置测量范围内是三维的。因此,捕捉药片只在中心位置不捕捉药片的形状可以在不同的位置。拟议中的3 d增强方法可以创建更现实的图像通过转移对象的观点被相机。

6显示了生成的过程3 d-augmented图片使用左上角和右上的图像在四个捕获的图像。四个精致的图片贴上LT、RT、磅,工具条和RB,右上角,left-bottom,和right-bottom生成三维图像增强过程中旋转的0°、90°、180°和270°,分别。两个图像对包括顶部和底部图片和左右图像用于3 d增大。避孕药在图像检测和它的宽高比计算生成深度图。因为圆形药片遭受严重失真在3 d增大,3 d增强应用仅为椭圆形的药片至少1.05的宽高比。药片的多个副本的纵横比小于1.05被用于3 d的地方增加匹配的数据量为3 d-augmented药片。随后,深度图生成使用semiglobal块匹配算法。深度映射图6生成基于LT的形象。深度线映射产生的深度图,以反映变化在不同的相机视点三维图像增强时。后深度线划图提取中心线的深度图,每个点的深度值复制沿垂直方向的线。水平线是基于平均值计算沿左右方向,这样提取的直线对称。一维卷积应用高斯内核去除噪声的每条平均线。接下来,垂直方向的水平深度线是重复匹配图像大小创建一个新的深度地图。最后,三维图像增强了使用基于生成的深度3 dpi行地图。

3.2.2。图像旋转增大

因为三维图像增强执行的水平和垂直视角波动药丸,需要额外的数据增强图像旋转。然而,在一般情况下,图像旋转变换结果多余的黑色区域的区域中没有数据转换后,如图7(一)。因此,删除不需要的领域,有必要扩展填充上,下,左,右旋转变换前的形象。图7 (b)显示所需的旋转变换之前填充区域。蓝色的矩形表示输入图像,灰色矩形表示旋转变换后的图像的位置。如果没有填充扩展执行旋转变换,一个黑色的地区将出现在蓝色和灰色矩形的交集。因此,需要填充插值橙色长方形。衬垫的大小可以表示为: 在哪里 代表图像的对角线长度, 分别代表了宽度和高度。 代表填充大小沿左右方向和上下方向的图像,分别。

8显示的整个过程提出了图像旋转增大。输入图像的边缘区域裁剪之前填充过程去除图像的噪声组件在外缘。在实验中,出现在图像的宽高比为0.95。填充和旋转转换被应用于图像,图像是减少相同的维数作为输入图像基于转换后的图像的中心。

3.3。数据标签自动化

对象的类名称和位置坐标在每个图像YOLOv4所需的培训。注释工具通常用于生成位置坐标。然而,手动确定类所需的时间和位置坐标的对象在所有的图像捕获图像的数量增加。因此,标签使用提出pill-position检测算法执行自动化。记录在标签数据的值类,中心坐标( , ),对象的宽度和高度。YOLOv4中使用的对象的坐标是相对坐标表示为图像的比例大小根据以下方程: 在哪里 输入图像的宽度和高度,分别; 边界框的中心坐标, 是相对坐标得到的边界框的中心坐标除以图像的宽度和高度,分别。此外,宽度和高度获得的相对大小除以边界框的宽度和高度, ,图像的宽度和高度。

3.4。数据训练

图像仅包含一个药丸被用于训练数据。将每个捕获映像转化为训练数据,药丸的位置检测和图像裁剪,避孕药是位于中心的形象。裁剪图像大小 像素进行训练。标签文件创建的3 d和旋转之前使用该药丸位置检测算法增强图像的训练。标签文件和图像与数据等错误遗漏,类不匹配,重复被排除在训练数据预处理过程中生成的标签文件的审查过程。执行数据训练使用YOLOv4模型与图像转变和马赛克增加YOLOv4数据增加选项应用而不是颜色、浓度,曝光,左派和右派反演和图像比选项。图9显示了培训过程。

3.5。数据检测

与培训,使用图像仅包含一个药丸,测试图像包含多个药物被用于数据检测过程。每个检测图像裁剪只包含药丸和调整大小的面积 像素。在意NMS算法应用作为后处理方法排除在同一位置重复检测检测结果。随后,四个摄像机捕获的场景被指定为一个组,并使用一个投票算法结果进行了分析。图10显示了检测过程。

3.5.1。删除重复数据

因为药丸的数量和形状是不一样的图像用于训练和检测,重复检测的结果可能会出现在同一地区检测图像包含多个药。重叠的区域被使用NMS算法基于十字路口在联盟(借据),如图11。类没有考虑重叠区域的算法,并且只选择结果最高的信心。借据代表比十字路口和工会之间的重叠区域,如图12。更大的借据值代表一个大区域的两个地区之间的重叠。借据值范围从0到1。一个借据0.5用于该方法的价值。

3.5.2。最终检测的决定

因为捕获系统由四个摄像头双轴立体摄影,四个不同的图像获得同样的场景。此外,四个图像之间的检测结果可能不同。因此,为了提高检测性能,每个场景的四个图像分组,比较。图13显示了比较的结果图像的过程组。如果发生NG的RB图像结果图像的群,每个药丸的信心的总和计算的四个图片,和四个药丸得分最高的选择。在LT、RT和磅图像,abp,本金保证产品,caco,和得过药丸被检测到,而在RB的形象,这是证实lox错误被探测到,而不是caco大笔的基础上397年,395年,395年,282年和76年得过的探测值,本金保证产品,abp, caco,和液态氧,分别在减少。最终的检测结果证实与地面真理是一致的。

4所示。实验环境

4.1。数据捕获环境与发展系统

四个CAM8200-U(5像素的USB相机模块)相机是用来捕捉立体视觉图像捕捉系统。此外,英伟达杰森nanoembedded董事会与无线模块用于捕获控制和数据通信。背光照明是照明环境中使用的去除阴影的药丸,和两个LED照明模块是安装在旁边的药丸的方向上相机模块。阻塞摄影机安装在减少外部光源的影响。图14显示照片和插图的内部和外部的拍照系统。

深度学习培训系统包括3090 NVIDIA GPU, 19 - 10980 CPU、交货和256 GB RAM。CUDA 11.0和cuDNN 8.0.4系统中使用。基于C语言的dark-net框架是用于YOLOv4和Pytorch 1.9.0,和Python 3.8.10用于3 dpi。表2列出了YOLOv4参数用于培训。

4.2。数据通信

杰森纳米板用于图像捕捉和数据传输的系统。捕获的图像捕捉系统,捕获的数据传输通过套接字通信深度学习电脑使用传输控制协议(TCP)。数据细化和扩充,标签文件创建、培训和检测进行接收的图像的深度学习电脑。

4.3。数据细化

避孕药在训练图像应该被放置在中心3 d图像的增强。然而,手动放置药并不总是集中在图像,导致位置错误。所以必须找到避孕药在每幅图像的中心点,把图像以一定规模。固定背光地区首次从图像中删除和药丸的中心决定使用pill-position检测算法中描述的部分3.1。裁剪后的图像 围绕中心像素的药丸,填充算法应用于扩大图像 像素。如果图像已经被裁剪 立即像素,背光以外的区域可能是包括根据药片的位置。最后,图像的大小 像素YOLO训练的意思。用于检测的图像包含多个药片。在这种情况下,捕获位置是固定的,这样多个药丸包含在图像。包含多个药片是裁剪的区域 捕捉的图像像素的基础上固定位置,然后调整大小 像素进行训练。数据(15日)15 (b)显示,改进培训流程和检测数据,分别。

4.4。数据集的训练和检测

用于训练和检测的图像包含药物与软硬材料;圆形、卵圆形或方形形状;和各种各样的颜色包括白色和透明的。训练图像只包含一个药丸,而检测图像包含多个药片。

4.1.1。为单轴3 d增强丸数据

20种药物被用于主药检测培训。图(16日)显示了一个示例图像用于主药检测培训。训练图像获得使用两对立体相机。避孕药在视频拍摄角度为0°、90°的前面,后面,一边。图16 (b)显示了应用伽马变换和图像增强亮度适应变换的比较(LAT)提出的增强方法。图像亮度非线性适应不同层次的伽马变换而本地图像亮度调整改善图像对比度和细节在纬度。LAT进来两个版本的single-scale(百叶)和多尺度纬度(MLAT)根据应用高斯模糊内核的数量(13]。图16 (b)表明,过度的地方适应板条导致光环工件,而对比度和细节在MLAT改进。图16 (c)显示的图像用于检测测试。

10/24/11。药丸双轴3 d增强的数据

17显示的图像用于二级培训和检测试验。图(17日)显示了LT,磅、RT和RB图像获得四个摄像机的前面,后面,每个药丸没有旋转的安排。捕获的图像扩大使用3 d图像和旋转扩增。图17 (b)显示的图像用于检测测试。四个随机选择从40种药丸和药片放在他们的面前,后面或侧面视图在每个检测测试图像。

5。实验结果

5.1。评价指标

精度、召回、个人精度,结合精度作为指标的验证实验。精度、召回和个人准确性用作个人药片,评价指标和组合精度指标的组合药片在每个测试图像。这些指标被定义为: 在哪里 , , , 分数的个人药片是真正的阳性,真正的底片,假阳性、假阴性,分别 代表所有的结果数正确检测出图像中的药丸,和 代表数量的结果图像中一个或多个药片没有发现或不正确地识别。

5.2。药物检测训练和单轴3 d增大

在第一个测试中,不同的增强方法的效果比较使用20种药。这些增加的方法包括原始拍摄图片,2 d图像增强基于伽马变换和纬度,和单轴3 d增强使用立体声左右双。捕获的原始照片是在垂直和水平方向上在前面,后面和侧面视图与避孕药的中心形象。100张图片包含4到6个随机药丸与各种形状选择从20种药被用于检测测试。总共有468个人药丸包含在100年的测试图像。NMS算法应用作为后处理算法,去掉重复检测领域。表3列出了捕获条件、培训设置和测试设置;表4列出了在每个实验中使用的类型的增加。

5.2.1。原始捕获的图像

四百八十的图片类型的药是没有额外增加用于培训只使用捕获的原始图像。并给出了检测结果表5。精度最高的0.917和0.948召回了4000次迭代和组合精度为0.55,表明100年55的准确检测是实现测试图像。

5.2.2。2 d图像增强

γ转换和LAT被用于二维图像增强。三个伽马变换和两个纬度转换包括板条和MLAT被应用。并给出了检测结果表6。在3000次迭代时达到最高的检测性能;然而,准确性没有显著改善,结合精度仅为0.59。虽然两种转换模型在二级增加导致亮度的变化,结果证实,改变亮度不是很有用的培训,因为图像捕获在一个固定的照明环境。

5.2.3。3 d单轴图像增强

在3 d单轴,增强图像的深度图提取只剩下音响,一双图像。3 dpi算法用于3 d增强和应用在左、右两个方向。14图像生成后增加沿左右方向。此外,旋转增加应用的角度±20°和45°±3 d-augmented图像。表7提出了训练模型的结果。检测性能最高4000次迭代,和精度,还记得,和个人和组合精度都高于前两个模型。特别是,结合精度指标对整个药片图像显著改善了从0.59到0.94。这些结果证实,该3 d和旋转扩增有效地提高检测性能。

5.3。药物检测训练和双轴3 d增大

在二级药检测培训,避孕药是另外的方向只局限于垂直方向减少需要操作员干预训练图像的捕获。双轴3 d增强执行的左、右,前,和底部形成立体像对使用图像被四个摄像头,和3 d增强了使用每一对图像。另外,旋转增加应用的角度±20°和45°±3 d-augmented图像。检测培训进行了20和40种药。430图像检测试验,检测实验中使用的20种药丸,用40和862图像检测实验类型的药。NMS算法应用作为后处理算法去除重叠区域。提高检测性能,同样的药丸被四个摄像头的图像处理作为一个群体,和累积分数高的药丸在检测中选择的决定。

5.3.1。检测了20种药与双轴3 d图像增强

8列出了测试条件对检测的20种药双轴增强应用3 d图像。这项研究的结果发表在表910,分别显示应用的结果只有经理算法和应用NMS和投票算法。使用的原始图像数量在二级药检测培训是240,这是大约一半的480原始图像中使用主药检测培训。然而,它可以观察到从表9结果类似于那些主要检测测试。然而,如表所示10从0.923到0.991,结合精度提高后应用投票算法。

5.3.2。检测与双轴40种药片3 d图像增强

20与拍摄不同组合类型的药物药物检测。表11列出了实验条件,和表1213实验结果列表。表12显示没有投票算法,结合精度为0.833,低于0.923的准确性对于20-type的情况,但它增加到0.940后应用投票算法,如表所示13。这说明组合的有效性测定方法使用四个输出图像。

该方法的结果与两步方法获得的Kwon et al .,基于面具R-CNN [41]。在第一步中,每个药丸的区域中检测出图像包含多个药丸,只包含一个药丸和虚拟图像使用的检测区域生成药丸。在第二步中,药物检测执行使用生成的虚拟映像。与27类药物测试,每个药丸的平均精度为0.916。然而,如果精度转换为使用的准确性为多个组合药片在这项研究中,精度成为66%,证实了该方法的优越性。

6。结论

在这项研究中,我们提出一个方法来改善小对象检测模块利用有限的训练数据的性能。一个拍照系统实施培训和药物检测。一般来说,多级目标检测算法需要多级数据进行训练。然而,训练所需的数字图像包含的各种可能的组合类对象类数量的增加以及数据库管理的难度。一个方法来提高检测性能使用最少的训练数据因此提出了研究。传统,物体的图像检测需要捕捉相同条件下获得的测试图像。大量的训练图像因此需要占位置和相邻对象的变化。训练图像不足会导致检测问题为测试图像包含多个对象。由于检测问题,进一步研究多目标测试图像和求解训练图像之间的差异在这个研究解决。

药片的各种形状和颜色用于数据训练和检测测试。四个摄像机是用来有效地捕获两轴立体影像进行训练。背光和上使用光同时删除避孕药期间捕获的影子。一个成像系统中使用NVIDIA杰森纳米董事会独立使用和远程数据通信基于TCP套接字的通信协议。四个摄像机进行立体视觉捕捉沿着双轴的方向。YOLOv4,可以实时检测对象和具有良好的检测性能,用于数据的训练。数据扩增方法YOLOv4扭曲物体的形状和颜色,如左右反转和比例,颜色、亮度、饱和度的调整,没有使用,只有马赛克和图像对应应用转变。自动生成必要的标签数据训练期间,视觉算法来检测药片在训练图像的位置。NMS算法被用来去除重叠区域检测期间,最后的结果是通过结合四个测试图像的检测结果,结合成一个单一的组。

初级(1-axis 3 d增大)和二级(两轴3 d增强)药检测培训进行培训测试。主药检测训练实验,基本成像没有数据增加的结果,2 d图像增强与亮度转换,和3 d增强使用立体视觉方法比较了20种药。提出了图像增强和后处理方法显示组合精度超过99%在固定照明环境。在第二个实验中,为了减少操作员介入需要三次每丸在训练数据的捕获,只有一片放置在90°,前面,后面,一边用四个相机拍的场景图像。在培训期间,3 d沿着两个轴和旋转对应的方向和上下左右方向。培训进行了测试使用20和40种药片。该方法实现了组合在后者测试精度94%。

提出培训和检测方法,包括捕获系统,不仅限于药物检测,可用于各种基于图像的目标检测应用程序。特别是,它预计,该方法可以应用于不同对象的培训和检测在训练环境条件,没有足够的训练数据。

数据可用性

研究中使用的所有数据(例如,药片图像)和使用自产的成像设备。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF), BK21四个项目由教育部、韩国(NRF - 2021 r1i1a3049604, 4199990113966),和电子和电信研究所(ETRI)授予由韩国政府[21 zd1140 ICT融合技术的发展为Daegu-Gyeongbuk区域行业)。