文摘

胸部x光片(CXR)成像是一种使用最广泛的和经济的测试诊断各种疾病。然而,即使专家放射科医生,这是一个挑战从CXR样本准确诊断疾病。此外,还有训练有素的放射科医生在世界范围内的严重短缺。在目前的研究中,一系列的机器学习(ML),深度学习(DL)、学习(TL)和转移方法已经评估疾病在一个公开可用CXR图像数据集进行分类。少数over-sampling的组合合成技术(打)和加权类平衡是用来减轻类不平衡的影响。混合Inception-ResNet-v2转移学习模型加上数据增强和图像增强给最好的准确性。模型是部署在使用亚马逊的优势环境物联网核心自动化疾病检测的任务与三类CXR图像,即肺炎,COVID-19,正常。比较分析了在不同精度等指标,还记得,准确性,AUC-ROC得分等。该技术使平均精度为98.66%。其他TL模型的精度,即SqueezeNet VGG19, ResNet50,和MobileNetV2是97.33%,91.66%,90.33%,和76.00%,分别。此外,DL模型,从头开始训练,给出了92.43%的准确性。 Two feature-based ML classification techniques, namely support vector machine with local binary pattern (SVM + LBP) and decision tree with histogram of oriented gradients (DT + HOG) yield an accuracy of 87.98% and 86.87%, respectively.

1。介绍

机器学习是非常有用的医疗信息。它已经应用在疾病诊断、分类和预后。计算机断层扫描(CT)扫描和CXR成像是两个非常常用的诊断技术用于肺部疾病的检测1- - - - - -4]。肺部疾病的检测已经获得了大量的流行由于现行COVID-19蔓延。在最近的过去已经完成了大量的工作。然而,有一个需求利用边缘的力量计算疾病检测。大多数的肺部疾病分类系统是独立的或基于云计算的。我们使用了CXR拉赫曼(编制的数据集5,6为研究目的),这是免费的(5]。它最初是用来检测和分类COVID-19和病毒性肺炎7]。深层神经网络模型已成功地学习疾病区别的特征图像分类任务,比如结核病检测(1)和肺部疾病分类(3在射线照片(1在CT扫描()和肺结节的分类2,4]。

此外,CXR可以用作一个工具诊断许多疾病和并发症,如胸疾病,骨折,蛀牙,感染,骨质疏松症,心脏肿大,血管阻塞等疾病,2,4,7]。当前,世界上正努力应对COVID-19,ο最近关注的变体。有不同的诊断测试可用来筛选和诊断疾病。由于容易胸部x光成像设备的可用性和成本效益,这是选为COVID-19检测的首选方法之一(6,7]。放射学专业知识是必需的,为了区分COVID-19和其他疾病。然而,有训练有素的放射科医生的严重短缺。x射线成像是一种很常见的诊断测试执行诊断上呼吸道疾病,如肺炎、COVID-19,流体在肺部,等。随着改善硬件和软件功能,现在可以训练机器学习分类器在大型数据集上human-comparable准确性。

与CT扫描相比,CXR可能有利有以下原因:(我)CT扫描的有限的特异性可能很难发现non-COVID-19病例。此外,光线从CT扫描仪可能给人带来并发症需要频繁的CT扫描在他们的疾病。(2)颜色信息的变量,比如颜色组成,光束,反射,会导致各种问题。(3)x射线成像更为常见和更便宜的比传统的诊断检查。(iv)在CT扫描x射线有几个优点,包括更快,更安全,更容易,更少的破坏性。(v)问题包括疾病传播的可能性,利用CT扫描扫描仪,以及技术的昂贵成本,可以为病人和卫生保健系统生成的重大问题。

边缘计算带来计算能力接近源。它可以便于部署疾病检测系统在许多方面,如低延迟、高速度,可以实现规模经济的帮助下边缘设备(8]。回顾之前的工作部署的机器学习和深度学习模型COVID-19在边缘检测和缓解环境(8,9)当前的研究。

大量的研究已经完成检测的COVID-19 CXR图像。研究人员试图以各种方式解决问题,导致新分类器的开发,数据集,预处理技术和性能指标(2- - - - - -4,7]。而深层网络从头训练模型的优势,他们在小数据集遭受过度拟合。因此,基于迁移学习模型是非常受欢迎的COVID-19检测(10- - - - - -12]。基于边缘的端到端集成应用程序计算的发展,另一方面,已收到的关注相对较少。

我们采用混合策略类平衡在这种情况下,结合杀和加权类平衡。此外,数据增强和图像增强的效果评估,以确定最合适的方法用于计算环境的优势。在这项研究中,我们评估的方法COVID-19检测并提出分类肺部疾病的边缘计算框架,包括COVID-19 CXR图像,这是基于评估的结果。

x射线图像有许多其他挑战,如复杂的背景和存在的多个潜在的异常,使临床x射线图像的分析非常复杂的任务13]。因此,它需要专家的人工注释(放射科医生)。x射线图像的自动分析正在成为临床诊断的一个重要工具。最近成功的深层神经网络在图像分类,它被广泛用于x射线图像分类任务(13- - - - - -19]。一些疾病,包括胸腔感染(13],COVID-19 [14,15,17,19),肺异常(16)等,可分为使用深度学习在胸部x光图像。侯赛因et al。15)提出了一个深刻的学习模式,称为冠状头饰,COVID-19检测。深度学习框架提出了检测肺异常CXR和CT扫描图像(16]。深度学习模型,提出Albahli et al。17),达到87%的准确率使用GAN-based合成数据和与其他技术提出了类似的结果。肺在CXR疾病检测分割是另一个重要的任务。这是特别有用的在建立结核病的严重程度分析18]。DeTraC深卷积神经网络架构被阿巴斯et al。19]。

由于疾病的分级模式表现出20.),分层分类可用于检测肺炎。传统的机器学习方法和支持向量机(svm)一样,再邻居(资讯),决策树分类器,等等,也可以用于CXR疾病分类。然而,他们依赖于特征提取机制。卷积神经网络(回旋网)也可以作为特征提取的机制。Toğacar et al。21)使用mRMR特征选择机制相比,传统的机器学习模型的性能检测的肺炎。Khatri et al。22用挖土机的距离(EMD)比较肺炎CXR图像。特谢拉et al。23)使用肺部分割评估和解释COVID-19。多通道方法可能有助于更好地理解和解释的疾病CXR [24,25]。

疾病分类自动化x射线图像是富有挑战性的,由于没有大量的注释数据和有效的机器学习算法学习区别的特性从他们(25]。多个数据流的模式可以用来改善疾病预测的准确性。文本数据的x射线诊断图像结合注释图像数据训练胸腔疾病分类器(25]。与通常的方法直接分类的疾病,深解离生成模型可用于创建剩余异常疾病的地图以及正常图像(26]。这种方法有助于解决异常和正常的胸部x光片。Semi-supervised生成模型可以有效地用于CXR疾病分类(26,27]。

还有不止一个疾病的同时同现的可能性。在这种情况下,单标牌分类可能不工作,而多标记分类可以解决这个问题。Albahli et al。28)提出了一个CNN-based CXR深度学习方法多标记分类。此外,Baltruschat et al。29日)基于几个深学习方法相比多标记胸部x光片分类。病理数据集通常包含类失衡。它提出了一个风险分类器训练的偏向于多数类。适当的类平衡措施有助于提高分类器的性能在监督和semi-supervised测试(30.]。Lopez-Cabrera et al。31日]讨论了现有的基于机器学习方法的局限性COVID-19检测。Tsiknakis et al。32)提出了一种基于人工智能的可翻译的框架COVID-19筛选使用CXR图像。

计算边缘被用于许多医疗应用程序(33),包括疾病分类。此外,它在COVID-19流行应用程序管理(34- - - - - -36),比如IoT-based城市锁定系统(34),社会距离管理(35],面具和实时识别[36]。然而,很少有工作的端到端自动化使用边缘计算疾病的检测和管理。

3所示。材料和方法

3.1。数据集

CXR数据集在这项研究中的应用是免费供学术使用,可以从这里下载5]。它是一个不断发展的数据集,每几个月更新一次。选择这个数据集的原因是它的大样本量和免费提供用于学术和研究目的。有效的应用程序从数据在这个时代最新的技术和惊人的计算能力。COVID-19在普遍情况下,担心医疗保健组织强调收集和存储不同类型的数据。数据可能出现在不同的形式,如诊断报告,基因组序列,二维结构,图像、生物医学信号和各种功能,如患者的年龄、性别、并发症、位置、症状,等。本研究中使用的数据集包含一个15153 x射线图像属于三类。样本数据集包含1345年病毒性肺炎(8.87%)、3616年COVID-19-positive样品(23.87%),和10192年正常样品(67.26%)。图1显示了一些示例CXR图像数据集。很明显从图2有一个类不平衡。

3.2。混合类平衡使用Over-sampling和适当的类权重

不平衡数据集是一个普遍的问题,将不可避免地发生在疾病诊断数据收集。这个问题出现当一组类有一个显著的优势。因此,机器学习模型变得更加偏向于多数类。它会导致少数民族的误分类。在目前的情况下,数据集的不平衡的比例几乎1:三(病毒性肺炎:COVID-19:正常)。在这里,我们应用一个两步的过程,以减轻类不平衡的影响。

3.2.1之上。创建新的为少数类样本

新生成的两个新的少数类样本使用合成少数over-sampling技术(杀)中描述37]。因此,类样本的新比率变得1:2:3。Equisampling绝大多数和少数类可能导致过度拟合和AUC得分较低。因此,多数类的选择性将采样随着击杀是由拉et al。37为了缓解这个问题。绝大多数类不考虑做合成的例子时,这可能导致令人困惑的例子当有很多重叠的类。在当前情况下,数据集有一个类不平衡(1:2:3),这是纠正在接下来的阶段。

3.2.2。适当的类权重赋值

加权神经网络或敏感的神经网络反向传播算法,可以调整重量错误分类错误比例的相关性。与强扭曲类分布数据集,这使得模型更加关注少数类样本比大多数类。绝大多数类的减少误差是很小的数字大幅缩减,这可能只有轻微或没有影响权重模型。我们分配类权重为0.50,0.33和0.17,进一步减轻类不平衡的影响。

3.3。图像增强

消除即使少量的噪声,图像平滑方法如高斯模糊,使用双边滤波等。常用的高斯滤波器是滤波器在消除图像图像处理,减少噪声,计算衍生品。这是一个与高斯卷积滤波器矩阵作为底层内核。减少噪音从原始输入图像如图3。一个在二维高斯函数具有以下公式:

3.4。数据增加

数据增加的策略操纵现有的数据来创建新的数据对象。旋转,缩放、剪切、和其他技术可以利用增加新形象现有的样本集。关键是调查过程的适应能力在保持相同的标签转换而使用数据扩充。旋转和翻转,例如,通常是弹性检测测试像猫和狗,但不像6和9位识别任务。在图像分类、目标识别和分割、数据增加可能利用完全训练深度学习模型。表1列表的数据类型增加转换应用到数据集。不同的数据增加转换图所示4

3.5。数据预处理

神经网络学习最好的小值。一些简单的转换,转换,缩放,统称为预处理步骤,可能是有帮助的。这是一个关键步骤的数据适合机器学习模型。可能会有一些无意的噪音和文物在采集的数据,如凝胶应用程序之前CXR图像捕获。获得了较高的分类率,我们消除了噪声图像和对象。我们使用数据标准化、数据清除,特征提取,,最终,数字数据转换的字符串数据。

3.6。CNN Hyper-parameter调优

CNN hyper-parameter调优也完成了。另一方面,CNN hyper-parameter优化寻求确定的最佳范围值对于一个给定的数据集在培训开始之前在一个合适的时间内(例如,时代的数量)。剩余连接的引入克服了退化问题引起的深层结构,同时缩短培训周期。它能够获得更好的结果到其他CNN的设计。

3.7。定制深度学习模型架构

转移学习是机器学习的一个分支,旨在转移数据从源模型到目标项目通过使用相关性结果,函数,或者模型。它可能服从的分布,和数据注释不需要大量的注释。仿真模型的特点和重量将用于培训新模式和全新的任务。培训模式的特点和重量将用于培训新模型中的模型和完整的新活动。转移学习可以使用先前训练模型的经验(特性、重量等等)来训练一个更新的模型和在许多方面是有利的,包括获取较少的数据点为新的使命。转移学习,Inception-Resnet-V2架构与pretrained权重。我们冻结了重量从100层的自定义模型。学习网络不会改变冻层的参数。许多初始层权重可能冻结加快网络训练,避免过度拟合的数据集。ImageNet数据集包含超过一百万个图像被用来训练Inception-ResNet-v2 CNN模型。 There are 164 layers in the network that can categorize around 1000 object categories. As a result, the network model is capable of learning rich attribute representations for a variety of images. Multiple-sized convolutional filters and residual connections are merged in the Inception-Resnet block. The motivation for choosing this architecture is based on the experimental results and comparative analysis with other popular deep learning models (presented in Section6)。Inception-ResNet-v2礼物好之间的权衡模型性能(精度)和资源需求。模型应该是工作在一个边缘环境中,不能选择其他resource-extensive,笨重的模型。图5描述了自定义的体系结构模型。

剩余连接快捷方式提供模型,允许该体系结构实现更高的性能。它允许一些简化初始块。这个设计是一个混合的初始和残块,提高了性能。提高训练的结果,《盗梦空间》让更好地利用计算资源和可以提取更多的功能与相同数量的计算。前一层的输出相结合在网络中自5×5卷积计算内核太大。整个《盗梦空间》1×1使用卷积模块有两个原因:第一个是那进一步重叠卷绕在接受字段相同的规模,以获得更丰富的特性从星座图,第二是减少测量和计算成本。网络的1×1卷积,这之前3×3和5×5曲线玲珑,用于降低维数。找出最优hyper-parameter值转移学习模型中一个重要组成部分。underfitting之间找到合适的平衡,过度拟合是这种方法的目标。它包括检查适应症的损失和准确性underfitting和过度拟合,以争取最优组hyper-parameters然后优化它们。 Table2列出了各种模型hyper-parameters和各自的价值观。这些都是学习速率(LR),动力,辍学率(博士),内核大小(KS)、马克斯池、初始体重比例(手册),色相转变(HS)。

致密层使用修正线性单元(ReLU)激活函数,可以使用以下方程:数学定义

完全与层是全球平均池所取代,除了初始模块。这样做是为了减少变量。批正常化(BN)也同时网络的一部分。BN层将使每一个mini-batch星座映射一样移动到神经网络层,防止梯度消失。

它是一组作为训练场地的星座对于任何给定的星座。反向传播算法,我们还必须计算雅克比。这些只是部分推导规范的变量一个x

网络中,亚当是用于网络参数,最大限度地减少损失。当处理大问题,大量的数据或参数,该方法非常有效。它是有效的,需要更少的内存。

在这里, 对于一些n

为了避免过度拟合,辍学可能是有用的作为一个正则化技术。在大多数情况下,辍学是指在训练,有一定概率的p神经元的神经网络关闭。概率方程给出了辍学p(1≤< =t)如下:

6描述了主要步骤提出了培训过程的数据集。

3.8。边缘Computing-Enabled预测系统

有很多物联网和边缘部署选项可用的市场领先的球员如谷歌、亚马逊、微软和IBM。比较这些解决方案和体系结构提供了在38]。系统部署在亚马逊物联网核心(AIC)用MQTT协议和一个Amazon S3 bucket是用于数据存储。MQTT是一个简单的订阅/发布基于模型的通信协议。选择和竞争者MQTT谷歌云消息,RabbitMQ, XMPP,卡夫卡。由于其低资源消耗和轻量级的特性,广泛用于边缘环境中进行通信和消息传递39]。AIC的数据存储,有几个选项。DynamoDB是一个广泛使用的数据库选项。但是,它只能发送数据到64 KB,而不适合发送x射线图像。这就是为什么我们选择Amazon S3,可容纳多达5 TB的数据。此外,它变得非常方便访问一个web界面显示这些数据。

优势computing-enabled系统已经实现使疾病分类过程发生在一个无缝的方式。图7描述了分层边缘系统的体系结构。分为四层,即物理层,边缘计算层,网络层和应用程序层。最低的层是物理层的数组CXR收购机器(1,2、……n)。捕获的数据实体层移动到下一层,即边缘层。大多数图像数据的分析处理发生在这里。边缘节点的边缘层包含一个数组(N1,N2、……Nn)。一个典型的边缘节点是一个覆盆子π4设置与8 GB的RAM和无线网络连接。每个设备要连接到的AIC生态系统是一个“的事情。“我们需要注册的“东西”之前能够和他们交流。MQTT消息协议是用于此目的。身份验证代码需要被复制的每个设备。大部分设备区域化还可以连接多个设备(或东西)。一个基于证书的安全机制。我们需要下载的公钥,私钥,正规的证书,和支持SSL的根CA AWS安全地连接到AWS。这些文件需要被推到边缘节点,而且可以用文件传输协议(FTP)的帮助客户。 We use FileZilla for this purpose.

自定义深度学习模型训练的部分3.7是图像分类的每条边节点上运行。CXR图像注册和映射与独特的患者身份证号码(PID)和管理云应用程序。边缘层进一步连接到网络层以获得云。所有的分析和疾病诊断数据都推到云服务器。在体系结构中最上面的一层是应用程序层运行许多有用的功能,如报告生成、通知管理、疫情预测等。这一层可以使基于角色的访问这些服务。

4所示。比较与其他深度学习模型

4.1。VGG19

VGG19深度学习体系结构模型,以前训练来检测图像表征在大规模图像数据集也称为ImageNet。模型实现ImageNet五大评价精度92.7%。相比其他更复杂的模型,实现竞争分类精度。它与事实有很强的结构。卷积有不同的层次,每个有64过滤器,128过滤器,过滤器,256和512过滤器在一个特定的顺序。每个系列卷积层包含最大池层。2×2过滤器的步幅2中使用max池层(像素)。最终的输出池层是夷为平地,随后美联储与4096个神经元完全连接层,用于分类。这进一步收到作为输入输出一个完全连接层有4096个神经元。这层产生美联储到另一个完全连接层有1000个神经元。 There are other subsequent layers with ReLU activation and finally the softmax layer.

4.2。ResNet50

ResNet是缩写残余网络、神经网络的一种形式。这是一个50-layer卷积神经网络(CNN)。ResNet的核心思想是现在所谓的“性格另类方式协会”,绕过至少一层。有23587712个标准ResNet50模型中的参数,图像划分成1000个对象的类别。它由一个卷积核的大小7×7和64个人内核,大小和步幅的2,和马克斯内核池规模相同的步伐。

4.3。MobileNetV2

MobileNetV2包含两个模块,即一大步残和两大步残块。这两种类型的模块有三个层次。第一层是一个1×1卷积与一个叫做ReLU6改进激活。切除卷积是最后一步。另一个1×1没有非线性的卷积是在第三层使用。内层编码模型的学习能力从低级特性(如像素)到更高级别的描述符。此外,瓶颈编码模型修改的能力从低层次的描述符到更高层次的描述符。

4.4。美国有线电视新闻网(卷积神经网络)

在CNN,六卷积层通道大小为96,96,128,128,128,128。3×3过滤器尺寸,1步幅,ReLU激活函数是用于每一个层。有三个最大池层总体而言,每一个都有大小2×2和2的步伐。50%的辍学率是利用每个池层后,在完全链接的图层,L2正规化是用来抵消过度拟合(hyper-parameter为0.0005)。还包括三个完全链接的图层大小的1024年,512年和10,ReLU激活前两个和softmax第三。

5。与机器学习模型

5.1。基于局部二进制模式(LBP)的支持向量机(SVM)分类器

支持向量机被选中,是因为它使用内核方法将低维输入空间到高维输入空间,从而将不可分的表示形式转换成一个可分离的(40]。途径与模型(回旋网),特征提取是一个端到端流程的一部分41),支持向量机依赖特征提取步骤的必要性。支持向量机分类器使用一个超平面线性独立的数据使用线性内核。平行超平面将每个数据类,确保它们之间的距离一样巨大的可行的。,我们正在处理高优先级识别COVID-19情况,我们正在寻找更小的差距超平面分类用更少的miss-predictions感染类更准确。SVM的训练使用枸杞多糖特性折叠和展开的图片。它将灰度图像转换为矩阵像素级的整数值。这个标签描述的原始图像矩阵。它计算纹理的地方表示。它是利用视觉描述计算机视觉对物品进行分类。给定像素附近的枸杞多糖(全科医生x,全科医生y)来自抽样分布全科医生和围绕gc可以使用以下公式计算:

这个函数年代(k)是一个二进制输出函数,返回值1时k≥0,则返回值为所有负0。这个二进制输出累计乘以2和总结的权力。

5.2。面向梯度直方图(猪)的决策树分类器(DT)

生成决策树,递归分区方法是利用,数据点的分割在每个节点基于分割准则集。从根节点到叶子的路径是一个规则,用于预测。的系综分类器是由几个分类器。分类器的成员都聚在一起做最后的决定。一个执行比它各部分的总和,其个别成员是准确的和多样化的。决策树乐团很抗拒周边选择和优于其他方法。在试验中,许多基于乐团使用决策树。猪描述符是关注一个项目的结构或形状。

猪特征描述符数出现的次数一个梯度方向在一个图像的某些部分。猪也可以用来表示边缘方向。这是通过消除边缘。这是通过提取边缘梯度 和方向 用以下简单的公式:

6。结果与讨论

6.1。的描述工具和实验装置使用

深度学习模型训练是在工作站上进行配备四核处理器(Ryzen 7),一个NVIDIA Geforce GTX公司6 GB GPU, 16 GB的RAM, Windows 10操作系统。网络训练超过100时代,与早期的停止点集验证损失。耐心是赋值10。Python的深度学习图书馆Keras Tensorflow作为后端,sklearn, seaborn, matplotlib,和其他库用于模型创建、培训、绩效评估和可视化的任务。特征提取的图像,使用MATLAB R2021b版本与图像处理工具箱。

6.2。实验结果

所有的模型都是训练有素的100时代早期停止调标准(耐心= 20世纪)。我们发现亚当优化器学习速率为0.0001是收敛速度问题。对于所有三个模型,使用相同的优化,模型然后保存为h5文件。图8描述了情节中获得不同的模型的训练和测试。自定义模型的损失和准确性的图表(A)部分图所示8,而故事情节VGG19、ResNet50 MobileNetV2 (B)所示,(C),分别和(D)部分。

定制的不同精度度量方法如表所示3。精度,回忆,和一个F1分都包括在内。精度和召回的谐波加权平均F1得分,考虑了假阳性和假阴性和传输之间的微妙的平衡精度和召回。

6.3。意味着不同毫升分类器的精度

9显示一个阴谋的意思是几个毫升分类器的精度。图像描述的精度值不同功能的组合,可以观察到,所有分类器的线性回归直线增加随着特征数量的增加。

6.4。ROC曲线和混淆矩阵

10显示了COVID-19分类ROC曲线正常,病毒性肺炎。假阳性率(玻璃钢)之间的连接和真阳性率(TPR)是由接受者操作特征(ROC)曲线描述。TPR的描述(y设在)和玻璃钢(x设在)被称为ROC曲线(x设在)。TPR和玻璃钢可以用下面的公式计算:

曲线显示深度学习的性能模型。我们可以观察到每个类的值。ROC曲线下的面积(AUC)计算为99.8%。

11描绘了混淆矩阵。混淆矩阵是一个表格表示,解释如何执行一个分类模型。这是一个n×n矩阵,用“n”表示类的数量。混淆矩阵,比较模型类的预测与实际的类预测,II型错误,也称为假阴性,发生在第二象限,而第一类错误(假阳性)发生在第三象限。

6.5。数据增加对精度的影响值

数据增强性能的影响措施如表所示34。从表中可以看出,数据增加提高了模型的性能由于训练样本数量的增加而不影响图片类的比例。损失值是计算使用分类熵函数。模型与数据增加低损失值因为真正的类非常类似于所需的类。

Keras深学习框架的图像数据生成器类是用来补充训练样本。当时代的数量很大,训练样本的数量由数据扩增方法相比是相当高的,增加训练样本没有数据。当使用数据增加时,不同的训练样本集创建每个时代。当不使用数据增加,相同的训练样本集用于每个时代。

6.6。研究的局限性

相比其他毫升、DL和TL方法,该技术具有产生更好的结果。它也适用于计算环境,如前所述。然而,仍有进一步研究和改善的空间在未来在这一领域。通过增加样本的数量用于训练,该方法可以更有效。此外,更多的类CXR疾病可以添加到目前的形式使工具更有用。由于有限的可用性数据和限制商业使用,这不是可行的实现在商业环境。这些困难可能被考虑,他们可能作为未来研究的动力来源。

7所示。结论

CXR成像是一种常用的工具来诊断各种疾病,包括COVID-19。由于严重缺乏合格的放射学家和为了帮助他们在他们的疾病检测任务,优势computing-based系统本文提出。分类的疾病在一个公开可用CXR图像数据集,各种机器学习(ML),深度学习(DL)和转移学习(TL)方法在本研究评估。有一个类不平衡数据集。这是解决少数over-sampling的组合合成技术(打)和加权类平衡使用。最好的准确性来自混合Inception-ResNet-v2转移学习模型。数据增强和图像增强帮助改善疾病分类任务的准确性。拟议的技术有一个98.66%的平均精度。等TL模型SqueezeNet、VGG19 ResNet50,和MobileNetV2精度为97.33%,91.66%,90.33%,和76.00%,分别。此外,DL模型,从抓训练的精度92.43%。 Support vector machine with local binary pattern (SVM + LBP) and decision tree with histogram of oriented gradients (DT + HOG) are two feature-based ML classification techniques that have accuracy of 87.98 percent and 86.87 percent, respectively. The model is used in an edge environment with Amazon IoT Core to automate disease detection in CXR images in three categories: pneumonia, COVID-19, and normal. The proposed system is good to be used as an assistive tool for the automated screening tool for COVID-19 and viral pneumonia [41]。

数据可用性

CXR数据集可以从源访问中提到的参考[5]。

的利益冲突

作者宣称没有利益冲突。