文摘

机器学习是计算机的一个分支,研究算法的设计与“学习的能力。“子域将深度学习,这是一系列的技术,利用人工神经网络,也就是说,与多个隐层,计算模仿人体器官的结构和功能及相关疾病。健康利益的分析图像与深度学习并不局限于临床诊断使用。例如,它还可以促进携带疾病的监测对象。还有其他的例子最近努力使用深度学习作为诊断工具使用。胸部x光检查是一种方法来识别结核病;通过分析x射线,你可以发现任何异常。方法检测结核在医用x射线成像的存在是本文提供的。三种不同的分类方法被用来评估方法:支持向量机,逻辑回归,最近的邻居。交叉验证和训练集和测试集的形成所使用的两个分类的场景。 The acquired results allow us to assess the method’s practicality.

1。介绍

人工智能的起源自1940年代以来,一些初期的工作(1],它试图使用计算机作为工具来帮助解决问题感兴趣的人(2]。从阿兰·图灵在1950年的有影响力的工作来确定机器是智能的,执行测试,以他的名字命名,人工智能和科学贡献相关面积显著增加,因此新兴自动学习,其目的是开发技术,允许计算机学习。一种技术用于机器学习人工神经网络由一组单元,称为人工神经元彼此连接来传输信号。学习方法的演进与神经网络引发了深度学习(DL),是由一组机器学习算法,尝试使用计算模型高层抽象数据支持nontransformations的架构。多元线性和迭代数据矩阵或者张量形式的表达。这些技术被用于大量的项目,其中我们可以找到数字图像处理。近年来,数字图像处理,获得了一个重要的角色在信息和计算技术。今天,它是越来越多的各种各样的应用程序的基础包括医疗诊断、遥感、空间探索、计算机视觉以及其他许多人。数字图像处理(浸)技术应用于数字图像的集合,目的是提高质量或便于搜索信息,使用计算机为主要工具。今天,是一个非常具体的研究领域在计算3]。在过去的15年里,越来越多的数字图像相关技术及其在数字格式处理引入医疗实践。在目前的情况下工作,数字图像处理用于结核病的检测。结核病,也称为消费,是一种慢性传染病病菌引起的结核分枝杆菌。细菌通常攻击肺为主,但也可以伤害人体的其他器官。结核病通过空气传播,当一个人的原因,这样,疾病的传播。如果发现的早,它可以是可以预防和治愈;否则,它可能会导致病人的死亡。测试如x射线胸透或文化的痰样本才能发现如果一个人有结核病(4]。在伊拉克,结核病死亡率的主要原因之一,每100000名居民9.24%的速度,根据统计数据和死亡系统的通用董事会的流行病学5]。根据世界卫生组织的数据,结核病是咳嗽的十大疾病之一,你可以被吸入空气飞沫或结核感染者咳嗽或打喷嚏的叫做原发性肺结核(TB) (6世界上的]原因死亡率。2015年,大约有1040万人成为患结核病,有180万人死于这种疾病。超过95%的肺结核死亡发生在第三世界国家(6]。在图14,我们可以看到x射线图像;左边的两张图片展示健康的病人,右边的两个显示患者的疾病检测。

如图1疾病的诊断和治疗方法,提高了;然而,2020年底结核病战略的目标将不会满足,并在全球范围内,约有1000万个人已经萎缩到2020年肺结核(TB)。有560万名男性,330万名女性和110万名儿童。肺结核是在所有国家和所有年龄组。结核病,另一方面,既可治疗和可以避免的5,6]。毫无疑问,这一公共卫生问题仍然是一个巨大的挑战对卫生系统的国家来说,主要是发展中国家。发展的一个非常有趣的复习医学图像分析和处理技术可以发现自1980年代以来在4]。从图像中提取信息类的任务被称为图像分类。有两种形式的分类:监督和非监督。监督分类是从一组已知的类;这些类必须根据变量的集合特征通过测量他们的个人的一个类的成员不存在疑虑,而非监督分类不建立任何类,虽然它是必要的,以确定类的数量,我们想建立,并让一个统计过程定义它们。

在目前的工作,人工智能应用于胸部x光图像的自动分类的结核病患者,没有肺结核。

2。回顾文献

例如,图像处理被广泛使用在6];图像处理与属性,用于提取感兴趣的地区可以与帕金森病的医学诊断;它使用计算机辅助诊断技术来处理图像,提取纹理,使图像的分割,并找到感兴趣的区域。在[7),我们发现使用图像处理,模式识别,人工智能,帮助检测集群数字化微钙化物质的乳房x光检查图像。几篇文章(8,9)使用免费的数据库,使得它难以比较新的技术,甚至复制的结果。第一个结果的使用提出了文学两个开放和自由的数据库整合后的射线图像(9),但考虑到使用计算机视觉技术对肺地区分割(9]。尽管后者采用不同的方法比在这篇文章中,将讨论它鼓励使用这些免费的数据库模型的训练和测试。大部分的研究调查的使用多层感知器神经网络用于结核病检测没有考虑使用医学图像满足这样的人工神经网络。相反,他们认为实验室参数(胆固醇、创造性、血压、淀粉酶水平,等等)和数据从办公室考试(体温、咳嗽和呼吸困难)与人工神经网络可以用来提供的经验。虽然这些研究证明使用人工神经网络检测结核的可行性从真实世界的数据,它们需要体检和训练有素的专业人员提供输入参数神经网络,它可能不可用,或者在某些情况下可行的,特别是考虑到多数的结核病患者。为了解决这些局限性,本文中提出的方法只有使用射线图像的肺、低成本和普遍可用的考试,因此更适合现实的场景。一些作品的兴趣,提高医学图像的技术可以发现(8- - - - - -10),消除噪声的图像使用技术,从侵蚀、提取、和其他常用的艺术,他们可以被称为(11]。

另一个研究发现在图像处理中9就像[12- - - - - -15)有助于乳腺癌的早期诊断使用图像处理;在这个研究中,我们可以发现它使用纹理分割技术;作为证据使用的图像从一个数据库,癌变的图像质量和微钙化物质由专家人工标注。在[16- - - - - -18],他们开展乳腺癌的识别使用热图像,进行图像的数字处理,使用纹理图像识别、分析和提取所有感兴趣的区域。

3所示。该方法

该方法被开发。图像的特征作为分类属性与KERAS提取。KERAS神经网络是一个开放源码库中创建Python包含ResNet50架构;这种体系结构将有助于通过数组来提取图像的特征。

在目前的工作,三种分类方法:(我)第一个方法使用基于支持向量机(svm)是一种监督学习模型和相关算法,分析数据和识别模式。最近的数据点到超平面,或一个数据集的元素,如果删除,将改变分割超平面的位置,被称为支持向量。结果,他们可能会认为数据收集的重要组件。支持向量机代表支持向量机是一种监督机器学习技术,可用于分类和回归。支持向量机更通常用于分类问题,因此这就是我们将集中我们的努力。当一个数据集分为两组,SVM进行线性和非线性分类、和内核函数是用来完成非线性分类;非线性分类的内核是齐次多项式和复杂的回归分析10]。(2)第二个方法是基于逻辑回归(LR),这是一个机器学习的分类算法,用于预测的概率categorical-dependent二分变量;也就是说,它包含的数据可分为两种可能的类别(死或活,生病或健康,是或否,等等)。最重要的一个统计模型来设计一个特定的类别或事件的概率,比如成功或失败,是物流模型。逻辑回归,另一方面,采用了一个数量的预测变量,可以是数字或分类。这可以用来模拟各种事件,如确定图像包含一个猫,老虎,鱼,或另一种动物。图像中每个检测到的对象将被分配一个概率在0和1之间,导致一个。Logit模型和广义熵的分类器是逻辑回归的另一个名字。的监督机器学习算法之一“分类”任务逻辑回归。它开发了一个特别积极的声誉在金融部门在过去二十年中由于其特殊能力来检测侵吞公款。一般使用逻辑回归和其他流行的线性分类器是图中描述的网络来提取图像的特征将被用作分类属性生成地图。因此,逻辑回归要求因变量是二进制的。同时,一级因素应该表示“想要”的值。只有重要的变量应该作为独立变量,而反过来,应该是相互独立的(14]。(3)第三个方法是基于最近的邻居(资讯,K-Neighbors分类器),这是一个算法基于监督机器学习的类型实例。事实为什么最亲密的邻居方法一直是受欢迎的在实践中主要是由于他们的成功经验在时间。然而,这个解释可能过于简单。我们专注于最亲密的邻居的四种元素的方法,我们认为是重要的对他们继续流行。首先,能够选择在最近邻预测“附近”是什么意思让我们很轻松地处理临时距离或使用现有的表示和远程学习类型的机械,如深网络整体学习或决策树方法,处理临时距离。第二,一些近似的计算效率最亲密的邻居搜索算法允许最近邻预测规模大,在当前应用程序中典型高维数据集。第三,最亲密的邻居非参数方法,依靠数据来做最小的模型假设而不是允许数据驱动直接预测。最后,最近邻方法解释的:他们显示最近的邻居发现了证明他们的预测。这个方法特别有用分类新样品(离散值)或预测或估计未来值(回归、连续值)。基本上寻找最相似的数据点(邻近)学习培训阶段,建议新分基于分类(2]。

目前工作,蒙哥马利的数据库,这个数据库收集的x射线图像结核病控制项目通过联合国开发计划署,伊拉克,并设置包含138片,80片对应于健康的病人(正常)和58例肺结核(异常)的表现。这个数据库是可用的。所有图片已经去除了识别信息和DICOM格式。一组包括各种各样的异常,如泄漏模式。数据集包含辐射读数以文本文件的形式。每个映像都包含一个标签,艾滋病和图像识别。可以与结核病的标签(标签编号为“1”,成功)和正常或无结核病(标签数字“0”,失败)。

对图像进行了预处理。预处理主要有两个部分:(1)填充和(2)调整。后两个阶段进行图像提取;这些阶段导致矩阵为每个输入图像与224×224维度和数字从0到255;这对应于一个224×224图像3频道(RGB);这个过程的目的是为网络提供一个矩阵的维度。一旦这些步骤已经完成,他们进入ResNet50网络。图2显示了过程进行的网络。

最后阶段的预处理是当他们进入网络来提取图像的特征将被用作分类属性。网络需要作为输入生成的矩阵(x224x3),在每一层,它执行旋转矩阵,用这种方法生成提取地图。

在倒数第二层网络中,一个向量维度2048,其中包含图像的一般特征,如饱和,光度和强度等。

3.1。处理交叉验证

一旦安排与结核病和正常的图像的特点,在文本文档中创建的标签名称的每一个图像将用于程序的培训。在处理程序中,标签和特点被称为和标签之间的关系和特点是以后会转化成安排创建的。

当系统完成排序的数据最好的解释,它将关系转换为0和1;为了能够解释它们,在本部分中,图像中的每个检测到的对象将被分配一个概率在0和1之间,导致一个。Logit模型和广义熵的分类器是逻辑回归的其他名字。图3显示了图的处理进行了交叉验证的场景中,每个自动分类方法。

3.2。处理训练集和测试集

对于第二个场景,训练集和测试集。80%的图像被用于训练,剩下的20%是用于测试;这个为了测试训练集图像是从未见过的。对于每一个分类的表现,我们记录以下评价指标:准确性、精密,回忆,和F-Measure (F)的统计方法。在艺术的状态,是很常见的名字这些指标通过他们的名字在英语。

获得的结果下一节所示。

4所示。结果

图在图4显示了两个场景之间的比较结果。(我)交叉验证(简历)。方法论的错误是学习促进携带疾病的监测对象的特征和一般认为评估临床诊断使用相同的数据x,y。模型,只是重复的标签样品刚刚见过会得到一个完美的分数但还无法预见到任何有价值的看不见的数据。过度拟合是这种情况下的术语。为了避免这种情况,这是惯例留出一部分可用数据作为测试集等X测试和y测试时(监督)机器学习实验。值得注意的是,“实验”这个词不仅仅是出于学术目的;即使在商业环境中,机器学习经常开始作为一个实验。一个典型的交叉验证方法在模型训练中描述下面的流程图。网格搜索策略可以用来找到最优参数。(2)训练集(TS)。研究和建立算法,学习和判断数据在机器学习是一个典型的工作。这些算法通过构造一个计算公式从传入的数据,使数据驱动的预测或判断。在大多数情况下,开发模型所需要的输入数据被划分为不同的数据集。特别是三个数据集,通常是在不同的阶段模型的发展:培训,验证集和测试集。

对于每个人来说,四个记录评价指标所示。

图中,可以看出,获得最好的结果的场景当使用支持向量机学习方法(图4)和最坏值获得的近邻分类的场景在几乎所有指标。表1显示了结果的交叉验证场景四个评价指标。而在表2,我们发现形成训练集和测试集的结果。

的场景,展示了一个更好的性能是训练集和测试集,这是最理想的分类情况,当有足够的实例形成两组,因为训练集永远不会看到它的测试集,从而避免任何影响或趋势当指定类别下的图像研究。它也可以观察到,在这两个场景展示了最好的性能是支持向量机的分类器。

需要测试工具,构建一个框架,一个预测建模问题。

测试指定的域的示例数据将被用来评估和比较潜在的模型预测建模的挑战。

有几种方法来组织一个测试工具,并为所有应用程序不存在放之四海而皆准的解决方案。

使用一块训练和调优的数据模型和部分给一个客观的评估优化模型对样本外数据的技巧是一个流行的策略。

创建一个训练数据集和测试数据集的数据样本。模型评估使用重采样方法等k倍通过训练数据集,和一组可能进一步分为优化模型的hyperparameters的测试数据。

5。结论

在目前的工作,结果提出了医学图像的自动分类两类:有或没有肺结核。

进行分类、特性提取使用深度学习和RESNET50神经网络。交叉验证和训练集和测试集的形成所使用的两个分类的场景。的场景,最好的结果是形成训练集和测试集的精度大于85%。

最佳性能的分类方法显示在这个工作是支持向量机实现的两个场景。结果中可以看到当前工作,这些远远超过机会,允许进行分类的图像在一个有效的方法。

的腹部电脑断层扫描(CT), CT的头部,大脑的磁共振成像(MRI)和磁共振脊柱的都在这个调查。我们建议CNN架构可以自动分类这4组医疗照片图像形态和解剖位置后,将它们转换为JPEG(联合摄影专家组)格式。在这两个验证集和测试集,我们取得优秀的总体分类精度(> 99.5%)。

收集到的结果允许我们评估采用的方法的可行性。它也允许我们识别最好的场景和机器学习分类方法进行射线照片的分类有或没有肺结核。

数据可用性

在这项研究中给出的数据的结果包括在手稿中。

信息披露

这是作为就业的一部分执行机构。

的利益冲突

作者宣称他们没有利益冲突有关的出版。