文摘

我们解决绩效评估实践发展医学图像分析方法,特别是如何建立和共享数据库的医学图像验证地面实况和固体评估协议。这样的数据库支持的发展更好的算法,比较深刻的执行方法,技术转移,因此,从实验室到临床实践。为此,我们提出一个框架组成的可重用的方法和工具构建一个费力的任务的基准数据库。我们为医学图像注释提供软件工具帮助收集类标签,空间跨度和专家的信心损伤和适当的方法从多个专家结合手动分割。方法评价的工具和所有必要的功能是提供公共的软件包。作为一个案例研究中,我们利用该框架和工具建立在DiaRetDB1 V2.1数据库基准测试糖尿病视网膜病变检测算法。数据库包含一组视网膜图像,地面真值基于来自多个专家的信息,和一个基线算法检测视网膜病变的病变。

1。介绍

地面实况图像数据库和专家经常用于医学图像处理。然而,它是相对常见的数据没有公开,和,因此,可靠和先进的调查难以进行比较。相比之下,例如,生物识别技术包括脸,虹膜和指纹识别,研究推动了公共数据库和固体评估协议。这些数据库已经扩展和修改导致连续压力更好的方法的发展。对于每一个医疗应用程序,它应该是一个公认的科学贡献提供一套图片,收集准确和可靠的地面实况图像,并制定一个有意义的评价协议。一旦这个开创性的工作已经完成,它发送一个评价标准,一个选择的问题。

我们组主要目标的自动检测糖尿病性视网膜病变(1)这是非常激励因为糖尿病已经成为全世界最迅速增加的健康威胁之一(2,3]。因为视网膜是容易微血管的改变糖尿病和糖尿病性视网膜病变是糖尿病最常见的并发症,视网膜成像被认为是无创无痛的意思是筛选和监测疾病的发展4]。因为这些诊断程序的定期监测糖尿病状态需要医务人员的注意,例如,医生和眼科医生,工作量和人员短缺,最终将超过当前资源筛选。为了应对这些挑战,眼睛眼底数码影像,自动或半自动图像分析算法基于图像处理和计算机视觉技术提供了巨大的潜力。为此,合适的视网膜图像数据库包含定义良好和注释需要地面实况。

在这个工作中,我们的主要贡献是(1)图像注释工具医学专家,(2)视网膜图像数据库与专家注释,(3)可靠的评估框架的图像分析系统开发和比较(图1),(4)基于图像和基于像素的评估方法。我们特别关注构建基准数据库和协议。我们都经历过,从头开发数据库要求,费力、耗时。然而,某些任务发生反复和是可重用的。在这里,我们讨论相关的实际问题,指出并解决重复发生的子任务,并提供解决方案的开源工具在我们的网站上。在实验部分,我们利用该框架和构造一个修订版本的数据库DiaRetDB1最初发表在糖尿病性视网膜病变(5,6),随后讨论了(7]。

本文的组织结构如下:在部分2,我们将讨论医疗基准测试,提供相关的指导方针,并简要调查相关工作。节3,我们将讨论收集病人图像和地面空间的事实。我们提出一个便携式地面实况数据格式,并代表和解决问题融合多个专家注释。节4总体上,我们将讨论评估实践,提供一个基于标准的ROC分析评价方法。我们评估color-cue-based检测方法(基线)通过构建数据库。节5,我们利用给定的结果和工具建立在糖尿病性视网膜病变的评估和基准数据库DiaRetDB1 V2.1,我们得出的结论部分6

2。基准测试和以前的工作

公众形象数据库基准测试目的是必不可少的资源发展的图像分析算法和帮助医学成像研究人员评估和比较先进的方法。最终,这将导致更好的算法和的发展,因此,将支持技术转移从实验室到临床实践。然而,图像数据库的公共可用性是有限的,因为大量的工作需要做内部数据公开,包括地面真理注释和病人的隐私保护的信息。因此,比较可靠和先进的调查是很难执行的。在本节中,一个基准测试框架提供指南描述如何构建基准图像数据库,特别强调视网膜图像分析。基准测试框架由三个重要要求:(1)病人图像,(2)地面真理,和(3)评估协议。

2.1。关键问题在构建基准

查克et al。10]研究计算机视觉的性能表征方法。他们提供了很好的例子,很容易转移到医学图像处理的应用程序。结果在10)可以利用在方法开发的每一步,但我们特别注意最后诊断,也就是说,subject-wise决策直接服务于临床工作。换句话说,省略了开发和研究阶段评估框架和结构良好的实践评价视网膜图像分析算法的性能。为此,八个一般考虑采用从[10),称为关键问题解决。C1:“目前正在测试如何执行的?“如果一个常用的数据库和协议,开发和评估其有效性需要检查。在最坏的情况下,需要构造一个新的数据库,该框架可以是有用的。C2:“还有一个数据集的正确答案吗?”这样一个数据集可用于报告根据其他研究的结果。这使得方法比较。C3:常用的数据集”?“看到C1和C2。常见的数据集促进公平的方法比较。C4:“有实验表明,算法稳定、正常工作吗?“这些实验可以实现如果代表数据和专家地面实况。C5:“有稻草人算法吗?“如果一个稻草人算法包含在数据库中,它定义了其他方法基线性能。在这篇文章中,我们称这些基线方法稻草人算法。C6:“什么代码和数据可用吗?“通过发布方法的代码或者至少可执行版本,其他研究小组可以避免费力重新实现。C7:“有一个量化的方法设计的算法?“这取决于医学问题,但设计的方法通常可以通过遵循相应的临床工作和实践。理解医护人员的任务应该协助或自动化提供了一个概念性指南。如果数据库是正确反映了现实世界的情况,那么数据库含蓄地反映了算法的适用性的设计问题。C8:“我们应该测量量化性能吗?使用哪些指标?“至少在image-wise (subject-wise)实验中,接受者操作特征(ROC)曲线按照医疗实践,敏感性和特异性的值是常用的。中华民国曲线,也称为ROC分析,是一种广泛使用的工具在医学界可视化和基于他们的表现的比较方法11]。这个图示描述之间的权衡敏感性和特异性(例如,正确分类正常图像进行分类和异常图像)。在曲线 设在被定义为1−特异性, 设在直接灵敏度12]。

一般来说, ,这意味着如果有一个常用的数据集的形式,例如,一个基准数据库,答案 是已知的。同样的, 定义现有的成熟的解决方案。的情况下可用的数据和代码都是和工作证明了实现所需的利率敏感性和特异性,解决方案是在一个成熟的水平,真正可以开始临床试验。 是设计的一般性指导找到一个可接受的工作流程为一个特定的问题,然后呢 集定量和有意义的性能的措施。

2.2。基准测试的要求

基准图像数据库在视网膜成像需要三个强制性组件:(1)病人图像,由领域专家(2)地面实况,(3)评估协议。额外的组件,如一个基线算法,提供显著的附加价值,但在接下来的三个强制性的组件进行了讨论。

2.2.1。真正的病人图像

真正的病人图像携带的信息是有意义的解决一个给定的问题;即算法处理这些图像将在实践中也表现良好。记录的图像可以使用替代科目,如动物生理上接近人类,和疾病病变可以使用各种合成的物质。这些是标准的实践在医学研究,但得出一般结论之前,他们的相关性和准确性现实世界必须仔细验证。真正的病人图片一样,结果偏差的分布数据库映像对具体真实的人口。图像的收集和选择部分进一步讨论3。真正的病人图像需求的关键问题的担忧 , , ,

2.2.2。地面实况的专家

地面真理必须准确、可靠,它是具有统计代表性的专家。领域的视网膜图像处理,它是明智的,地面真理的工具注释提供计算机视觉科学家,但选择图片和注释由医学专家专业领域。同样清楚的是,地面真理必须独立收集来自多个专家。这是费力而昂贵,但它使统计研究的可靠性。在多个专家的情况下,消歧的数据往往是必要的机器学习方法的应用程序之前。从专家收集地面真理问题的关键问题 , , ,

2.2.3。评估协议

一个有效的评估协议提供定量和可比的信息对性能可靠的评估至关重要。大多数文章相关视网膜图像分析报告单独的敏感性和特异性,但他们是没有意义的指标,除非一个方法可以产生优越的值。类似的问题的黄金标准是ROC分析。该方法本质上是一样的报告提供评价结果的敏感性和特异性,但在这些值的所有可能的组合。事实证明,在基准测试中,ROC曲线的比较是有问题的,,因此,具体的有理由的操作点或曲线下的面积(AUC)可以作为一个衡量。进一步讨论这个问题4。除了评估协议,一个基线方法( )或者至少结果与基线的方法是很有帮助的,因为他们应该清楚地表现新方法的性能水平。从另一个角度来看,最好的报道结果通过使用一套普遍接受的数据库状态的艺术。评估协议要求问题的关键问题 , , ,

2.3。眼科疾病数据库

本节描述最重要的公共基准数据库视网膜图像分析。数据库的审查为每个数据库提供了一个简短的描述,C1-C8解决的关键问题2。1是用来突出的主要属性。由于每个数据库是公开的,他们预计将常用的( )。见表1一个简短的总结。

凝视视网膜(结构分析)17)是一种最常用的参考图像数据库的文献( )比较血管检测和视神经盘定位算法。盯着网站(17提供20个图像pixel-wise上手写地面真理血管检测( )和81没有地面实况的视神经盘定位图像。血管的性能检测是使用ROC曲线分析,测量灵敏度的正确分类的比例和特异性血管像素的比例正确分类正常像素( )[18]。评估视神经盘定位,正确的比例本地化视神经盘显示性能和定位是成功如果视神经盘的中心生成的算法是在60像素从地面真理( )[19]。评价程序发布的数据集都是容器检测算法和基线结果( )[18,19]。

推动船(数字视网膜图像提取)20.,21)是另一个著名的血管检测参考数据库( ),其中包含40视网膜图像( ),手动分割pixel-wise地面真理( )。手动分割的任务是分为三个医学专家,和数据库出版以及船舶检测算法( )[21]。检测性能是衡量同样在凝视数据库,即比较敏感和特异性( )曲线下的面积(AUC)计算生成最终的测量算法的比较( )[20.,21]。此外,作者在内部实现和评估大量的血管检测算法从不同的研究小组,研究结果发表在[22)和数据库驱动网站( )[20.]。

MESSIDOR(方法评估分割和索引技术在视网膜眼科领域的)(23)是一个参考图像数据库收集促进糖尿病性视网膜病变的计算机辅助图像分析。它的主要目标是使评价和比较的算法分析糖尿病性视网膜病变的严重程度,预测黄斑水肿的风险,和索引和管理图像数据库,支持图像检索。评价,MESSIDOR数据库网站(23)提供了1200张图片( )与image-wise严重程度评分( )从三个眼科部门包括描述的严重程度分级。更值得注意的是严重程度分级是基于数量的存在和糖尿病黄斑病变及其距离。

CMIF(眼底的多光谱图像的集合)24,25)是一个公开的多光谱视网膜图像数据库。光谱图像是通过实现一个“滤光轮”变成了眼底照相机包含一组窄带滤光片对应的集合所需的波长(25]。数据库本身由正常和异常图像( )生成各种各样的种族背景覆盖总共35个科目(25]。因此,没有准备好基准数据库,但它提供了一个新的见解视网膜病理。

中华民国(视网膜病变在线挑战)26,27]遵循异步在线算法的思想提出的比较Scharstein和Szeliski28]立体通信算法(明德立体视觉页面),一个网络评价界面与公众评价数据集可以确保提交的结果具有可比性。研究小组下载数据集,他们在所需的格式,提交他们的结果,评估结果网络评价体系。全自动自评估,不断研究小组可以提交和更新他们的结果。在当前状态,中华民国数据库网站(26]提供100视网膜图像( ),一个地面真理( 为微动脉瘤)和在线评价体系,评价结果的检测算法( )。该算法性能是衡量比较敏感(正确分类病变的比例)对图像中假阳性的平均数,即自由反应接受者操作特征曲线(FROC) ( )[27]。预定义的假阳性点平均的敏感性来生成最终的测量算法的比较( )[27]。注释聚集从4医学专家通过标记位置,近似大小和注释的信心。两个医学专家的共识是病变选择所需地面真理。

评论(视网膜血管图像设置宽度的估算)(29日,30.)是一种新的参考图像数据库评估血管宽度测量算法的性能。描述不同的容器属性中遇到视网膜图像、数据库包括四个图像集:(1)高分辨率图像集图像(4);(2)血管疾病图像集图像(8);(3)中央光反射图像组(图片2),和(4)踢点图像组(2图片)( )。检查数据库集中于高精度注释,因此,它只提供了部分的血管,而不是整个网络。实现高精度,观察者使用半自动工具注释一系列图像位置的容器宽度是自动确定(30.]。从三个医学专家注释聚集,意味着容器宽度定义为地面真理( )。评估,性能是衡量使用一个客观的标准偏差的宽度差别algorithm-estimated容器宽度和地面真理( )[30.]。

一般来说,大多数的参考数据库达到最小要求基准图像分析算法;也就是说,他们提供真正的病人图像,从专家地面实况,评估协议(表1)。在某些情况下,可用性已经在一个成熟的水平,例如,在网络的情况下评价体系在中华民国数据库。主要的缺点似乎相关软件的可用性( )和医学问题的算法的设计是如何观察( )。通过发布源代码或可执行,其他研究人员可以避免费力重新实现,如果数据库正确建立反映现实世界的情况,那么数据库含蓄地反映了算法的适用性的设计问题。数据库性能的关键问题在表中做了总结1和比较该DiaRetDB1数据库属性表进行了总结2。构造基准数据库的框架和协议被总结在图1。框架的细节将在下一节中讨论。

3所示。病人图像和地面真理

3.1。收集病人的图像

捕获并选择病人图像的任务应该由医生或其他专门训练拍摄眼睛眼底。的图片,有两个问题应该是合理的:(1)分布通信所需的人口和(2)病人数据的隐私保护。

DiaRetDB1,眼科医生想要调查的精度自动方法分析视网膜图像的病人被诊断为患有糖尿病。因此,图片不对应于实际的严重性或糖尿病性视网膜病变的患病率在芬兰人口为自动化检测方法提供明确的研究结果。然而,数据以来临床相关研究族群由芬兰初级卫生保健常规筛查。

病人数据的隐私保护是一个任务相关的临床实践的伦理,医学研究,以及数据安全。收集和发布的许可数据必须从相应的国家获得的组织(如国家或机构伦理委员会)和病人自己。此外,必须安全地存储所有数据;所有病人的信息,如确定元数据,必须显式地从图像中使用一个公共数据库。在DiaRetDB1,视网膜图像获得使用标准眼底相机及其配套软件。获得的图像被转换为原始位图,然后保存到便携式网络图形(PNG)格式使用无损压缩。除了包含的原始位图像素数据保障取消隐藏的元数据。

3.2。地面实况图像注释

一般来说,图像注释是必要的培训监督算法,以及对他们的评价和比较。收集这些信息通常是通过手动标注的一组图像。在人脸识别中,例如,地面真理包含在图像和标识符的人也经常面部地标的位置,如眼中心,它可以在训练方法是非常有用的。通常,简单的剪裁工具用于收集数据,而且通用的应用程序可用于问题需要一个详尽的图像数据,例如,LabelMe [31日Web工具注释视觉对象类别。注释医学图像也不例外,但两个基本的考虑:(1)注释必须由临床合格人员(专业或专业医生,或其他训练有素的专业人员为特定任务),表示“专家”和(2)地面真理应该包括来自多个专家的注释。

更技术问题是开发一个可重用工具注释的任务。为了避免偏置的结果,专家们应该给最小的指导实际注释工作。基本的图像处理,如缩放和亮度控制,需要查看图片,和一组几何基元提供让空间注释。在LabelMe [31日),唯一的原始多边形区域定义为一组有序的点。一个多边形可以表示任意复杂的空间结构,但是眼科医生还发现以下原语有用:小圆,可以尽快走上一个小病变,和圆和椭圆区域描述他们的重心,/半径,半径和方向(椭圆)。该系统还至少需要一个代表点为每个病变。这一点应该代表最突出的线索,如颜色或纹理,描述了具体的病变。此外,信心选择设置的三个离散值,低,温和,或高,需要每一个注释。专家们可以自由定义的注释类型,也就是说,损伤类型的类标签,但通常最好事先同意的标签(例如,在DiaRetDB1:渗出液,柔软的渗出液,微动脉瘤,和出血)。一个重要的设计选择工具的可用性相关的图形用户界面(GUI)。例如,GUI不应该使用颜色,分散图像内容的注释器。

一个注释工具的发展可能需要不良的研究时间和资源。帮助其他研究人员在这个任务中可用的工具是要求作为Matlab M-files和Windows可执行文件。用户有完全访问源代码使裁剪工具的特定需求。默认的图形用户界面(GUI)如图2

3.3。数据格式为医疗注释

存储注释和能够恢复他们的图形布局,必须定义的数据格式。自然是结构化的数据,,因此结构数据描述语言优先。几个协议描述医疗数据的存在,如HL7基于可扩展标记语言(XML) (32),但这些是复杂的协议为病人设计组织和信息系统之间的信息交换。自从要求基准数据库一般综合要小得多,一个轻量级数据格式采用基于XML数据描述语言。而不是XML模式文档的描述,更紧凑,因此,更可翻译的文档类型定义(DTD)描述。使用格式给出清单1

< !元素imgannotooldata(头,markinglist) >
< !元素头(创造者、软件吗?
联系吗?copyrightnotice) >
< !元素创造者(# PCDATA)>
< !元素软件(# PCDATA)>
< !ATTLIST软件CDATA #版本要求>
< !元素联系(# PCDATA)>
< !元素copyrightnotice (# PCDATA)>
< !元素imagename (# PCDATA)>
< !元素图象尺寸(宽度、高度)>
< !元素宽度(# PCDATA)>
< !元素高度(# PCDATA)>
< !元素markinglist(*)标记>
< !元素标记(polygonregion∣
circleregion∣ellipseregion),
representativepoint + confidencelevel markingtype) >
< !元素质心(coords2d) >
< !元素coords2d polygonregion(重心,
coords2d coords2d +) >
< !元素circleregion(质心半径)>
< !元素ellipseregion(质心半径,半径,rotangle) >
< !元素representativepoint (coords2d) >
< !元素coords2d (# PCDATA)>
< !元素半径(# PCDATA)>
< !ATTLIST半径方向CDATA #需要>
< !元素rotangle (# PCDATA)>
< !元素markingtype (# PCDATA)>
< !元素confidencelevel (# PCDATA)> >

3.4。融合的手工分割从多个专家

所需的特征为医学图像收集地面真理的一个或多个专家提供的图像信息内容等疾病病变。因为可以存在不一致的情况一个专家(例如,由于变化的标准在执行注释工作),没有人可以被认为是无与伦比的专家,使用几个专家优先。只有在明确的情况下,然而,专家们完全同意可见的解释信息。由于视网膜病变的早期征兆是非常微妙的变化图像,有必要开发一种方法,适当结合专家的信息仅仅是部分相干。设计这样一个方法,重要问题相关培训,评估,和基准测试通过使用数据库如下:(1)如何解决不一致的注释从一个专家,(2)如何融合同样值得信赖(没有先验信息专家相关任务)的优越性来自多个专家的信息吗?

在我们的数据格式,可用的专家信息如下(图3):(1)空间覆盖率(多边形区域),(2)代表点(s)(小圆区域),和(3)主观信心水平。代表点独特的“提示位置”,引起了专家的关注特定的病变。置信水平的三个价值尺度描述病变的专家的主观信心代表一个特定的类(病变类型),如图4

结合手动分割从多个专家最初研究[9]。在这项研究中,该地区的十字路口各实验装置提供了最好的融合效果,以简单明了的方式计算的总和除以expert-annotated信心图像的专家。DiaRetDB1,融合信心与阈值0.75产生最好的结果(1解决不一致的注释),从一个专家或多个专家cofusion问题。

十字路口是直观的,结果是基于处理整个图像。然而,基线的阈值选择方法,该方法不受欢迎地绑一起训练和评估。因此,组合问题是修改(8]。

最直接的组合过程平均的专家分割为每个图像和空间平均病变类型。在这个过程中,使用给定的信心水平,唯一要求的信心是单调递增。专家意见信心图像对应的平均值,但是它有两个缺点:(1)不考虑可能的差异的专家在他们的使用规模和(2)它不会产生二进制值的前景(特定类型的损伤)和背景。作为一个解决方案,可以生成二进制掩模由阈值平均专家分割图像。阈值参数 调整专家的联合协议: ,二进制掩模方法建立联盟 方法设置十字路口(见图5)。

修改后的结合方法是基于以下原则:地面真理应该优化代表所有专家的共同协议。评价程度的相互协议、性能测量是必要的。性能只取决于两个因素:专家的标记地面实况,不失一般性,这项措施将输出一个实数 在专家分割面具 代表了专家对输入图像分割掩模 、病变类型 ,专家 , 地面实况, 是用来表示一组评价图像的性能计算。代image-wise地面真相很简单:如果任何像素的生产 的损伤 非零,标签包含图像病变。自动检测ROC曲线可以计算从image-wise地面真理和图像分数计算专家形象。image-wise专家评分,我们采用了summax部分中描述的规则4:像素的信心 排序,最高1%的值求和。等于平均错误率(无论何时点ROC曲线)被选为性能指标(1),它可以给出一个明确的形式: 一个曾经为每个专家计算价值 以上所有图片( ),然后expert-specific解析值求和的病变类型

summax规则是合理的利用多个分类器作为一个健壮的最大规则的理论(33]。也曾经测量可以使用任何其他替换,例如,之前决定成本的信息是可用的。影响性能的唯一因素(2)是阈值 用于生产地面真理。最大化的相互协议,有必要寻求最合适的阈值 提供最高的平均表现(曾经)对所有专家。而不是一个阈值,lesion-specific阈值 确定自不同的病变可能显著不同的视觉检测能力。最优地真理等同于搜索最优阈值: 一个简单的方法来实现优化迭代测试所有可能的值 从0到1。方程(3)最大化每个病变类型的性能在所有专家( )。最优阈值 保证生产的最大共同专家协议根据性能测量性能。

修改后的结合方法可以产生更好的结果与原方法相比,甚至同时真理和性能水平估计(主食)[34]。方法的完整描述和比较,提出了在8]。

4所示。算法评估

4.1。评价方法

ROC-based分析非常适合医疗决策,被承认的方法在医学研究35]。一个评估协议基于ROC分析提出了在6]基于图像(patient-wise)评估和基准测试和协议进一步研究[9]。在临床医学中,术语灵敏度特异性中定义的范围 是用来比较方法和实验室评估。的敏感性 取决于患病人口而特异性 健康人群,定义为真阳性( ),真阴性( ),假阳性( )和假阴性( )。的 设在ROC曲线1−特异性,而 设在代表直接灵敏度12]。

是有用的形式ROC-based质量措施。质量优先措施如下:平等的错误率(曾经)36)定义为当( ) 或加权错误率(回答)37] 在哪里 假阴性率之间的成本比率吗 和假阳性 。两项措施之间的主要区别是,曾经认为平等处罚两种假阳性和阴性,而在回答,惩罚是可以调节的。

基于图像的评价,一个可能值为每个病变应该为所有的测试产生图像。使用似然值,应用ROC曲线可以被自动计算(9]。如果一个方法为单个图像提供了多个值,如完整图像映射图可能性6 (b),的值必须融合产生一个分数。

4.2。基于图像的评价

基于图像的自动评估遵循的医疗实践subject-wise决策”。“图像分析系统视为一个黑盒,需要一个图像作为输入。如果图像是假定为正常或异常,系统生成一个分数对应于图像的概率是不正常,符合高概率和高分数。基于图像的评价协议的目的是生成一个ROC曲线通过操纵测试的分数值图像。的做法是采用(38]。

让分数值产生的图像分析算法 测试图片是 ,让相应的image-wise地面真理 ,每个 要么是“正常”或“异常。“然后,通过选择一个阈值的分数值( ),测试图像可分为正常或异常,和敏感性和特异性的形式表达的性能可以通过比较结果与相应image-wise地面真理( )。如果相同的程序是重复使用每个测试图像的分数作为阈值,ROC曲线可以自动确定因为每个阈值生成一对(敏感性,特异性)ROC曲线上的一点。因此,测试图像的过程需要包括样本数量,正常和异常。图像参考评价方法提出了算法1

(1)为每一个测试图像
(2) , , ,
(3)curr_score 图像分
(4)为每一个测试图像
(5)如果curr_score 图像分然后
(6)如果地面实况分配 “正常”然后
(7)
(8)其他的
(9)
(10)如果
(11)其他的
(12)如果地面实况分配 “不正常”然后
(13)
(14)其他的
(15)
(16)如果
(17)如果
(18)结束了
(19) (灵敏度)
(20) (特异性)
(21)添加新民国点( )= (1−SP, SN)
(22)结束了
(23)返回最后ROC曲线(点)

4.3。基于像素的评估

验证方法开发设计的选择,这也可能是有用的测量空间的准确性,也就是说,发现病变是否在正确的位置。因此,基于像素评估协议提出了类似于基于图像的评价。在这种情况下,图像分析系统需要一个图像作为输入和输出为每个像素相似的得分。基于像素评估的目的是生成一个ROC曲线描述了进行像素级的成功。

让图像分析algorithm-produced像素分数值 像素在测试集 ,让相应的pixel-wise地面实况 ,那里的 要么是“正常”或“异常。“然后,通过选择一个全球pixel-wise阈值的像素得分值( ),所有图片的像素可分为正常或不正常。现在,敏感性和特异性可通过比较计算结果pixel-wise地面真理( )。如果过程重复使用每个独特的像素分数作为阈值,ROC曲线可以自动确定。pixel-wise评估过程中给出的算法2。注意,异常测试图像像素导致敏感性和特异性,而正常的图片仅为特异性。

(1)形式测试分数像素的列表
(2)为每一个测试像素评分(curr_pix_score)
(3)TN ,TP ,FN ,《外交政策》
(4)为每一个测试图像
(5)为每一个测试图像像素的分数
(6)如果curr_pix_score 像素的分数然后
(7)如果地面实况像素赋值 “正常”然后
(8)TN = TN + 1
(9)其他的
(10)FN = FN + 1
(11)如果
(12)其他的
(13)如果地面实况像素赋值 “不正常”然后
(14)TP = TP + 1
(15)其他的
(16)FP = FP + 1
(17)如果
(18)如果
(19)结束了
(20)结束了
(21) (灵敏度)
(22) (特异性)
(23)添加新民国点( )= (1−SP, SN)
(24)结束了
(25)返回最后ROC曲线(点)

评价形式的全球pixel-wise分数从测试图像像素的分数决定了分数阈值。使用所有的独特的测试图像像素的分数是耗费时间如果图像测试集的数量非常大或者使用高分辨率图像。问题可以克服抽样测试图像像素的分数。保存测试集的像素分数分布,全局阈值的分数可以设计如下:(1)中的所有独特的像素分数升序排序,形成一个有序序列 和(2)组成新的减少像素序列的分数 通过选择每 th的可能性

4.4。稻草人的算法

我们提供一个基线算法方法的形式一个稻草人。该算法是基于光度线索中描述算法的使用3(9]。

(1)提取颜色信息 病变的训练集图像(部分3.4)。
(2)估计 使用高斯从提取的颜色信息
混合模型由使用Figueiredo-Jain方法(15,16]。
(3)计算 对于每一个像素在测试图像(重复步骤为每个
测试图像的测试集)。
(4)评估性能(部分4)。

稻草人的评分融合算法是基于以下理由:如果我们考虑 医学证据(特性)从图像中提取, ,每个证据是一个矢量,然后我们可以表示图像的分数值 。联合概率近似于分类结果(可能)使用组合分类器的决策规则理论(分类器集合体)[33]。的决策规则获取的分数比较研究[9]在规则设计了基于难应付的et al。33)和直观summax rank-order-based规则”。“规则定义了图像的分数 使用时的决策规则相比之前的人口特征值是相等的( )如下: 在哪里 的指标 高分的像素的分数。实验也最大,意思是,和产品规则,强大的经验证据支持rank-order-based极大值的总和(summax;固定比例(1%)9]。

实现结果DiaRetDB1如图7(ROC曲线)和表3(无论何时值)。性能是通过使用报道曾经这是合理的,因为曾经代表着“平衡误差点”在ROC曲线上,允许比较前面的工作。

量化的影响修正方法,结合专家信息,比较结果如表所示3。应该注意的是,上面提出的实验是独立的。最初的信心阈值(0.75)(9)是不适合任何出血病变类型和显然是不正确的(哈,0.60)和微动脉瘤(马,0.10)。强调值表中是最好的表演。所有病变类型的平均性能显著变化根据阈值。

修正的最小和最大阈值相结合的方法产生相同的结果除了软渗出液的情况下,在同样的最大执行时间间隔(1.0)显然是更好的。从原始DiaRetDB1方法的主要区别与微动脉瘤发生,由于最优阈值(0.1)显著不同于原来的(0.75)。出血,最初的结果过于乐观以来最佳的信心收益率差最小和平均能效比。平均而言,提供11 - 17%修正方法更好的性能。相关的ROC曲线如图8

5。案例研究:DiaRetDB1糖尿病视网膜病变V2.1数据库和协议

作者发表了两个医学图像数据库的陪同下地面真相:DiaRetDB0 DiaRetDB1。工作DiaRetDB0为我们提供了必要的信息对糖尿病性视网膜病变数据应该收集,存储,注释和分布式。DiaRetDB1是继续建立一个更好的算法评价数据库。DiaRetDB1包含视网膜图像由经验丰富的眼科医生。感兴趣的病变类型选择的医生(见图9):微动脉瘤(扩张的毛细血管),出血(或透水毛细血管破裂所致),硬渗出液(漏脂质形成),软渗出液(微型心肌梗塞的可能性),和neovascularisation(新血管脆弱)。这些病变的迹象轻微、中等和严重的糖尿病性视网膜病变,他们也为早期诊断提供依据。图像是由四个独立的带注释的和有经验的医生检查类似的图像在他们的日常工作。

图像和地面真理是在互联网上公开13]。PNG格式的图像,和地面真理注释遵循XML格式。此外,我们提供一个DiaRetDB1工具包包含完整的Matlab功能(M-files)阅读和写作的图像和地面真理,融合专家注释,并生成基于图像的评价分数。整个管道从图像到评估结果(包括稻草人算法)可以使用所提供的功能进行了测试。注释软件Matlab文件和可执行文件)也可以。

6。结论

我们已经讨论过的问题建立基准数据库发展的医学图像分析。我们已经指出普遍接受和使用数据库的重要性。我们已经提出了构建框架基准数据库为糖尿病性视网膜病变在医学图像分析和协议。我们已经构建了可重用的工具需要解决重要的子任务,包括注释工具收集专家的知识,使我们实现公开,建立了糖尿病视网膜病变数据库DiaRetDB1促进和帮助其他研究人员收集和发布他们的数据。我们相信公共数据库和共同评估程序支持发展更好的方法和促进临床实践中采用的最佳方法。

确认

作者感谢芬兰资助机构的技术和创新(tek项目40430/05和40039/07号)的合作伙伴ImageRet项目(http://www2.it.lut.fi/project/imageret/)的支持。