IJD
国际牙科杂志
1687 - 8736
1687 - 8728
Hindawi出版公司
196721年
10.1155 / 2011/196721
196721年
研究文章
识别微生物和蛋白质组生物标志物在童年早期龋齿
哈特
托马斯·C。
1
寇比
帕特里夏·M。
2
Hauskrecht
米洛斯岛
3
庆熙Ryu
好吧
4
Pelikan
理查德。
3
Valko
米甲
3
奥利维拉
玛丽亚B。
5
Hoehn
杰拉尔德·T。
6
亲眼见识
沃尔特。
2
维埃拉
亚历山大Rezende
1
牙周病学部门
牙科学院
芝加哥伊利诺伊大学
美国Paulina街801号
芝加哥,60612
美国
uic.edu
2
牙体部和综合护理和牙周病学和植入物
牙科学院
纽约大学
e . 24日街345号,纽约,纽约10010
美国
nyu.edu
3
计算机科学系,智能系统程序
生物医学信息学系
匹兹堡大学癌症研究所
匹兹堡大学,宾夕法尼亚州匹兹堡15232
美国
pitt.edu
4
人类遗传学和颅面部分
国立牙科和颅面研究
美国国立卫生研究院的
马里兰州贝塞斯达20892
美国
nih.gov
5
部门一般牙科
UNIMONTES
蒙特斯克拉罗斯,39401毫克
巴西
unimontes.br
6
危重病医学部门
临床中心
国立卫生研究院(NIH)
马里兰州贝塞斯达20892
美国
nih.gov
2011年
16
10
2011年
2011年
20.
05年
2011年
15
07年
2011年
2011年
版权©2011年托马斯·c·哈特等。
这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。
本研究的目的是提供一个单变量和多变量分析质谱仪和唾液蛋白质组的微生物基因组数据资料对龋齿的结果。为了确定潜在有用的生物标志物龋齿,多元分类分析来构建预测模型能够对微生物和唾液样本资料进行分类和泛化性能。我们使用高通量方法包括多路复用微生物数组和SELDI-TOF-MS剖析的口腔菌群和唾液蛋白质组204年1 - 8岁儿童(
n
=
118年
caries-free,
n
=
86年
caries-active)。人口很少的牙科保健和被认为是高危儿童龋齿。这项研究的结果表明,模型将微生物和蛋白质组数据都优于模型只有微生物或唾液数据。联合和独立数据的比较结果表明,蛋白质组学和微生物来源的组合有利于结合数据的分类精度和改善预测模型caries-active和caries-free病人。最好的预测模型测试误差6%,> 92%的敏感性,特异性和> 95%。这些发现表明,口腔微生物群落的进一步表征和唾液蛋白质组与健康和龋齿可能提供临床上有用的生物标记物更好的预测未来龋齿体验。
1。介绍
龋齿,最常见的儿童疾病,传染性疾病是一个复杂的多因子的病因。龋齿过程的特征是接受宿主和微生物之间的相互作用和潜在的殖民和发病机理。微生物、遗传、免疫、行为、环境和社会经济因素导致的风险,确定临床疾病的发生和严重程度
1 ,
2 ]。识别风险因素,生龋齿的口腔唾液微生物菌群和得到了特定研究的关注。
微生物在过去四十年进行的研究表明
变形链球菌 是主要病原体与儿童龋齿发病,乳酸杆菌与龋齿发展(
3 ,
4 ]。已经取得了很多这方面的知识可能使用传统的培养方法采用选择性媒体对这些病原体。采用微生物分子技术的最新进展已允许更好的理解植物的复杂性与口腔感染,特别是龋齿。超过750名口腔微生物类群在口腔(
5 ]。其中,大约有50%尚未培育,许多门尚未和分类学的分类特征。将更新的分子遗传学方法研究表明,更大的口腔微生物的多样性与病理相关从口腔健康过渡到龋齿(
6 - - - - - -
8 ]。
各种唾液成分,唾液流率,和唾液缓冲能力与龋齿的风险(
9 - - - - - -
11 ]。唾液是一个复杂的流体运动多种功能在口腔
12 ]。唾液组件可以扮演一个角色在敏感性和釉质脱矿釉质补充矿质和抗龋齿(
11 ]。虽然大多数唾液蛋白质和多肽的生物功能特征并不好,很多唾液蛋白功能的保护口腔组织(
13 ,
14 ]。数组的分子包括黏蛋白、histatins脯氨酸肽,defensins,乳铁蛋白,氧化物酶调节口腔微生物菌群通过施加直接的抗菌效果(
10 ,
13 ]。此外,很可能有许多有待唾液蛋白特征,可能是关键的保护口腔组织对微生物、病毒或真菌感染(
14 ]。而唾液的大部分功能通过古典生化方法,并阐述了当前蛋白质组学技术,包括唾液蛋白质组的高通量分析,可以描述所有唾液蛋白质的综合目录,可能他们的转化影响龋齿发病和发展的动力
15 - - - - - -
17 ]。
Schipper et al。
13 ]证明了表面增强激光解吸/电离time-of-flight-mass谱(SELDI-TOF-MS)提供了一个简单的和高通量方法快速识别大量的不同表达了对唾液的蛋白质和多肽。虽然兴趣评估唾液作为诊断液监测健康正受到越来越多的关注
16 - - - - - -
20. ),到目前为止,没有健壮的龋齿研究采用唾液蛋白质组分析和微生物基因组分析相符。
迄今为止,为个人唾液的诊断效用分析化验的组件或单个微生物已经有限的临床效用评估儿童龋齿的风险。虽然一种慢性疾病,儿童龋齿的最一致的预测风险仍然是过去的龋齿经验(
1 ]。更有效的预防方法在牙科保健需要改进方法的早期识别儿童龋齿的风险。龋齿可能继发于生态失衡口腔生物膜微生物驱动的。可想而知,唾液蛋白质组的变化可能在龋齿发展平行的微生物菌群的变化。本研究的目的是提供一个计算验证框架,允许我们评估微生物基因组数据的重要性和质谱仪唾液蛋白质组配置文件对龋齿的结果。为了确定潜在有用的生物标志物龋齿,多元分类分析来构建预测模型能够对微生物和唾液样本资料进行分类和泛化性能。这项研究是在高危人群中进行面积没有含氟水的孩子,接受最小的专业牙科保健,代表自然的人类早发性龋齿的发生。
2。方法
2.1。受人口的人口学特征
一群孩子的研究人群包括低社会经济城市的家庭居住在城市蒙蒂斯克拉鲁斯的米纳斯吉拉斯,巴西。城市供水氟化非最佳水平的0.2 ppm,大部分人口评估(> 96%)没有收到常规专业牙科保健(
7 ]。孩子的父母签署同意书,和四个人类受试者的研究机构审查委员会批准的协议。总共有204名儿童,年龄在1 - 8岁,由人口研究。孩子提供唾液和菌斑生物膜样品和随后对龋齿检查。
2.2。龋齿检查
两个考官进行龋齿检查根据国家牙科和颅面研究所的标准(
21 )修改区分龋齿病变白垩白色/黄色不透明的外观,没有临床检测物质损失(白斑病变),从形成空洞龋的病变。邻间的表面龋齿评估使用数字成像光纤透照(美国纽约DIFOTI,欧文顿)。
2.3。牙菌斑生物膜取样
早上Supragingival菌斑样本收集。Caries-free儿童池菌斑样本收集从三个健康的表面,可能包括前部和后部牙齿。Caries-active儿童牙菌斑样本分开收集完整的牙釉质表面(网站1)和三种类型的龋齿病变:表面白斑病变(网站2),最初的釉质表面损伤(网站3),并从深度挖掘斑块牙质的病变(网站4)。所有龋齿活动主题提供三到四个网站收集的斑块分别来自不同的牙齿根据疾病的严重程度。完整的搪瓷和白斑病变斑块被刷牙齿表面收集与Stimudent(强生公司,纽约,纽约,美国),而从形成空洞病变斑块是收集通过一个小Gracey刮匙(1 - 2;Hu-Friedy、芝加哥、生病,美国)。共有448个斑块样本(118收集从caries-active caries-free儿童和330名儿童)被用于分析。
2.4。微生物基因组分析
孤立的细菌DNA样本采用标准程序执行先前描述(
7 ]。reverse-capture棋盘杂交试验是用来检测相对水平(丰度)82年的口腔细菌物种或组。短暂,reverse-capture DNA探针(已知序列的寡核苷酸互补DNA)用于目标分布的未知序列(16 s rRNA)细菌基因在生物样品的解决方案。探测器放置在尼龙膜在不同的水平通道使用微型槽装置。16 s rRNA来自菌斑样本的基因扩增使用特定菌进行基因标记引物。杂交过程中进行垂直渠道与标记的扩增子Miniblotter装置(目标基因16 s rRNA) 45个样本。共有1350个杂交过程同时进行使用单一膜。执行标准chemifluorescence检测使用风暴成像系统(美国新泽西州Amersham,皮斯卡塔韦)。膜上的每个点,从他们的背景中提取的信号水平运用边缘检测方法(现货
7 ]。该方法定位地点周围的平均强度的轮廓,然后应用此为背景。背景,因此,独立地为每一个点,计算和信号水平(标准化意味着计数)独立计算为每个点(ImageQuant软件;美国新泽西Amersham,皮斯卡塔韦)。低质量的斑点也过滤质量控制,消除了背景噪声分析。通用探针被放置在两个车道在每个膜作为标准,和信号被转换为水平意味着数量与标准相比膜。信号水平然后调整比较丰富的通用控制探针。这种方法允许计算目标物种的丰度分别通过调整每个样本的DNA浓度。
2.5。唾液取样
Paraffin-stimulated全唾液样本收集9到12点。从儿童避免吃喝2 h。唾液收集了与孩子们坐着,头稍向前倾斜,睁开了眼睛一段2分钟。样本收集在冰上,他们立即在13000转离心5分钟去除不溶性材料,和所有在4°C程序进行。上层清液取出来放在埃普多夫管被储存在−80°C。
2.6。女士的蛋白质组学分析唾液样本
Cy染料都购自Amersham淀粉微球生物科技(美国新泽西州Picataway)。解冻唾液样本处理在4°C。两种类型的芯片具有不同表面亲和中使用的协议。CM10和Q10阴离子交换ProteinChip (Ciphergen生物系统公司,弗里蒙特,加州,美国)表面与150年被平衡
μ L具有约束力的缓冲区(100毫米Tris-Hcl, pH值9.0)。个人唾液样本混合变性缓冲区(9 M尿素和皮套裤2%),在一个比2:3。每一个变性的样品(10
μ L(每个)应用于重复了90
μ L绑定缓冲的预平衡芯片。ProteinChip数组孵化了60分钟在室温下剧烈的颤抖,洗两次为5分钟每个绑定缓冲,紧随其后的是两个与蒸馏水洗。数组是干在室温下15分钟后跟两个补充(1
μ L) 50%的解决方案sinapinic酸(σ)准备在50%乙腈和0.5%三氟乙酸(组织)。样品处理,包括沉积矩阵,进行Biomek 2000自动化工作站(美国加州千橡市,beckman coulter)使用两个96孔Bioprocessors (Ciphergen)。样本分析使用SELDI-TOF-MS(蛋白质生物学系统II, Ciphergen生物系统公司)。每个芯片被击中两次不同激光强度(高低)。所有光谱由130年平均激光枪和外部校准使用标准一体化的蛋白II (Ciphergen生物系统公司),包含七个calibrants 7和147 kDa之间。光谱数据处理同样使用Ciphergen Express 3.1数据管理软件。整个唾液蛋白质组数据由2组:caries-active儿童(
n
=
86年
)和caries-free儿童(
n
=
118年
)。相当于每组的儿童数量是相同的芯片类型和激光强度。
2.7。数据预处理女士
女士概要文件进行预处理和解释分析使用蛋白质组学数据分析软件包(PDAP)开发了匹兹堡大学
22 ),在MATLAB中实现(MathWorks Inc .) PDAP支持所有SELDI-TOF-MS数据分析步骤包括概要文件预处理,峰选择,单变量和多变量特征选择方法,分类、评估和验证方法。我们应用五个预处理步骤中实现PDAP:(1)方差稳定,(2)基线校正,(3)强度归一化、平滑(4),(5)剖面调整步骤(
22 ]。简而言之,我们应用以下PDAP预处理选择:立方根方差稳定化,PDAP基线减法常规基于当地的移动窗口宽度200跨度为,总离子电流正常化的范围限制在1500 - 16500道尔顿,高斯核平滑,peak-based动态编程对齐。没有一个概要文件用于研究表现出总离子电流(TIC)值的两个标准差以上不同的意思是抽搐,这是我们当前的质量控制方面/质量控制阈值样本排除。预处理后,复制光谱为每个病人平均来创建一个每个病人平均分布。
2.8。峰女士选择
大多数的蛋白质组学数据分析文献中限制他们的注意力只有信息信号的峰值。执行峰选择,我们应用两阶段过程中实现PDAP [
22 ]。程序首先确定峰值位置;后来,它在每个概要文件分配强度等职位。的
峰鉴别阶段 与平均概要文件获得的平均训练数据中的所有资料。方法足够健壮,即使一个特定峰值不是记录在所有配置文件,而它往往平均随机信号波动。峰值检测过程依赖于当地的最大窗口位置的方法被认为是只有最大峰值对信号在其附近。来
强度值分配给每一个峰值 在一个配置文件中,我们使用读数的平均值在当地社区的峰值位置。这种方法减少了的机会在一个嘈杂的阅读
米
/
z
的位置。通过这些技术,我们减少每个孩子的频谱的峰值位置及其强度。山峰的范围内1500年和40000年哒。这让我们专注于一个更少吵,更有意义的部分质谱。
2.9。统计分析的数据
微生物蛋白质组学数据分析了使用单变量和多变量统计方法在蛋白质组学中实现数据分析软件包(PDAP) [
22 ]。分类方法被用来确定细菌水平存在差异caries-free和caries-active科目或搜索龋齿病的早期诊断标志物检测唾液。分别分析首先表现为每个数据类型。之后,结合蛋白质组和基因组数据进行了分析。
2.10。单变量分析
单变量分析的目的是确定功能(微生物物种或山峰女士)能区分和控制(caries-active和caries-free)配置文件。单变量的分数,允许比较相对的每一个潜在的生物标记物的存在。这些包括相关性、费雪,
t
统计数据,或卡方得分以及分数来自
P
值的统计测试。我们用一个分数基于Wilcoxon rank-sum测试在我们的分析。
2.11。多变量分析
多变量分析的目标是建立一个预测模型
f
:
X
→
Y
可以,高精度,分配正确的类标签Y(或控制)病人的测量(
X
)。与单变量分析所有概要文件特性及其组合。我们采用机器学习方法的模型从数据中学习和评价研究。
每个分类模型的质量验证通过使用随机重采样验证计划(
23 ,
24 ]。简单地说,我们的目标是评估预测模型的泛化性能,也就是说,它的性能在样品我们期望看到未来。因为这些不是可用,我们将数据提供给我们分成训练集和测试集。该模型总是学习训练集和测试集上进行了测试。70年的分裂:30用于将数据划分为训练集和测试集。一旦发达国家设置的学习模型,它是不会再修改。减少可能的偏见的机会由于幸运或不幸的分裂,随机二次抽样,和40个不同的分割方法(
23 )应用于评估模型的预测性能。平均统计数据包括测试报告错误,模型的敏感性和特异性。
许多不同的分类模型和算法适合学习任务存在。在这项工作中,我们报告两个分类模型的结果:线性支持向量机(SVM) [
25 - - - - - -
28 ]。所有这些方法应用于高维数据时相当强劲。此外,我们测试蛋白质组数据也支持向量机模型通过特性与先天特征选择过滤的基础上
P
价值Wilcoxon rank-sum测试。
3所示。结果
3.1。研究人群
总共204个孩子平均年龄为3.83±2.55年收到了口试,对微生物菌斑和唾液取样。父母/监护人报道,大多数孩子从未被牙医(> 96%),和那些见过牙医被认为仅供紧急护理。基于临床检查,118名儿童(60雌性,58岁女性,平均年龄为2.3±0.2岁)被确定为caries-free (caries-free组)与地基龋齿患病率(SBCPR) = 0),和86名儿童(40岁女性,46岁男性,平均年龄为6.02±0.2年)测定龋齿(caries-active组);没有一组现有的修复(意味着SBCPR =
17.23
%
±
10.70
%)。
3.2。微生物的分析数据
图
1 显示了表达水平(丰富)的细菌种类或组caries-free和caries-active样本。我们看到,增加细菌物种的丰度水平或组左边和丰富的抑制水平的细菌种类或团体在右边显示疾病的发生(龋齿)。凭直觉,这些对应于社区的有益和有害的细菌。值得注意的是,物种等
变异链球菌 和乳酸杆菌常与龋齿不丰富caries-free儿童相对于caries-active孩子,而一个物种有益的物种的数量或不与龋齿等有关
链球菌/ oralis ,
链球菌肝病杂志 ,
链球菌cristatus 更丰富的caries-free孩子相对于caries-active的孩子。
图1
表达水平对细菌物种通过测量多路复用阵列技术。左边的面板显示所有caries-free患者细菌丰度的水平,而右面板将显示细菌丰度水平caries-active病人。面板的每一列代表了测量细菌丰度水平的一个病人。右边的每一行标记与相应的细菌物种或组。左边的颜色条显示丰富的水平。鲜艳的颜色显示特定的细菌丰度高水平测量。龋齿的指标表现出微分表达式caries-active与caries-free组。注意,前十行没有显示太多的表达式caries-free组中明显表达caries-active组。
图
2 说明了单变量的分布分数基于Wilcoxon rank-sum测试细菌阵列探测器的研究。排名前十的细菌种类或组根据一定的分数,和/或可能包括可能涉及龋齿发病和进展
s . parasanguinis a . defectiva美国缓和的/ oralis, g . haemolysans变异链球菌 乳酸杆菌,
放线菌 sp.应变B19SC Selemonas sp. EY047克隆,
Atobopium sp.克隆GW027,
Porphyromonas sp.克隆DS033。
图2
细菌的重要性探针根据个人的辨别力。种类的细菌种类或一组沿表示
y
设在。阴影酒吧的指示物种的重要性Wilcoxon rank-sum分数(分数计算
- - - - - -
日志
P
,在那里
P
是
P
值的测试)。更大的重要性表明一个更大的倾向的水平的细菌硬币或组差异表达的caries-free兑caries-active组。
美国parasanguinis 似乎是最差异表达细菌标记的龋齿,紧随其后
Abiotrophia defectiva。
3.3。多元分类分析
多变量分析探索三种多元分类模型的预测性能表明,测试误差分类性能变化在8.4% - -15.65%之间,敏感性和特异性82%和87.5%之间(表86.24%和94.91%
1 )。这些结果通过优化误分类错误。除了分类分析表
1 ,我们也不同误分类的成本获得中华民国的方法及其面积receiver-operator-characteristic (ROC) (ROC曲线下面积(AUC)统计(图
3 )。的三个模型测试随机森林分类器实现最佳性能。
表1
性能统计数据的三个(多元)分类模型建立微生物数据。平均误分类误差的优化模型(0 - 1)损失。统计数据包括测试误差的平均值和标准差,敏感性和特异性各自的分类器。平均值和标准偏差计算在40个不同的火车/测试随机二次抽样方法获得。
分类器
测试错误
灵敏度
特异性
“支持向量机”
15.65
%
±
3.87
%
81.98
%
±
6.65
%
86.24
%
±
5.12
%
支持向量机20 WLCX
11.77
%
±
23.674
%
86.05
%
±
7.36
%
90.11
%
±
4.59
%
“射频”
8.31
%
±
3.15
%
87.51
%
±
6.51
%
94.91
%
±
3.23
%
支持向量机:线性支持向量机。
支持向量机在前20名Wilcoxon峰值。
随机森林。
图3
接受者操作特征(ROC)曲线的三种分类方法建立微生物数据。ROC曲线反映之间的权衡caries-active检测的敏感性和特异性。更高的曲线通常显示一个更好的方法。曲线下的面积(AUC)统计总结了权衡不同的敏感性和特异性范围。随机森林模型似乎是最好的微生物分类模型数据。
图
4 展示了物种的重要性,随机森林分类器的性能使用提供的相对重要性度量方法。前25个物种和他们的分数。与单变量得分(见图
2 ),多元成绩评估功能的重要性在上下文的其他功能面板中。得分之间的差异可以解释物种间存在的相关性及其“可代换性”。在这种情况下,两个高度相关的生物标记物的相对重要性在多元面板可能减少。虽然有一些重叠,细菌在caries-active分类(如很重要
放线菌 应变B19SC,
变异链球菌 和乳酸杆菌)和caries-free团体(如
年代 。
parasanguinis ,
Abiotrophia缺陷 ,
美国可锻铁/ oralis )使用随机森林模型是不同的比认同Wilcoxon rank-sum分数(图
2 ),这表明可能存在临界龋齿和健康相关的生物膜微生物区系的变化,和定量变化(表示为丰富)在特定的细菌可能作为生物标志物。
图4
细菌的DNA探针的相对重要性分类caries-active和caries-free样本使用随机森林模型。列出了25个最重要的DNA探针,阴影酒吧显示其重要性。五个最重要的探测器
放线菌 应变B19SC,
变异链球菌 ,
链球菌parasanguinis ,
月形单胞菌属 sp。克隆EY047,
Abiotrophia defectiva 。
3.4。蛋白质组学数据的分析
作为第一步的分析,我们研究了女士资料用单变量统计方法。简单地说,每个概要物种被认定为其歧视caries-active和caries-free样本的能力。类似于微生物数据,非参数Wilcoxon rank-sum测试应用。图
5 说明了这个在statgram Wilcoxon rank-sum测试应用于女士资料后CM-10芯片。视图的范围被限制为11000 - 16000道尔顿。意思是概要文件为例和对照组也观察到。的Wilcoxon rank-sum分数是最大的特点,表现出一个大强度的差异意味着组概要。图
6 显示了前25名的分数Wilcoxon峰值。
Statgram的Wilcoxon rank-sum分数测量之间的表达差异蛋白质组学概要caries-active和caries-free组。(一):Wilcoxon rank-sum分数是绘制每个特性的蛋白质组学概要文件。更高的分数值表明一个更大的微分表达式之间caries-active和caries-free配置文件。(b):意思是蛋白质组学的情节概要caries-active集团。(c):意思是蛋白质组学的情节概要caries-free集团。两座山峰的概要文件是标有箭头。峰高的差异在箭头表明微分表达式并证实了在这些山峰的Wilcoxon得分更高的价值。
(一)
(b)
(c)
图6
蛋白质组学的重要性概要山峰根据个人的辨别力。质荷(
米
/
z
)的位置有识别力的山峰沿着表示
y
设在。阴影栏显示的重要性的峰值Wilcoxon rank-sum得分。更大的重要性表明一个更大的倾向特别概要峰值差异表达的caries-free兑caries-active组。最差异表达高峰出现在10214道尔顿,紧随其后的是峰值在9156道尔顿。
3.5。多元分类分析
表
2 显示性能统计数据获得的三个预测模型:支持向量机,支持向量机顶部100 Wilcoxon山峰,随机森林;在四个不同的数据集获得两个不同的芯片:CM-10 Q-10,每一个镜头有两个激光强度:高和低。代表平均测试结果误差、灵敏度和特异性。测试错误的22.73%至35.68%,这是比预期的错误在一个完全随机的分类器,45.6%。灵敏度范围从54.24%到75.82%,而特异性范围从69.80%到83.20%。
表2
性能统计数据的三种分类模型测试女士蛋白质组学数据。平均误分类误差的优化模型(0 - 1)损失。四个不同的数据集生成的女士的组合两个亲和力芯片(CM-10和Q-10)和两个强度仪器设置(高、低)进行了分析。统计数据包括测试误差的平均值和标准差,敏感性和特异性各自的分类器。平均值和标准偏差计算在40个不同的培训/测试通过随机二次抽样的方法。
“龋齿10厘米高”
测试错误
灵敏度
特异性
支持向量机
31.82
%
±
5.35
%
66.10
%
±
7.49
%
69.80
%
±
9.44
%
支持向量机100 WLCX
35.68
%
±
5.58
%
57.72
%
±
21.56
%
70.93
%
±
18.72
%
Rnd森林
32.95
%
±
5.74
%
54.24
%
±
12.29
%
79.17
%
±
10.84
%
“龋齿cm10低”
测试错误
灵敏度
特异性
支持向量机
28.23
%
±
5.82
%
69.83
%
±
8.19
%
73.81
%
±
9.62
%
支持向量机100 WLCX
26.68
%
±
5.78
%
73.64
%
±
11.66
%
73.55
%
±
10.66
%
Rnd森林
25.64
%
±
5.76
%
65.29
%
±
9.55
%
83.20
%
±
9.54
%
“龋齿q10高”
测试错误
灵敏度
特异性
支持向量机
25.91
%
±
4.88
%
73.31
%
±
6.87
%
75.05
%
±
8.14
%
支持向量机100 WLCX
25.91
%
±
4.88
%
73.31
%
±
6.87
%
75.05
%
±
8.14
%
Rnd森林
32.00
%
±
4.47
%
57.41
%
±
11.21
%
78.31
%
±
9.70
%
“龋齿q10低”
测试错误
灵敏度
特异性
支持向量机
22.73
%
±
3.93
%
75.82
%
±
9.62
%
78.88
%
±
6.94
%
支持向量机100 WLCX
26.14
%
±
4.85
%
71.91
%
±
13.00
%
75.45
%
±
9.07
%
Rnd森林
25.50
%
±
5.64
%
69.39
%
±
11.23
%
79.99
%
±
9.34
%
支持向量机:线性支持向量机。
支持向量机顶部100 Wilcoxon峰值。
随机森林。
四种类型的光谱分析两个似乎执行最佳光谱获得较低的激光强度设置。我们怀疑这是由于碎片的机会增加物种的高强度设置。图
7 显示了完整的ROC分析的结果低强度的数据集,CM-10低。随机森林模型似乎是最有效的分类方法。
图7
接受者操作特征(ROC)曲线的三种分类方法建立CM-10低强度蛋白质组学数据。ROC曲线反映之间的权衡caries-active检测的敏感性和特异性。更高的曲线通常显示一个更好的方法。曲线下的面积(AUC)统计总结了权衡不同的敏感性和特异性范围。标准差(sd)的统计也报道。随机森林模型似乎是最有效的分类方法。
分类分析的结果显示,这是绝对有可能观察到蛋白质组光谱区别的模式。然而,信号出现弱于信号中发现的微生物数据。这可以解释为SELDI-TOF-MS检测更可靠和可重复的蛋白质种类更加丰富的唾液标本。很可能一些高度区别的唾液蛋白质caries-active和caries-free组发生在较低的浓度,因此没有发现由于SELDI-TOF-MS固有的局限性,分析技术。
图
8 显示了分类精度的相对重要性的峰值随机森林模型的CM-10低数据集。只显示前25的山峰。功能重要性高的解释非常相关的分类任务,他们合作与其他功能面板。再一次,注意高峰物种数据之间的差异
8 和
6 独立:Wilcoxon rank-sum分数评估每一个峰值,而多元的方法,如随机森林的目标来评估每个峰值特性结合其他峰的特性。
图8
蛋白质组剖面峰的相对重要性分类caries-active和caries-free样本使用随机森林模型。质荷(
米
/
z
25)的位置(列出最重要的山峰
y
轴),阴影酒吧显示其重要性。
米
/
z
位置给出了道尔顿。注意,多元分类器的峰值位置的相对重要性可能不同于其个人的重要性(见图(一元)
6 )。
3.6。结合微生物和蛋白质组学数据分析
最后,为了确定微生物和蛋白质组数据是否包含协作信息,我们与病人和附加的微生物功能蛋白质组CM-10低的峰值特性列表数据。
3.7。多元分类分析
表
3 显示了分类统计获得的三种分类模型:支持向量机,支持向量机顶部100 Wilcoxon特性,和随机森林。合并两个数据集后,测试错误结果的范围从6.00%到16.05%,敏感性从76.52%提高到92.68%,和特异性从91.14%降至95.20%。特别好的结果的支持向量机模型局限于前100名Wilcoxon特性,平均收益率6%测试错误。
表3
三种分类模型的性能统计数据结合微生物和MS蛋白质组学数据进行测试。平均误分类误差的优化模型(0 - 1)损失。对于这个实验,只为CM-10低光谱数据集使用,结合微生物数据。统计数据包括测试误差的平均值和标准差,敏感性和特异性各自的分类器。平均值和标准偏差计算在40个不同的培训/测试通过随机二次抽样的方法。
分类器
测试错误
灵敏度
特异性
“支持向量机”
8.91
%
±
3.42
%
89.61
%
±
5.76
%
92.36
%
±
4.55
%
支持向量机100 WLCX
6.00
%
±
2.67
%
92.68
%
±
4.46
%
95.20
%
±
3.87
%
“射频”
16.05
%
±
6.26
%
76.52
%
±
9.63
%
91.14
%
±
7.76
%
支持向量机:线性支持向量机。
支持向量机在前20名Wilcoxon峰值。
随机森林。
结合和独立数据的比较结果表明,女士的结合蛋白质组学和微生物来源有利于结合数据的分类精度和改善预测模型caries-active和caries-free病人。特别是线性SVM分类器微生物数据错误降至16%和26%的蛋白质组学数据女士对合并后的数据大约9%。同样,一个功能受限的线性支持向量机(Wilcoxon特性过滤)从11%提高微生物蛋白质组学数据和26%数据合并后的数据6%的误差。唯一的标识符,并没有产生一个改进合并后的数据是随机森林。微生物的方法实现了9%的测试错误数据和32%,蛋白质组学数据,同时结合导致16%的测试错误。我们猜想的下降(从低测试错误微生物蛋白质组学数据更高的错误和组合数据)是高维数据的影响分类精度的随机森林模型:微生物数据集包括60特性而女士蛋白质组学数据集包括约2000的峰值。与此相比,支持向量机分类器的性能显得更加强劲的高维度数据。为了验证这一猜想我们运行随机森林分类器顶部100 Wilcoxon特性和获得的平均测试误差8.68%,敏感性87.78%,特异性94.45%,似乎支持我们的猜想。
结果类似性质的表
3 如果我们得到执行完整的ROC分析的三种方法(图
9 )和计算ROC曲线下的面积(AUC)统计。曲线下的面积表明,合并后的数据提高正确分类的支持向量机模型的能力情况和控制样品在不同类型的不同偏好下误分类错误。
图9
接受者操作特征(ROC)曲线的三种分类方法建立CM-10低强度蛋白质组学和微生物相结合的数据。ROC曲线反映之间的权衡caries-active检测的敏感性和特异性。更高的曲线通常显示一个更好的方法。曲线下的面积(AUC)统计总结了权衡不同的敏感性和特异性范围。标准差(sd)的统计也报道。支持向量机基于只有前100 Wilcoxon-scored功能似乎是最好的方法。
4所示。讨论
目前的研究是在一群年轻的孩子可能代表龋齿发展的自然历史的高危人群。虽然以前的流行病学和实验室研究表明,口腔唾液蛋白质组的微生物和组件发展龋齿的风险因素(
1 - - - - - -
4 ,
9 ,
10 ),使用高通量方法描述细菌生物被膜和唾液蛋白质组允许进一步的大规模临床抽样和测试来验证先前的研究。然而,口腔菌群和唾液蛋白质组都是复杂的,都是静态的。这项研究代表了一个应用程序的统计机器学习原理预测模型建设。我们采用相对高通量方法来收集口腔菌群和唾液蛋白质组、多路复用微生物数组和SELDI-TOF-MS剖析。使用这种方法,我们演示了这两种技术获得的实验数据携带信息用于识别caries-active caries-free精度高的患者。我们的结果表明,微生物数据比女士更强大的分类目的蛋白质组学数据,如果两个独立的数据源进行了分析。然而,两个数据源似乎也携带不重叠的信息,当他们相结合,提高分类性能和提高caries-free和caries-active病人的歧视。结合数据集的分析导致降低试验误差和提高敏感性和特异性(表
3 ,图
9 ),这表明来自不同数据源的数据最终可能允许识别更多的疾病临床上有用的生物标志物。
分子遗传学方法描述的出现健康和疾病的口腔菌群是揭示复杂的口腔生物膜(
29日 ]。使用16 s DNA分析是用来建立与不同站点相关的植物在口腔和指示植物特定细分市场的健康和疾病之间的不同。最近的研究描述caries-free口腔菌群和caries-afflicted个人表明微生物菌群与龋齿比原来想象的要更复杂和定量多个口腔微生物的相对量的变化可以导致龋齿的发展
6 - - - - - -
8 ]。鉴于口腔菌群的生物膜的概念与牙齿表面,这些发现并不意外。这种微生物场景的一个推论是,识别关键微生物不仅存在,而且也在健康和疾病状态定量改变可能导致临床上有用的生物标记的发展。当前的研究估计的数量相对水平82个细菌采样的齿面在健康和疾病,开发了一个模型来区分情况和控制敏感性和特异性为86%和90%,分别为(表
1 )。
龋齿是一个慢性的过程,也演示了一个双向的质量在疾病过程的早期。人口在当前的研究中,118年caries-free个人,10个人显示先前确定的caries-associated植物转移(
7 ]。我们分类模型预测,这些个体的微生物的状况是类似于caries-active群虽然临床上他们没有任何疾病的迹象。在随后的后续研究的临床检查人口一年之后,我们发现所有10个个体龋临床表现明显。这些发现表明,先前口腔菌群的变化与临床相关的龋齿先于疾病的临床表现。微生物表达数据建模的结果在最近的研究中,因此,可能被认为是相当不错的,因为有些人可能会出现临床健康,但展示与疾病相关的植物。
唾液的定量和定性方面长期以来被建议作为龋齿(病因学的因素
2 ]。证据表明,减少唾液流积极增加龋齿是实质性的,和相关性与自然疾病被发现,这样一个干燥综合征以及医源性诱导等州后放射治疗,切除唾液腺(
2 ]。证据为特定的唾液蛋白质作用分摊或龋齿过程中保护较不确定
11 ,
30. ]。困难的一部分可能与这一事实有关某些唾液蛋白质的丰度很难识别的蛋白质水平的变化出现在低得多。SELDI-TOF-MS提供了一个简单但高通量和非常敏感的蛋白质组学的方法,可以让蛋白表达分析大型的复杂的生物标本的
13 ]。重要的是,这种方法允许评估低质量的蛋白质(< 10 kDa),这是通过其他方式难以有效地分析。虽然SELDI-TOF-MS确实允许评估一个潜在的广泛的蛋白质,它有一定的局限性,包括无法识别特定的蛋白质。SELDI-TOF-MS已成功用于检测唾液生物标记(
31日 ,
32 ]。评价SELDI-TOF-MS蛋白质峰区分情况和控制导致了一个公平的模式,但不如微生物数据集。我们相信该模型可以提高能力检测和识别特定的蛋白质包括那些存在于少量唾液。目前正在努力的唾液蛋白质组,应该允许识别和量化的唾液蛋白质高通量的方式(
17 ,
19 ,
33 ]。
这项研究的目标是确定从微生物和蛋白质来源的数据可以提高可预见性和灵敏度和减少误差相对于单个微生物或蛋白质组学模型。我们目前的研究结果表明,这是,实际上,(表
3 )。这些发现符合口腔微生物病原学的作用,唾液蛋白质也表明,这些因素是相互独立的。这些发现表明,表征微生物和唾液蛋白质组可以提供更好的预测价值个人发展儿童龋齿的风险的识别。识别这些微生物和蛋白质组变量也可能允许一个更加精炼的潜在疾病过程的理解和阐明重要的病原学的因素重要的转变从健康和疾病。这些数据可能允许识别那些没有开发临床疾病但谁体现微生物和唾液生物标志物特征,表明他们在患该疾病的风险。这将允许干预状态发生前症状。这是尤其重要的早期儿童龋齿,随着疾病被认为是可逆的早期阶段(
34 ]。进一步细化临床上有用的微生物和唾液生物标记将帮助风险评估和治疗靶点的识别。此外,这些生物标志物分析可能提供治疗端点允许的决心成功治疗微生物和蛋白质组配置文件修改与龋齿易感性相关。
5。结论
我们演示了使用相对高通量方法描述幼儿口腔菌群和唾液蛋白质组儿童龋齿的危险。使用一个统计机器学习方法,我们演示了这两种技术获得的实验数据携带信息用于识别caries-active caries-free精度高的患者。我们的结果表明,微生物数据比女士更强大的分类目的蛋白质组学数据,如果两个独立的数据源进行了分析。然而,两个数据源似乎也携带不重叠的信息,当他们相结合,提高分类性能和提高辨别力龋齿自由和龋齿活跃的病人。结合数据集的分析导致减少测试误差和改进的敏感性和特异性,表明来自不同数据源的数据最终可能允许识别更多的疾病临床上有用的生物标志物。
识别这些微生物和蛋白质组变量最终可能允许一个更加精炼的潜在疾病过程的理解和阐明重要的病原学的因素重要的转变从健康和疾病。这些数据可能允许识别那些没有开发临床疾病但谁体现微生物和唾液生物标志物特征,表明他们在患该疾病的风险。这将允许干预状态发生前症状。这是特别重要的儿童早期龋齿随着疾病的早期阶段被认为是可逆的。进一步细化临床上有用的微生物和唾液生物标记将帮助风险评估和治疗靶点的识别。此外,这些生物标志物分析可能提供治疗端点允许的决心成功治疗微生物和蛋白质组配置文件修改与龋齿易感性相关。
确认
作者承认NIDCR的校内项目的支持,国家卫生研究院的贝塞斯达,医学博士,20892年美国,从NIDCR批准号DE15315。
[
]1
诊断和管理龋齿的整个生命历程
美国国立卫生研究院的发展共识会议上声明,2001年3月代谢途径
牙科教育杂志
2001年
65年
10
1162年
1168年
[
]2
Selwitz
r·H。
伊斯梅尔
答:我。
皮特
n . B。
龋齿
《柳叶刀》
2007年
369年
9555年
51
59
2 - s2.0 - 33845876245
10.1016 / s0140 - 6736 (07) 60031 - 2
[
]3
:
w·J。
变形链球菌的作用在人类牙科衰变
微生物学检查
1986年
50
4
353年
380年
2 - s2.0 - 0022993292
[
]4
范Houte
J。
微生物在龋齿病因中的作用
牙科研究杂志》
1994年
73年
3
672年
681年
2 - s2.0 - 0028390494
[
]5
詹金森
h·F。
拉蒙特
r . J。
口腔微生物群落在疾病和健康
微生物学的趋势
2005年
13
12
589年
595年
2 - s2.0 - 27844560086
10.1016 / j.tim.2005.09.006
[
]6
贝克尔
m·R。
贴纸
b . J。
草地的
e . J。
Moeschberger
m . L。
凯尼恩
s G。
加尔文
j·L。
德国人
美国K。
Dewhirst
f·E。
公司
a . L。
分子分析与儿童龋齿的细菌物种
临床微生物学杂志
2002年
40
3
1001年
1009年
2 - s2.0 - 0036197764
10.1128 / jcm.40.3.1001 - 1009.2002
[
]7
寇比
p . M。
Lyons-Weiler
J。
亲眼见识
w·A。
哈特
t . C。
原子吸收光谱法
j . A。
Boumenna
T。
戈斯
J。
寇比
a . L。
初级
h . M。
Weyant
r . J。
贴纸
b . J。
早期儿童龋齿的微生物风险指标
临床微生物学杂志
2005年
43
11
5753年
5759年
2 - s2.0 - 27744460229
10.1128 / jcm.43.11.5753 - 5759.2005
[
]8
李
Y。
通用电气
Y。
Saxena
D。
kpcb风险
p W。
口腔微生物群与严重的遗传分析幼儿龋齿
临床微生物学杂志
2007年
45
1
81年
87年
2 - s2.0 - 33846227887
10.1128 / JCM.01622-06
[
]9
Lenander-Lumikari
M。
Loimaranta
V。
唾液和龋齿
牙科研究进展
2000年
14
40
47
2 - s2.0 - 0034584168
[
]10
范Nieuw Amerongen
一个。
Bolscher
j·G。
Veerman
e . C。
唾液蛋白质:保护和诊断价值在牙体?
龋齿研究
2004年
38
3
247年
253年
2 - s2.0 - 2642515362
10.1159 / 000077762
[
]11
Vitorino
R。
洛沃
m . j . C。
杜阿尔特
j . R。
Ferrer-Correia
a·J。
domingue
p . M。
阿马多
f . m . L。
唾液肽在龋齿的作用
生物色谱法
2005年
19
3
214年
222年
2 - s2.0 - 17244380710
10.1002 / bmc.438
[
]12
曼德尔
i D。
唾液的作用在维持口腔内稳态
《美国牙科协会杂志》上
1989年
119年
2
298年
304年
2 - s2.0 - 0024710202
[
]13
Schipper
R。
raymond.schipper@wur.nl
转舵
一个。
de Groot
J。
Harthoorn
l
Dransfield
E。
范Heerde
W。
SELDI-TOF-MS唾液:方法和预处理效果
《色谱B:分析技术在生物医学和生命科学
2007年
847年
1
45
53
10.1016 / j.jchromb.2006.10.005
[
]14
奥本海姆
f·G。
萨利赫
E。
Siqueira
w . L。
张
W。
Helmerhorst
e . J。
唾液蛋白质组及其基因多态性
纽约科学院上
2007年
1098年
22
50
2 - s2.0 - 34248163950
10.1196 / annals.1384.030
[
]15
阿马多
f . m . L。
Vitorino
r·m·P。
domingue
p . m . d . N。
洛沃
m . j . C。
杜阿尔特
j·a·R。
人类唾液蛋白质组的分析
蛋白质组学的专家审查
2005年
2
4
521年
539年
2 - s2.0 - 23844448398
10.1586 / 14789450.2.4.521
[
]16
胡
年代。
李
Y。
王
J。
谢
Y。
Tjon
K。
Wolinsky
l
厕所
r . r . O。
厕所
j . A。
黄
d . T。
人类唾液蛋白质组和转录组
牙科研究杂志》
2006年
85年
12
1129年
1133年
2 - s2.0 - 33845577807
10.1177 / 154405910608501212
[
]17
黄
d . T。
唾液诊断由纳米技术、蛋白质组学和基因组学
美国牙科协会杂志》上
2006年
137年
3
313年
321年
2 - s2.0 - 33645035375
[
]18
Streckfus
c F。
Bigler
l R。
唾液作为诊断液体
口腔疾病
2002年
8
2
69年
76年
2 - s2.0 - 0036215665
10.1034 / j.1601-0825.2002.1o834.x
[
]19
胡
年代。
厕所
j . A。
黄
d . T。
人体液蛋白质组分析
蛋白质组学
2006年
6
23
6326年
6353年
2 - s2.0 - 33845572150
10.1002 / pmic.200600284
[
]20.
Tabak
l。
现场即时诊断输入口
纽约科学院上
2007年
1098年
7
14
2 - s2.0 - 34248162027
10.1196 / annals.1384.043
[
]21
Kaste
l . M。
Selwitz
r·H。
Oldakowski
r . J。
布鲁
j . A。
韦恩
d . M。
布朗
l . J。
冠龋在儿童和青少年的主要和永久齿列17岁:美国,1988 - 1991
牙科研究杂志》
1996年
75年
631年
641年
2 - s2.0 - 0030307194
[
]22
Hauskrecht
M。
Pelikan
R。
Malehorn
d E。
Bigbee
w . L。
Lotze
m . T。
Zeh
h·J。
惠特科姆
d . C。
Lyons-Weiler
J。
特征选择的分类SELDI-TOF-MS蛋白质组配置文件
应用生物信息学
2005年
4
4
227年
246年
2 - s2.0 - 28444459515
10.2165 / 00822942-200504040-00003
[
]23
维斯
s M。
Kulikowski
c。
学习计算机系统:从统计分类和预测方法,神经网络、机器学习、专家系统
1991年
美国加州圣马特奥市
m·考夫曼出版商
[
]24
埃夫隆
B。
Tibshirani
R。
介绍了引导
1993年
纽约,纽约,美国
查普曼&大厅
[
]25
Vapnik
v . N。
统计学习理论的本质
1995年
纽约,纽约,美国
施普林格
[
]26
Burges
C . j . C。
关于支持向量机的教程进行模式识别
数据挖掘和知识发现
1998年
2
2
121年
167年
2 - s2.0 - 27144489164
[
]27
Scholkopf
B。
Smola
a·J。
学习与内核:支持向量机,正规化,优化和超越
2002年
美国马萨诸塞州剑桥市
麻省理工学院出版社
[
]28
Breiman
l
随机森林
机器学习
2001年
45
1
5
32
2 - s2.0 - 0035478854
10.1023 /:1010933404324
[
]29日
贴纸
b . J。
德国人
美国K。
加尔文
j·L。
Ericson
r·E。
刘
c . N。
Levanos
诉。
Sahasrabudhe
一个。
Dewhirst
f·E。
在人类龈下的菌斑细菌多样性
细菌学期刊
2001年
183年
12
3770年
3783年
2 - s2.0 - 0034992657
10.1128 / jb.183.12.3770 - 3783.2001
[
]30.
Ayad
M。
范Wuyckhuyse
b . C。
Minaguchi
K。
Raubertas
r F。
贝蒂
g S。
比林斯
r . J。
博文
w·H。
Tabak
l。
基本协会脯氨酸肽从人类腮腺分泌物与龋齿的经验
牙科研究杂志》
2000年
79年
4
976年
982年
2 - s2.0 - 0034438936
[
]31日
Streckfus
c F。
Bigler
l R。
茨威格
M。
使用表面增强激光解吸/电离飞行时间质谱检测唾液中假定的乳腺癌标记:一个可行性研究
口腔病理学和医学杂志》上
2006年
35
5
292年
300年
2 - s2.0 - 33645728160
10.1111 / j.1600-0714.2006.00427.x
[
]32
Ryu
o . H。
阿特金森
j . C。
Hoehn
g . T。
Illei
G·G。
哈特
t . C。
干燥综合征腮腺唾液鉴定生物标记物的表面增强激光解吸/电离飞行时间质谱和二维凝胶电泳的区别
风湿病学
2006年
45
9
1077年
1086年
2 - s2.0 - 33749639880
10.1093 /风湿病学/ kei212
[
]33
谢
H。
Rhodus
n . L。
格里芬
r . J。
carli
j . V。
格里芬
t·J。
人类唾液蛋白质的目录被自由流动electrophoresis-based肽分离和串联质谱分析
分子和细胞蛋白质组学
2005年
4
11
1826年
1830年
2 - s2.0 - 28644452554
10.1074 / mcp.D500008-MCP200
[
]34
阿诺德
w·H。
Dorow
一个。
Langenhorst
年代。
Gintner
Z。
Banoczy
J。
Gaengler
P。
含氟牙膏对釉质脱矿的影响
BMC口腔健康
2006年
6日,第八条
2 - s2.0 - 33747329064
10.1186 / 1472-6831-6-8