文摘

结直肠癌是癌症死亡率的主要原因在发达国家和发展中国家。将基础研究的成果转化为临床实践是转化研究的主要任务之一,这将极大地提高结直肠癌的诊断和治疗。摘要大肠癌转化研究平台,名叫crcTRP,介绍。crcTRP服务于结直肠癌转化研究提供各种类型的生物医学信息与结直肠癌相关社区。信息,包括临床资料、流行病学数据,单独的组学数据,和公共组学数据,收集通过多源生物信息采集解决方案然后集成在clinic-omics数据库中,这是由EAV-ER模型的灵活性和效率。初步探索crcTRP一一进行转化研究和制定一套clinic-genomic关系实现的,连接的临床数据和基因组数据。这些关系也被应用于crcTRP更导电癌症转化研究。

1。介绍

如今,癌症仍然是危及人类生命的主要疾病之一。美国癌症协会的报道,总共有1638910新癌症病例和577190人死于癌症将发生在2012年美国(1]。在所有种类的癌症,直肠癌是癌症死亡的第二大原因在美国和中国的第五大原因(2,3]。尽管研究集中在结直肠癌的分子机制已经取得了很大的进步,有效的早期诊断和治疗临床测量仍然非常稀缺由于实验室研究和临床实践之间的差距。因此,开展转化研究具有重要意义,它可以促进大肠癌基础研究成果的转化到临床实践(4),减少结直肠癌的死亡率。

高效、方便地获得所需的数据转化研究的顺利开展的必要性。然而,生物医学数据通常存储在异构数据库使用不同的术语,因为它们是生成在几个领域包括临床实践、流行病学调查和实验室研究由不同的机构。有效地组织和管理各种类型的生物医学数据,然后分享这些数据通过一个公共的数据采集平台可以帮助研究人员克服困难,这将为结直肠癌转化研究贡献很多。

在这项研究中,我们开发了一个转译研究平台,名叫crcTRP,旨在加速转化研究结直肠癌。crcTRP由多源生物信息采集解决方案,clinic-omics数据库,和一个门户网站。多源生物信息采集解决方案专注于获取不同类型的生物医学信息从不同的数据源与结肠癌有关。clinic-omics数据库开发集成不同类型的数据通过信息采集解决方案合理有效。而门户网站旨在分享整个信息我们收购了医生,分子生物学家,和其他研究人员与结直肠癌相关转化研究。使用crcTRP所提供的信息,然后生成一组clinic-genomic关系基于uml (5),这是一个典型的例子说明可以做出什么贡献的crcTRP转化研究。这些关系被应用为转化研究crcTRP以使它更好。

2。方法

首先,提出了一种多源生物信息采集解决方案收集各种生物医学数据与结直肠癌相关,包括临床资料,流行病学数据,单独的组学数据,公共组学数据。第二,clinic-omics数据库构建组织和管理获得的数据集。第三,门户网站是为了分享获得的信息在各种研究人员与结直肠癌相关转化研究。最后,我们提出了一种数据挖掘方法从crcTRP clinic-genomic映射关系。

2.1。收购多源生物信息

多源生物信息的采集包括临床信息收集基于snom CT (6),流行病学数据收集内部web应用程序的基础上,单独的组学数据收集基于MIAME [7),并基于人类[公共生物医学数据收集8]。

2.1.1。基于snom CT临床数据采集

卫生信息技术的快速发展,电子医疗记录系统(EMR系统)已广泛应用于医院。这样,对我们来说是可能的电子收集临床数据。我们设计了一个数据采集接口收集鉴定临床数据从这些电子病历系统。私人信息,如姓名、出生日期和医疗记录ID被移除,这样病人不能直接识别。相同的临床概念可能有不同的表达在不同的信息系统,这将减少数据利用的效率。所以我们使用snom CT编码标准化的临床信息。作为一个复合的概念系统,snom CT为建立新的生物医学提供了一个成分的语法概念。这个特性使得snom CT存在复杂的临床概念适当的关于结直肠癌。概念已经包含在snom CT precoordinated,概念不包括postcoordinated。例如,“左腹部剧烈疼痛”不能直接表达在snom CT使用概念,但它可以postcoordinated:21522001 |腹痛|:272741003 |一侧| = 77710000 | |,246113005 | | =严重性246113005 | |严重。

2.1.2。基于内部Web应用程序的流行病学数据采集

流行病学数据可以帮助我们全面了解高危人群的饮食习惯、个人病史、家族疾病史和其他因素,可能会导致疾病。我们开发了一个基于web的结直肠癌流行病学数据采集系统。与浏览器/服务器体系结构设计,该系统可以加载几个移动平台。此外,通过使用HTML5的高级功能包括新的客户端存储方法和离线web应用程序(9),这个系统可以在移动设备上工作顺利,即使在没有网络连接的地方。一旦系统被加载到一个移动设备,研究人员可以使用移动设备收集流行病学数据在身边,社区或其他地区的highincidence结直肠癌(通常是偏远山区)没有担忧的互联网连接。

2.1.3。基于MIAME个人组学数据采集

由于平移信息学是准备彻底改变人类健康和医疗使用大规模测量对个人(10),巨大的个人组学数据将成为预期。Biospecimens个人组学数据的物理资源。好的注释biospecimens将帮助科学家来验证他们的研究和相关的发现与相关的病理和临床注释。收集标本通过相对标准化的过程可以获得更多有用的和有效的注释信息。因此,我们开发了一个信息管理系统biospecimen和单独的组学数据的收集个性化基因组数据以及他们的注释信息。我们的管理程序标本灵感来源于caTissue [11),一个caBIG biospecimen信息系统(12),而收集到的个人组学数据是为了满足MIAME指南,这轮廓的最小信息微阵列实验。

2.1.4。基于人类公共生物医学数据采集

高通量技术的迅速发展,大量的分子生物学数据,如核酸和蛋白质数据已经出现。此外,由于共享文化在这一领域,数据现在越来越公开(13]。然而,分子生物学数据在不同类型通常是存储在不同的数据库中,这使得它不方便研究人员利用这些数据全面。我们提出了一个方案从这些数据库中提取关于结直肠癌的人类。人类,全面、权威的人类基因和遗传表型的汇编,是免费的,经常更新。首先,我们使用关键字搜索基因与大肠癌相关组合”(结肠或结直肠或结肠或直肠)和(癌症或癌或腺瘤)”在人类。我们有限的搜索字段标题和等位变异,考虑到标题和等位变异领域associates提供的内容与相应的主题最接近(14]。第二,我们寻找蛋白质id和文章id使用获得的基因id文件提供的NCBI [15),关于基因和其他生物医学数据之间的关联。最后,我们提取基因,蛋白质,从公共生物医学文献信息与结直肠癌相关基因(包括NCBI数据库16],RefSeq [17],PubMed [18],Swiss-Prot [19在前两个步骤)使用IDs获得。

2.2。Clinic-Omics数据库建设

通过收集的数据多源生物信息采集解决方案可以分为个人信息和公共信息。围绕患者个人信息意味着信息,包括临床资料,流行病学数据,和个人的组学数据。公共信息是指从耻骨生物医学数据库收集的信息,包括基因、蛋白质和文献信息。公共信息中心在组学数据。

有效地管理数据库中所有的数据,我们分析了这些数据的特点。随着分子生物学技术的快速发展,新的生物标记的属性或新的生物标记将会发现毫无疑问,导致个别组学数据的动态特性。同时,一定不可能病人临床资料的所有项目,这表明症状和检查等临床资料结直肠癌是稀疏的。例如,不是所有的病人需要接受核磁共振检查,导致相应的数据项传统数据库中记录测试结果在大多数情况下是空的。相反,我们获得的流行病学数据和公共信息是相对稳定的。传统的ER模型不适合临床组学数据的动态和稀疏的特性,因为固定的数据库模式。由模型,基于entity-attribute-value记录数据,更灵活,能够存储的优势有效地动态和稀疏数据(20.]。然而,当谈到attribute-centered查询,在转化研究最常见的查询模式,由模型的效率不及传统ER模型。因此,我们引入EAV-ER混合模型,它结合了上述两种模型的优点,构建clinic-omics数据库。由表设计动态和稀疏数据的传统而相对稳定的数据存储在表中。

clinic-omics数据库中的数据关系如图1。个人信息被组织使用患者ID,而公共信息被组织利用基因ID。个人信息与个人的组学数据的公共信息通过基因ID。

2.3。门户网站的设计

临床医生和基础研究人员之间共享综合生物医学信息并不意味着提供简单的数据访问。合理的信息分布布局应考虑人员快速查找他们的预计数据。我们设计了一个web门户框架如图2来满足这个要求。

主页概述的门户网站和新闻报道的链接在结直肠癌转化研究的最新研究进展。crcTRP信息查询引擎的门户网站由标准查询和高级查询,以满足不同的查询需求。此外,由于不同的研究人员可能专注于不同的信息项,查询结果被设计为可配置的。他们感兴趣的研究人员可以下载数据,以供将来使用。患者信息的集成视图提供了一个简易的选择病人的完整信息,包括临床信息,流行病学调查结果和个性化的分子生物学信息。公共图书馆生物医学信息提供结直肠癌的研究人员与系统的知识。在图书馆的信息可以通过两种不同的方式。一个是点击某个基因在基因列表中。另一种是点击某个基因在染色体图,描述了基因的分布高度相对与结直肠癌在各染色体。基因在染色体图提取人类使用2.1节中描述的方法。

2.4。基于uml Clinic-Genomic信息映射

临床数据和基因数据之间的关系可能会建立一个临床实践和基础研究之间的桥梁,这是一个关键的任务转化生物信息学(21]。获得各种各样的信息使用源生物医学信息解决方案可用于潜在clinic-genomic关系挖掘。uml或统一医学语言系统,是一套文件和软件,汇集了许多健康和生物医学词汇表和标准。uml涵盖了丰富的生物医学临床领域和分子生物学领域的概念。各种这些概念之间的关系也记录在uml,沉箱基础为我们实现clinic-genomic信息映射。在本地安装uml将产生一系列的RRF(富发布格式)文件,包括MRCONSO。RRF, MRREL。RRF, MRCOC。RRF, MRSTY.RRF。MRCONSO。RRF列出所有的概念;MRREL。RRF contains information about the relationship between two concepts; MRCOC.RRF records cooccurring concepts; and MRSTY.RRF contains the semantic information on the concepts [22]。映射两种方法,即直接信息和间接信息通过疾病映射,提出了基于uml的映射信息。映射方法如图3

3(一个)说明了信息直接映射方法。首先,搜索MRCONSO。崔RRF与源概念(概念惟一标识符)源的概念。第二,搜索MRREL。RRF MRCOC。RRF获得概念与崔概念使用获得的来源。最后,搜索MRSTY。RRF文件获得概念的语义类型发现在第二步中,挑选出的概念与所需的语义类型。为此,源概念映射到挑选出的概念。这种方法可以用于各种各样的信息映射。至于clinic-genomic信息映射,使用基因概念,被称为G基因提取人类使用2.1节中描述的方法。 Clinical concepts used here, called C, are clinical items selected from clinical information acquired also using method described in Section 2.1. Since the clinical information we collected has been coded using SNOMED CT, concepts in C are lots of SNOMED CT codes.

两种类型的直接信息映射,映射从基因组到诊所或反过来,由映射方向彼此区分开来。当源概念从G基因的概念,目标直接信息映射的概念也包括在C是映射到基因组的概念。同样,当源概念是临床的概念从C,目标直接信息映射的概念还包括在G映射到临床的概念。

基因组从微观方面,反映了疾病的信息表明疾病的机制。与此同时,临床从宏观方面,反映了疾病的信息记录症状或疾病的表现。因此,疾病的概念可以用来与临床数据和基因组数据。间接映射通过疾病的过程概念图所示3 (b)。首先,疾病概念映射到基因组的概念,命名为U1,得到使用直接映射方法通过选择与疾病概念语义类型在最后一步的直接信息映射。第二,疾病概念映射到临床概念,命名为U2,也使用同样的方法获得。然后,如果一种疾病与结直肠癌相关概念介绍U1和U2,基因组的概念被认为是映射到临床的概念。

3所示。结果和讨论

结直肠癌转化研究平台,名叫crcTRP,发达国家和许多clinic-genomic关系发现基于提供的信息平台。几种生物医学数据收集使用多源生物信息采集解决方案和集成在clinic-omics数据库中。crcTRP为结直肠癌服务转译研究通过共享这些数据通过一个统一的门户网站。这些clinic-genomic关系的初步探索的功能平台,已经被用来与病人的全面信息的集成视图生物医学信息与公共图书馆的门户网站crcTRP,丰富crcTRP回报。更多潜在的研究成果有望获得crcTRP的用户。

3.1。crcTRP

crcTRP由如下三个部分组成。

3.1.1。一个多源生物信息采集解决方案

根据2.1节中描述的方法,信息收集解决方案能够收集临床资料,流行病学数据,单独的组学数据以及公共组学数据。我们有全面的数据收集目前结直肠癌患者超过150人。此外,共有384个数据项相关的临床和流行病学信息编码使用snom CT。流行病学使用我们的流行病学问卷调查收集的信息系统涵盖了病人的饮食习惯、个人病史、家族疾病史,和其他癌症的危险因素。总共有62个基因与大肠癌相关提取人类,包括BRAF [23]和APC [24),结肠直肠癌的两个重要的生物标志物。此外,54提取蛋白质和结直肠癌相关2006篇文章从公共生物医学数据库使用62个基因。

3.1.2。Clinic-Omics数据库

数据库的功能整合临床和组学数据。数据获得使用多源信息采集解决方案已经存储在这个数据库中,这说明数据库的集成功能。EAV-ER模型,数据库足够灵活,能够适应动态和生物医学数据的稀疏性质,同时保证attribute-centered查询的效率。例如,生物材料和生物材料和生物标志物是实体可能有几个生物标志物。我们建立两个表命名为“生物材料”和“Gene_Biomarker”代表生物材料和生物标志物,分别。显然,“生物材料”和“Gene_Biomarker”形成一个典型的ER模型。基因序列和突变状态是两种常见的生物属性。在表“Gene_Biomarker”,列“序列”和“Is_Mutation”被用来记录相应的属性根据ER模式,这有利于attributed-centered查询。然而,随着分子生物技术的迅速发展,无疑会发现新的属性。为了记录这些新属性,无需修改数据库架构,我们设计了两个表,“New_Gene_Biomarker”和“New_Gene_Biomarker_Attribute。”“New_Gene_Biomarker”被设计成一个由表,包括三列记录实体,属性和值。 New attribute can be expressed via referring the primary key of table “New_Gene_Biomarker_Attribute” by “New_Gene_Biomarker.” This way, both ER model and EAV model are employed, forming the mixed EAV-ER model, to achieve the best performance as much as possible. The clinic-omics database was implemented in SQL Server 2008 with a total of 174 data tables, of which 19 for clinical data, 50 for epidemiology data, 99 for individual omics data, and 6 for public biomedical information.

3.1.3。一个门户网站

门户网站是用ASP开发的。净在微软Visual Studio 2010和部署在IIS服务器。它可以通过访问http://60.191.25.26:8088。这个门户网站是有用的临床研究和分子生物学家。临床研究人员,他们可以学习结直肠癌的分子机制,这可能会导致更好地了解有关诊断、治疗和预后的结肠直肠癌。分子生物学家,他们可以研究基因的功能和表型和分子通路。图4显示了一些门户网站的截图(红色注释和蓝色箭头将在稍后解释)。图4(a)的集成视图是某个病人的综合信息。覆盖的信息集成视图包括病人基本信息、流行病学资料、临床信息和分子信息。左边的树视图可以使研究人员迅速正确的部分。图4(b)显示了一个基因列表,它是公共信息图书馆的入口之一。点击列表上的任何一个记录来选择基因的详细信息,如图4(c)。详细信息集成了基因,蛋白质,文学和其他信息,给研究者一个系统的知识。

3.2。一组Clinic-Genomic对大肠癌的关系

共有50个临床信息项和62个基因选择从clinic-omics数据库,形成C和G 2.4节中提到的,被用于映射的信息。使用直接的映射方法,我们发现170临床数据和基因数据之间的关系,142年从基因组到诊所和28从诊所基因组。使用间接的映射方法,我们发现611的关系。结合所有这些映射的结果,我们共有781名候选人clinic-genomic生成对大肠癌的关系,而不考虑之间的重叠关系产生直接法和间接法。

出现在同一篇文章中,一个临床的概念和一个基因组的概念可以视为对方在某些方面相关。基于这个想法,我们提出了一个验证方法选择的关系更加紧密联系的关系通过搜索文章发表。PubMed [18)是应用最广泛的生物医学文献检索系统。大多数文章在PubMed分配给医学主题词(网)25),控制词汇的同义词典索引术语的层次性的,它提供了一种一致的方式找到引用,即使作者为相同的概念(使用不同的术语26]。此外,使用网格可以提高搜索的效率,这意味着检索少无关紧要的引用(26]。

考虑到以上因素,具体方案我们关系的验证方法是在网上搜索PubMed数据库基于网本体。验证过程如图5。考虑到两个概念, ,形成一个成对的关系 。来验证这个关系,网状 ,表示 分别由搜索MRCONSO提取。崔RRF从uml使用 。然后,通过NCBI E-utilities执行在线文献检索,PubMed提供的一个程序。搜索关键字被定义为“ (网格计算) 网格计算和结直肠肿瘤(网格计算)。结直肠肿瘤“任期保证打击与结直肠癌相关的文件。如果至少有一个篇文章满足搜索条件,成对的关系 被认为已经通过了验证。而关系没有通过验证被视为少密切相关关系在当前人类的认知水平。

验证后,共有249个关系依然存在。代表展示在表的关系1。临床数据项列在表中1覆盖大多数类型的集中治疗结直肠癌相关临床资料。这些类型的临床信息包括症状、血液测试结果,病理状态,并与结直肠癌疾病高度相关。

我们已经成功地利用这些关系crcTRP注释所收集的临床和组学数据集。注意表的粗体文本1、临床数据项“结直肠癌分期”有六个相关基因,包括APC, CCND1, CTNNB1, MTHFR PPARG, TP53。点击“TNM分期,”另一个表达式的“结直肠肿瘤的分期,”图4(一),浏览器会跳转到基因列表页面,列出了六个基因与结直肠肿瘤的分期,如图所示4(b), CTNNB1基因列表中的第一条记录,证明在结直肠癌扮演的角色(27]。具体来说,肿瘤CTNNB1地位有实质性的修改影响的有利预后作用postdiagnosis体力活动(27]。点击CTNNB1基因名单将CTNNB1的详细信息,如图所示4(c)。与此同时,IDs患者临床项目的相关基因CTNNB1“有关病人”部分中列出的基因的详细信息页面。通过这种方式,临床研究人员和分子生物学家可能受益于这两个关系。一方面,临床研究人员可能获得更清晰的了解疾病的机制通过查看与某一临床相关的生物分子信息项。另一方面,分子生物学家可能会发现新的角色的基因从这些关系或得到新的想法关于下一个研究项目通过患者信息与特定的基因有关。

可以做更多的工作来做出更好的有意义的使用这些关系。例如,量化这些关系,然后使用各种可视化方法将提供可视化的量化关系研究人员更直观的理解这些关系,这可能会导致另一个发现。

4所示。结论

结直肠癌是第五个中国癌症死亡率的主要原因。集成现有临床、基因组、蛋白质组信息和分享这些信息通过一个统一的平台将加快基础研究成果转化为临床实践的转换,因此促进创新的治疗策略的发展。的主要贡献我们的研究得出的结论如下。

首先,我们开发了一个名为crcTRP平台服务于结直肠癌转化研究。crcTRP是第一个平台提供各种生物医学数据为结直肠癌转化研究的研究人员通过一个统一的门户网站。

其次,我们提出了一套基于crcTRP clinic-genomic关系,然后把这些关系到使用crcTRP为转化研究服务。不仅对桥接这些关系本身是非常重要的临床数据和基因组数据,也知道如何利用crcTRP值得学习。

我们认为crcTRP是一个很好的起点。还有许多工作有待完成优化crcTRP crcTRP或优势。例如,数据分析工具可以开发和发布的web门户crcTRP在线使用。此外,crcTRP提供的数据都是很好的资源,为数据挖掘和数据分析,尤其是对矿业的关系由于丰富的数据类型。目前,我们正在进行一个研究clinic-genomic关系挖掘基于基因表达数据的存储库。临床crcTRP援助提供的数据我们极大地在这个正在进行的研究。

确认

这项工作得到了国家高技术研究发展计划(863计划,没有。2012 aa02a601,没有。2012 aa020201),中国的国家自然科学基金,没有。31100592。