文摘

结核病仍然是最严重的疾病之一;它严重限制了许多国家的社会经济发展。在目前的研究中,科学出版物的主题趋势对肺结核检查使用文本挖掘技术和co-word分析分析方法。统计人口的研究是全球所有出版物与结核病有关。为了提取数据,斯高帕斯引文数据库是用于1900年到2022年时期。的主要关键字搜索策略选择与主题专家协商和使用网格。Python编程语言和VOSviewer软件被应用于分析数据。结果显示四个主要主题如下:“临床症状”(41.8%)、“诊断和治疗”(28.1%)、“细菌结构、致病性和遗传学”(22.3%),和“预防”(7.84%)。这项研究的结果可以帮助这个组织的决策和过程的知识研究结核病和投资和开发的程序和指导方针对抗这种疾病。

1。介绍

结核病是一种慢性感染性疾病,严重影响人类健康1]。根据世界卫生组织(世卫组织),在2017年大约有1000万人被感染结核分枝杆菌,约130万名死于肺结核。与艾滋病毒相关结核病和耐药结核病的流行在最近几年,这种疾病仍然是最严重的进步流行病[2]。

根据联合国可持续发展目标的结核病流行在2031年之前必须结束(3]。模拟研究表明,严重的肺结核的发病率减少需要新的诊断测试,药物和疫苗(4]。因此,研究和创新的主要因素是谁结束结核病流行的策略。因此,她发明了一种全球行动框架结核病研究在这个领域加强高质量性能的调查从2016年到2025年在全球和国家层面(5]。

许多研究已经进行结核病在全球范围内,结果已旨在增加当前关于疾病的知识,更新信息,识别存在的问题和挑战6]。自出版关于这个问题近年来一直在上升(5,7),重要的是确定本研究的主题趋势来确定科学出版物和研究空白的状态。因此,有必要采用方法和技术审查的科学出版物结核病提供不同类型的出版物的分析。文本挖掘方法包括一组程序如自然语言处理、信息检索和提取、统计和机器学习。集群、分类、总结,发现概念之间的关系的一些应用文本挖掘(8]。

主题建模是一种文本挖掘技术(9),检查文件来识别他们的主题或主题。主题建模结果可以应用于分析主题之间的关系以及它们如何随时间而变化(10]。因为主题是定义为一个概率分布的话,主题模型是基于文档由一组的主题(11]。

Co-word分析是另一个经常应用和常见的方法分析不同领域的知识结构调查之间的关系词用于文档的不同部分(标题、摘要、关键词等)。Co-word分析是一种共存的分析是重要的文献计量方法应用于地图概念之间的关系,基本的想法,问题和社会科学(12]。

通过应用这种类型的分析,研究领域的主要话题,语义结构,进化的作品随着时间的推移可以确定。co-word分析,假设是最常见的单词有更高的影响比不经常使用的主题领域。此外,co-word分析可以让研究人员识别新兴主题集群以及发达国家预测未来研究的方向13]。

先前的研究已经确定了科学出版物的趋势在结核病和国家的贡献以及各种组织在这个领域(5,7,14- - - - - -16]。丰等人分析了巴西的肺结核Fiocruz研究所的出版物使用社交媒体分析技术。他们发现了有影响力的和关键的调查研究所和中央机构在科学合作17]。Igwaran和Edoamodu确定结核病的主题领域的出版物在非洲和展示了作者的关键国家机构和科学在这个领域合作6]。

根据文献,没有确定研究主题集群全球结核病的科学出版物。因此,本研究确定了全球科学出版物的主题区域结核病在斯高帕斯引文数据库和检查这种疾病使用主题的主题领域建模和co-word分析。

2。材料和方法

人口统计都是原创文章肺结核在斯高帕斯引文数据库。由于其综合性不同科学领域和索引的众多文章,这个数据库是适合科学计量研究[18- - - - - -20.]。为了确定主要的斯高帕斯数据库中搜索关键词,医学主题词(网)是微生物与该领域的专家咨询后使用。在下一个步骤中,使用高级搜索部分的斯高帕斯数据库,肺结核的出版物是提取于1月4日,2022年,使用关键字的组合“Tuberculoses”,“科氏病,”“科赫的疾病,”“科赫疾病,”“结核分枝杆菌感染,”和“结核分枝杆菌感染,肺结核。“1900年至2021年期间被认为的范围在搜索策略,和数据提取的形式一个CSV文件。在这个研究中,文档的格式仅限于原始的文章,从原始的研究方法(实验、观察、调查、访谈和调查问卷),和这些研究的结果表明21]。出于这个原因,只有这种类型的文章被认为是在目前的调查。

数据提取后,文本挖掘技术和主题建模算法应用到识别的问题发表文章肺结核。下面的步骤已经完成。(1)文本挖掘的过程中,标题、摘要和关键词的检索刊物被合并。之后,预处理和数据清理操作被应用于研究提高数据质量,数据模式的有效性,并提取关系(22](2)然后,话题建模算法命名为潜在狄利克雷分配(LDA)使用。LDA是最重要的一个主题建模方法(23]。它是最好的和广泛使用的算法和显著有效地识别相关的语义主题在科学文献[23]

自LDA的数量不能确定合适的话题,简历相干测量,这本质上是一种措施的指数同现的词提取的主题模型。如果这些话来自同一个话题经常cooccur(即。,the coherence is high), the model performs well [24]。

先前的研究也表明,这一标准在确定一个适当的表现主题和人类密切相关的数量判断主题的解释(25,26]。

主要单词和标题,以及抽象的文章在每个主题分类,提取后实现LDA方法基于主题的数量所获得的方法(CV相干测量)。之后,每个主题的类别以及文章的标题和摘要,有主题专家(本文作者的三个主题专家在这个领域)。审查每个类别相关的相关数据后,这些专家定义一个标签(名称)主题类别。

Python编程语言和文本矿业相关库如Gensim, NLTK,和广大的应用来实现这些步骤(27]。Python编程语言是开源的,小型的,简单的语法,是简单的开发,为用户提供了各种各样的图书馆与文献[27]。

在下一步,确定主题和文章的数量与每个主题有关,每个主题的关键字密度地图是获得使用VOSviewer co-word分析软件,这是最重要的一个,经常使用引文数据库的数据分析软件。它集群最相关的文档和它们之间的关系28]。VOSviewer提供了一个机会来画地图基于条款(29日]。

3所示。结果

共有159490篇文章提取领域的肺结核的斯高帕斯数据库。简历一致性应用选择的主题LDA算法。图1显示的价值简历相干的话题。

1显示的价值简历2和40之间的相干的话题,价值最高的4;因此,四个主题的出版物被选为主题建模肺结核。

获得的结果从一个话题建模在四个主要主题所示表1,主题的名字,在每个主题的文章数量,这个词云映像。

1表明主题与41.8%,临床症状,有文章发表结核病率最高,其次是主题“诊断和治疗”28.1%,“细菌结构、致病性和遗传学为22.3%,和“预防”为7.8%。

数据2- - - - - -5说明作者的密度对每个话题的文章中使用的关键字。在这些数字,颜色从黄色到蓝色的范围显示关键字的密度。密度的重量显示黄色,绿色和蓝色的颜色,分别。黄色部分有常用的关键词,一般而言,密度越高,地图是黄色。此外,密切相关的关键字上发表科学论文中最共存肺结核。

2显示关键字“肺结核”、“流行病学”,“耐药”,“潜伏结核感染,”和“风险因素”密度最高的主题“诊断和治疗”在科学文章肺结核。

3显示关键字”结核分枝杆菌”、“肺结核”、“多态性”“细胞因子,”和“耐药”是高密度关键词主题”在科学文章肺结核临床症状”。

4表明“诊断和治疗”的话题在科学文章肺结核、关键字”结核分枝杆菌”、“肺结核”和“结核病/实验”密度最高。

5表明在科学文章中的主题“预防”肺结核、关键字“牛结核病,””牛结核分枝杆菌”、“流行病学”、“公共卫生”和“结核病/统计”密度最高。

此外,图6演示了四个主要的出版趋势主题的科学文章肺结核。

6表明话题的发表率最高”临床症状”,“诊断和治疗,”和“细菌结构、致病性和遗传学”是在1952年,2012年和2012年,分别。此外,主题“预防”也有一个不断出版趋势随着时间的推移。根据图6,每个主题的出版物的趋势在过去的20年里表明,2000年,大多数发表的主题是有关“诊断和治疗”和“细菌结构、致病性和遗传学。与此同时,在2003年和2004年的出版物数量“细菌结构、致病性和遗传学”比其他主题。此外,在过去的20年里,“临床症状”和“预防”的主题被放置在另外两个主题。

4所示。讨论

肺结核是最古老和最重要的传染病之一,发病以来,已派出许多人死亡的边缘,产生许多医学和经济成本30.]。这种疾病被发现在世界各地,并在不同时期突然增加在一个或多个地理区域不同的原因,如自然灾害、战争、细菌耐药菌株的出现,不完整或缺乏预防项目的实施(疫苗接种,DOTS计划等),社区的健康和经济地位,削弱免疫系统由于压力,使用免疫系统削弱药物,营养不良,同时发生的传染病和非传染性的疾病,抑制和削弱免疫系统。此外,世卫组织已制定和实施区域和全球项目的诊断、治疗和预防这种疾病的31日,32]。

在目前的调查,结果显示,发表文章结核病被分为四个主题“临床症状、诊断和治疗,““细菌结构、致病性和遗传学,”和“预防”各自的出版顺序每个主题趋势从高到低,涵盖所有的研究。

在这方面,Igwaran和Edoamodu识别三大集群结核病出版物在非洲在2010年和2019年之间。这个集群包含的话题(1)肺结核感染的网站作为一个指标,结核病作为一个指示器的细菌感染的类型,(2)流行病学作为一个指示器的研究,疾病传播的传播作为一个指标,和(3)艾滋病毒作为伴随感染的指标(6]。此外,Nafade等人表明,肺结核出版物之间的2007年和2016年主要学科领域的“基础研究”和“流行病学”,其次是“操作和公共卫生研究,”“诊断”,“治疗”和“疫苗”(5]。李和严报道,研究主题“诊断”(43.1%)和“治疗”(16.9%)最多的出版物,以及“运营和公共卫生研究”和“疫苗”的最低数量在韩国33]。此外,Dastani等人表示,最多的科学出版物领域的布鲁氏菌病是预防、临床症状和诊断主题(34]。

本研究的结果表明,肺结核的临床症状一直是最重要的问题和挑战科学家。自1900年以来,大多数研究已经进行结核病的临床症状,可由于未知的本质不同维度的临床症状的疾病,以及难以区分它和有类似症状的传染病、非传染性的病(35,36]。此外,大量的文章在临床症状可以是由于医生和专家的关注的正确诊断肺结核。另一方面,这种疾病的一些临床症状类似于其他传染病。因此,有必要区分结核和其它疾病。在这种情况下,医生可以为病人开出正确的和及时的饮食。因此,治疗费用和其他并发症由于误诊不会强加给病人。此外,大多数出版物在临床症状的话题是在1952年,在那之后,关于这一主题的出版物的速度下降。

由于肺结核引起的相对较高的患病率和死亡率在1952年之前,国家和世卫组织关注疾病的正确诊断及其临床症状;因此,自1952年以来,由于结核病死亡率急剧下降更多。1952年,访问医院和医疗中心的人数也增加,另一方面,医生更关注识别和控制结核病患者。此外,结核病疫苗接种计划实施在一些国家,这种疾病是常见的。异烟肼的发现1952年作为第一个和最有效的口服抗细菌药物的另一个原因是专注于研究和正确的诊断及其治疗的患者(37]。

本研究的结果表明,主题“诊断和治疗”专用自1900年以来第二大发表文章;2012年,最多的论文发表在这个领域的研究。自诊断和治疗结核病一直是卫生系统的主要挑战之一对肺结核病人从一开始,这些结果是合理的。此外,由于错误的诊断和临床相似性和其他疾病,以及不使用或公开滥用药物,这种细菌的耐药性发生随着时间的推移,这个问题是世界上的主要挑战之一是在2012年,很多研究已在这一领域开展了(38]。目前,世卫组织正在实施详细计划来应对这种细菌的耐药性问题在全球层面。

本研究的结果表明,细菌的研究结构在2012年已经在最高的层次上,这可能是符合世界的努力更好地理解结构的细菌,细菌耐药性的机制,致病性,使用新的和最新的技术完全理解免疫系统如何回应细菌的结构组件,设计新的诊断测试和生产疫苗。

5。结论

目前的调查结果显示自1900年以来,研究人员一直不断进行大量研究结核病的预防,及其图表遵循一个固定的模式,这表明,自那以后,人类不断在寻找有效的和有效的方法来防止这种疾病和预防提供新的项目。虽然人类的进步和更轻松运动的可能性和沟通已经很难控制这种疾病,幸运的是,随着科学研究的进步,更多的最新的和先进的程序和协议提出了预防这种疾病。

考虑到科学出版物每天在增加,专家不可能阅读所有的科学领域的文献;因此,重要的是要利用大数据的自动提取技术知识提高知识的专家。

根据研究结果,四个研究课题从结核病中提取研究。目前的研究趋势和主题的理解有助于找到差距,应进一步研究。

研究的结果可以用于专家,医生,和决策者也计划控制结核和帮助医生对患者做出正确的决策。医疗组织也可以使用本研究的数据精确规划在区域医疗中心抗击结核病。世卫组织在各种疾病不断收集最新的数据,包括肺结核。目前调查的结果可以帮助这个组织做出重要的决定,被告知研究过程的结核病,以及投资和制定适当的计划和对这种疾病的指导方针。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。

确认

研究者们欣赏的校长Gonabad大学的医学科学研究和技术的金融支持和传染病。本文与代码738从一个研究项目,研究伦理ID IR.GMU.REC.1400.099传染病研究中心批准的财政支持和实现这个研究中心。