近年来,随着工业化进程的加速,城市化、衰老过程,慢性疾病患者的数量在逐年增加。在中国,慢性疾病的数量在10年内增长了10倍。整个社会的疾病负担的比例占79.4%。慢性病已成为中国人民健康的头号杀手。然而,对于慢性病,预防比治疗更重要。这是保持健康的最好方法。因此,健康干预是预防慢性疾病的关键。特别是现在,COVID-19流行病的传播,减少医院检查和治疗慢性病人几乎是重要的医疗人员和释放压力下降的速度COVID-19传播和感染。本文案例推理(CBR)技术用于协助个性化干预为慢性疾病,和个性化的干预的关键技术,提出了基于事例推理的慢性疾病。组织中,案例检索和案例保留CBR技术技术在慢性疾病个性化干预设计,和组内的色散的计算被添加到词的分布特性,它是用于描述的分布特性在不同类别的情况下属性。 It provides an effective method for the establishment of personalized intervention model for chronic disease.
近年来,随着工业化进程的加速,城市化和老龄化过程中,在中国慢性疾病的数量激增,这十年中增长了10倍。大约有3亿人患有慢性疾病,3.5亿超重和肥胖的人,有2亿人患有高血压,高脂血症,1亿和9240万糖尿病患者。慢性病的死亡率已经上升到中国居民总死亡率的86.6%。整个社会的疾病负担的比例占79.4%。在未来10年,8000万中国人将死于慢性疾病。慢性疾病已经成为中国最大的一个杀手,和巨大的医疗费用也将个人的沉重的负担,家庭和社会。
常见慢性疾病主要包括心血管和脑血管疾病、代谢性疾病、肺部疾病,如高血压、糖尿病和冠心病。这些慢性疾病的特点是病程长,许多并发症,长期治疗,严重影响患者的健康和正常生活
案例推理(CBR)是写在动态内存,这是由来自耶鲁大学的Roger Schank在1982年写的。这是一个重要的知识解决问题和新兴领域的人工智能学习方法。它可以用来解决问题的,非专业人士很难获得和表达专业知识。CBR解决通过重用或修改现有的问题解决方案的最相似的情况下,通过建立丰富的案例基础和寻找最相似的情况下的基础。在问题解决机制,CBR使用案例推理策略和模仿类比人类决策过程的认知方式有效地解决非结构化和知识贫困域问题[
案例推理的过程通常包括四个步骤:案例表示、案例检索、案例重用和修改,和案例评价和学习。其中,案例检索的关键一步是案例推理。只有通过案例寻找相似的情况下检索案例推理可以更好。目前,案例检索方法通常包括最近邻检索,knowledge-guided检索,归纳推理检索,神经网络检索、分类检索、粗糙集检索和模糊检索。然而,本文不使用常见的案例检索方法。相反,它是基于常见的慢性病病例的特点,利用TF-IDF的概念(术语frequency-inverse文档频率),结合信息熵的计算方法,然后确定案例属性的重量通过组内的分散分布的计算解决问题不同属性的权重。此外,本文最后比较相对相似的情况下通过简单的余弦定理,从而大大提高了相似案例检索的效率。
通过CBR研究多年,作者设计了一个基于案例推理的儿童常见疾病的诊断方法和基于案例推理的老年人健康评估方法和已申请成功的关键项目安徽省高校自然科学基金,儿童常见疾病诊断方法研究,基于事例推理和支持项目的高校优秀青年人才,在安徽省教育部门,研究基于案例推理的老年人健康评估方法。项目研究过程中,作者不仅将设计算法付诸实践和发展儿童常见疾病诊断模型软件获得软件著作权(版权证书见附件1),而且标准化的算法,使其适用于其他领域的案例推理,成功标准化算法适用于城市交通指南,并成功地开发了城市道路交通拥堵渠道决策支持系统软件获得软件著作权(版权证书见附件1)(
在初步研究的结果,儿童常见疾病的诊断,或者老年人的健康评估,或城市交通拥堵的决策,应用领域相对狭窄。虽然软件可以使用TF-IDF的概念和信息熵的计算方法建立模型,确定未知情况下的相似之处,不同的特征在不同情况下的分布的描述不太理想。结果通常是基于已知的情况下诊断或人工干预,直接根据已知的类似案件的诊断结果,而无需人工干预。因此,聪明的能力需要改进。
为了解决这一问题的案例推理方法的通用性和分布特征的描述属性来提高算法的智能应用程序的过程。研究小组建立了健康大数据通过问卷调查城市居民的生活方式和健康状况,提出了一般的案例推理方法添加组内的分散计算通过分析原始模型和连续的测试和改进的软件。该方法不仅适用于大多数领域的案例推理,还描述了单词在不同的类的分布特性,解决问题,以色列国防军overamplifies稀有词的功能。作者应用这种方法个性化干预慢性病。通过问卷调查居民的生活方式和健康状况,这样的案例推理模型已经建立。通过搜索相似的情况下,慢性疾病的概率造成居民的生活方式计算,建议合理调整居民的生活方式是基于已知的病人的诊断和治疗协议。
通过问卷调查慢性疾病患者的生活方式和健康状况,以及慢性疾病患者的诊断和治疗协议,建立数据库。未知的情况下,通过相似性检索几个案例的相似度满足排名要求,或几个案例的相似度满足阈值,发现。然后,通过分析慢性疾病的诊断和治疗协议类似的情况下,新病例的诊断和治疗协议,提供慢性疾病患者的诊断和治疗服务或提供合理的预防措施对于潜在的慢性疾病患者,减少慢性病人住院检查和治疗。COVID-19患病率,这对减少压力对医务人员的实践意义在这个特殊的时间和COVID-19的传播和感染。个性化的干预的关键技术模型框架基于案例推理的慢性疾病如下图所示
个性化的干预的关键技术模型框架基于事例推理的慢性疾病。
关键技术模型的个性化干预基于案例推理的慢性疾病,第一个病例收集需要特定的诊断和治疗方案或预防措施。然后,他们需要标准化的描述。不同的特征向量用于描述不同属性的状态和治疗协议。通过检索状态一个接一个,几个匹配情况下与新案例相似度最高的是提取基地。然后,新病例的可用性计算通过诊断和治疗的利用率协议最相似的情况下建议新病例的诊断和治疗协议。
个性化的干预对慢性疾病的方法主要包括基于事例推理的四个关键技术:标准化的案例知识表示、相似性检索,案例重用,和个性化的干预。
在使用CBR之前,应该首先清洗和整理数据。数据结构应该是标准化。各种医疗机构大量的医疗数据。然而,由于地方和时间差异,许多数据不仅分散,也有不同的存储结构,描述疾病和诊断方案,和属性特征,所以很难比较大量的数据在同一平台。
在这里,我们使用布尔特征向量来表示知识。由于数据不是所有的结构化数据,数据需求和不同的领域有不同的重点,所以我们首先建立了一个布尔属性统计图,这意味着所有评价指标的结构和属性分解成布尔选项。
把城镇居民的生活方式和健康状况的问卷调查为例,性可以分为男性和女性,所以属性“性”。属性选项1代表男性,属性选项0代表女性。年龄是连续数值数据,可以分成几个可选布尔选项,如“孩子”“少年”,“青年”,“中年”和“老”时代。每日睡眠时间少于6小时,”“6 - 7小时,”“7 - 8小时,”和“超过8小时”选项,它分为“每日睡眠(不超过6小时),”“每日睡眠(6 - 7小时),”“每日睡眠(7 - 8小时),”和“每日睡眠(超过8小时)”几个布尔选项。然后,所有的选项都做成布尔特征向量,和属性的统计评价指标得到在此基础上,如下面图1所示。
根据属性数据表(表
属性数据。
| 属性ID | 属性内容 | 属性描述 |
|---|---|---|
| 1 | 性 | 男:1,女:0 |
| 2 | 孩子 | 12岁以下的 |
| 3 | 少年 | 年龄在12至18岁 |
| ...... | ...... | ...... |
|
|
每日睡眠(少于6小时) | / |
| ...... | ...... | ...... |
|
|
每周吃水果(超过1000克) | / |
| ...... | ...... | ...... |
|
|
有人在直系亲属患有糖尿病吗 | 是的:1、没有:0 |
| ...... | ...... | ...... |
原来的图书馆。
| ID | 的名字 | 性 | 年龄 | ...... | 每日睡眠 | ...... | 每周吃水果 | ...... | 有人在直系亲属患有糖尿病吗 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 张三 | 男性 | 65年 | ...... | 不到6个小时 | ...... | 250 g - 1000 g | ...... | 没有 |
| ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... |
原来的图书馆。
| ID | 的名字 | 性 | 孩子 | ...... | 年老的时候 | 每日睡眠(少于6小时) | ...... | 每周吃水果(250克- 1000克) | ...... | 有人在直系亲属患有糖尿病吗 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 张三 | 1 | 0 | ...... | 1 | 1 | ...... | 1 | ...... | 0 |
| ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... | ...... |
通过转换的基础,我们发现属性将会增加。许多可选属性分为几个规范化布尔属性,这是可分解的相同的属性。在每种情况下,只有一个布尔属性可以选择。然而,布尔情况下基础可以使情况下转换成向量,这有利于类似案件的对比。实现数据的结构更有利于数据的过程。即使不同的地区和机构有不同的描述的情况下,标准化转换的情况下可以成为一个结构化的情况。
假设原始的属性数据库分解为案例<我nline-formula>
我们可以很容易地发现每个布尔属性的重量应该是不同的特征向量表示。越少乘以一个布尔属性的值为1在所有情况下,这个属性更典型的是评估,因此它的重量应该执行相似案例检索时更大。相反,如果一个布尔属性的值为1在很多情况下,也就是说,很难判断案件的实际情况通过这个属性,然后它的重量相似案例检索过程中应该小。因此,它是不合理设置所有属性出现在这样的重量为1。这类似于逆文档频率(IDF)的信息理论。
以色列国防军,简单地说,如果一个关键词<我nline-formula>
结合信息熵的计算方法,即信息的计算方法需要表达的不确定性信息,我们可以得到的公式计算的重量属性的例子:<我nline-formula>
假设有1000例在基地中,其中489例有“性”属性值1。有489男性1000例中,所以“性”属性的权重<我nline-formula>
属性数据与权重。
| 属性ID | 属性内容 | 属性描述 | 重量 |
|---|---|---|---|
| 1 | 性 | 男:1,女:0 | 1.03 |
| 2 | 孩子 | 12岁以下的 | 0.86 |
| 3 | 少年 | 年龄在12至18岁 | |
| ...... | ...... | ...... | ...... |
|
|
每日睡眠(少于6小时) | / | 2.32。 |
| ...... | ...... | ...... | ...... |
|
|
每周吃水果(超过1000克) | / | 4.32 |
| ...... | ...... | ...... | ...... |
|
|
有人在直系亲属患有糖尿病吗 | 是的:1、没有:0 | 0.32 |
| ...... | ...... | ...... | ...... |
因此,布尔属性的权向量可以获得如下:
和加权向量的每个案例<我nline-formula>
通过IDF和信息熵的计算方法,获得的情况下加权向量显示了良好的应用效果情况下特征值的分配重量。然而,引入IDF的初衷是抑制无意义的高频属性的负面影响。此外,当总病例数之间的比例和1的属性与值很大,低频的角色属性突出显示。然而,这里有一个问题应该讨论:公共属性不一定是没有意义的。相反,一些慢性疾病患者会有一些固有的习惯,或身体健康指标会有一些固有的变化。这些习惯和经常改变表明这些习惯或变化将患有慢性疾病的前兆。同样的,偶尔出现的低频属性将被视为较高的权重关键词,将overamplify这些属性的重要性。此外,由于不同的气候,环境,地区,生活习惯,年龄,性别,和其他因素,在不同地区不同类别的人会导致慢性病的患病率的差异不同。针对这些不足,发生的频率<我nline-formula>
所谓的组内的分散的分布特征的描述是归结于不同类别的情况。特征属性集中分布在一个特定类型的案件往往有很强的能力来区分类别。假设所有的情况下都可以分为n类,和<我nline-formula>
整个组内的色散
替代(
结合之前的重量计算的主要思想,如果功能属性在公式(
尽管类之间的离散性被认为是在这里,如果属性的分布有两个特点基本上是相似的在同一个类的情况下,我们仍然不能准确判断两条断层的分布特性。因此,我们定义了信息熵在同样的情况下,以反映特征的分布属性在同样的情况下。如果属性的分布特性<我nline-formula>
最后,根据组内的色散和同类信息熵、相对准确的计算方法来确定特征属性的权重计算的情况下获得阶级分化:
根据公式(
案例相似性检索是CBR的核心,旨在获取尽可能少的近似相似的情况下从大量的情况下,随着当前问题的解决方案。常见的情况下搜索策略包括模板搜索策略,文献检索策略,归纳索引策略、知识引导策略和最近邻策略。本文最近邻策略用于案例检索,但相似度的计算是由余弦定理代替欧氏距离。
知识表示的情况下,因为我们已经建立了一个属性特征向量为每一个案例中,我们可以计算两个特征向量之间的夹角的大小,利用余弦定理。因为所有指标的权重是积极的,这两个特征向量之间的余弦值在0和1之间。两个特征向量之间的余弦值越接近1,两个向量的夹角越小。这意味着两个特征向量越接近对方。相反,越接近特征向量之间的余弦值为0,两个特征向量的夹角越大。这意味着这两个特征向量代表少之间的关联情况。
我们知道△ABC的余弦<我nline-formula>
在这一点上,如果<我nline-formula>
假设的布尔属性情况下的特征向量<我nline-formula>
因此,如果我们假设的加权特征向量A和B两种情况<我nline-formula>
较小的<我nline-formula>
因此,我们使用计算的矢量角余弦定理来表达两个向量的相似性。例如,如果两个向量计算的结果由余弦定理0.5,那么我们认为两个向量的相似度是50%。虽然非线性余弦函数不是很精确的计算相似度的情况下,但在这里,我们不需要计算准确的情况下评估之间的相似性和每种情况下图书馆,但知道之间的相对相似情况下被评估和案例在图书馆。也就是说,我们只需要知道哪些情况下在图书馆更类似于被评估。因此,利用余弦定理来计算相似性很简单,可以获得一个好的结果相应的近似的判断。
通过布尔属性特征向量表达上述案件,案件由余弦定理计算相似性检索方法,以及设置一个阈值或设置的方法类似案件的数量,一定数量的情况下最类似于目前的案件中,如设置搜索相似度超过90%的情况下,或搜索排名前50例相似,等。通过获得慢性疾病诊断和治疗计划类似的情况下,我们可以获得个性化的干预方法新慢性疾病患者的诊断和治疗。
案例相似性检索的过程中,如果我们能找到案例的相似度为100%,我们会发现同样的情况。然后,我们可以直接重用的诊断和治疗方案的情况下,否则。
首先,我们规范所有慢性疾病病例的诊断和治疗方案的基础,所有病例的诊断和治疗协议转换成布尔选项后全面转换。这个变换是一致的标准化转换方法病例相似案例检索的过程。时采用一个确切的诊断和治疗方案的情况下,这意味着布尔选项值的方案1;否则,它是0。
诊断和治疗方案的标准化后,诊断和治疗方案的个性化的干预在未知情况下的相似性进行类似的病例<我nline-formula>
假设,在基地中,<我nline-formula>
类似情况下的诊断和治疗。
| 用例ID | 相似 | 诊断和治疗协议1 | 诊断和治疗协议2 | 诊断和治疗协议3 | ...... | 诊断和治疗协议<我nline-formula>
|
|---|---|---|---|---|---|---|
| 798年 | 98.62% | 1 | 0 | 1 | ...... | 1 |
| 1103年 | 96.98% | 1 | 1 | 1 | ...... | 0 |
| 6 | 95.33% | 1 | 0 | 0 | ...... | 1 |
| 235年 | 93.75% | 1 | 0 | 0 | ...... | 1 |
| ...... | ...... | ...... | ...... | ...... | ...... | ...... |
| 39 | 89.99% | 0 | 0 | 1 | ...... | 1 |
| 1295年 | 88.73% | 1 | 1 | 1 | ...... | 0 |
然后,新病例的概率采用1是诊断和治疗协议
新病例的诊断和治疗协议采用率后可以给所有新病例的诊断和治疗方案计算,和阈值的情况下采用率已通过手动干预。
例如,在人工干预,采用新病例的诊断和治疗协议是超过95%,这些计划可以被视为必要的治疗计划。采用新病例的诊断和治疗协议是在75%和95%之间,可视为可选的治疗计划。采用新病例的诊断和治疗协议是在60%和75%之间,治疗计划作为参考。
的过程中个性化的干预,除了提供辅助诊断和治疗的信息,它还可以用来扩大基础。案例相似性检索的过程中,如果新案例和案例之间的相似度的基本低于某个阈值(例如,相似度低于95%),辅助诊断和治疗方案的情况下将被添加到手动干预后基地作为一个案件。
提出个性化的干预对慢性疾病的方法和基于事例推理的过程中给出了几个关键技术干预。该算法模型可以用于预防慢性疾病和慢性疾病的辅助诊断和治疗。主要的思想是预防或治疗未知的情况下通过案例相似度的判断和类似病例的诊断和治疗方案。在人们的日常生活中,疾病是不可避免的。此外,不同的医务人员可能在疾病诊断的过程中会给出不同的搜索结果。在这一点上,是特别重要的诊断和治疗经验。患者更倾向于诊断和治疗计划的医务人员有丰富的诊断和治疗经验。我们并不是说体验永远是对的,但在模棱两可的情况下,这些经验将是一个重要的参考。本文提出的算法是集成不同的医疗机构和医务人员的经验,然后应用。因此,本文提出的算法不仅可以用于个性化干预慢性疾病,但也为其他疾病的个性化的干预,甚至用于其他领域。 The premise is that the corresponding accurate case base can be established.
本文提出的算法的准确性取决于基地的建设情况。丰富的病例情况下基本是和更准确的诊断和治疗方案在基地中,较高的辅助诊断和治疗的可行性方案最后获得的算法。当然,也有一些算法本身的问题:
第二,当特征向量用于表示知识,许多属性在布尔的情况下基本分解从同一属性在原来的基础,导致这一事实所使用的特征向量通常是稀疏的向量。此外,案例中提到的阈值设定的重用和个性化的干预技术需要专业人士。专业人员的人工干预是必要的,当新病例被添加到基地中,这无疑会增加人工干预的程度。因此,在实际应用中,如何简化现有算法稀疏向量算法的基础上,确保其有效性,以及如何减少人工干预的程度尽可能提高工作效率是未来研究的方向。
最后,算法的有效性在应用过程中有关的大小情况下基础。然而,随着案件的不断扩大基础,案例相似性检索将变得越来越复杂。因此,如何提高算法的效率也是一个未来的方向。
实验数据支持这个实验分析从以前的研究报告,已被引用,也包含在这篇文章。
作者宣称没有利益冲突有关的出版。
这项工作是由安徽的关键研究和发展项目,在批准号202004 a05020010;关键项目的青年精英支持计划在安徽大学,在批准号gxyqZD2020043;和关键科学基金会的安徽三联大学自然科学项目,在批准号KJZD2021005。