文摘

处方的兼容性法律是中医理论的核心环节”理论、方法、处方和医学”,这对指导临床实践具有重要意义,新药开发和揭示中医药理论的科学内涵,也是一个中医现代化研究的热点和难点。如何有效地分析药物使用的频率,核心组合,在处方药物之间的关联规则是一个基本的法律研究的核心问题处方兼容性。本文系统的研究了中国传统古典处方抗病毒的兼容性规则和传统中药的分子机制。FP-growth算法用于分析关联规则961年经典处方收集和探索中国传统古典处方抗病毒的兼容性规则。兼容性方面法律的中国传统抗病毒药物处方,本文研究了中国传统的兼容性法律根据FP-growth算法和抗病毒药物处方的探索性研究961年兼容性法律信息的传统古典抗病毒药物处方。首先,FP树构建基于数据集经典配方。然后,频繁项目集规则建立和FP树中包含关联规则提取。最后,频率和关联规则的抗病毒中药处方分析根据剂型(汤、丸、粘贴和锭)。FP-growth算法实验结果表明,采用本文算法具有良好的性能和泛化和健壮性强大规模筛查和矿业的处方数据集,它可以提供重要的加工工具和技术方法研究中药处方的兼容性规则。

1。介绍

近年来,传染性疾病高发的趋势,其中超过 是由病毒引起的。连续变异的病毒和耐药性的增强,病毒性疾病的治疗已成为世界难题之一。方面的预防、控制和治疗病毒感染性疾病,传统经典的抗病毒处方药,如MaXingShi甜汤,热疾病、连翘和分散,小柴胡汤,和唱居阴,因为它的可调节免疫力,能干扰病毒DNA或RNA复制,抑制病毒扩散,保护细胞不受病毒破坏的作用[1]。它扮演了一个关键的角色在SARS等流行性病毒性疾病的治疗;艾滋病;手、足、口病;和H7N9。中药抗病毒药物处方中发挥着重要作用,促进新处方抗病毒药草和新药研究和开发深入挖掘传统经典的抗病毒药物处方信息,已成为新药开发的中药研究法律的兼容性,研究领域的一个重要课题,它的内部关系和处方系统的特点,也具有非常重要的意义[2,3]。

数据挖掘是一种处理技术与特殊相关性搜索信息隐藏在大量数据,发挥了重要作用在中医的基本理论,中药处方,中药语言学,中国传统医学的临床研究。作为数据挖掘的一个重要分支,关联规则可以描述数据库中数据项之间的潜在关系。此外,该方法在数据库中发现感兴趣的变量之间的关系(1]。取得了一些重要的结果在中药的剂量研究基于关联规则方法,发挥了重要作用在促进中药配方的研究。例如,用聚类分析(4),如使用K治疗糖尿病,则聚类分析方法分析处方药,和得知糖尿病处方药法律和基本医学、生地、熟地、天花粉、中药知母,泽泻,和麦冬处方中药理论研究和新药开发提供参考信息。文献[5]使用聚类方法自动划分的模糊区间在dot-effect分析药物对药物剂量,然后分析了关联规则的药物对相结合的模糊关联规则。挖掘知识精度高。使用频率和频繁项集的方法,文献[6)使用频率统计分析探讨兼容性的方法减少有毒中药的毒性和提高效率半夏ternata。得出结论,舒缓的毒药的兼容性,抑制,防止干燥、冷热量,和阶段使毒的毒性可以减少死亡半夏ternata。作者在3)使用频率分析和关联规则方法来分析和研究中药处方的兼容性规则老年性痴呆的临床治疗医师的兼容性规则获得的所有朝代和常见的老年性痴呆的临床治疗处方。文献[7]分析了中药的处方法复合口服治疗溃疡性结肠炎和挖掘60核心组合处方和23个新处方。使用关联规则技术,8]探索兼容性规则和核心的中药处方药物使用柴Songyan治疗卵巢功能早衰辨证的基础上,发现45双2常用的药物组合。进行了数据挖掘(9)的兼容性规则药物相关性最强的中医antiemea处方和获得,姜,半夏ternata茯苓在中医最常用的药物组合antiemea处方,并证实半夏ternata+茯苓汤是由张仲景是中医的核心药物组antiemea处方。基于先验的关联规则算法,8]分析了真实世界临床联合应用复合规则摘要flaveseed注入和中西药物治疗恶性肿瘤,为临床治疗提供参考思路和合理参考化合物的临床应用摘要flaveseed注入。药用价值加工(均10]和365年神农药物学经典口味的功效找到频繁模式和强大的气之间的关联规则,味道,和有效性,为理论研究提供新的方法和理念的药用价值四个气和五个口味的中药。肝纤维化的抗病毒药物,如刘伟Wupian结合灵芝,有一定的优势在慢性乙型肝炎的抗病毒治疗肝纤维化病毒样荟萃分析。系统评价的有效性和安全性黄芪进行了基于中药复方治疗糖尿病肾病患者和488年进行了一项荟萃分析,总结了吗黄芪的中药化合物可能是一个相对安全、有效的药物治疗糖尿病肾病。

数据挖掘是提取或“挖掘”知识的大量数据。通过数据挖掘有价值的知识、规则或高层信息可以提取相关数据的数据库。显示从不同的角度,因此,大型数据库或数据仓库作为决策的丰富和可靠的资源服务。在数据挖掘中,发现的规则是基于大样本的统计规则。当信心达到某个阈值,可以被认为是建立规则。数据挖掘的核心方法是关联规则和序列模式挖掘、分类和聚类。关联规则分析是一个非常重要的数据挖掘领域的研究课题,也是最成熟的研究方法之一。目的是为了挖掘关联规则,满足最小支持度和最小信心之间的事务特性从给定的数据。最小支持度和最小两个信任措施反映了关联规则的价值,分别代表规则的有效性和可靠性。规则被认为是有意义的只有同时满足最小支持度和最小的信心。 We believe that there is some form of association in the compatibility of Chinese medicines. According to the theory of traditional Chinese medicine, there are the following five relationships between Chinese medicines, that is, the seven must, cause, fear, kill, and have nothing to do with each other. For example, in Buzhong and Yiqi decoction, the combination of Bupleurum and Hoshoi can draw seven liters of qi tonic from ginseng, Qi qi, shu, and grass. Together to achieve the effect of beneficial qi rising trap, this combination is the role of phase. We can find meaningful combination patterns of traditional Chinese medicine from common prescriptions. The tool used in this study is the algorithm of extracting association rules from data mining—FP-growth algorithm.

需求中药抗病毒新药研发、使用的经验研究中,为了提高关联规则分析算法的有效性和准确性,本研究将利用FP-growth算法对传统中医经典处方数据筛选对大规模数据集挖掘,旨在做探索性研究抗病毒中药处方的兼容性,并验证了算法的有效性和探索法律传统的古典抗病毒处方药和潜在的有用的信息。

2。关联规则数据挖掘

2.1。挖掘关联规则

数据挖掘是一种新的研究领域逐步发展近30年。它是多学科技术相结合的产物,是广泛应用于政府决策等各个领域,企业管理,科学讨论,和医学研究,扮演着一个重要的角色在促进社会发展的方方面面。关联规则挖掘是数据挖掘中最典型的知识类型。在医学领域,它有广泛的应用。

关联规则是用来代表协会的许多属性OLTP数据库中(项集)。他们是用来找到相关属性的关联算法使用数据库中的大量数据。关联规则挖掘问题的描述如下。

数据项的集合, 是一个事务数据库,每个事务T是数据项集的一个子集,即 ,和每个事务T有一个标识符相关联的TID。事务T据说包含项目集X如果一个子集X我的满足 关联规则是类似于“X= >Y。”的意思是在一个事务中发生的一些物品导致其他项目的发生在同一事务中,“= >”;“协会”操作,X关联规则的前提,Y关联规则的结果。例如,在中药处方的兼容性,超过90%的处方使用中药必须使用中药B在同一时间。因此,关联规则R可以表示为R:一个= >B。在关联规则支持和信心是重要的概念。

支持类似于处方的比例在总处方中使用A和B。信心所有中药的处方的比例是A和B的中药处方,也就是普通的信心。前者是用来测量统计关联规则的重要性在整个数据集,而后者是用来衡量关联规则的可信度。他们的公式公式(1)和(2),分别为:

在实际应用程序中,对高支持和信心可以作为有用的关联规则,这是(min_ sup)称为最小支持度阈值和最小阈值(min-conf)的信心。Min-sup显示最低的统计数据项的重要性。只有数据项集满足min-sup出现在关联规则,这被称为频繁项集。最低的信心是最低的关联规则的可靠性。规则,满足需求大于min-sup和min-conf称为强规则。关联规则挖掘的任务是发现所有频繁项集和事务数据库中挖掘所有强大的规则D

关联规则挖掘是频繁模式挖掘。根据以下标准,频繁模式挖掘有多种分类方法:

2.1.1。根据开采模式的完整性分类

考虑到最小支持度阈值,完成,关闭,极其频繁项集的频繁项集可以开采。我还可以约束的频繁项集(即频繁项集,满足用户指定的一组约束),近似频繁项集(也就是说,只有近似挖掘频繁项集的支持数派生),near-matched频繁项集(即项集符合支持数接近或接近匹配的项集),和mostK频繁项集(即k指定的K)最频繁项集,等等(12]。

2.1.2。根据抽象层参与分类规则集

一些关联规则的数据挖掘方法可以发现不同的抽象层规则。例如,假设挖掘关联规则集包含以下规则:

2.1.3。如果项目或属性的关联规则涉及到只有一个维度,这是一个单维关联规则

2.2。改善FP-Growth算法

FP-growth算法是一个著名的算法提出的基于FP-growth树汉加威等。该算法提供了一个良好的频繁模式挖掘过程不产生候选集,及其性能改进与先验的算法。然而,FP-growth算法生成越来越深化的条件FP-trees递归调用。特别是在共享前缀,FP-growth算法是非常耗时的。为了解决这个问题,本文提出了改善FP-growth算法,FP-growth 算法。

FP-growth算法的思想是减少搜索共享前缀的时候减少生成FP树的时间提高挖掘效率。也就是说,如果有一个共享前缀,共享前缀是发现通过遍历第一个子节点的节点。其挖掘步骤如下。

2.2.1。频繁的排名l项目集

描述了事务数据库D一次,生成频繁l项目集和每个频繁项集的支持度,按降序排序的支持程度,结果是L。

2.2.2。交易项目重新排序

事务数据库项目是根据频繁项表的顺序排序l生成数据库事务D

2.2.3。事务组重新排序

整个数据集的D根据的顺序重新排序l,第一列的事务集排序的l .然后根据订单事务组的第二列排序的顺序l,最后一列的数据集是喻排序的数据集D

2.2.4。构建FP-Tree条件

创建根节点标记为“零”,扫描D,叫insert-Tree (P, T1)为每笔交易过程。生成FP树。

2.2.5。矿业FP树

递归地调用FP-growth算法挖掘FP树和得到频繁项集。

2.3。研究FP-Growth兼容性规则挖掘算法的中药药方

事实上超过100000中医处方,脾胃处方被选为关联挖掘的数据源。临床处方的处方都是华佗医院中医和上海中医中药处方数据库数据中心。神奇的医生华佗的故乡,亳州一直被称为“小牡丹花朵城外,产生早上云数英里,五英里。“这是一个著名的中药材种植和加工中心。郝牡丹,郝菊花,郝桑树树皮,郝花粉房地产药材包括在药典中。种植面积100万亩,它被称为“中医资本。“大量的中药资源提供了自然条件对中药处方的发展。Huatuo中医医院有大量的临床处方:上海中医“中医处方数据库”数据中心包含l90,000中医处方和提取文献中包含的处方。数据项包括名称、组成、剂量、处方的迹象和其他信息。

2.3.1。数据处理中药处方

现有的处方数据库的原始数据表达不是标准化的,所以有必要将处方的描述性语言转换为可由计算机处理的数据信息,使其标准和标准,从而实现正确的表达和处方计算机系统中的数据的合理组织。利用计算机数据表达不仅有助于深入分析和操作的数据。它也是一个重要的方式来实现数据规范化和标准化。本文中的数据预处理方法如下:

(1)标准化数据。目的是为了规范语义歧义和表达概念的话说,一词多义单音节的词,多字单音节的词词汇化。multiconcept组合词的分裂表达式如头晕指头晕等症状,这是不同于简单的眩晕,血头晕,晕车,等等,如发热、严重的高烧和晚上发烧,这被视为一个发烧的概念。

(2)结构化数据。目的是为了完善和组织处方合理的原始数据,以满足数据挖掘的需求和实现有序的安排关键概念和数据之间的相关结构的形成。

之间的处方数据有多个协会,如毒品、药物与症状,疗效和指标之间的关系。”综合症,药物和处方”是核心,“药”是核心的关键元素。他们之间的关系如下:选择“医学”和“处方””综合症。”“综合症”由综合症”集,医学”包含不同的口味和数量等,和“处方”复杂的匹配关系,加上或者减去的问题处方。

(3)数字化数据。数字很容易表示的结构和相互之间的关系数据,而数据所描述的其他字符或符号是不容易的,所以尽量用数字代替字符或符号包含一些知识。如果克描述的剂量,药物味道和毒性也由数字表示。如果平面度设置为0,则相应的偏态值如表所示1

2.3.2。基于FP-Growth兼容性规则挖掘中医处方 算法

总共有106脾胃处方与症状频率大于25 338年收集的处方筛选,每个处方与标记被认为是一个事务代码TID: T001 T002…T106,代码中的每个中药配方(=l、2、3、……)

收集到的脾胃处方及其组件如下:两个陈汤味道(F001):白术、甘草甘草、陈皮、厚朴,茯苓,半夏ternata根状茎对SPP四君子汤(T002):白术、甘草、人参、茯苓、甜沙Liujunzi汤(TO03):白术、甘草甘草、人参、陈皮、茯苓xylobacter,半夏ternata,砂仁、姜Qinlianping,渭塘(T004):甘草、陈皮、厚朴、黄芩,黄连,白术白术湿、Fupi喝(T005):甘草、陈皮、木头香,厚朴,半夏ternata、湿、麦芽Shipi喝(T006):白术、甘草,厚朴,茯苓草,xylobacter,木瓜,水果,槟榔果,生姜,舟形乌头水果,枣Guipi汤(T007):白术、甘草、人参、xylobacter,茯苓、当归、黄芪,Polygenus龙眼,枣种子Yigong粉(T008):白术、甘草、陈皮、人参、茯苓Lizhong丸(T009):白术、甘草、人参、姜包圆汤(出现):白术、人参、当归、桂枝、黄芪,生附子

处方的主要代码如下:白术I1、甘草I2陈皮I3,人参,厚朴I5, aucklanoides 16,茯苓党参I8 I7,半夏ternata19、当归一块、圈椅牡丹I12,姜我选择人参I14,苏茎I15草果I16、杏仁I17,黄连coptidisI18,黄芪I19、肉桂I20、枣I21蓼属植物I22,山药I23、扁豆I24,茄科茄属植物I25,半边莲小豆蔻I27 I26,山茱萸ruyuI28,黑乌头I29,白术白术I30、肉豆蔻I31、木瓜等,豆蔻I33,准备附子I34,龙眼肉I34,弱,酸枣种子I36,广藿香I37,选择人参I38,黄芩I39。

脾胃代理事务数据库的建立(部分)D表所示2:

根据事务数据库FP-tree树了D(FP树省略是因为有限的空间),以及相应的支持度的频率发生的中药处方被设定为30的最低。FP-growth改进算法被用来获取频繁集通过建立条件模式库,采矿所有频繁项集,脾胃处方被发现的兼容性规则如下。

(1)核心药物处方。甘草(97)、陈皮、白术(93)(92),人参(78),厚∼b(56),组合(48)、当归(36),中医更经常发生的7比其他药物的处方,也可以得到的原料有:四君子汤,不同工作松散和香砂六大药汤,即是脾的主和处方药。

(2)处方结构。经过上面的分析,结果表明,脾和胃芳芳看起来复杂。有一个基本的结构。

气活血汤,健脾用四君子汤是最基本的处方。第二个是气的结合医学+气药处方,如Xiangsha Liujunzi煎煮,Yigong粉处方。益气药+调节气药+疾病医学(或加湿药)处方兼容,如7 Baizhu粉、六君子汤等处方。补充气药+温暖的药物处方的兼容性,如保元汤,李钟药片和其他处方。

为了提高先验的算法的效率,汉加威等人提出了一个基于增长FP-growth算法树结构来生成频繁项集[27]。The basic idea of the algorithm is to scan the database only twice: the first time scans the number of the occurrence of a single item in the data set and filters out the items that do not meet the minimum support.

在第二次扫描,频繁模式树(FP-tree)结构,然后是FP树递归地成长为一个大型项目集,然后进行测试是整个数据集。该算法并不生成候选项目集,避免了多个扫描原始数据库,并且可以直接压缩数据库生成FP树,最后形成关联规则。研究表明,FP-growth算法是一个数量级的速度比先天找到大型项目集算法。

3所示。研究兼容性规则基于FP-Growth中药抗病毒处方药的算法

3.1。数据源的中药抗病毒的处方

为了研究传统和古典的兼容性规则抗病毒处方研究小组设计并开发了中医处方管理系统。系统是基于web B / S体系结构模式,使用Java开发语言和access数据库管理软件,可以运行在Windows / Linux系统。采用自上而下的总体规划,自上而下的应用程序开发战略,标准化的框架结构,操作方便导入模式。中医处方管理系统可以满足基本的进口,出口,检索和其他操作和简单的统计功能。通过中医处方管理系统,所有的书在流行病收集温家宝的疾病大成的第一部分(2007年,福建科学技术出版社)。

3.2。数据预处理

古典文学数据源抗病毒药物处方不同,和药物名称不是标准化的。因此,根据中药名称标准字典的中药,收集到的处方是清洗和药品的名字是标准化。本研究的过程中,中药名称标准化的例子如表所示3

3.3。FP-Growth算法的应用过程

以下使用一个具体的例子来说明FP-growth算法的实现过程和特点。

步骤1。根据FP-growth算法,样本数据集是扫描第一,中药会议在降序排列的最小支持度阈值的方法根据数据集出现的频率。

步骤2。安排公式示例中的数据降序排列的频率和选择中医频率大于3。根据重新排序的结果,建立了FP树。
在图1根是空集用于构建随后FP树。FP树的结构本身是由实心箭头,表示和计算节点代表的这个项目发生的频率数据集。例如,栀子、黄芩在树的右边的第一个分支对应于第九处方,栀子、黄芩在右边的第二个分支对应于第七和第八的药方,所以节点的数是2。整个FP树可以通过类比。标题表左边的图中显示中医会议的频率最低的支持数据集,在降序排列。虚线箭头标题表连接到树结构和加入项目名称相同的在一起简单的遍历树的结构。项的总和项目名称相同的图中标题表中对应项目的支持。FP树后,反向递归处理树可以逐渐增加项目集,和关联规则可以进一步计算。值得注意的是,在这个过程中建立FP树,中药不满足最小支持的例子不会插入到FP树。因此,FP-growth算法可以有效地去除方面的不足的支持和启用多个处方分享最常见的中药,最后达到高压缩效果在树的根。实验设计的算法流程如图2、算法流程FP-growth如图3

4所示。实验结果和分析

中医处方并不是一个随机组合的药物,但潜在的法律和处理技术的兼容性。根据药物的特点和临床综合征治疗的需要,为了充分发挥药物治疗的影响,中医处方通常制成各种剂型如汤、酒、茶、露、药丸,粉、粘贴,丹,平板电脑,锭,胶水,分段代理,代理内部和外部使用。由于低数量的一些剂型的研究数据,本研究主要分析了四种剂型的汤、药丸、药膏,主轴和获得的核心药物使用和相应的关联规则相应的抗病毒药物剂型的处方。其中,乌拉尔甘草的发生频率”和各种各样的药物,治疗各种毒药”是961年480抗病毒药物处方和乌拉尔甘草的出现频率太高了与其他药物,所以分析结果没有有价值的一部分。为了使关联规则挖掘更有意义。在实验过程中,除了软膏(15件),项目集与药物组合大于(含)3选择中药进行研究和分析。

4.1。药用肉汤

排名前十的常用药物煎煮甘草抗病毒药方,黄芩、大黄、当归、橙色茎、生姜、shengdi、薄荷、根茎、和茯苓汤的主要药物,抗病毒药物的处方。药物组合大于3品味中国传统医学(中医),频率超过了10个,和信心是90%以上的共有32组,关联规则的组合频率最高的liquorice-Gardenia-Radix黄芩和薄荷-桔梗甘草根,rhubarb-mint-Radix黄芩和mint-even翘,甘草,mint-St。约翰的草、黄芩、都是一种常见的组合的抗病毒药物的处方。他们中的一些人有很强的关联规则。例如,当黄芩和蝉slua同时出现,黄连的发生概率是100%。当黄芩-silkworm-Rhizoma coptidis同时出现在一个处方,蝉蜕将不可避免地出现在处方,它生动地挖掘内部处方中的药物之间的关系和临床医生使用药物提供了依据。频率和十大药物用于煎煮的概率如表所示4

4.2。药片

排名前十的频率和概率在药物抗病毒中药处方如表所示5。有30个关联规则大于3中药的药物组合,频率高于25岁和超过80%的信心。最高的组合频率ginger-jujube-glycyrrhiza, glycyrrhiza-Rhizoma coptidis-Scutellariae, glycyrrhiza-forsythia-Scutellariae,核心的组合药物抗病毒中药处方。有很强的关联规则在一些中药,可为新药提供理论支持。例如,在一个公式,当jujube-ginseng出现同时,姜出现在97.06%的概率。当黄芩和蝉缝在同一时间出现,蚕出现的概率是97.06%。

4.3。药用提取物

奶油抗病毒药物处方的集合是相对较小,只有15岁。中药黄芩频率大于3、甘草、薄荷、四川粉末,大黄,shengdi,犀牛角,是主要的药物用于软膏抗病毒药物处方。特定的频率和发生概率如表所示6。表7显示了中医的关联规则频率大于3。很容易知道之间有很强的关联规则中的药物软膏,如黄芩的处方,原始地面,和犀牛角同时任何两种药物,另一个药也会出现。

4.4。实验分析的FP-Growth 算法

在相同的计算机软件和硬件系统,数据集的数量的增加,时间FP-tree代的改进算法明显减少。根据实验分析,当数据集的数量很大,FP-growth的开采效率 算法增加了约20%,如图4:

4.5。算法分析和比较

FP-growth 算法改进的基础上FP-growth算法,它保留了有效FP-growth算法的特点,并增加了支持数字数据的挖掘,支持多维交互关联挖掘,挖掘最大频繁项集,而不是挖掘频繁模式。这种方法可以极大地节省空间和时间的生产成本也频繁模式和满足中药的需求挖掘。从时间复杂度的角度,FP-growth 算法比FP-growth算法。(我)FP-growth 算法最终挖掘最大频繁项目集,这是超过一个数量级不同于所有的频繁项集。因此,当FP-growth 算法生成条件模式树和最大频繁项目集,需要更少的时间比FP-growth算法。(2)FP-growth 算法采用优化搜索策略,省略了一定数量的商品搜索,并且不需要生成条件模块化的基础上,有条件模式树,为这些物品和最长的频繁项目集,节省大量的时间。性能比较及时的c和FP-growth如图5

因此,FP-growth 作者提出的算法不仅可以处理数值多维交互规则挖掘功能也优于FP-growth算法运行时间效率。通过分析该算法的挖掘结果,很明显,多维交互最大频繁项目集FP-growth确实是有意义的 中医药数据的规则,不像FP-growth算法在有效的和有意义的挖掘。

5。结论

中药抗病毒药物处方相关研究的目的是通过当前的纸。本文设计了一个基于FP-growth算法的数据挖掘方法通过文献数据的大型中药抗病毒经典处方,可以分析文献的频率和关联规则数据的高效杀毒处方剂型(汤、丸、粘贴和锭)。研究结果表明,FP-growth算法具有良好的性能。大规模数据集的处方选择具有很强的泛化和鲁棒性。在这个实验中,药物和抗病毒药物组合的差异四个主要药物剂型的中药汤、药丸、药膏,含片。

数据可用性

使用的数据来支持本研究的发现可以要求作者。

信息披露

本文的结果之一,2019年湖南省职业教育改革项目:研究和实施的工艺精神医学生在中国医学圣人文化(项目号ZJZB2019108)。

的利益冲突

作者宣称没有利益冲突。