文摘
Twitter与流数据集成技术和机器学习添加新的医疗保健价值。本文提出了一种基于流媒体实时系统预测乳腺癌病人的健康来自Twitter的数据。该系统由两个主要组件:开发离线构建模型和在线预测管道。第一组件,我们做了一个特性之间的相关性来确定之间的关系的功能特性和减少乳腺癌的威斯康辛州的诊断数据集。两种特征选择算法是递归特性消除和单变量特征选择算法应用到功能后相关选择的基本特性。四个决策树、逻辑回归、支持向量机、和随机森林分类器已用于特征相关性和特征选择。同时,hyperparameter调优和交叉验证与机器学习应用优化模型和提高准确性。Apache火花,Apache卡夫卡,Twitter流API用于开发第二个组件。最好的模型精度最高的从第一个组件获得预测乳腺癌从twitter的实时流媒体。结果表明,最好的模型是随机森林分类器实现最好的准确性。
1。介绍
癌症,罗德里格斯Larumbe [1),由于基因突变或异常变化负责调节细胞的生长和让他们健康成长。每个细胞的细胞核的基因,代表每个单元的“控制室”。通常,我们身体里的细胞代替自己通过有序的细胞生长过程:健康新细胞,和老的死去,但突变可以“打开”,关闭特定基因的细胞,使细胞保持分裂能力而不生产更多相同的原始细胞导致形成肿瘤。一个肿瘤,罗德里格斯Larumbe [1),可以不那么危险的开始。这些肿瘤并不认为癌:细胞接近正常,生长缓慢,不侵入组织或身体的其他部位。然而,恶性肿瘤癌变。如果任其发展,恶性肿瘤细胞最终会分散的原始主机到身体的其他组织。乳腺癌是一种形式的癌症组织乳房细胞,诊所的23];板(3]。乳腺癌的症状,董事会3),可能包括乳房肿块,乳房体积和形式的变化,皮肤起涟漪,液体来自于乳头,新乳头凹陷,或红色或鳞片状的皮肤。这种类型的癌症是一个不受控制的乳腺癌细胞的生长。据统计,乳腺癌是排名全球第二大致命的疾病对女性来说,组et al。4]。据世界卫生组织统计的报告(5),2018年有627000妇女死于乳腺癌。这个死亡数字几乎占所有死亡人数的15%,因为女性的癌症。在西方世界的一部分,先前的研究已经表明,九分之一的女性可能会患乳腺癌的过程中他们的生活(6]。所有这些原因在一起,连续工作的要求一个健壮的和准确的系统作为一种工具为乳腺癌的早期诊断和检测疾病降低死亡的数量和增加幸存者的数量从这个疾病,通过准确的区分良性和恶性乳腺肿瘤。
时数据科学应用,医疗环境是最吸引人的数据源之一,由于大量的可用数据和可持续的性质数据。每个医院都有一个数据集,随着时间不断增加。改善医疗系统是一个崇高的目标,几乎每个人都总是在它。数据挖掘和机器学习技术可能导致直接改善医疗保健系统。
最近,机器学习算法在预测乳腺癌中发挥着重要作用。例如,Asri组织et al。7)应用不同的机器学习分类算法如支持向量机、决策树、朴素贝叶斯和k最近的邻居在威斯康辛州乳腺癌数据集来预测乳腺癌。此外,Aloraini [8]五分类学习算法相比,包括贝叶斯网络、朴素贝叶斯、决策树J4.8, ADTree,和多层神经网络分类从威斯康辛州良性肿瘤或恶性癌症乳腺癌数据集。除此之外,混合方法是一种新技术,用于减少使用特征选择方法的特性来提高机器学习模型的性能。例如,Akay [9]引入了混合动力技术,结合支持向量机集成特征选择对乳腺癌的诊断。郑et al。10)提取使用的混合特性K——使用支持向量机算法来预测乳腺癌。
如今,一个新的来源的数据已经成为一个具有挑战性的任务处理和存储使用传统的数据库存储,扮演一个关键的角色在许多领域,如健康、工业、和决策,这是流数据。流数据等不同来源的数据生成连续的社交网络,传感器和移动设备。处理流数据,研究人员利用大数据平台,比如Apache火花,Apache Hadoop (11],Apache卡夫卡[12),和Apache风暴(13)存储、分析和处理流数据。例如,Zhang et al。14)提出了一种新的任务级别的自适应MapReduce框架应用在医疗应用程序实时流数据。Nair et al。15)利用机器学习模型预测心脏病从流媒体微博基于Apache火花。一个有效的医疗保健系统的最终目标是挽救人们的生命,减少住院时间,预防保健和提供更好的应用程序。最近,实时流分析技术对实现这个目标提供了显著的改善。流分析方法以及物联网(物联网)使卫生保健提供者观察趋势和模式比以往更快地通过分析数据在实时基础上。建立这种模式增强了决策过程预测分析中的应用。这些技术的实现不仅导致减少所需的工作量的护士和医生,也导致一般改善病人护理和医疗预约降低所需的成本。全球顶级医院采用数据分析方法在数据流等各种医学领域内部和神经医学成人和新生儿照顾孩子。大量的医学数据可用来处理实时基础上而不需要医疗服务提供者访问病人的地方。多个传感器和设备产生的数据每一秒如临床警报和生命体征的监测。访问医疗数据碰巧在同一时刻,然后分析,可视化结果促进卫生保健提供者的任务检测疾病的早期迹象导致医疗成本的减少。 The main factor to achieve such a goal is the implementation of data analytic techniques on streaming data collected from multiple sources. Nowadays, social networks are used extensively as a health support tool in increasing the health awareness of the community on top of spreading the medical updates and current recommendations when a crisis happens. Social media data can be a useful part if added to the healthcare database; this could improve both diagnosis [16)和临床决策(17]。同时,社交媒体添加一个新维度医疗利用病人的实时数据来检测早期乳腺癌,因为社会媒体,尤其是Twitter,有丰富的医疗信息越来越多地用于卫生和医学的目标,包括共享信息糖尿病(18),确定有效的药物不良(19分析乳腺癌[],20.),和其他福利。同时,Twitter流API允许研究人员阅读实时流数据。因此,研究人员可以与大数据流集成Twitter工具来开发应用程序实时工作等(15,21]。本文预测乳腺癌的问题使用一组流数据收集来自Twitter是解决用户的健康数据。乳腺癌的先前的研究预测只关注预测乳腺癌根据历史数据和传统的机器学习算法来解决这个问题。这些研究不使用流媒体实时预测乳腺癌从社交网络收集的数据。这项工作的目的是实时预测乳腺癌病人的社会职位基于机器学习算法与Apache火花和Apache卡夫卡集成。实时预测乳腺癌系统包括两个部分:开发离线模型和在线预测管道。发展中离线模型组件、分布式机器学习算法,即决策树(DT)、支持向量机(SVM),随机森林(RF)和逻辑回归(LR),基于Apache火花用于训练和测试模型乳腺癌威斯康星州(诊断)数据库(BCWD)来选择最好的模型,用于预测乳腺癌。对在线预测管道,收集病人的tweet的Apache卡夫卡Twitter。同时,Apache火花是用于实时数据进行预处理。我们的贡献了(我)开发一个实时系统预测乳腺癌从流媒体的微博(2)将不同的特征选择算法应用于从数据库选择基本特征(3)后应用不同的机器学习算法选择特性相关的乳腺癌威斯康星州(诊断)数据集(iv)应用网格搜索和交叉验证优化的机器学习算法,提高准确性(v)开发离线模型来找到最好的模型精度最高,是用来预测乳腺癌从twitter的实时流媒体
本文的组织结构如下:部分2描述了之前的研究。部分3显示大数据工具的描述。部分4描述数据集的描述。部分5描述了乳腺癌的实时系统的预测。部分6详细讨论了实验结果。最后一节7是论文的结论。
2。相关的工作
许多研究人员应用数据挖掘和机器学习技术来开发模型和系统,预测或诊断乳腺癌。例如,正义与发展党(22]做了一个对比分析使用数据可视化和机器学习来检测和诊断乳腺癌。不同的机器学习算法包括LR、资讯,支持向量机,NB,射频,旋转森林被应用于乳腺癌数据集博士威廉·h·打出的威斯康辛大学的医院。结果表明,LR与所有特性取得了最高的精度。Delen et al。23)两种数据挖掘算法,利用人工神经网络和DT,用统计方法逻辑回归发展预测模型使用一个大型的数据集。他们之间的性能比较三个模型使用10倍交叉验证方法来计算三种预测模型的无偏估计。Agarap [24]应用六个机器学习算法,封闭的复发性单元(格勒乌)与支持向量机、LR、多层感知器,然而,softmax回归,和SVM WDBC数据集来预测乳腺癌。多层感知器取得了最好的准确性。Oyewola et al。25)使用五个机器学习算法,包括LR、线性判别分析,二次判别分析,射频,和SVM预测乳腺癌乳腺诊断方法的基础上。结果表明,支持向量机是最好的分类器的预测。Benbrahim et al。26)做了一个对比11机器学习算法,然而,NB,射频,LR, DT,随机梯度下降法,线性支持向量机,额外的树,线性判别分析,二次判别分析,和神经网络WDBC数据集来预测乳腺癌。最好的精度是通过神经网络来实现。Asri组织et al。7]SVM的性能相比,DT,朴素贝叶斯(NB)K最近的邻居(资讯)BCWD数据集使用WEKA数据挖掘工具来预测乳腺癌。结果表明,支持向量机是最好的分类器。Asri组织et al。7]NB的性能相比,支持向量机,然而BCWD数据集。支持向量机是最好的分类器。Eshlaghy et al。27]DT,使用支持向量机、人工神经网络数据集的患者在伊朗注册中心乳腺癌计划从1997年到2008年。结果表明,支持向量机模型的精度最高。然后,一些研究人员与机器学习应用特征选择算法,提高精度,减少的数量特征。例如,刘等人。28)提出了一个混合动力系统使用信息增益直接模拟退火遗传算法排名所有功能的包装器。同时,他们敏感的支持向量机学习算法应用于预测乳腺癌。罗和程29日)使用两种特征选择方法,提出选择和逆向选择,提高乳腺癌的预测的准确性的数据集收集埃尔兰根大学的放射学研究所的2003年和2006年之间。陈等人。30.减少]应用粗糙集与支持向量机算法去除额外的功能,提高BCWD数据集的准确性。目前,研究人员正在利用大数据技术来预测乳腺癌。例如,Alghunaim和Al-Baity31日)使用三个支持向量机等机器学习算法,DT,射频使用Weka和Apache火花预测癌症。结果表明,支持向量机使用Apache火花是最好的比其他的分类器。
3所示。大数据工具
本节解释的大数据工具中使用该系统。
3.1。Apache卡夫卡
Apache卡夫卡(12)是一个分布式流媒体平台开发一个实时流数据管道。卡夫卡可以接收大量的低延迟的实时数据流,容错性和可靠性。卡夫卡流数据存储在卡夫卡的话题。卡夫卡包括两个主要的API,这是生产者API和消费者API。在程序API,应用程序发送的记录流卡夫卡的话题。在消费者API,应用程序可以读取数据流从卡夫卡的话题。在我们的工作中,卡夫卡从Twitter接收流媒体微博,它将数据存储在卡夫卡的主题允许Apache火花读取数据流从卡夫卡的话题。
3.2。Apache火花
Apache火花(32大数据)是一个开源框架。火花是专为处理大型数据集的速度。火花比Hadoop更快,因为火花在内存中执行处理。使用Apache火花的强项,它包括两个主要的图书馆,这是引发流API和MLib API。火花MLlib API是火花的机器学习(ML)库,提供不同类型的机器学习算法分类和回归等,它包括功能转换:标准化、规范化、散列和模型评估和hyperparameter调优。我们使用了MLlib API来实现构建离线模型组件。也用于实现不同类型的分类算法,如支持向量机,DT,射频,LR,网格搜索和交叉验证。火花流API提供了具有可扩展性和容错性流处理的数据流。在我们的工作中,火花流API用来实现一个在线预测管道组件。火花流API是用于读取消息流从卡夫卡主题和预处理微博实时预处理tweet,然后发送到最好的发展模式,实现离线模型来预测是否实时tweets包括乳腺癌。
4所示。数据集描述
在本节中,我们描述了乳腺癌的威斯康辛州(诊断)的数据集,用于构建离线模型。
4.1。乳腺癌的威斯康辛州(诊断)数据集(BCWD)
我们使用了BCWD数据集(33训练和测试模型因为BCWD是一个免费的和可靠的数据集;同时,它已被用于预测乳腺癌的各种研究人员如Agarap [24),Dubey et al。34],Sridevi和基于35]。它包括30特性和一个类标签。这些特性的描述是细胞核中发现图片的剪辑来自乳房。的类标签有两个值0或1。0表示良性乳腺癌,1表示恶性乳腺癌。在这项工作中,我们减少使用相关功能的数量;之后,我们应用两种类型的特征选择算法在特征相关性。减少的数量特性对于机器学习是必要的,因为有时候,不必要的特性影响模型的性能和模型精度。此外,它有助于减少过度拟合,提高准确性。相关性研究的数据集的两个或两个以上的特性之间的关系。 We used the correlation matrix in Python [45]研究数据库中的特征之间的关系。同时,我们删除的特性之一,与其他功能最重要的相关性高于90%。应用关联后,我们选择20从数据库功能。这些特性的描述如表所示1。
5。乳腺癌的实时系统的预测
乳腺癌的实时系统的体系结构预测是由两个部分组成的,即开发离线构建模型和在线预测管道,如图1。这两个组件将在以下部分中详细描述。
5.1。开发一个离线模式
开发一个离线模型组件的目的是找到最优机器学习模型精度最高。两种特征选择算法,递归特性消除/旨在选择和单变量特征选择,用于从数据库中选择基本特征后,具有相关性。四个机器学习算法、决策树、逻辑回归、支持向量机,和随机森林分类器,用于乳腺癌分类为良性和恶性。图1展示了主要的发展阶段离线模型:特征选择方法、数据分割、分类器的优化和培训和评估模型。每个阶段该组件的详细描述如下。
5.1.1。特征选择方法
选择的过程中重要的输入特性预测模型被称为特征选择。选择过程降低了输入变量的数量,缩短了执行时间;这模型关注的重要特性提高了分类精度。应用特征选择方法的目标是指定数据库中的关键特性预测过程中发挥着至关重要的作用。这些关键功能必须可用,这样系统可以正确预测癌症疾病,除了定义的特性如果缺失不会影响系统的能力来预测正确。在本文中,我们使用两种特征选择算法的递归特性消除和旨在选择(RFECV)和单变量特征选择。(1)递归特性消除和旨在选择(RFECV): RFECV [36]是一种包装方法。RFECV用于设置为每个特性,选择最佳数量的排名排名最高的特性。(2)单变量特征选择是一种过滤方法。我们使用卡方(37与SelectKBest []38),选择最佳数量的特性。scikit-learn图书馆在Python提供了SelectKBest,可用于不同的统计测试来选择一个特定数量的特性。
5.1.2中。数据库分割
数据集分为训练数据集和测试数据集20% 80%(看不见的数据集)使用分层方法。训练集用于优化和训练毫升模型,和看不见的测试集是用来评估结果模型。
5.1.3。分类器的优化和培训
网格搜索方法与10倍的简历被用来找到机器学习算法的最优hyperparameters和提高准确性。四个机器学习分类算法,逻辑回归(LR) [39),决策树(DT) [40),随机森林分类器(RF) (41,42),和支持向量机(43),在此工作中使用。交叉验证的准确性和看不见的数据计算出每个模型。K倍交叉验证:k倍功能适用于所有的数据集划分成相等的k组样本称为折叠。K−1组是用于训练分类器,剩下的褶皱是用于测试分类器。10倍的简历过程中,90%的数据被用于训练,和10%的数据被用于测试目的。此外,hyperparameter调优是用来传递不同的参数模型。网格搜索是广泛使用的技术在应用hyperparameter调优。在准备搜索,用户为每个hyperparameter定义了一组值。之后,每个hyperparameter模型执行所有的测试值并选择最好的价值达到最好的准确性。
5.1.4。评估模型
我们使用精度评估模型、TP真阳性,TN是真的负,FP是假阳性,和FN假阴性,看到以下方程:
5.2。在线预测管道
实现一个流媒体处理管道组件,Apache卡夫卡和分布式流媒体技术是利用Apache火花。同时,Twitter流API应用程序(44)是用于收集实时数据流从Twitter。这个组件的主要目标是研究的效率提出了系统工作使用twitter的实时流媒体和测量能力预测良性肿瘤或恶性癌症,基于健康状态信息包含在推特中。Apache卡夫卡(12)是选择利用其高吞吐量,低的运输时间,订购保证。卡夫卡是用于读取来自Twitter的tweets并将它们存储在卡夫卡的话题。在我们的例子中,Apache火花是流处理器,它将其输入流从Apache卡夫卡的话题。对于每个tweet,提取的数据表示一个向量的形式传递给最好的模型相同的顺序在训练数据集预测如果推包括良性或恶性乳腺癌。出预测精度最高的模型被称为最好的模型。
5.2.1。流媒体处理管道
Twitter是一种最常用的社交媒体平台在一定程度上,它被认为是一个主要的数据来源为医疗和医药相关的应用程序。人们使用Twitter分享医疗条件、担忧,药物副作用等。包含这样一个大的数据量使得Twitter数据科学研究人员的一个重要资源进行实验使用Twitter的数据。同时,Twitter流API (44)允许研究人员阅读实时流数据。因此,研究人员将Twitter与大数据流实时工作的工具来开发应用程序。在这一步中,Twitter API流和Apache卡夫卡是用来捕获微博包含“∗streamingcancer”标签。流数据,包括乳腺癌相关信息检索同步使用Twitter流API。预测然后执行确定的任何两种乳腺癌(良性或恶性)都包含在tweet。Tweepy Python库,用于访问Twitter数据。建立连接Twitter流API,维生HTTP连接和OAuth协议支持用户授权使用方法。此外,创建了一个帐户的Twitter应用程序获得消费者关键用户密钥和机密,访问令牌和访问令牌的秘密授权访问推特流。之后,我们开发的脚本捕捉流媒体微博包含“∗streamingcancer”标签。图2显示了一个示例的tweet的类型收集我们的流数据集。这个微博包含一个属性值序列,ra_mean, te_mean, sm_mean, com_mean, con_mean, fr_di_mean, ra_se, com_se, con_se, sm_worst, com_worst, con_worst, sym_worst顺序相同的属性中使用训练数据集。我们分开每个属性使用空间。后来,卡夫卡的Twitter流数据传输实时基础上的话题。
5.2.2。在线预测
后列出的intersteps从Twitter数据收集过程,卡夫卡主题吸收Twitter流数据。火花流消耗流从卡夫卡的微博主题,适用于许多步骤。步骤包括删除重要数据和提取健康属性。然后,健康属性转换为矢量,送到最好的模型来预测恶性或良性乳腺癌。具体来说,乳腺癌的实时预测模型有两个主要步骤。首先,离线最好的预测模型是用来分类每个tweet相关乳腺癌分成两个不同的类,如良性和恶性。例如,使用示例推图3,该系统消化这个特定的Twitter用户的tweet信息关心乳腺癌恶性条件的后果。
6。实验结果和讨论
6.1。实验装置
该系统由Python实现。机器学习分类器使用PySpark由火花的MLlib API实现。Apache卡夫卡是用于接收流媒体微博从Twitter并将它们存储在卡夫卡的话题。火花流API用于消费数据作为流使用PySpark从卡夫卡的话题。由Python实现特征选择方法。拟议的系统上执行一个火花集群,其中包括一个主节点和两个工人节点。Ubuntu是用来运行Java虚拟机(VM)构建集群,20 GB的RAM,七芯,100 GB的磁盘。
6.2。特征选择方法的结果
实验结果取决于相关的数据库功能。RFECV和单变量特征选择算法应用于数据集相关的特性。这些特征选择技术用于从相关选择重要的功能特性。所选特征的结果是在下面详细描述。
6.2.1。应用RFECV的结果
RFECV算法选择其排名价值是一个重要的特性。的排名功能如图3。根据图,最优数量的特性是12的特性。最重要的特性,排名1 ra_mean, te_mean, com_mean, con_mean, fr_di_mean, ra_se, com_se, con_se, sm_worst, com_worst con_worst, sym_worst。te_se, sy_se注册散场排名9和图8,分别。
6.2.2。运用单变量的结果
分数由单变量选择的所有功能如表所示2。Ra_mean是最关键的特性对癌症的诊断。Sy_se和fr_di_mean最小的分数为0.00008和0.00007,分别。特征选择过程称为单变量时最好的选择特性取决于单变量统计检验的结果。试验后,功能高排名值更重要的分类器。因此,在一个降序排序的特性后,9选择高效的特性。因此,图4显示了重要9评级最高的特点。我们可以注意到,得分最高的是266.1 Ra_mean注册的。第二个重要特征是te_mean 93.897的分数。此外,con_mean和com_worst有相同的分数为19.71和19.31,分别。
6.3。机器学习的结果
实验结果的目标是选择最佳的模型,交叉验证结果的准确性最高注册和看不见的数据集的结果。我们将数据集分为训练数据集和测试数据集20% 80%使用分层分割(看不见的数据集)。此外,10倍交叉验证与hyperparameter调优应用于训练数据集。为10倍交叉验证,90%的数据用于训练模型和10%的数据被用来评估模型使用精度。此外,平均精度为10倍交叉验证计算为每个模型。四个机器学习算法,LR, DT,支持向量机,射频,后被应用于特征相关性和特征选择。hyperparameter调优,一些参数被调到机器学习算法。支持向量机、三参数调优,内核,正则化参数(regPram)和迭代的最大数量(麦克斯特)。LR,两个参数进行了优化,正则化参数(regPram)和迭代的最大数量(麦克斯特)。射频,两个参数调优,最大数量的垃圾箱离散化连续特性(maxBins)和树的最大深度(maxDepth)。 For DT, three parameters were tuned, which are information gain (impurity), the maximum depth of the tree (maxDepth), and the number of bins for discretizing continuous features (maxBins).
6.3.1。应用毫升后功能相关的结果
表3显示了10倍的简历的准确性和精度的看不见的数据集,注册的四个模型:LR, DT, SVM和射频。交叉验证,射频取得最好的准确性为99.5%,而DT取得最低的准确性为98.6%。对于看不见的数据,最好的精度是注册了LR在98.8%,尽管DT记录最低的准确性为90.3%,相比LR和SVM为交叉验证记录的准确性为99.06%和99.1%,分别。所有,RF取得最好的交叉验证和LR看不见的数据的准确性。表3显示模型的参数的最佳值给分类器实现高精度注册他们的重要作用。
再。精度由RFECV使用选择特性
表4显示的准确性10倍的简历和看不见的数据的准确性,注册的四个模型,LR, DT,支持向量机,和射频RFECV选择特性。交叉验证,射频注册精度最高的99.1%,而DT取得最低的准确性为98.6%。看不见的数据,最好的精度由射频注册在100%,尽管DT记录最低的准确性为91.2%。支持向量机和LR得分相同的精度在98.5%和98.8%,分别。射频取得最好的精度,交叉验证和看不见的数据。表4显示模型的参数的最佳值给分类器实现高精度注册他们的重要作用。
6.3.3。结果模型应用于单变量的选择功能
表5显示的准确性10倍的简历为训练数据集和看不见的数据的准确性,注册的四个模型,LR, DT,支持向量机,和射频单变量特征选择的选择功能。交叉验证,精度最高的由RF为99.1%,注册然后LR是第二好的分类器的精度98.6%。对于看不见的数据,最好的精度是注册了LR在98.4%,尽管DT记录最低的准确性为90.35%。,射频取得最好的交叉验证准确性,LR取得最好的看不见的数据的准确性。另外,表5显示模型的参数的最佳值给分类器实现高精度注册他们的重要作用。
6.4。讨论
在我们的分析中,两种特征选择算法,即单变量和RFECV被用于从所选特征选择最基本的特性后BCWD数据集的相关性。图5显示了交叉验证结果的最好的模型。可以看到,射频取得最好的准确性。射频注册最高精度在99.5.11%特性相关性后,100% RFECV使用所选择的功能,和99.1由单变量选择的特性。图6显示了看不见的数据结果的最佳模型。可以看到射频取得了最高的精度在99.1% RFECV选择特性,而LR取得最高的精度在98.7%与所选特征相关性和98.4%后单变量的选择功能。我们可以注意到射频交叉验证取得了最高的精度和RFECV看不见的数据与所选择的特性。因此,射频与所选特征RFECV用来评估拟议的实时系统。
6.5。评估的结果,提出了实时系统
最好的模型是射频,特性RFECV选出来,ra_mean, te_mean, com_mean, con_mean, fr_di_mean, ra_se, com_se, con_se, sm_worst, com_worst con_worst, sym_worst。实时试验的目的是评估的能力提出了系统实时工作及其预测能力恶性或良性乳腺癌实时tweets。该系统接收流媒体微博由12个功能应用于射频分类推到恶性或良性乳腺癌。表6显示了一个示例结构tweet和预测标签。也可以看出,有两个微博包含恶性乳腺癌适应症和五个tweet包含良性乳腺癌适应症。
7所示。结论
在这个研究中,我们提出了一个系统的实时预测乳腺癌疾病的。提出的开发系统是基于Apache火花和Apache卡夫卡。它是由两个部分组成的开发离线和在线预测模型和管道。在发展中离线模型,我们四个机器学习算法的性能进行评估,LR,支持向量机,射频,DT BCWD数据集上的特性和预测恶性或良性乳腺癌。我们应用相关选择的关键特性和应用两种特征选择算法在特征相关性后从特征选择最基本的特性相关。机器学习模型k倍交叉验证和hyperparameter调优后被应用于特征相关性和特征选择最好的模型精度最高的。在线预测管道,该系统实时评估使用推特的流。推流检索从Twitter使用头词“∗streamingcancer”并送往卡夫卡的话题。Apache火花从卡夫卡的话题和提取健康属性读取tweets并将它们发送给在线预测。然后,在线预测发送健康属性训练数据的向量形式在相同的顺序开发模型来预测tweet是否包含乳腺癌恶性或良性乳腺癌。结果已经证明射频与所选特征RFECV有最好的准确性为99.1%。
数据可用性
使用的数据来支持本研究的发现在乳腺癌中可用威斯康辛州(诊断)数据集(https://www.kaggle.com/uciml/breast-cancer-wisconsin-data)。
的利益冲突
作者宣称没有利益冲突。