文摘

文本挖掘和语义分析的医学公共卫生问题的要点是智能医疗交互,但是不那么相关的研究已经完成。本文设想一个卷积神经网络的语义分类,公共卫生医疗问题。双褶积层用于进一步减少的尺寸数据,从数据中提取更深入的信息,地图的功能。每个卷积层包括几个卷积核提取语义特征,然后,完整的连接层的输入分类器获得的结果分类。检查字典分类效果,人工建筑和双隐藏层神经元网络用于语义分类,并比较了三种方法和测试六个真实数据集。实验结果表明,当数据集的质量高,卷积神经网络方法提出了超过过去的两种方法。该方法比人工的建筑词典和两个隐藏层神经网络的召回率:0.153和0.037,大于0.07和0.01F1测量速率,分别。当数据集的质量一般,三种方法的模型不给好的分类结果。最后,得出卷积神经网络方法构想具有良好的语义识别性能在公共卫生医疗问题。

1。介绍

近年来,人工智能的应用在医学领域发展迅速。在互联网等智能医院医院和远程医疗,如果人工智能技术可用于智能识别和分类常见的医疗卫生问题的病人在耐心协商和病人电话咨询、医院的效率和情报将大大提高1,2]。

语义识别的医疗健康问题,本质上文本语义分析,首先将病人的言论问题转换成文本,然后执行语义分析。然而,由于涉及的更专业和复杂的知识领域的医疗卫生、语义分析研究越来越少的医疗健康问题(3]。深入学习是最热门的方向近年来机器学习领域的;因为它的特征提取能力和学习能力强,已广泛用于图像识别、语音识别和自然语言处理。传统的文本分类算法,如k加权(资讯)算法(4),决策树(5),而支持向量机(SVM) [6),适合复杂的功能有限的有限的数据集和计算单位,限制他们处理复杂问题的能力,以及他们的学习能力和泛化不强7]。深度学习一层一层地将原始数据转换为抽象表示通过学习多层表示,从数据自动学习功能,利用其强大的计算和学习功能,以便发现高维数据中复杂的结构,提取的特征信息是更好的用于分类和预测(8,9]。

深层神经网络模型广泛应用于文本分类模型的建设包括卷积神经网络(CNN) (10递归神经网络(RNN) [],11),和长时间的短期记忆(LSTM) [12]。CNN在深度学习作为一种重要的网络模型,可以对大规模文本数据分类,和相关的研究结果表明,CNN在文本分类领域的巨大应用价值(13]。例如,文本分类模型基于深卷积神经网络由帅等人能够准确地分类水稻知识文本不同的样本大小和不同的复杂性14]。周等人建立了一个卷积神经网络模型学习和分类医疗论文深度学习基于文本分类的方法,可以提高生物医学文献的分类精度15]。

尽管上述结果取得了较好的实验结果,很少有学者研究这个方向的医疗公共卫生问题分析(16- - - - - -18]。因此,探索深度学习的效果和性能在公共健康问题,本文研究了语义分析医疗公共卫生问题的文本使用改进的卷积神经网络数据分析需求的基础上真正的医疗公共卫生问题。

医疗卫生问题的语义识别、文本语义分析,分析问题的核心意义根据病人要求的文本,然后执行后续匹配的答案和处理。本文使用的数据来自医疗数据挖掘算法评价比赛赞助的医疗信息系中国医学协会的分支,医学大数据和人工智能群中国医学会的医疗信息的分支。

具体任务:分类的公共健康问题。训练集的数据如表所示1句子,问题是病人的问题,包括一些完整的句子。这个问题可能有六个标签的结论,分别代表六个可能的核心语义。六个核心语义标签如下:标签代表诊断;label2代表治疗;label3代表解剖学和生理学;label4代表流行病学;label5代表一种健康的生活方式;和label6代表医疗选择。如果问题句子包含一个特定的信息标签,标签设置为1,如果不包括,它设置为0,这是一个典型的multilabel分类问题。Multilabel分类任务是一个实体可以有多个标签或被分成多个类在同一时间。 For example, as shown in Table1标签1和标签2的问题同时设置为1。

在分类任务中,一个模型基于4000年的训练数据是由学习。然后,模型用于对新来的数据,执行语义分析和验证等指标分析的准确性。

训练集共有4000语句,和中包含的语义标签的频率统计信息如表所示2。在表2,标签1的频率是1500,标签2的频率是2558,标签的频率3是1,等等。

3所示。设计卷积神经网络进行语义分析

卷积神经网络是一种多层监督学习神经网络,其中包含一个输入层、隐藏层和输出层,采用梯度下降法,以最大限度地减少损失函数反向调整重量参数在网络层的层,提高最终的适合程度通过不断迭代训练(19]。隐藏层通常包含一个卷积一层一层和一个池,在卷积的功能层从输入数据中提取特征,获取特征映射,并提取深度特性通过叠加多个卷积的数据层。池层负责压缩特性和提取主要特征。将Softmax分类器的输出层利用。问题的研究,本节使用字典的方法来表示问题句子文本,然后构建一个卷积神经网络模型来提取特征,学习,和语义分类的文本。

3.1。数据预处理

当训练卷积神经网络模型来处理文本,它需要首先句子问题转化为一个向量。具体步骤:(1)删除非组件的问题;(2)寻找最长的单词计数的问题和使用它的单词计数作为向量的维数,假设N;和(3)所有的单词出现在所有问题被分配在它们出现的顺序,从而将问题转化为一个向量字典,即。键- >值,如图1。获取字典后,句句子转换的问题一个接一个根据字典获得培训矩阵;如果问题句子的长度小于N,这一切都是充满了最后一个词后的值为0,填充长度N。如图2,第一个20尺寸的数据显示。

算法1的数据预处理算法。

输入:训练集的形式问题
输出:数值向量形成训练集
开始
(1) 读数据集
(2) 把问题的数据集的一部分,明确非中文字符内容的问题
(3) 计算问题中所有不同的单词部分,建立汉字集合字典dicKey根据它们出现的顺序
(4) 对于所有问题,获得最大的维度N的问题。
(5) 定义了一个完整的零矩阵X;矩阵的行数是问题集的行数和矩阵的列的数量最大的维度N
(6) 对于所有问题,根据文本和创建字典,文本的问题是转换成向量矩阵和存储X
(7) 训练集的数值向量矩阵
结束
3.2。设计卷积神经网络对健康问题的语义分析

在测试集问题的句子,它们转换成一个矩阵数值向量形式根据字典在第一,然后和向量由卷积神经网络进行了分析。卷积神经网络模型是使用双卷积层设计,和每个卷积层包括多个卷积内核帮助提取特征。

第一次卷积层,多个回旋的内核上执行特征提取数据,其中每个元素占卷积内核对应于一个权重系数和偏执。卷积层中的每个神经元连接到多个神经元接近该地区在前一层,和该地区的大小取决于卷积核的大小。卷积内核定期扫描输入功能在他们的工作中,用矩阵元素在感官领域,最后,重叠的偏执。测试集后第一次卷积处理的数据层,进入激发层。

在激发层,输出卷积的结果层与Relu非线性映射()函数来提高拟合程度的非线性情况下,非线性处理后,数据被送入池层。

池层使用最大池中获取最大价值的位置及其邻近地区,然后使用最大值位置降低维数的值没有改变数据的深度。

上面的三层处理后,输出数据再次送入第二卷积层,激发层、汇聚层。两个旋转后,数据维度是进一步降低,减少了参数的数量和重量,可以提取数据的更深层次的信息获取功能映射。然后扩展成一维数据,送入完全连接层。完全连接层非线性特征提取结合卷积和汇聚层到输出层输出它们。有关详细信息,请参阅算法2的描述。

损失函数算法使用二进制叉BCEWithLogitsLoss(),集损失函数的输出层的乙状结肠BCELoss multilabel分类问题。

输入:训练数据集X和测试数据集
输出:根据训练结果预测模型
开始
= 1,…,N
步骤1。连续1 (conv1):
(1): 输入的数据X到卷积层(输入通道的数量是1,输出通道的数量是10,卷积核的大小是3,和卷积的步骤是1;填写的数据之后,卷积核扫描数据和提取深度特征)
(2): 函数Relu()用于数据的非线性处理
(3): 使用最大池特性数据的提取,在kernel_size 2步长是2
步骤2。连续2 (conv2):
(1): 数据通过Sequential1输入(输入通道号是10,输出通道数是20,卷积核的大小是3,和卷积步骤是1,再提取数据的特性);
(2): 函数Relu()用于数据的非线性处理
(3): 马克斯池用于提取的特征数据,在kernel_size 2步长是2
(4): 获得的数据来自Sequential2扩大,送入完全连接层
结束了
步骤3。根据上述结果,损失函数BCEWithLogitsLoss用于multilabel分类测试数据得到分类结果。
结束

4所示。手动构建字典方法和两个隐藏层神经网络

来验证该方法的有效性,本节将使用手动词典建设和神经网络的方法来解决这个问题。

人工建设字典方法手动提取单词每个类别,删除单词医学相关性较弱,节省了医疗相关性强的词汇。然后,一本同义词典数据库建立和测试数据可以与词汇数据库。双隐层神经网络由输入层、隐层和输出层。输入维度数据的维数,输出维度分类的类别数,和输出层使用将Softmax分类器(14]。

4.1。人工建筑字典的方法

有5000个公共卫生问题,其中4000是用于构建字典,剩余的1000用于验证方法的性能。

构建字典时,建立一个字典的停止词先处理问题的句子。停止词的字典包含常用的情态词和医学上弱的话,可能对模型性能的负面影响。所以,当我们处理问题时,我们把所有单词从字典的问题句子停止的话。数据34分别处理之前和之后的结果。

手动构建字典分析方法主要包括清洁和临别赠言中每一个公共卫生问题的数据集。然后,需要词典的六个标签:考虑一个标签,如果标签结论值是1,那么对应问题提出了数据处理后,和所有提取的数据和总结获得的同义词典设置标签,共有六个辞典。

最后,比较分类,分类的测试数据是与六辞典相比,如果一个单词的数据存在于词典,相应的标签设置为1。该算法框架如下:

输入:公共卫生问题的训练集和测试集
输出:测试集预测结果
开始
(1) 阅读训练集和测试集
(2) 设置jieba外部库停止词和自定义词集
(3) 部分单词和干净的基于训练集和测试集停止词和自定义词典
(4) 获取同义词典设置六大类
六类:
定义了神学列表Xn
结束了
对所有数据为一个类别:
如果相应的类别标签是1:
行数据的短语添加到列表中Xn
如果
结束了
(5) 明确重复的单词Xn
(6) 预测测试设置和获取性能指标
结束
4.2。双隐藏层神经网络

摘要双隐藏层神经网络方法设计包含以下步骤。首先,正则匹配所有的问题是消除非中文字符,计数所有不同的单词,并且建立一个字典。培训数据然后转化成矩阵基于字典。然后,建立一个双隐层神经网络模型,训练完成预测模型。最后,得到训练指标。

的详细描述两个隐藏层神经网络方法算法4所示。有两个隐藏层。数据的输入维数是1622,这是最长的尺寸的公共卫生问题。第一个隐层有1622个神经元,这符合输入维数,提取深度特性条件下,尺寸保持不变。在第二个隐层神经元的数目是811,这是设置为输入维数的一半,以帮助其收敛和完整的公共卫生问题的预测。具体框架算法4所示。输入:训练数据集X和测试数据集输出:根据训练结果预测模型开始= 1,…,N步骤1。Hidden1:(1)进入1622年的数据与一个维度(2)函数Relu()用于数据的非线性处理(3)输出数据维数是1622步骤2。Hidden2:(1)进入Hidden1获得的数据(2)函数Relu()用于数据的非线性处理(3)输出数据维数是811步骤3。:(1)进入Hidden2获得的数据(2)函数Relu()用于数据的非线性处理(3)输出数据维度是6结束了第四。基于上述结果,测试数据BCEWithLogitsLoss multilabeled分类使用损失函数,得到分类结果。结束

5。实验对比分析

Windows下的实验进行了10系统处理器:英特尔(R)的核心(TM) i5 - 8300 h CPU @2.30 GHz GPU: NVIDIA GeForce GTX 1050 ti 4 g。16 GB的内存大小。编程语言是Python 3.8.3,开发工具Jupyter笔记本,深度学习框架PyTorch 1.6.0, Cuda版本是10.2。

5.1。文本训练

总共有5000件公共卫生问题数据的数据集,其中4000块的数据作为训练集,剩下的1000块的数据作为测试集。双隐层神经网络模型训练和卷积神经网络模型训练集和图5调整相关参数。手工构建的方法才是学习字典的建立和人类。最后,1000件的测试集是用于图6测试性能(图7)的模型。图的损失和准确性8训练图9两种类型图10神经网络在图114000块的训练集数据从公共卫生问题随所示的迭代次数和训练集包含4000条数据。

在图5随着迭代次数的增加,双隐层神经网络模型的损失价值趋向于0和卷积神经网络模型的损失价值往往是0.32。

的变化趋势的准确性,增加培训在图的数量6,双隐层神经网络的精度往往是1和卷积神经网络的准确性往往是0.68。在图7,隐层神经网络的精度往往是1和卷积神经网络的准确性往往是0.65。在图8迅速,这两种类型的神经网络的精度往往是1。图9表明双隐层神经网络的准确性往往是1和卷积神经网络的准确性往往是0.88。图10表明双隐层神经网络的准确性往往是1和卷积神经网络的准确性往往是0.91。图11显示两个隐藏层神经网络的准确性往往是1和卷积神经网络的准确性往往是0.84。两条曲线在图8同时,往往是0.96。

根据上述结果,对隐层神经网络,它可以从数据611的准确率往往是1。同时,结合损失曲线在图10,损失的双隐层神经网络慢慢趋于稳定,损失接近0。分析后,双隐层神经网络结构相对简单,可以快速安装和数据。然而,双隐层可能会过度拟合的风险。关于卷积神经网络,数据的准确性67终于位于0.65,表明模型的泛化能力label1-2仍有很大改进的余地。数据的准确性911大约是0.9,展现卷积神经网络可以学习label4-6数据之间的潜在关系。现象的原因的卷积神经网络数据的准确性811明显高于数据吗67的label4-6数据作为数据集1小于label1-2的数据。

分析后,曲线重合label3现象的原因:可以看到4000年的训练集数据,只有一个数据是1的label3 label3的其他3999年数据为0,导致两种类型的神经网络模型的学习得太快,所以精度曲线一致。

5.2。效果评估

上述模型和手动字典方法训练后,模型的分类性能测试在测试集上。每个模型的分类性能评估使用精度,回忆,和F1值。结果如图12- - - - - -14。(测试集包含1000件的数据。)

在图12,这三个模型更接近label1的精度,在0.36附近。Label2也近,在0.66左右。label3-6的精度较低。总的来说,这三个模型的分类效果label2更好。

在图13召回的手动构建字典label1达到0.56,而替代模型是比较有效的。两个隐藏层神经网络的模型和卷积神经网络label2更好,卷积神经网络是略优于双隐藏层神经网络。label3,指标都是0。label3-6,两种类型的神经网络的效果差,而人工词典建设的方法是稳定的,和索引位于约0.50。

在图14的F1分数手动构建字典label1达到0.44,双隐藏层神经网络达到0.42,CNN达到0.26。label2卷积神经网络的指数是0.688。这三个模型在label456表现不佳。

对数据的分析1214只在label2表明,三种模型的性能相对稳定,和卷积神经网络的性能略优于双隐层神经网络。研究发现,label2在测试设置了大量的1的数据。在label3,没有1的数据在测试集,导致绩效指标的label3都是0,和模型不能预测正确。1的数据label1小于label2和超过label3-6,导致这一现象label2最佳分类效果,label1疲弱,label3-6很差。为人工创建字典的方法,关键在于释放字典的建立和优化,更有限的医学知识的筛选器。

6。结论

实验结果表明,在优秀的数据集的情况下,卷积神经网络具有更好的性能在公共卫生问题的分类比双隐层神经网络和人工构造的字典。然而,仍然有缺点在这个实验中,如文本的预处理和建立培训矩阵,不考虑具体的重量单词或单词和单词和单词之间的关系,每个训练模型的稳定性差,训练好的模型,尚未能达到一个更稳定的分类效果label1 label6。未来实验中,我们可以研究pr-processing文本和建设的培训矩阵。这个实验帮助作者实现卷积神经网络的研究和应用领域的公共卫生问题分类和医学,和卷积神经网络可以大大提高医院的效率和情报。和模型通过训练可以帮助医生做出医学判断,促进更好的医学和计算机技术的集成。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

本文得到了中国国家自然科学基金(81703946,81703946,81973791),国家重点研发项目的子项目(2017 yfc1703506),河南省科学技术研究项目(212102310362),高等教育机构的青年教师项目河南(2020 ggjs104),河南中医药大学和博士学位基金会(BSJJ2022-15)。