文摘

卷积神经网络(cnn)是广泛用于图像识别和文本分析,提出了应用一维数据来减少需要预处理步骤。在这项研究中,一维卷积神经网络的性能(1 dcnn)机器学习算法追究安泰药片光谱数据的回归分析。该算法与其他最优化方法,包括支持向量机回归(SVR)和偏最小二乘回归(PLSR)方法。结果表明,1 dcnn模型优于PLSR和SVR模型与数据预处理的三个分析物(汉黄芩甙、黄岑素和阿魏酸)在安泰药片。以汉黄芩甙为例,修正系数等指标的测定( ),交叉验证的根均方误差(RMSECV)校准,预测确定系数( ),和根均方预测误差(RMSEP)获得的PLSR模型分别为0.9340,0.5568,0.9491,和0.5088;SVR建模得到的指数是0.9520,0.4816,0.9667,和0.4117;和1 dcnn建模得到的指数是0.9683,0.3397,0.9845,和0.2807,分别。评价指标1的dcnn比PLSR和SVR,和预测效果是最好的,证明1 dcnn具有良好的泛化能力。尤其是离群值的光谱,PLSR 下降了0.0181,SVR 下降了0.01,1 dcnn的 增加了0.0009 下降了0.0057。1的评价指标dcnn相比没有明显的变化没有异常值,还可以显示良好的性能,它反映了包容1 dcnn模型的离群值。同时,1 dcnn模型的可行性和鲁棒性的应用近红外光谱验证,具有一定的应用价值。

1。介绍

药品是特殊的商品直接关系到每个公民的健康和安全,并在其生命周期各个环节需要严格的质量控制1]。近年来,假药主要化学物质添加到胶囊壳的中国专利药品或保健食品生产和销售方法更多的隐藏。PSI的网站上公布的一项调查显示,2021年全球假药事件报道的数量增长了20倍从196年的2002到4334年的2020人。快速、有效的筛选药物质量已经成为一个迫切需要解决的问题。常见的药物内容分析方法包括薄层色谱法(TLC)、气相色谱(GC)、高效液相色谱法(HPLC),和DNA分子标记(2,3]。这些方法通常需要使用各种仪器和化学试剂的破坏性的预处理的药物,这是费时和昂贵的。近红外光谱(NIRS)是另一种方法对于识别药品是一个快速,简单,3、样本和整体分析技术(4,5]。

近红外光谱分析技术已广泛应用于制药行业,它有丰富的倍频和频率振动信息分子组(6]。自检测技术是一种间接的分析技术,必须找到合适的方法来分析光谱数据。传统的定量分析方法包括多元线性回归、主成分回归、偏最小二乘回归分析、人工神经网络和支持向量机回归(7]。然而,在实际的光谱采集过程中,这是不可避免地受到环境因素的影响,人为错误,背景噪声干扰,等等,导致光谱的采集的异常值。在正常情况下,如果有异常值的光谱,人工眼睛正常光谱可以判断大区别,和离群值可以很容易地区别内围层并手动消除。然而,在实际情况下,许多局外人往往需要专业人员找到合适的离群值发现算法程序来消除它。如果异常光谱不能有效地消除了在建模过程中,将极大地影响回归建模的预测效果。本研究试图建立一个更具包容性的模型的异常值通过使用一维卷积神经网络的建模算法,进行定量分析,并运用回归建模和预测安泰活性成分的药片。

类型的机器学习算法被结合光谱技术是近年来用于分类或回归任务(8]。卷积神经网络(cnn)是一个深度学习的关键概念。与传统的特征提取方法(9- - - - - -11),CNN不需要手动特征提取和使用大量的数据来获得期望的结果。具体地说,cnn已经表明,深度学习可以发现复杂的高维数据中的模式,减少需要手动工作在预处理和特征工程(12]。CNN是有用的一维及多维场景(13]。与以前的人工网络相比,CNN没有考虑整个数据集,但获得的数据的特性考虑本地信息。CNN火车更快和更少的参数,从而减少计算成本和功耗。最近,cnn已经使用了在红外(IR)[分类任务14),近红外光谱(14),拉曼(14- - - - - -16),和激光诱导荧光(生活)17)光谱分析和回归任务有红外(18,19和近红外光谱18- - - - - -23光谱分析。这些研究表明,在某些情况下,CNN模型优于一些传统方法,如请[20.,21,23],SVR [20.),和极端学习机(ELM) [23]。PLSR是一种最常用的多变量分析方法在光谱(24],SVR自2004年以来一直结合光谱(25]。张等人提出了一种新的1 dcnn初始模型,研究了cnn的性能通过分类分析的光谱数据。实验结果表明,该模型比先前的方法如PCA-ANN SVR,请它预测更好的结果在四个不同的原始数据集比近红外光谱数据的预处理版本(20.]。

本研究提出了一种基于近红外技术的定量分析方法结合1 dcnn和构造一个通用和健壮的光谱数据分析模型。这个模型的分析结果进行了比较与PLSR SVR,这验证了1 dcnn模型在近红外技术的可行性。1 dcnn异常值的公差光谱验证了通过观察预测结果的差异1 dcnn PLSR, SVR异常值和内围层,为解决这个问题提供了一个新想法的离群值。

2。材料和方法

2.1。实验环境

实验环境的硬件是一个英特尔至强(R)铂8124 3.00 GHz CPU, 64 GB内存和GPU模型Nividia GeForce RTX 3060。操作系统是Windows版本,并使用Python所有实验完成。深度学习模型使用Keras 2.8.0框架,和后端使用TensorFlow 2.8.0支持GPU。PLSR和SVR算法代码基于1.0.2 scikit-learn软件包。

2.2。样本收集和准备

我们使用了文献[26数据收集)。本研究中选择的数据从101年的21批安泰药片创作于2013年,2014年和2015年。2015年这些光谱数据测量使用SupNIR1500近红外光谱仪在1000 - 1800纳米的范围1 nm间隔在漫反射模式下,三种化学成分汉黄芩甙的内容,黄岑素,阿魏酸在21批安泰药片高效液相色谱法(HPLC)测定梯度洗脱。在数据采集过程中我们观察到异常值并进行了光谱的内围层和异常值。两个数据集,其中包含五个异常值和96内围层,80个样本用于训练集,和21个样本的预测集。另一个数据集有96内围层,它被分为76个样本训练集和预测集的20个样品。光谱中描述的方法识别异常值的部分2。3

2.3。异常光谱识别

本研究使用Mahalanobis距离(MD)方法基于主成分分析(PCA)来检测异常值。首先,规范化原始光谱数据和不同数量级的数据转换为相同的数量级相比,提高了数据可比性。使用PCA降维的数据,并且数据是线性映射到低维空间最大化数据差异的低维表示。最后,MD用于查找离群值,样品在MD必然是离群值。MD公式如下: 在哪里 向量代表一个光谱, 代表了协方差矩阵, 表示一个向量的平均值组成 列。所得结果如图1

它可以看到从图1过去5点的值明显高于其他值最后五光谱判断离群值。

2.4。数据预处理

在数据预处理中,数据被导入第一,和两个经典方法,Savitzky-Golay平滑(s g)和标准正态变量(SNV),用于近红外光谱数据进行预处理。平滑滤波的SG方法提高了光谱平滑,减少噪声干扰;SNV用于消除固体颗粒大小的影响,表面散射,光程变化对近红外漫反射光谱。数据然后使用标准化的数据预处理方法。规范功能通过删除单元方差均值和扩展。

如图2,图2(一个)原始光谱没有异常值,图吗2 (b)是光谱处理SG和SNV图吗2 (c)后获得的光谱数据标准化。同样,数据33(一个)显示原始光谱异常值,图3 (b)是光谱处理SG和SNV图吗3 (c)是标准化后的光谱数据。

2.5。数据增加

数据增强是一种常见的方法,改善图像卷积神经网络训练,它可以被理解为模拟的变化图像,如图像旋转90°和缩放和缩小图像。这种变化很容易为人们所理解,但它混淆的机器学习算法。通过模拟不同训练集数据的变化,它可能扩大从有限的训练集生成训练样本,以防止过度拟合,适用于小数据集。数据扩增方法领域的常用图像翻转,随机旋转、缩放、剪切、转移,增加高斯噪声。

光谱应用程序数据增加也是极其重要的,几个译本的光谱测量之间可能发生,如频率变化,峰值展宽,和强度的变化。我们将样本分为训练集和验证集的实验。其中,80%的样本作为训练集,20%的样本作为验证集,和数据增加被用来增加训练集的数量。通过随机改变数据均值的0.1倍,也就是说,来放大或缩小意思0.1倍,然后改变斜率的0.05倍,也就是说,随机调整0.95和1.05之间的斜率增加频谱。

训练集的异常值,这个增加重复15次为每个样本和一个示例输出,和样本容量扩展到1200个样本。另一训练集是提高16倍,以确保相同的样本,样本大小是扩展到1216个样本。

2.6。一维卷积神经网络

1 dcnns通常由输入层、卷积层,BN层,完全连接层、输出层,和其他部分。

2.6.1。卷积的层

是由几个卷积核的卷积层。使用卷积核卷积原始数据相当于提取原始数据的特征包含卷积核的特性。卷积核的大小代表了每个卷积的数据的大小,和卷积核的大小年代年代权重。卷积的结果是每个数据乘以权重的总和,并输出结果称为特征映射。另一个参数,步长,代表卷积的步长内核卷积后移动。图4说明了执行卷积核的过程。每个卷积内核的执行过程是相似的,只有体重变化。设置两个卷积核,输入一维数据大小是4,卷积核的大小是2,步长是2。公式(2)输出尺寸的计算方法,在哪里 是输出大小, 是输入光谱, 卷积核的大小, 步长。

2.6.2。激活层

卷积神经网络可以利用不同的激活函数来表达复杂的特性。每个神经元接受前一层神经元作为输入,然后将处理过的值传递到下一层。在多层神经网络,每一对层的激活函数。没有激活的神经网络的输出函数的线性组合输入有限的学习能力。从理论上讲,一个深神经网络非线性激活函数可以近似函数,大大提高了神经网络的数据拟合能力。常用的激活功能包括乙状结肠,双曲正切,和ReLU功能。修正的线性单元(ReLU)函数作为激活函数在这个实验。使用ReLU函数的一个重要的优势是,它加速了学习而乙状结肠和双曲正切函数。ReLU函数集的所有负面数据复杂特性映射到0,和非负数字保持梯度不变,减轻梯度消失的问题。在深度学习,ReLU是使用最广泛的激活函数,及其公式如下:

2.6.3。BN层(批量标准化)

批标准化允许我们使用更高的利率和学习不注意初始化(27]。BN层试图克服的困难模式训练引起的神经网络层的深化。神经网络结构通常分为输入、输出和隐藏层。隐藏层包括所有输入和输出层之间的网络层。训练神经网络时,归一化通常是用于输入数据来提高网络的训练速度。对于隐藏层,有必要使用BN层标准化数据通过前一层当前隐藏层,保持输入神经网络的每一层相同的分布。十亿层经常的使用达到更好的结果。

2.6.4。辍学层

辍学层暂时下降的神经网络单位每个完全连接层的随机网络,根据一定的概率在深层神经网络的训练过程。因此,每一批列车不同的网络,它简化了神经网络的结构,从而提高网络的鲁棒性,减少过度拟合。

2.6.5。平层

平层减小输入数据而不影响批量大小和通常是紧随其后的是完全连接(FC)层。因为多个特征图谱输出卷积层后,这些特征图谱需要转换成向量序列对应FC层。

2.6.6。完全连接层

FC层中的每个节点连接到上一层中的所有节点之间建立映射提取特性和输出扮演的角色回归。卷积和活化层的目的是将原始数据映射到隐层,而完全连接层地图学习样本标签空间特性。

2.6.7。优化

神经网络的训练过程是一个过程,不断更新重量参数,和优化算法用于计算这组参数。神经网络方法是每一层的重量参数进行初始化,然后向前计算的损失函数计算网络的输出值的培训过程。如果损失接近0,网络训练和不需要进一步更新重量。否则,重量参数更新使用反向传播。最好的快速收敛性和优化器选择正确学习而调整内部参数最小化损失函数。常用的优化算法是SGD,亚当,AdaGrad, RMSProp。本研究采用随机梯度下降法(SGD)优化算法。SGD随机选择一个样本更新参数,也就是快。SGD公式如下: 代表了重量, 代表了tth迭代, 代表了损失函数, 表示损失函数的偏导数l, 是学习速率,它决定了振幅参数改变时更新参数。方程(4)是更新重量参数的过程;每次选择一个样本更新参数可以快速更新梯度。

2.6.8。Huber损失函数

损失函数优化问题通常是作为一个学习的标准,和预测之间的距离和实际值使用损失函数计算。当处理神经网络回归问题,平均绝对误差(MAE)或均方误差(MSE)通常使用。本研究使用Huber损失函数占异常值,比MSE(不敏感28]。与MSE相比,是更健壮的离群值。它是基于绝对误差,但误差时变成了均方误差小。它结合了优势的平均绝对误差(MAE)和均方误差(MSE)。Huber损失的公式如下:

Huber损失的使用训练导致异常值有一个线性函数,因此对梯度的影响更大。如果样品不是局外人,函数变成一个二次(这个宽容的参数, ),这时它本质上变成了MSE (29日]。因此,它可能达到的最低速度比MSE在处理离群值。

2.6.9。1 dcnn建模

1 dcnn卷积神经网络的训练过程由两个阶段组成。数据传播的阶段,第一阶段和第二阶段是反向传播。

正向传播过程中,从输入图形数据提取的特征向量是通过多个卷积层和转移到完全连接层得到识别结果。输出的结果与预期值时,输出结果是生成的。否则,执行反向传播过程。误差计算结果和期望值之间,然后一层一层地返回更新重量(参见算法1)。

输入:样本:数量的样品
时代:所有训练样本的训练时间。
b:在一个训练样本选择的数量。
(1) 初始化(净)
(2) 时代= 1;时代≤时代;时代+ +
(3) 大小= 1;尺寸≤math.ceil(样本/ b);大小+ +
(4) 光谱数据⟵均匀随机样本b光谱数据
(5) 分析物←均匀随机样本b分析物
(6) z⟵向前(净、光谱数据)
(7) l⟵损失(z分析物)
(8) 毕业生⟵向后(左)
(9) 更新(网络,毕业生)
(10) 结束了
(11) 结束了

1 dcnn模型结构提出了研究如图5。13层:它由一个输入层、一层高斯噪声,重塑一个层,三个卷积层,三批规范化(BN)层,一个辍学层,一层压扁,一个完全连接(FC)层和一个输出层。

1 dcnn模型的参数结构表中列出1。没有标记的参数在TensorFlow默认参数。每一层的简要描述如下:(1)高斯噪声层。正则化模型是辅助的高斯噪声的影响滤波器的噪声数据,只有有效地训练。高斯噪声的标准差表示 (2)重塑层。深神经网络,通过网络层来改变输入数据的维数,从二维调整三维检测数据,第三维度的值是固定的1。(3)卷积的层1。卷积是由一维卷积。三个一维卷积使用层,每一层ReLU激活。卷积核的数量表示 ,卷积核的大小 ,和激活功能 卷积层1使用8卷积核,每个的大小是32。(4)BN层1。每次卷积后,BN层用于规范化输出特性均值为0,方差为1。数据标准化是实现,提高了训练速度,收敛过程加快,和一个大学习速率是允许的。BN层1的归一化数据由卷积处理层1。(5)卷积的层2。卷积的层2使用16卷积核,每个的大小是32。(6)BN层2。BN层2的规范化数据由卷积处理层2。(7)卷积层3。卷积的第三层使用32卷积核,每个的大小是32。(8)BN层3。BN层3是数据的规范化卷积处理层3。(9)平层卷积后趋于平缓的特性提取和修改3 d 2 d数据的输入。(10)辍学层。通过随机丢弃神经元来提高模型的泛化能力,防止过度拟合,速度比输入要删除单元的表达 (11)FC层是由线性的激活函数,进一步激活网络中的节点进行压缩。输出的空间维度为代表 (12)输出层学特性映射到样本标记空间充分利用输出节点1的连接层。

预处理的数据被训练使用卷积神经网络SGD优化器。最初的学习速率三个化学成分0.01 (learning_rate = 0.01), 100次迭代(时代= 100),批量大小设置为16 (batch_size = 16)。

6显示了损失的递减曲线分析物的训练集和验证集汉黄芩甙在1 dcnn模型的训练过程。一个是正常的损耗曲线谱培训;b是离群值的损失曲线培训。观察数据的损失曲线,损失的训练集和验证集的聚合损失,两者的区别很小,健康是成功的。

3所示。结果与讨论

3.1。评估指标

评价指标如下:

3.1.1。均方根误差(RMSE)

3.1.2。决定系数( )

RMSE之间的偏差程度,反映了回归模型的预测和实际值和异常值敏感。RMSE值越小,更好的准确性预测模型来描述实验数据。 指之间的拟合程度,预测价值和实际价值的回归。如果 接近1,值可以准确地预测,回归模型更适合。在哪里 是向量的长度, 分别是真正的和预测值, 是真正的价值的平均值。

3.2。对比1 dcnn古典回归模型和方法

在这项研究中,1 dcnn模型训练了三个不同的分析物的浓度预测使用Huber错误损失函数和10倍交叉验证。1 dcnn模型预测real-predicted曲线的三个分析物没有异常值,如图7。数据7(一)- - - - - -7 (c)代表的预测结果汉黄芩甙、黄岑素和阿魏酸,分别。两条线重叠,越接近预测偏差越小。结果表明, 0.965以上所有分析物的获得。

23列表1 dcnn模型的结果有无异常值相比古典回归PLSR方法和SVR。PLSR和SVR使用类似的数据预处理方法和1 dcnn模型。PLSR和SVR算法是在Python中使用scikit-learn库实现。PLSR算法确定最佳主成分数通过对训练数据交叉验证。最后,主成分的数量是十,其他参数使用默认参数的PLS回归scikit-learn库的方法。SVR算法选择高斯核函数(内核= rbf),惩罚因子C是1.0,其他参数使用默认参数scikit-learn图书馆SVR方法。 根均方误差修正系数测定和校正后的10倍交叉验证校准,然后呢 预测的决定系数和均方根误差的预测集,分别。从表可以看出23,1 dcnn模型的预测精度大大提高分析物。当没有异常值, 减少到0.2807、0.7129和0.0453,分别。 值分别增加到0.9845,0.9489和0.9663。这个1 dcnn模型应用展品承诺回归功能与PLSR相比和SVR模型。

1 dcnn模型还可以执行有异常值。将分析物黄岑素作为一个例子,与内围层相比,PLSR模型显示 下降了0.0222 增加了0.0645;SVR模型显示0.0132下降 和0.0531增加 ;而1 dcnn模型显示0.0025下降 和0.0382增加 这些结果表明,异常值的1 dcnn模型具有较高的包容性光谱和维护少数异常值的预测精度高,说明声音1 dcnn模型的性能。

4所示。结论

本研究提出了利用一维卷积神经网络处理近红外光谱数据,和化学成分的定量分析技术探讨了安泰药片为研究对象。我们得出了以下结论:(1)由于小数量的预测样本,很容易过度拟合或泛化能力较弱的问题,采用数据扩充策略增加样本容量,实现和数据增加随机抵消的均值的0.1倍和0.05倍的斜率随机抵消。这种方法复制的系统误差谱方法和适用于培训卷积神经网络。(2)实验结果表明,1 dcnn方法的性能是好的,和预测精度优于经典的回归方法。是可行的,使用近红外光谱定量分析药物的化学成分与卷积神经网络相结合,适合大规模、multi-variety,多个药物的任务。(3)1 dcnn模型保持优良的性能和一些异常值,而传统的回归算法不如1 dcnn。这个模型提供了一种新方法来解决问题的光谱与离群值。

在接下来的研究中,大量的近红外光谱将用于构建一个更开阔更健壮的模型。与此同时,尽管CNN没有关注预处理和省时的,网络将手动调整的参数。以下新奇是找到一个解决方案自动优化参数和扩大CNN在药品质量管理的应用。

数据可用性

所需的原始/处理数据复制这些发现也不能在这个时候作为数据共享一个正在进行的研究的一部分。

的利益冲突

作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。

确认

这项研究得到了国家自然科学基金(批准号62031021)和广州科技计划项目(20180310104)。