文摘
转基因作物已经自1996年以来大规模商业化种植。然而,转基因作物的食品安全问题仍然存在争议。传统的转基因作物的检测方法需要大量的时间和复杂的操作,不能迅速识别侦探。先前的报道表明,结合太赫兹时域光谱和监督学习拥有先进的识别转基因作物,但监督学习需要大量数据训练模型。为了解决上述问题,我们提出了一种无监督学习方法,PCA-mean转变,确定转基因作物。主成分分析是用来减少吸光度数据维数。主成分分析后,前三个主成分作为输入使用均值的转变。最后,我们建议的方法识别准确率100%,K则有98.75%的识别精度。比较结果表明,优于PCA-mean转变K则。因此,PCA-mean转变与太赫兹时域光谱技术相结合是一个潜在的转基因作物的识别的识别工具。
1。介绍
转基因作物(转基因作物)是一种作物的DNA已经被修改使用基因工程技术(1]。转基因技术在抵抗病毒和害虫有一些优势和除草剂(2,3]。自1996年以来,转基因作物大规模商业化种植。有26个国家种植转基因作物。收购农业生物技术应用国际服务(ISAAA)报道,全球转基因作物的种植面积在2018年大约是1.9亿公顷。大豆、玉米、棉花和强奸是第一个四个全球转基因作物种植面积。然而,转基因作物的食品安全问题仍存在争议(4- - - - - -6]。聚合酶链反应(7],印迹[8),免疫印迹(9)和酶联免疫吸附剂测定10)是传统的方法来识别转基因作物,但这些方法需要大量的侦探的时间和复杂的操作。因此,发展一个可行的和有效的分析方法快速确定转基因作物是非常必要的。
太赫兹时域光谱(THz-TDS)是一个功能强大的探测技术,在从0.1到10太赫兹频段。已经应用于生物和化学的检测分子如蛋白质、氨基酸、DNA,和在农业与食品中残留的有害产品,如三聚氰胺,黄曲霉素、农药和抗生素(11- - - - - -19]。近年来,一些研究人员报道的方法识别使用THz-TDS转基因作物。刘和李20.)检测不同的转基因棉花太赫兹光谱利用支持向量机(SVM)。徐et al。21]报道歧视分析(DA)和主成分分析(PCA)有优秀的性能区别转基因水稻来自母公司非转基因大米。陈等人。22]提出THZ-TDS与化学计量学相结合来确定转基因和非转基因糖成功。魏et al。23)达到96.67%的准确率与歧视的转基因水稻结合THz-TDS形象和化学计量学。在先前的研究中,我们提出一个方法结合支持向量机和multipopulation遗传算法(MPGA)识别转基因棉花种子与太赫兹光谱(24]。然而,在上面的研究中有两个问题。首先,多数研究转基因作物对于识别是基于THz-TDS与监督学习相结合。正如我们所知,监督学习需要大量数据训练模型。更少的样本数据是在实践中常见的问题之一。第二,上述研究确定只有一个作物。如何识别不同的转基因作物是一个具有挑战性的问题。
转变是一种无监督学习方法,自动计算集群的数量。它不需要知道前面的知识集群的数量,不限制簇的形状。意味着转变已经应用在目标检测、目标跟踪和图像分割25- - - - - -28]。近年来,邢et al。29日)开发了一种颜色聚类方法对于中国传统服饰形象意味着转变。王等人。30.]发现常见的视觉模式从两幅图像通过使用意味着转向一起关闭空间的转换。人工智能和熊31日)报道,它能够增强激活检测通过合并意味着转变和功能磁共振成像的时间特征。据我们所知,没有研究使用意味着THz-TDS的转变。
在本文中,我们提出了一种无监督学习方法PCA-mean转向标识转基因作物。太赫兹光谱是高维数据。首先,我们使用PCA减少太赫兹光谱维度。然后,选择前三个主成分作为输入的转变。转变是一种无监督学习方法。最后,我们比较方法K则。结果表明,比PCA-mean转变K则,PCA-mean转变是一个潜在的方法来识别转基因作物。
2。材料和方法
2.1。实验系统
实验系统由一个太赫兹时域光谱仪Z-3 (Zomega太赫兹Corp .)、美国)和一个超速的光纤激光器(德国TOPTICA光子学Inc .)。一个超速的光纤激光器产生100脉冲宽度与一个80 MHz重复率和780年中心波长。光谱分辨率小于5 GHz,整个实验系统的最大动态范围比70年好 。实验系统的原理图如图1。一束激光分为两个部分:泵浦光和探测光束。泵束之中激发太赫兹光束的光电导天线。之后,太赫兹光束穿过样品。然后,太赫兹光束满足探测光束在电光晶体ZnTe。太赫兹探测光束调制的光束通过电光效应。发射后通过一个四分之一波长板(QWP)和沃拉斯顿棱镜(WP),然后调制探测光束探测到一组平衡二极管(PD)。
所有测量进行了在室温(295 K)的情况下干air-purged集装箱的相对湿度小于1%。此外,我们使用了THz-TDS系统传播模式。
2.2。样品制备
两种类型的转基因玉米粉(GA21和MIR604)从深圳购买卓越生物技术有限公司有限公司非转基因玉米粉从当地超市购买。两种类型的转基因棉花种子(Lumianyan第18号和Xinqiu没有。k638)来自山东Xinqiu农业科技有限公司有限公司
两种转基因棉花种子的外壳被移除,分别他们碎成粉末。之后,五种粉(GA21 MIR604,非转基因玉米、Lumianyan 18和Xinqiu没有。k638)已筛过滤法使用100 -眼筛子。已筛粉干在323 K 1小时,然后压成圆片直径约1.0毫米厚,13毫米8的下压力压片机。最后,得到了五种类型的标本:GA21, MIR604,非转基因玉米、Lumianyan第18号,Xinqiu没有。k638。对于每个类型的标本,16个样本准备。
2.3。主成分分析
主成分分析是一种常见的数据降维方法。主成分分析的基本思想是一个原始矩阵近似X一个产品的两个小矩阵方程所示(1)。X是一个原始数据矩阵组成的吗n行和p列,U是一个小矩阵(称为得分矩阵)组成的n行和d列和l是另一个小矩阵(称为载荷矩阵)组成的p行和d列。T是一个矩阵的转置。
的主要组件(pc)确定基于最大方差准则。每次电脑描述的最大方差建模前的组件。根据这个,大多数的方差数据包含在第一个电脑。在第二部分,有更多的信息比第三个,等等。因此,大部分的方差可以描述一个,两个,三个电脑,电脑可以通过绘制可视化的数据。在我们的实验中,原始数据X太赫兹光谱的样品。
2.4。意思是转变
意味着转变是一个没有参数估计的密度聚类算法(32,33]。它假定不同的集群在一个数据集符合不同的概率密度分布。意味着能找到方向转变,一个样本点的密度增加最快。高密度的样地对应的分布采样点的最大值。这些采样点最终将最大密度的局部收敛。和收敛到局部极大点被认为是同一类的集群成员。
让 ,是一组d维空间中的点 。对于一个采样点 ,均值移位向量定义如下: 在哪里是点的数量在撒谎 。 是一个高维空间半径。它被定义为
均值漂移算法的程序如下:第一步:计算每个样本的均值移位向量 步骤2:将每个样本 ,如 第三步:重复步骤1,直到样本点收敛,( )步骤4:样本收敛于同一点被认为是同一集群的成员
3所示。结果与讨论
3.1。光谱分析
有五种类型的标本:GA21 MIR604,非转基因玉米、Lumianyan第18号,Xinqiu没有。k638。为每种类型的标本,我们测量16个样本。图2(一个)显示时域波形的五个不同的标本。由于吸收和折射率差异五个标本,脉冲幅度和时间延迟是不同的。比较五种标本的时域波形,小说类型的plot-colour轮廓映射时域波形的时间使用,如图2 (b)。黄色意味着脉冲峰值,蓝色意味着脉冲山谷。在图2 (b)、脉冲峰值的位置和山谷之间GA21和非转基因玉米是相似的。因此,它是不可能立即识别GA21通过太赫兹时域波形和非转基因玉米。
(一)
(b)
得到吸光度,我们翻译样本的时域波形和参考(空气)到频域,然后计算如下(15]: 在哪里是频率。和和样品的振幅和参考信号在频域,分别。
图3(一个)显示五种标本的太赫兹吸收光谱0.4太赫兹到1.4太赫兹的频率范围。图3 (b)plot-colour轮廓映射的吸光度光谱的频率。黄色代表吸光度强,蓝色代表了吸光度是虚弱的。在图3 (b)的吸光度MIR604有很强的吸收1太赫兹范围1.4太赫兹。Lumianyan第18号和Xinqiu没有。k638都有一个吸收峰附近的1.2太赫兹和1.3太赫兹。GA21和非转基因玉米,没有尖锐的吸收峰在0.4太赫兹的范围- 1.4太赫兹。比较数据2 (b)和3 (b),我们发现吸光度光谱比时域波形有更多的歧视。所以,我们选择了吸光度光谱进行进一步的识别研究。
(一)
(b)
3.2。检测结果
为了评估的性能PCA-mean转变,混淆矩阵和平均精度被使用:
此外,PCA-mean转变是较常见的非监督学习方法K则。首先,我们构造一个数据集称为Dataset1通过吸光度光谱5个不同的标本。Dataset1细节如表所示1。然后,我们使用PCA减少Dataset1的维度。
通过使用主成分分析,吸收光谱从80尺寸减少到三维。方差贡献率和累积方差贡献率表中列出2。通常,随着累积方差贡献率是足够大(一般大约85%),原始数据集可以更换(34]。前三个电脑的累积方差贡献率为90.43%。这意味着前三个电脑包含主要信息的吸收光谱。图4(一)显示了前两个电脑的二维分数。进行主成分分析后,所有的棉花种子样本位于上层半平面,和所有玉米样品位于低半平面。很容易确定棉花和玉米的位置。在较低的半平面,GA21分布在左边,非转基因玉米是分布在中间,和MIR604分布在右边。它符合GA21的吸收强度弱吸光度和MIR604具有强烈的吸光度。这三种类型的玉米可以分类成功。在图4(一),这两种类型的棉花标本部分重叠。这是由于这两个棉的吸光度标本是相似的。因此,PCA不能识别Lumianyan 18和Xinqiu没有。k638正确。
(一)
(b)
(c)
主成分分析后,我们的前三个电脑作为输入使用K,则意味着转变。在数据4 (b)和4 (c)、棉花和玉米样本分为上下尖端。因此,这两种方法能够区分棉花和玉米。因为GA21 MIR604和非转基因玉米位于低半平面相互之间有很大的差距,K则和PCA-mean转变可以区分三种类型的玉米。不同采样点的分布的三种类型的玉米,两种类型的棉花采样点互相重叠。分类之间的两种类型的棉的性能K和PCA-mean转变则是不同的。我们采用混淆矩阵评价这两种方法的性能,如图5。图5(一个)显示一个Xinqiu没有。k638样本被公认为Lumianyan 18号使用K则。图5 (b)显示所有的样品可以确认正确利用PCA-mean转变。混淆矩阵的平均精度K则和PCA-mean转变是98.75%和100%。
(一)
(b)
4所示。结论
本文提出了一种无监督学习方法,PCA-mean转变,来确定两种类型的棉花和玉米三种类型的吸光度光谱在太赫兹的频率。PCA是用来减少维数的太赫兹吸收光谱。我们建议的方法进行比较K则,混淆矩阵和平均准确度了。结果表明,有较高的平均精度比PCA-mean转变K则。因此,结合THz-TDS PCA-mean转变是一个潜在的转基因作物的识别的识别工具。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由中国国家自然科学基金(批准号62041111)、广西自然科学基金(批准号2019 gxnsfba245076),广西重点实验室的自动检测技术与仪器基金会(批准号。YQ19208和YQ20207),打开玉林研究所大数据的基础(批准号2020 yjky04),主要合作项目玉林市政府和玉林师范大学(批准号YLSXZD2019015),玉林师范大学博士科研基金(批准号G2019K02),玉林师范大学科研资助(批准号2015 yjyb06)。