抽象
在功率分析攻击中,当使用汉明权值模型描述芯片运行数据的功耗时,随机森林算法的结果并不理想,因此提出了一种基于人工少数过采样技术(SMOTE)的随机森林分类方法。弥补了随机森林算法受数据不平衡影响和少数分类分类精度不高的问题,提高了整体分类准确率。实验结果表明,当训练集数据是800,随机森林算法预测正确的84%的速度,但少数数据的分类精度为0%,和SMOTE-based随机森林算法提高了预测精度相同的一组测试数据的91%。个别类别的分类正确率从0%提高到100%。
1.简介
在机器学习的过程中,从累积数据生成的相关的学习算法和从经验中得到的数据被提供给学习算法,以产生处理后的对应模型。当解决新问题,该模型可以给出相应的判断。侧信道攻击是攻击通过收集侧的信道信息数据操作期间由加密设备泄露加密设备(功耗,电磁辐射,运行时间等)的方法。机器学习是从数据中“学习”,并能够分析未知数据的方法。它符合旁信道攻击的需求来破解未知的加密信息。近年来,许多学者已经应用机器学习侧信道攻击。机器学习和侧信道攻击的融合不仅提高攻击的可靠性和自动化,但与传统的侧信道攻击相比也提高了工作效率。在2011年,加布里埃尔等人。首先应用机器学习技术来在旁道攻击功率分析攻击[1]。利用汉明权值明显泄漏的数据集,利用最小二乘支持向量机(LS-SVM)成功地攻击了一些高级加密标准(AES)的软件实现。他们指出,传统的模板攻击是一个多分类问题。同时,实验表明,支持向量机的参数设置对分类性能有很大的影响,而幂曲线个数和采样点个数对分类结果的影响较小。2012年Hera He等人利用SVM分类算法攻击运行在8位智能卡上的数据加密标准(DES)算法[2]。这是第一篇使用SVM破解全密钥的论文。在COSADE 2012中,Heuser等人基于hamming权值模型,使用多分类支持向量机(multiclassification SVM with probability)将密钥划分为9类[3]。他们的实验表明,为了在强噪声下达到相同的目标,支持向量机攻击比模板攻击需要更少的训练功率曲线,因此支持向量机攻击更具通用性。在2015年的CHES会议上,Whitnall等人利用无监督机器学习方法结合average trace和PCA算法,提出了一种能够容忍分析标记和攻击标记差异的分类器。实验结果表明,该方法是有效的[4]。在2019年,Kim等。提出了新的卷积神经网络侧信道分析[五]和马修等人。用深度学习,以评估安全RSA实现[6]。
Geetha等在考虑数据不平衡的情况下,利用SMOTE分析2019年医疗数据的不平衡[7]。Luo等人提出了一种新型的发散鼓励自编码器(DEA),通过鼓励瓶颈层中不同类之间的发散损失最大化来解决[8]。
基于机器学习的动力分析攻击是分类问题,它是类似于传统的模板攻击。在分类的数据不平衡也值得关注。由于不平衡数据,机器学习算法会过分关注于所有类别的大多数类,导致少数类的分类性能[退化9]。为了减少模板的数量,目前多数研究选择中间汉明权重模型来创建模板。这导致了数据的不平衡;有可能是只有三个在1000条曲线Hamming重量,这导致高的总体准确率对数据进行分类,但对于各个类别低准确率,甚至0%。
采用汉明重量模型时,研究人员通常采用控制采集曲线的数量的方法;即,具有相同数目的曲线是通过每种类型的汉明权重的收集,或产生一些类型的数据或通过算法消除大多数类型的数据来实现数据的平衡。随着侧信道攻击的发展,对旁信道攻击技术也在发展。在现实生活中,会有很多限制,使其难以控制曲线量的方法。例如,攻击芯片加密倍是有限的,加密的时间是有限的,等等,这导致在芯片模型收集的功率消耗的曲线只有几百或更少的可能性。在本文中,SMOTE技术在功耗攻击介绍,作者提出基于SMOTE随机森林分类方法,使用SMOTE算法合成少数样品达到平衡,提高少数民族的准确性和整体。
此篇文章的结构如下。在第二节中,随机森林算法不平衡数据分布的缺点指出。在第3节,介绍了随机森林算法,分析了不平衡的功率数据攻击基于RF-SMOTE算法和讨论不平衡的功耗数据。部4分析功率数据的特征,并且选择特征点。在第5部分,实验结果进行了讨论;分析和比较被示出。在第6,结论和未来的工作介绍。
2.数据分布不平衡对随机森林算法的影响
在本文中,S盒输出被用作中间值。AES S-box encryption is operated every 8 bits, so only the 8 bits of hamming weight are used as the label each time. Therefore, labels can be divided into 9 categories (hamming weight is 0–8), which are represented as H0∼H8, respectively. However, the key and plaintext are random in the process of data acquisition, so the hamming weight ratio of every 8 bits will be different if the probability of each 0 and 1 is guaranteed to be the same. The weight and power consumption ratio of each hamming is
可以看出,至少需要256条训练集曲线来包含所有类别,其中最小少数类别所占比例为1/256,最多数类别所占比例为70/256。当hamming权值为0和8时,如果仅使用少量曲线作为参考,则训练后的模型泛化能力不够。
假设有一个不平衡的训练数据集 ,在哪里 为样本值,ñ是样品的总数目,米是样品尺寸,并且 为对应的标签,假设占比最高的类的样本数为H,和类的样品具有最低比例的数量是升。随机森林算法采用带放回的随机采样技术来形成每棵决策树;也就是说,每个样本被抽样的概率是1/ñ;然后比例最高类样品的被采样的概率为h /ñ和比例最低类的样本被采样的概率为升/ñ。因此,概率差别是显而易见的。也就是说,当在某一类数据太少,采样只需要广大的班,民族班的分类的准确度是非常低的,甚至是极端的现象,少数类的分类结果完全不正确,从而影响的预测结果。
鉴于上述缺陷,本文介绍的数据增强技术引入随机森林算法和使每种类型的数据的随机取样的概率通过平衡数据相等。这种方法的结果是,弥补了原算法的缺点,提高了几类的准确性和整体的准确性。
3.算法导论
3.1。随机森林算法
随机森林算法是一种常见而有效的监督机器学习算法,由Leo Breiman和Adele Cutler提出[10]。该算法是一种基于决策树的综合算法,它改进了决策树的缺点,使分类结果更好。随机森林算法因其参数设置简单,是研究人员常用的算法之一。
随机森林是由许多决策树的修剪的情况下。它是一个集成的学习算法与表决方法相结合[11],其性能优于单一决策树的集成算法。其结构示意图如图所示1。首先,米子集 是从数据集放回的随机样本中获得的吗 。然后,米子集用于构造米决策树,每个子决策树输出一个结果,其中Ti表示单个决策树算法,Ti表示子决策树的输出。最后对子决策树的判断结果采用多数投票法;即随机森林的输出结果是通过求矩阵中的多数来得到的 。
3.2。基于SMOTE的随机森林算法
3.2.1。SMOTE算法
为了解决不平衡数据集的问题在机器学习的分类问题,数据采样技术在大多数研究采用,使培训成为集均衡数据集,这将提高分类结果在大多数情况下的准确性。数据采样的过采样包括和欠[的12]。过采样增加了少数分类的数量。欠抽样从多数分类中剔除部分样本或只从多数分类中选取部分样本[13]。本文使用的训练数据只包含少数分类。当随机选取训练数据为800时,只有3个汉明权值为0。由于少数分类的数量较少,欠采样会导致最终训练集的大量数据丢失,因此我们选择过采样作为数据增强技术。
数据合成为根据现有的示例规则来合成新的样品的方法。过采样数据增强技术包括自适应采样算术和合成少数过采样技术[14]。自适应合成采样(ADASYN)通过计算不平衡度对不同数量类别进行过采样,得到不同类别的样本数。SMOTE方法的基本思想是对少数分类样本进行分析,并根据少数分类样本人为地向数据集中添加新的样本[15]。
相对于简单的过采样,在SMOTE增加各种数据,并获取每个类型的分类的相同的量。以这种方式,用于随机森林,每种类型由随机取样得到曲线的概率是相等的。与ADASYN相比,SMOTE数据更加增强后平衡。
的SMOTE算法的示意图显示于图2,其中的坐标轴表示数据V1和V2的两个不同的属性,并且圆圈表示多数样品的和三角形表示样品的少数。其算法描述如下:
(一)
(b)
让我们说,有Ť少数民族分类样本;其中一个是Ť,它的特征向量 ,在哪里 :(1)ķ-样本的近邻Ť通过使用从欧几里德距离被发现Ť样品,表示 ,在哪里 。(2)对于每个随机选择的样品在ķ-最近的邻居,一个随机数被生成并新样品根据下面的公式,其中合成 , : (3)重复步骤2ñ次合成ñ新样本 , 。所有Ť少数分类样本以上进行,并且NT可以合成新的样本,以实现数据平衡。
3.2.2。功率不平衡数据攻击基于RF-SMOTE算法
下不平衡数据,描述基于在功率分析攻击SOMTE算法随机森林分类方法的实施过程如下:(1)ñ选取功率消耗曲线作为训练数据集,每条曲线都有米采样点,原始数据矩阵为 ,和标签矩阵对应于每个曲线是 。(2)计算抽样点之间的皮尔逊相关系数V_Train和H在每一时刻_Train得到系数矩阵 , 从小到大排列在绝对值,并且对应于所述第一采样点ķ点被带到形成训练集矩阵 。(3)使用SMOTE扩展数据集得到新的训练集矩阵 和其相应的标签矩阵 被获得。(4)执行随机森林算法,从训练集学习模型,建立映射来 : 。(5)该模型用于预测未知样本X,标签中号。
3.3。不平衡功耗数据的研究
单决策树算法可以根据属性分类直接反映数据的特征。在相对较短的时间内,大数据的判断结果非常好,属性的质量是决定决策树性能的关键因素。如果类之间的属性差异很小,测试的准确性就会降低。但随着类别的增加,误差会增加,容易出现过拟合。随机森林算法使用几种不同的决策树对数据进行分类,提高了算法的泛化能力,在很大程度上缓解了过拟合的发生。
本文使用的数据集具有数据量大、维数高的特点。以1000次随机功率曲线为例,其分布如图所示五。其特点是由加密过程中采集的功耗电压组成。在图3,水平和垂直坐标是曲线的不同的电压特性,并且用不同的颜色的圆圈代表不同的汉明权重。它可以从图中可以看出,相同的汉明权重的不同功率消耗曲线的同时具有不同的电压值。也就是说,一个属性包含的各种情况,并通过不同的Hamming重量包含不平衡的数据量。
如图3中,当随机森林算法构造通过随机抽样样本决策树由于数据的不平衡,一些少数分类可以不包括采样,从而降低了预测效果样品英寸数据集增强后的训练集示于图4。数据的增加带来的随机森林效益。当提取的随机数据,被提取到样品每种类型的数据的机率大大增加,使得良好的预测结果可制成。
4.数据和特征点选择的特性
在本文中,我们使用差分功率分析(DPA)竞赛V4作为实验对象。德新社国际学术竞争开始于2008年8月通过的法国国家科学院和高科技巴黎的高级电信研究所联合主办。它的官方网站http://www.dpacontest.org。所述DPA竞赛V4上分析ATMega163芯片的掩模级AES-256加密算法。共有100000条功率曲线进行收集,并且每个功率曲线包含435002个采样点。由于在智能卡加密操作持续很长一段时间(AES在C,不是汇编语言编写),这些功耗曲线仅包括第一轮和第二轮的AES加密。所有关键,明文,偏移和掩码用于消耗曲线是已知的功率。由于本文的重点是不平衡数据,所述掩模的研究和偏移被作为已知值,以及S盒输出值的汉明权重被用作标签基于随机森林实现第一阶功率消耗分析攻击这些数据。
4.1。特征点选择
掩模和偏移被作为已知值和S盒输出值的汉明权重被用作标签基于这些数据随机森林实现第一阶功率消耗分析攻击。由于功耗曲线包含435002个采样点,只有几个点可以作为S盒汉明的重量特性和太多不相关的冗余点会影响机器学习算法的性能。共同特征点的特征提取和特征选择。特征提取是指基于原始特征,如主成分分析(PCA)的生成的新的功能集[16],而特征选择是指从原始数据集中选择子集,如通过相关性计算选择得分最高的采样点。
在本文中所用的数据是所收集的功耗电压,其放大的任何几巴的部分,如图五。从图中可以看出,功耗曲线已经获得了较为理想的校直,可以直接用于特征工程处理。
在实验中所选择的标签是S盒输出值的汉明权。参考文献[17]指出,密码芯片的功耗电压正比于汉明权重,所以Pearson相关系数被选择为提取特征点在本文中。由于大量在实验中的采样点的,提取的电压形成一个良好的线性关系,所以良好的效果可以通过使用原始电压集合的子集来获得。
假设有ñ功率曲线,其中每一个具有中号点。功率曲线上采样点处的电压记为 每条曲线的标号是 。电压值和标签之间的相关系数是根据Pearson相关系数的公式计算。相关系数的绝对值从大分类到小和对应于该电压值米选取相关系数最大的点组成新的数据矩阵。利用800功率曲线计算功耗与汉明权值的相关系数值,如图所示6。相关系数的最大值是在101589的采样点和最大值是在0.868736。
In the same way, the correlation coefficient between the second byte of the median value and the power consumption curve is calculated, as shown in Figure7。如可以从两个图中可以看出,特征点生成,使得特征点选择被预测每个字节之前,需要不同的字节。
5.实验结果与分析
在分类任务,错误率和准确性的模型综合能力的评价标准[18]。
样本集的分类错误率d是指分类误差样本的整个样品的比例,而精度是指正确分类样本与整个样本的比例。误差率的表达被示出如下:
其精度表达式如下: 在哪里F代表了机器学习算法d表示标记的整个样本集F。准确性和错误率反映了算法模型的质量,但对不平衡的数据,分类准确率也需要重视。由于分类器更倾斜于预测的类别分类成多数分类,它导致少数分类的低分类精度。因此,当精度被用作性能测量召回和精度是用于更全面地评估模型的性能。
对于二值分类,利用混淆矩阵计算查全率和查准率。
混淆矩阵如表所示1,其中TP、FN、FP、FN分别表示各类样本数,四种样本数之和表示整个样本数。
|
||||||||||||||||||||
准确率P是
召回率[R是
对于multiclassification问题,分类结果不仅包括正面和负面的类。本文的实验由九个分类,即汉明权重H0-H8。我们希望,每个分类的准确率可以很高,但是不是有些分类。所有九个类别被视为积极的分类。正确分类的样本的数目被表示为T0,T1,... T8和错误分类的样本数目被表示为F01(表示真实样品的H0被预测为H1),F02(表示真实样品的H0被预测为H2),... F08,F12,F78 ...。然后,将每个分类采用精密的和召回评价。根据实验条件,混淆矩阵调节至表2。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们只关心被正确分类的预测结果所占的比例,但是对真值的分类是被预测的,会导致错误。各类别的准确率和召回率可表示为 :
800,1000,和1500个数据分别被用作训练集。在训练集合中的每个类的数量分布示于表3。很明显,数据是不平衡的。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
使用固定的1000条数据作为测试集,各种类型的分布情况如表所示4。测试集的精度如表所示五没有数据增强。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表格中我们可以看出3,随机森林由不平衡数据,导致0%的少数分类和大多数类别的92%的准确率受到影响。同时,也可以看出,数据数的增加可以适当提高精度和时间,但随机森林少数数据集的准确率始终为0%。因此,我们提高了训练集。处理后,将数据数字是为每个类是相同的。800,1000,和1500点的数据的扩张后,每个类的数分布示于表6和测试集是表仍然1000件4。
|
|||||||||||||||||||||
数据集增强后的训练集使用随机森林算法对测试集进行预测,每个分类的准确率如表所示7。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
各种数据经过增强后的准确性和运行时间用折线图表示,如图所示8和9, 分别。
从图中可以看出8该随机森林的精确度数据增强后大大提高。与表相比五和7, random forest minority classification的曲线准确率从0%提高到100%,其他标签类别的曲线准确率也有所提高。从数据中可以看出8和9,随机森林的运行时间与功率曲线的碎片的增加而增加。
800条数据时,数据增强前后时间增加了0.627s,准确率提高了7%;在1000条数据的情况下,时间增加了0.86秒,准确率提高了7%;在1500条数据的情况下,运行时间增加了1.695秒,准确率仅提高了5%。因此可以得出结论,数据增强技术更适合于1000条以内的数据采集。
像随机森林,AdaBoost算法也是一种集成的算法,这是一种典型的迭代算法的。上分类器修改样品的重量,并且通过预测样本的精度和判断整体精度改变的数据分布。下层分类使用新的样本集与调整权重的训练集,最后结合每一次的全分类算法的最终结果的训练结果。在一定程度上,AdaBoost算法能够克服数据不平衡。如从表中可以看出8和图10,与RF相比,该算法具有较高的精度,但其精度低于改进的随机森林算法RF_SMOTE。SVM和ANN的准确率也低于RF_SMOTE。
|
||||||||||||||||||||||||||||||||||||||||||
目前流行的不平衡算法是ADASYN和SMOTENN。SMOTENN是过采样和欠采样(编辑的最近邻居,ENN)算法的组合。ADASYN通过计算不平衡度对不同数量分类进行过采样,得到不同分类的样本数。
如从表中可以看出9和图11在美国,将随机森林与其他过饱和技术相结合的方法不如SMOTE方法精确。因此,本文两种算法的结合优于其他方法与随机森林的结合。增强后的每个数据块越近,结合随机森林算法得到的效果越好。
|
||||||||||||||||||||||||||||||||
6.总结
在能量分析攻击中,随机森林算法受到数据不平衡的影响,导致少数分类的准确率较低。为了解决这一问题,本文提出了一种基于合成少数过采样技术(SMOTE)的随机森林分类方法。该方法通过增加数据多样性来提高分类精度。将二分类的混淆矩阵转化为多分类的混淆矩阵,能更直接地反映各种分类的分类精度。在数据不平衡的情况下,射频算法对少数分类的分类是不正确的。但实验结果表明,改进后的随机森林算法可以弥补RF算法的不足,提高模型预测的准确性。数据增强技术提高了随机森林测试的准确性,但也延长了运行时间。考虑到时间和准确性,本文认为当训练数据为800条时,结合数据增强技术的随机森林算法的性能最好。在未来的工作中,我们将继续研究减少能量跟踪需求数量,提高攻击效率的方法。
数据可用性
用于支持本研究结果的数据来自DPA Contest v4数据库,可在以下网站获得http://www.dpacontest.org/v4/42_traces.php。
利益冲突
作者宣称,有感兴趣的关于这篇文章的发表任何冲突。
致谢
这项工作得到了中央大学基础研究基金(批准号:328201914和328201913)的资助。
参考文献
- G. Hospodar,B. Gierlichs,E.德穆德,I. Verbauwhede,和J.万德威尔“在侧通道分析的机器学习:第一个研究中,”密码工程杂志,第1卷,no。4,第293-302页,2011。查看在:出版商的网站|谷歌学者
- H. Hera, Josh, and Z. Long,“使用机器学习的边频道密码分析”,2012,http://cs229.stanford.edu/proj2012/HeJaffeZou SideChannelCryptanalysisUsingMachineLearning.pdf应承担的。查看在:谷歌学者
- A. Heuser和M. Zohner, " Intelligent homicide, "结构侧通道分析和安全设计,施普林格,柏林,德国,2012。查看在:谷歌学者
- C. Whitnall和E. Oswald,“针对dpa式攻击的稳健分析”,加密硬件和嵌入式系统,CHES 2015年,施普林格,柏林,德国,2015年。查看在:出版商的网站|谷歌学者
- J.金,S. Picek,A. Heuser先生,S.巴辛,和A. Hanjalic,“使一些噪音释放出用于成形侧通道分析卷积神经网络的力量,”IACR交易的加密硬件和嵌入式系统卷。2019年,没有。3,第148-179,2019。查看在:谷歌学者
- 卡博尼,文森特,m.a。Cornelie等人,“深入学习评估安全RSA实现,”IACR交易的加密硬件和嵌入式系统卷。2019年,没有。2,第132-161,2019。查看在:谷歌学者
- R. Geetha, S. Sivasubramanian, M. Kaliappan等,“利用合成少数过采样技术鉴定宫颈癌和使用随机森林分类器的PCA分析,”医学系统杂志卷。43,没有。9,2019。查看在:出版商的网站|谷歌学者
- R. Luo, Feng Q., C. Wang等,“用于不平衡数据分类的离散激励自动编码器的特征学习,”IEEE访问卷。6,没有。6,第70197-70211,2018。查看在:出版商的网站|谷歌学者
- Z.曹,研究随机森林算法的优化2014年,首都经济贸易大学,中国北京。
- F.庞,随机森林在二手房批量鉴定中的应用研究,重庆交通大学,重庆,中国,2017年。
- Y.李,刘Z.和H.军帐,“回顾上不平衡数据分类集成算法”计算机应用研究卷。31,没有。5,第1287-1291,2014。查看在:谷歌学者
- K. D. Duncan和I. Lanekoff,“过采样,以改善液体萃取质谱成像的空间分辨率,”分析化学卷。90,没有。4,第2451-2455,2018。查看在:出版商的网站|谷歌学者
- M.陈,Web垃圾邮件检测中的欠采样和不平衡集成分类研究南昌大学,南昌,中国,2018。
- "基于合成少数过采样技术和深度置信网络的异常检测",计算机应用杂志第38卷第2期1941-1945, 2018年7页。查看在:谷歌学者
- l . x的太阳,j . Li顾et al .,“识别hypusination网站使用击打和支持向量机的特征与特征选择算法,”目前蛋白质组学卷。15,没有。2,第111-118,2018。查看在:出版商的网站|谷歌学者
- 赵:《主成分分析回顾》软件工程第19卷,no。6, 2016年第1-3页。查看在:谷歌学者
- P.罗,冯D.和Y周“在功率分析攻击力模型”杂志在通信卷。33,没有。1,第276-281,2012。查看在:谷歌学者
- z周,机器学习,清华出版社,北京,2016。
版权
版权所有:段孝义等这是一篇开放获取下发布的文章知识共享署名许可,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。