文摘
自成立以来,比特币已经受到许多盗窃由于其巨大的经济价值。黑客窃取比特币钱包钥匙从受损用户传输比特币,向受害者造成巨大的经济损失。应对安全威胁的比特币盗窃、监督学习方法被用于这项研究发现和提供关于比特币的警告盗窃事件。为了克服现有工作的不足,更全面的比特币交易数据的特征提取,不平衡的数据集是平衡的,和五个监督方法再(资讯),支持向量机(SVM),随机森林(RF),自适应提升(演),和多层感知器(MLP)技术以及三个无监督方法局部离群因子(LOF),看到下面成了一个支持向量机(OCSVM)、Mahalanobis基于距离的方法(MDB)是用于检测。这些算法中表现最好的是RF算法,实现了回忆,精密,F1值的95.9%。实验结果表明,该设计的特点是比目前使用的更有效。监督方法的结果明显优于无监督的方法,和监督结果的方法可以进一步提高均衡后的训练集。
1。介绍
区块链是一个集成的应用程序的分布式数据存储、点对点传输,共识机制、加密算法,和其他技术的优点,并分散,数据不变性和可编程性。自从Satoshi Nakamoto首次提出比特币的概念1]2008年,底层技术区块链已广泛应用于数字货币、智能制造、供应链管理、anticounterfeiting数据服务,等等1- - - - - -7]。同时,区块链安全也受到学术界的广泛关注。
比特币本质上是一个密码数字货币,是迄今为止最成功的应用程序区块链。截至2020年10月,全球有7378 cryptocurrencies市场资本总额超过3597亿美元,其中比特币占大约58.3%的市场资本。比特币使用区块链技术交易记录,创建一个分散的分布式分类中比特币用户和支持创建、发行和交易的货币。比特币使全球低成本即时转账并使用假名的隐私,保证不透漏学生的姓名。Blockchain.info表示网站的实时监控区块链,价值约210亿美元的交易现在平均每天写进了比特币区块链,并创建了650000多块。
匿名性和低成本的优势瞬间转移和巨大的经济价值的比特币已导致许多犯罪事件有关。这些犯罪事件可以分为洗钱,勒索软件的使用,欺诈、盗窃、和对黑暗的网络市场交易。其中,比特币盗窃是最具破坏性的。Mt . Gox网站2014年2月,世界上最大的比特币交易平台后,宣布850000比特币的价值超过4.5亿美元,可能是偷来的,最终破产。2016年8月,香港交易所Bitfinex宣布了价值7200万美元的一个安全漏洞,比特币从客户账户被盗。事故发生后比特币的价格下降了20%。比特币盗窃事件对比特币安全甚至社会经济安全产生巨大影响,使检测比特币盗窃事件的能力和及时提供早期预警的理论价值和现实意义。有很多研究刑事比特币和其他公共事件链现有文献的电子货币。2016年,范教授等。8,9]提取比特币用户图和事务的特性图,从网络的角度研究使用幂律和致密化法,检测1 30的比特币异常事件使用三种无监督方法:局部离群因子(LOF),看到下面成了一个支持向量机(OCSVM)和基于距离的方法(MDB)。2017年,丰田章男et al。10]分析了比特币的交易模式地址相关的高收益投资计划(HYIP)。他们提取特性已知的交易模式,标志着比特币地址。通过监督学习分类超过1500比特币地址,召回的83%和4.4%的假阳性率(玻璃钢)。2018年,Vasek et al。11)进行了生存分析在比特币的庞氏骗局来确定影响因素欺诈的持久性。他们发现1780种不同的比特币庞氏骗局,梳理1424帖子Bitcointalk并确定金额之间的正相关骗子和受害者之间的交互,并使用生存分析计划的持续时间。2018年,陈等人。12使用数据挖掘和机器学习在Ethereum检测庞氏骗局。通过检查Ethereum聪明合同,提取事务代码特性和频率特性的账户和操作码智能合约,并使用极端的梯度增加(XGBoost)建立检测模型,45个聪明的Ethereum合同实施庞氏骗局被确定。他们进一步估计,有超过400在Ethereum庞氏骗局。2019年,托雷斯et al。13测试新的欺诈行为在Ethereum蜜罐。基于蜜罐的分类,他们建立了一个名为HONEYBADGER使用符号执行和启发式的方法自动检测蜜罐欺诈。他们进行了一项大规模分析超过200万智能合同,确定蜜罐合同690和240的受害者。2019年,陈等人。14]显示数字货币的市场操纵现象挖掘数字货币兑换的交易网络。他们把Mt . Gox网站的交易历史比特币交换为例,将它分成三类根据账户的特点和构造交易的历史分为三个图。在此基础上,他们发现了与价格波动相关性高的基础网络矩阵奇异值分解(计算),并进一步发现大量的市场操作模式。同年,他们(15)使用一种改进的先验的算法来检测用户的数字货币市场可能会参与一个泵和转储骗局。在分析Mt . Gox网站的交易历史比特币交易,他们发现大量用户同时,买卖以及异常交易行为和交易价格。进一步的分析表明,这些用户可能参与泵和转储骗局。2019年,杨et al。16]分析了比特币交易数据的特征。他们使用高斯混合模型(GMM)集群和检测到一个已知的盗窃事件通过聚类结果的分析。2020年,Bartoletti et al。17Ethereum)系统地研究了庞氏骗局,收集一组庞氏骗局,并分析它们。他们检查了合同与特定的源代码并在谷歌搜索,以确定一个庞氏骗局已经承诺,和他们进一步扩展现有集合通过搜索区块链基于字节码相似。在此基础上,他们研究了合同代码模式,交易量,庞氏骗局的时间行为和用户特征。
以上工作有积极的影响减少数字货币的异常事件的发生。然而,当前研究破坏性的检测异常type-Bitcoin盗窃还远未成熟,现有的研究涉及这个问题有以下缺陷:(1)从用户和事务图提取的特征是相对简单和(2)无监督算法通常用于检测。改进现有的方法,我们提取特定的事务特性根据比特币盗窃事件的特点。进一步,我们使用5个监督方法再(资讯),支持向量机(SVM),随机森林(RF),自适应提升(演),多层感知器(MLP)方法以及三个无监督方法LOF, OCSVM,而基于距离的算法检测。提高学习效果的监督方法,我们平衡的不平衡训练数据。实验表明,该资讯、射频和学习演算法取得了良好的结果在我们的数据集,F1值超过80%。特别是,RF算法实现了回忆,精度F1值的95.9%。
本文的其余部分组织如下。部分2回顾了机器学习算法用于这项研究。部分3描述了数据采集和特征提取方法。部分4给出了实验结果和分析。最后,部分5总结了纸和提供了一个未来的工作前景。
2。预赛
在这项研究中,我们主要使用五监督学习方法,我们将简要地回顾这些方法在这一节中。在对比实验中,我们使用三种无监督学习方法,这里介绍不因为他们不是本文的重点。
2.1。然而,
再(资讯)方法(18)属于基于实例的学习。基于实例的学习和基于模型的学习之间的区别是,前者不需要培训或参数调优和可以用来直接作出预测。
我们假设训练集D和k的初始值的数量最近的邻居。没有方便的方式来确定最佳的价值k直接,其最佳值字段之间的差别很大,所以我们通常设置一个初始值,根据实验结果调整它。为样本分类, 表示k最近的样本D。 表示年代类,我们获得的范畴 : 当 , 否则,
2.2。支持向量机
支持向量机(SVM)方法(19)是一种基于模型的学习,是目前最强大的分类器。基本思想是把数据分成两部分用一个超平面,与最近的超平面之间的距离和数据点(我们称这个距离为分类间隔在以下文本)达到最大值。
我们假设训练集 的分类超平面 。使所有样本正确分类超平面,需要满足以下约束条件:
此外,当分类间隔达到最大值时,最近的数据点之间的距离超平面和双方是平等的。在这种情况下,间隔可以表示为 因此,构建一个最优超平面的问题转化为优化问题 在上面的约束。
在线性可分的情况下,最优权向量和最佳的偏见可以解决通过拉格朗日函数和对偶方法,然后最优分类超平面 可以获得。
在线性不可分的情况下,支持向量机算法的主要思想是将输入向量x到一个高维特征向量空间和构造特征空间中的最优分类面。从输入空间映射吗的特征空间使用地图 ,我们获得
替换的特征向量 ,类似于线性可分的情况下,我们可以获得最优权向量和最佳的偏见然后最优分类超平面 在高维特征向量空间可以确定。
2.3。射频
随机森林(RF)方法(20.)是一个代表集成学习方法。集成学习方法的基本思想是培养多个弱分类器,并结合成一个强分类器。
用引导的方法,不同的新的训练集构造从原始训练集,和每一个新的训练集分别用于训练决策树。利用不同的训练集可以增加分类模型之间的差异,提高组合分类模型的泛化能力。后轮培训,一个分类模型的序列 获得和用于形成multiclassification模型系统,利用简单多数投票来得到最终的分类结果。最终的分类结果 在哪里组合分类模型,是一个决策树分类模型,是输出的类别,然后呢是一个示意图函数。
2.4。演算法
自适应增强(演)21)方法是提高算法上的改进,这是一个集成学习方法。射频方法相比,弱分类器的相互独立的,演算法的弱分类器的方法并不是相互独立的,和新分类器的样品重量是根据前序的结果调整分类器。
给定一个训练集 在第一轮的训练,训练集分配是均匀分布(也就是说,每个训练样本有相同的重量),和一个弱分类器训练。然后,根据训练结果更新训练集(分类错误的样本权重的增加),和新的训练集用于培训。后轮培训,序列的分类模型 终于获得。每个分类器有一定的重量,和最后的分类模型是通过投票权重: 在哪里分类器的重量吗 。
2.5。中长期规划
多层感知器(MLP) [22),由单层感知器,不能解决非线性分类问题,是神经网络的基本理论/深度学习。一个感知器的基本目的是模拟生物神经元。这种方法总结每个输入加权的方式并将输入转换为使用一个激活函数得到输出结果,可用于分类问题。
单层感知器是最简单的类型的神经网络,只有输入和输出层,这意味着只有一个加权求和和转换实现。包括向MLP隐藏层,从而实现多个轮和使它更强大。图1显示了中长期规划的基本结构。每一层包含的节点数。 ,和层之间的连接权值; ,和层的偏见;和 ,和的资金投入和偏见。此外, ,和的输出是乙状结肠函数( ,和输入),即预测类别的分类问题。权重的连接参数训练,由反向传播调整。
3所示。数据采集和特征提取
本节描述事务的比特币交易数据集和提取特征。
3.1。数据集描述
我们使用了比特币Harrigan公布的事务数据集(https://anonymity-in-bitcoinblogspotcom/2011/09/)。数据集描述了比特币交易数据使用三个指示图:一个事务图(包括1019486年事务顶点和1558854年事务边缘),用户图形顶点(包括926615个用户和1961636用户边缘),和公钥图(包括1253054公钥顶点和3491341公钥边缘)。我们交易图主要用于实验。事务图的顶点是比特币交易哈希,和边缘是比特币交易之间的流动。如果一个事务的输出作为输入用于另一个事务,然后是一个有向边两个事务和导演的重量之间的边缘传输的比特币量。
使用监督机器学习算法,必须标记异常交易数据。为此,我们寻找比特币被盗的报告相关数据集的Harrigan比特币论坛网站Bitcointalk (https://bitcointalkorg/indexphp?topic=576337)。通过查看报告和查询区块链探险家,我们相关事务参与盗窃Harrigan的事务数据集。我们终于标记568个事务的数据集作为盗窃事务。比特币被盗交易检测可以被看作二进制与不平衡数据分类、异常数据的数量通常比正常的数据量更小。直接使用机器学习分类不平衡数据将不再那么有效,因为不足的少数类的学习。因此,过采样采样过程通常用于训练数据来提高学习效果。为了解决数据集的不均匀,确保算法的效率,我们undersampled nontheft交易(即。,we randomly selected 10,000 of the 1,018,918 nontheft transactions) and merged them with the 568 theft transactions as our experimental data.
3.2。特征提取
比特币盗窃是指黑客窃取用户私钥的比特币和传输比特币的地址用户通过互联网或通过其他方式。我们分析和假设关于比特币盗窃(以及特征提取过程)如下。比特币的盗窃,从受害者黑客偷了比特币后,黑客通常传输比特币尽快避免帐户被冻结。因此,等待时间间隔从事务的创建的支出的最大输出事务是作为时间间隔的功能。因为事务毗邻盗窃事务可能是盗窃事务,我们的平均和最大时间间隔中提取的特征输入交易和输出事务邻居特性。盗窃活动,黑客通常传输比特币有效使用相对较大和集中交易总量输出。因此,我们交易的交易总额和方差提取输出特性。此外,我们提取的小数点后的最大输出,输入交易数量、交易和输出数字量,入度和出度特性,分别。表1我们总结了特征提取及其定义。
4所示。实验结果和讨论
4.1。实验结果
我们提取9个特性从收集到的比特币交易历史数据,标准化的特征,并划分训练集和测试集的比例7:3。然后,我们尝试了八Python sklearn库的机器学习方法。三个无监督方法的异常数据比例参数被设置为0.05,和其余的参数被设置为默认值。5监督方法、参数都设置为默认值。
与常用的度量在分类错误率的问题,由于异常检测的特殊性问题,我们使用了回忆,精度F1得分为主要评价指标的实验。这些指标定义如下(的意义TP、TN、FP和FN通常是定义在机器学习理论):回忆:TP / (TP + FN)精度:TP / (TP + FP)F1:(记得×精度)/(记得+精度)
验证该方法的有效性,三组实验设计。首先,监督的有效性方法相比于无监督方法验证了使用三个特性。然后,监督的有效性方法相比于无监督方法验证了使用九特性,并给出了9个特性设计的有效性。最后,过采样的有效性提高检测结果验证了训练集。我们将上面的三组实验,实验中,B和C,分别和表2总结的结果。
在第一组实验中,我们使用三个无监督方法LOF, Mahalanobis基于距离的方法,和OCSVM算法以及五监督方法然而,射频,演算法,支持向量机,和MLP方法三个特征—入度,出度,总数额中描述文献[8,9]。查全率和查准率接近于零的所有三个无监督方法,与大家听得有点优势。LOF适用于检测相对孤立点本地和其他两种方法适用于检测的边缘点,这表明异常数据点往往是分布在整个数据集。在监督方法,然而,射频,召回和精度值和演算法方法达到约60%,这是相比显著提高无监督的方法。最高的值在这组实验中资讯的算法,这是60.4%。
在第二组实验中,我们利用八个方法从第一组实验九特性(扩展功能)。在无监督方法,LOF方法的查全率和查准率和Mahalanobis基于距离的方法改善,但这两个指标仍低于20%。监督方法,然而,算法的查全率和查准率都在80%以上,而这些指标超过90%的射频和演算法的方法。同时,SVM的回忆和精度和MLP仍为零。最高的的价值在这组实验中,射频方法,即95.2%。
第三组实验中,我们进行了合成少数过采样技术(打)23)在少数类训练集和利用所有5个监督方法9特性。资讯的方法是超过90%的召回和RF和演算法方法超过95%,但是这三种方法的精度大大降低。SVM和MLP的召回是超过90%,但精度小于60%,明显低于其他三种方法。最高的的价值在这组实验中,射频方法,即95.9%。
在左边的图的图2我们显示,测试集的分布。红点代表异常交易,蓝色的点代表正常交易。大多数交易都在左下角,我们扩大了当地在左下角,正如我们在数字3和4。在左边和右边图的放大图3,我们目前的测试集的分类结果使用资讯的方法,射频方法,分别和演算法方法之前和之后的均衡。可以看出,三种方法的分类结果之前和之后的均衡非常接近测试集的分布。资讯和演算法均衡分为异常可能使正常点。在左边和右边图的放大图4我们显示,测试集的分类结果之前和之后使用SVM方法和MLP方法均衡,分别。与测试集的分布本身相比,我们可以看到,两种方法的效果均衡后已经大大改善了。
4.2。讨论
在过去,比特币盗窃的检测是研究相对少见,和比特币的检测效果盗窃在现有文献并不理想。他们使用的方法大多是无监督方法,提取的特征是相对简单的。针对一些比特币盗窃已报告,我们使用这些信息来相应的标签数据,并利用五监督方法。三个监督方法的查全率和查准率,然而,射频,演算法,明显改善的无监督方法相比,当三个和9个特性。这一发现解释了在某种程度上使用监督算法的优点。其他两个监督方法、支持向量机和中长期规划,没有回忆3和9个特性。这种行为可能有两个原因:(1)严重的数据集不平衡可以斜边界的决定更多对少数类和(2)特性我们设计仍有低能力区分异常数据和nonabnormal数据。
区分盗窃和nontheft事务更有效,我们扩大了在先前的研究中使用的特性8,9)获得9个特性。根据上述结果,三个无监督检测方法中的两个展览提高检测能力与我们的扩展特性,和OCSVM方法的改善效果更明显。同时,召回和精度三个五监督方法明显提高了使用我们延长9特性相比造成使用原来的三个特点。这一发现显示了监管功能的有效性,我们设计方法;也就是说,它表明,这些特性在一定程度上能突出盗窃事务。
随着数据集的不平衡会导致贫穷的少数类的分类,我们采用了击打的方法来平衡训练集,在表35,我们突出指标的变化监督方法之前和之后的均衡。B, C和RC代表第二组实验,第三组的实验,和变化的速度(百分比)的三个主要指标,分别。均衡显著提高召回所有5个监督方法,特别是SVM和MLP方法。从零增加到90%以上。同时,有一定精度的下降,低于20%,然而,射频,演算法。表现最好的方法是射频的方法。之前和之后都过采样,F1是最高的五个方法,对射频的方式,这个值是提高了均衡。精度下降的负面影响比正面影响增加的回忆。如图5过采样后,FN减少6和FP增加4。因为FN的成本大于FP,总成本将会下降。成本和F1、均衡射频方法是有效的。从回忆的角度来看,均衡为所有5个监督方法是有效的。
5。结论和未来的研究
在这项研究中,我们专注于检测的比特币被盗交易使用监督机器学习方法。我们收集历史比特币交易数据和提取9个功能特征的基础上盗窃事务。我们使用五监督方法资讯,支持向量机,射频,中长期规划演算法,方法的特性进行分类。演算法,实验结果表明,射频和资讯算法有更好的分类能力比其他方法F1值的95.2%,94.1%,和86.1%,分别。进一步,我们进行过采样平衡不平衡训练集。实验表明,召回是进一步提高了均衡。在研究方法中,射频方法表现出最佳的分类性能,其F1值达到了95.9%。
我们的未来研究方向包括两个方面:(1)提取更有针对性的为盗窃交易特性,结合多种机器学习算法来提高检测结果,(2)使用同态加密算法加密特性实现盗窃事务与隐私保护检测。
数据可用性
可以按照客户要求所有的数据都包含在本研究从相应的作者。
的利益冲突
作者宣称没有利益冲突有关这篇文章的出版。