评估灰色软件特点和风险

文摘

灰色软件百科全书收集已知物种为事故分析提供信息,然而,分类和泛化能力的缺乏使他们无效的防御策略对集群发展的压力。因此这里提出灰色软件分类框架不仅灰色软件根据不同的分类特征进行分类,也便于在灰色软件风险评估网络空间。配备支持向量机,框架构建学习模型基于训练数据中提取自动从灰色软件百科全书和可视化分类结果与自组织映射。学习模型中使用的特征选择与信息增益和高维度特征空间的减少单词词干和stopword删除过程。的灰色软件分类多样化特性表明,灰色软件通常试图改善其普及率,依靠多个安装机制和减少代码的脚印。框架还显示灰色软件躲避检测攻击受害者的安全应用和抗拒被加强凝血功能删除被感染主机。我们的分析进一步指出,物种类别间谍软件和广告软件继续主导灰色软件环境和实施非常重要威胁互联网生态系统。

1。介绍

灰色软件,一个涵盖性术语软件与不必要的或不受欢迎的特性和功能,造成了严重的安全威胁互联网活动为主要设计概要文件用户的计算习惯,获取敏感数据,和窃取商业秘密1,2]。灰色软件收集的信息可以用来获得金融资产,有组织犯罪,或贸易利润(3]。例如,世界上最大的抢劫未遂对日本银行的伦敦办事处是通过一个间谍软件4),而键盘记录器偷偷植入一些Kinko商店暴露了银行账户和密码攻击者(5]。灰色软件产品,跟踪用户的上网行为,灰色软件公司建立了世界上第七大决策支持数据库(6]。出于财务收益,灰色软件通常试图感染尽可能多的主机通过多元化渗透机制如下载型、欺骗性的安装,或漏洞开发7]。产生一个持续的收入,灰色软件通常在受影响的机器和永久驻留深深地渗透到受害者系统通过各种方法包括修改自动启动配置或注册表数据库,以便它可以重新启动系统崩溃(8]。逃避检测,灰色软件经常使用模糊技术,降低安全水平受感染的系统甚至终止安全服务,如防病毒、防火墙和反间谍软件产品(9,10]。通过附加各种合法的过程,灰色软件显著增加其影响主机内凝血功能使它很难被完全移除和实质上扩大其寿命8]。

利润的动机推动灰色软件进入激烈的增殖迅速扩张为代表的物种在趋势科技收集灰色软件百科全书(11]。从2004年只有335株,百科全书在2005年增加了14437个新物种和另一个49310年的2006;86834年到2008年上半年,标本的曲目。它已经建立了超过90%的联网主机感染了灰色软件以及每个受害者机适用于平均28种(12]。此外,毁灭性影响机密性、完整性和可用性(CIA)呈现灰色软件第二大严重威胁互联网生态系统网络和继续成为主要风险(13]。不同灰色软件的不兼容菌株驻留在相同的受害者主机也显著影响系统的稳定性和效率。在这方面,超过12%在戴尔技术支持服务中心将灰色软件;虽然grayware-inflicted电脑崩溃报告给微软花费数十亿来维修(5]。此外,灰色软件的猖獗的增长不可避免地阻碍了电子商务的繁荣,44%的网络用户大大减少了他们的网上活动,以避免身份盗窃(14]。预计全球业务灰色软件国防支出将从2.14亿年的2006美元增加到14亿美元,到2010年,进一步表明强大的和昂贵的打击灰色软件(15]。

落入之间的“灰色区域”合法应用程序和恶意软件(即。,malware) such as virus and worm, grayware is usually distributed by bundling with other legal software packages including freeware and shareware, which obtain users' consent for installation via an End User License Agreement (EULA) [4]。不幸的是,这些包所呈现的冗长的eula通常是含糊的和欺骗性的功能描述。例如,9400字的EULA包组成的C2媒体,AdIntelligence,Alset可能会需要几个小时甚至最快的读者通过而不考虑其狭窄的显示窗口和小字体大小(16]。也是很常见的灰色软件绑定组件上的eula提供不完整的信息披露所体现的点对点(P2P)应用程序格罗斯特包括:安装进一步邀请另一个14物种BullGuard, Cydoor,IGetNet,所有这些不披露的EULA (17]。相比对手的恶意软件,通常是在一个地下时尚,灰色软件主要是由商业公司,渲染的脆弱性anti-grayware生产商诉讼(18]。在这种背景下,区域实验室起诉180年灰色软件解决方案的借口贸易诽谤和不公平的做法,因为后者的产品贴上灰色软件由于其欺骗性安装途径(19]。同样,赛门铁克被分类成激烈的诉讼制定的产品从高清晰,灰色软件和删除它从被感染系统(18]。

毫无疑问,越来越多的灰色软件和anti-grayware阵营之间的诉讼源于“灰色区域”的存在和缺乏一个格式良好的灰色软件的定义20.]。灰色软件识别和分类的复杂性进一步加剧了灰色软件和anti-grayware供应商之间建立商业伙伴关系时(21]。承认广告软件公司是其成员,反间谍软件技术的财团的崩溃是不可避免的由于其信誉损失(21]。很自然的是产品广告软件生产商WhenU是合法与反间谍软件公司Aluria由于其伙伴关系。显然,灰色软件之间的业务合作和anti-grayware进一步模糊法律应用程序和灰色软件之间的边界。此外,广泛的灰色软件也驱动了不断增加的投资商人和联盟网络。为此,广告软件WhenU获得大量的资金直接从其最大客户如Priceline和j.p.摩根大通通过展示他们的广告,通过广告软件产品22]。同样,谷歌实际上有助于灰色软件供应商如180解决方案和Ask Jeeves向他们支付广告通过灰色软件(23,24]。显然,灰色软件的并发症分类呈现它不仅技术挑战,也是一个严重的问题,涉及法律、社会、经济、和人为因素(2]。

人口爆炸的灰色软件对受感染的系统使它和它的灾难性的影响极其重要的灰色软件的行为特征并分析其风险,有效的检测和防御策略可以开发(25]。因此,我们提出一个灰色软件分类框架称为灰色软件评估员,为整个灰色软件生命周期定义了分类特征,分类物种对各种特征,并评估他们的威胁互联网生态系统。拟议的框架将灰色软件分类作为一种监督学习问题,构造一个学习模式为每个分类功能的帮助与支持向量机(svm) [26]。分类的特征以及他们的训练数据自动提取Trend Micro灰色软件百科全书,以避免执行费时的手工操作。训练数据可以进一步扩大与灰色软件条目匹配的模式分类的功能问题。我们设计单词词干和stopword删除过程降低特征空间的维数由灰色软件特征向量。进一步减少特征空间的维度,我们基于他们潜在的信息增益选择功能27]。分类结果可视化的帮助下自组织映射(索姆)[28]。

大量的灰色软件中的条目Trend Micro灰色软件百科全书和各自的短描述不可避免地导致一个高维特征空间以及稀疏特征向量。因此,我们采用支持向量机技术,出色的学习任务与密度的概念和稀疏的特征向量(29日),建立分类特性的学习模型。拟议的框架定义了两种类型的分类特性,单标牌和multilabel;在前,只有一个标签可以被附加到每个灰色软件条目在后者,一个灰色软件可以同时属于多个类别。multilabel特性,框架降低了建模问题转化为一组任务,每个区别与其他类别的功能,和火车每个任务的SVM二元分类器。单标牌特性,灰色软件评估员构造二元分类器以及一个多类支持向量机分类器以达到更好的分类精度。

与支持向量机的学习模型,提出框架系统组织灰色软件种类根据各种分类特性。例如,它可以产生灰色软件层次结构由最初集群上所有菌株特性灰色软件类型,包括类别等间谍软件和广告软件每个类别分类,然后对功能风险水平;后者包含五类:极端,高、中、温和,轻微的。由此产生的层次结构促进了间谍软件的识别标本施加非常关键的互联网威胁。更重要的是,提出灰色软件分类框架可以自动分类发现灰陶器品种与既定的学习模型,帮助评估灰色软件演化及其风险。使用灰色软件分类源自拟议的框架,我们确定灰色软件通常采用多个攻击途径来改善其普及率和携带各种载荷对受害者的利用最大化系统。也揭示了框架,灰色软件躲避检测通过减少其代码足迹和加强与受害者的凝血功能系统。灰色软件的趋势进行分析表明,拟议的框架间谍软件,广告软件,破解程序最严重的威胁是互联网。

陈述的其余部分组织如下。部分2提出了灰色软件相关工作以及它的分类特点和分类。部分3概述了拟议的框架,自动化训练数据生成和灰色软件分类学习模型建设。基于分类的分类特性与灰色软件生命周期的不同阶段进行了部分4,5,6。部分7评估灰色软件演化和分析其威胁到互联网。我们的主要结论和未来的工作可以在部分8。

灰色软件的复杂性特征及其行为的发展呈现一个被广泛接受的定义灰色软件尚未建立(2]。在这方面,一些定义认为程序是灰色软件如果建立了秘密的沟通渠道和负面影响在端系统9,17,30.),而其他程序的集中监测和信息收集能力和区分灰色软件和合法的软件主要是基于用户同意或许可的安装(4,20.]。然而,灰色软件经常生活在周围的灰色区域之间的分界线合法和恶意软件很难定量测量程序的隐匿性以及真实披露其目的通过eula或服务条款(TOS) [2]。它已经表明,大多数用户显然后悔和扭转他们的决定后通知安装灰色软件的功能31日]。缺乏一个格式良好的灰色软件定义肯定影响宇宙的边界和物种的分类方案。为此,只有26517灰色软件病毒聚集在计算机协会百科全书(32),一个小得多的人口相比,在趋势科技收集的86834个物种。沿着同一条直线,灰色软件分类方案多样化明显不同的灰色软件报告,例如,后门,拒绝服务(DoS),木马是灰色软件类型(32)但视为恶意软件(11),因此排除在他的灰色软件集。

灰色软件分类和泛化的发展需要分类法的宇宙灰色软件可以组织系统及其物种可以很容易地识别(13,33]。是有价值的,灰色软件分类应该证明客观性的属性,可操作性和可重复性,其分类方案应是确定的和具体的34]。决定论要求下标本研究内在特性,所以,他们可以自动提取独立观察员而特异性确保唯一性和含混标准分类的功能。不幸的是,灰色软件的复杂性质很难定义明确的特性,可以应用于整个宇宙灰陶器。例如,分类功能用户同意在灰色软件描述计划中起着至关重要的作用的4,20.];然而,而是主观的和可能导致data-gleaning程序分为安全数据收集或数据失窃由不同的观察者。以同样的方式,攻击者的目的是用来区分的特性讨厌的间谍软件从恶意的间谍软件在[11];显然,攻击者的目的是难以评估和衡量。事实上,灰色软件百科全书等趋势科技和计算机协会是由领域专家手动创建通常导致不完整的信息收集和分析了许多压力。为此,只有38趋势科技的86834种灰色软件百科全书(11在野外)提供信息的功能,做任何推广统计无关紧要。

缺乏决定论和特异性肯定影响灰色软件的可用性分类方案;然而,对于他们的应用程序在实际环境的最主要障碍是无法分类新发现的物种而无需人工干预。要重要的人工干预,例如,在分类中的所有条目Trend Micro灰色软件百科全书对各种分类的特性,不可能跟上日益增长的人口灰色软件。因此,机器学习和数据挖掘技术应用,以减少依赖领域专家为灰色软件和恶意软件分类而言35,36]。基于行为的恶意软件/间谍软件分类方法基于案例推理技术已知恶意软件/间谍软件存储在一个数据库,发现从数据库的示例程序的最小距离下的研究,并声明为恶意,距离应在指定的范围内(37]。的帮助下一个自组织映射(SOM)的建议38自动组织漏洞分为四个categories-denial服务,欺骗、侦察、脆弱性和未经授权的访问集群节点文本描述为一个二维数组(28]。同样,SOM技术也被用来自动发现模式隐藏在漏洞描述首先组织漏洞到多个节点组成的自组织映射,然后标记每个节点与拒绝服务等类别,蠕虫,缓冲区溢出(39]。

自动化灰色软件分类过程,并提供灰色软件分类和泛化能力,我们把灰色软件分类作为一种监督学习问题,采用支持向量机(svm) [26为分类特征创建学习模型。来自结构风险最小化(SRM)计算学习理论的原则,支持向量机寻求学习函数最小化分类误差在选定的例子26,40),已经成功地应用于文本分类、模式识别、自然语言处理(40,41]。SVM二元分类器的过程已经提出了大量的数据和高维稀疏的特性向量中经常遇到的实际应用42,43]。例如,在上下文的序列最小优化(SMO)方法(44),大二次规划(QP) SVM二元分类器的优化问题分解为一系列任务,可以分析解决。同样,在SVM-Light [42]和SVM-Torch [43),模型训练过程是加速使用工作集和数据缓存。支持向量机建模复杂性可以进一步降低启发式的帮助和特定领域的优化45]。与替代包括朴素贝叶斯机器学习方法相比,神经网络和决策树;支持向量机实现更好的性能的泛化(41]。

当分类功能包含两个以上类别,学习任务应该区分多个类呼吁多级学习模型(46]。多类问题可以通过减少multiclass-to-binary方法分解为一组二进制分类任务,每个单个类有别于其他[47]。同样,多级类别也可以解决学习问题划分成反对子集使用纠错编码,如汉明编码,这样可以训练二元分类器基于子集,而不是单独的类(48,49]。通过对多级学习问题作为一个整体与一个复杂的二次目标函数约束优化的任务(50),一个多级分类器也可以用multiclass-optimization方法。在这方面,执行的约束优化多级分类器分解为一系列的小步骤,每一步只涉及训练数据的子集或约束,因此可以解决分析(51]。在拟议的框架中,我们构建支持向量机学习模型multiclass-to-binary减少和multiclass-optimization方法。

3所示。提出了灰色软件分类框架

Trend Micro灰色软件威胁警告,如百科全书可以发挥更重要的角色在灰色软件风险管理应该提供的功能分类和泛化。例如,提示事件反应要求主要灰色软件渗透机制快速确定;同样,也同样希望得到灰色软件分布对特定的分类特性,比如携带有效载荷或风险水平。不幸的是,这种功能不可用在当前的安全警告。求助于机器学习和数据挖掘技术,提出灰色软件分类框架赋予Trend Micro灰色软件百科全书的功能分类和总结。考虑灰色软件分类作为一种监督学习问题,设计框架收集训练数据自动分类功能和构建学习模型与支持向量机。灰色软件特征空间的维数由属性选择根据他们的信息增益降低在词的帮助遏制和消除stopword技术;而通过自组织映射分类结果可视化。

3.1。灰色软件的生命周期

随着宇宙灰色软件的剧烈爆炸,变异在每个灰色软件的家庭也以越来越快的速度扩张。分享类似的特征和行为,同样的灰色软件的家人受到各种灰色软件百科全书的区别对待:整个灰色软件家族代表与一个条目在赛门铁克威胁咨询或每个变量都有自己的独立入口体现Trend Micro灰色软件的百科全书。因此,不可避免的灰色软件宇宙的边界在不同的集合中定义可能不一致。在这方面,赛门铁克和趋势科技灰色软件百科全书收集6767年和86834年的物种,分别为(11,52]。人口不断增加的灰色软件也呈现极为困难,灰色软件百科全书彻底分析每个标本。为了克服这个问题,灰色软件百科全书一般交叉引用彼此分享和相关信息。例如,Mcafee安全顾问通常引用其他资源包括Trend Micro灰色软件百科全书除了自己的灰色软件的描述。

是显示在表1Trend Micro灰色软件百科全书,不仅提供了足够的信息种类,而且还组织条目具有相对稳定的结构使它能够自动处理收集到的数据。间谍软件的描述TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK表中列出1显然遵循一个明确定义的模板包括三个部分:一般情况下,描述,细节。每个部分包含一系列的字段,用于描述灰色软件标本。例如,部分功能系统的影响一般试图测量应变的影响系统的完整性;而压缩类型的一部分细节描述了标本的行为对其文件包装以减少存储的足迹和失败检测。与其他安全报告相比,趋势科技灰色软件百科全书的定义更丰富的特性来描述灰色软件种类和经常引用的其他安全数据库。因此,我们选择Trend Micro灰色软件百科全书作为实验提出了框架并将其转换成灰色软件分类器的分类能力和泛化。


TSPY_LINEAGE.GL	ADW_ALEXA.AK

一般

类型:间谍软件;在野外:没有;破坏性:是的;影响系统:Windows 95, 98年,我,NT, 2000, XP,服务器2003;加密:没有;语言:英语;对系统的影响:高;信息曝光:高;	类型:广告软件;在野外:没有;破坏性:没有;NT系统的影响:Windows 98,我,2000,XP,服务器2003;加密:没有;语言:英语;系统的影响:中等;信息曝光:中等;

描述

安装和自动启动技术:在Windows NT、2000、XP、间谍软件和服务器2003,这滴一份SVHOST32.EXE本身在程序文件文件夹中。然后修改以下注册表项,以确保其在每个系统启动时自动执行:…在Windows 95和98年,它RUNDLL32本身副本。EXE在Windows文件夹和国际性组织。EXE的信息盗窃:这个间谍窃取敏感信息和日志的影响系统和游戏…过程终止:这个间谍软件也终止…	安装和自动启动技术:这个广告软件可能到达一个系统作为一个文件下载不知情的用户在访问网站。它也可能降低了其他灰色软件。在执行时,它会创建文件夹Alexa工具条的程序文件的文件夹,然后滴…然后安装了下列文件。在受感染的系统DLL文件。因此,ADW_ALEXA的例程。美联社是系统上的展出。它创建以下注册表项:…其他细节:这个广告软件寄存器本身作为一个浏览器助手对象(BHO)和增加了额外的搜索

细节

最初的样品收到:2005年9月7日;文件类型:体育;内存常驻:是的;压缩类型:UPX;文件大小:不同;有效载荷1:移动系统文件到其他文件夹;负载2:终止流程;有效载荷3:窃取信息;	初始样品收到:2006年11月2日;文件类型:体育;内存常驻:是的;压缩类型:没有;文件大小:494672字节;有效载荷1:创建搜索功能在网络浏览器;负载2:重定向搜索查询

每个灰色软件样本股票类似的生命周期:创建后,它首先穿透尽可能多的机器,然后传输恶意代码称为负载到受感染的系统进行秘密活动,直到最终发现并根除。更具体地说,灰色软件生命周期可以分为以下几个阶段。(一)创建。灰色软件可能由脚本kiddy或商业企业出于利润。一些物种繁殖在大规模的帮助下从广告商的投资,商人,和联盟网络。(b)渗透。新生的灰色软件试图潜入受害者系统与免费软件/共享等阿森纳,电子邮件附件和安全漏洞剥削。(c)激活。有效载荷,持续收入的主力,被运送到受感染的系统。(d)发现。灰色软件可能最终识别由于其有害的活动。(e)根除。灰色软件包含和移除受感染系统检测。

虽然经历类似的生命周期,灰色软件菌株的确表现多样化的行为在他们的生活的不同阶段时间从全然地讨厌非常恶意的。主要是基于功能和行为,物种Trend Micro灰色软件百科全书分为组列在表中2。包括59.97%的整个曲目,类别间谍软件是最大的类及其成员设计概要users-computing /浏览习惯,窃取敏感信息,捕捉截图或事件日志。接下来的两个人口最多的类别拨号器和广告软件贡献灰色软件总人口的17.50%和16.27%,分别;前者为其所有者创造营收将手机连接,而后者生成财务收益通过展示广告。相比之下,类别工具栏,键盘记录器,强盗只是人口稀少,呈现他们的少数灰色软件的宇宙。


ID	的名字	描述	全国矿工工会	Pct

1	间谍软件	安装在用户的系统来跟踪活动,收集数据	52075年	59.97
2	拨号器	重定向调用溢价900编号为金融的目的	15196年	17.50
3	广告软件	显示弹出窗口/ pop-unders和主机终止后可能是活跃的	14124年	16.27
4	黑客工具	各种工具包用于恶意目的	3672年	4.23
5	浏览器助手对象	插件的浏览器和跟踪冲浪习惯和收集信息	691年	0.80
6	破解程序	恢复密码的加密形式通过蛮力/算法	624年	0.72
7	特洛伊木马	隐形项目开展有害的活动	608年	0.70
8	工具栏	执行搜索和文件下载和修改搜索结果	394年	0.45
9	Trackware	跟踪网络浏览活动针对广告或恶意的目的	116年	0.13
10	键盘记录器	记录击键和发送给攻击者	85年	0.10
11	远程访问木马	滥用系统管理或信息盗窃	75年	0.09
12	强盗	操作系统设置路由流量	45	0.05
13	使滴下的东西	程序可以检索和安装其他恶意软件或灰色软件	82年	0.09
14	揩油的人	检索、安装和其他软件在后台执行	49	0.06
15	玩笑程序	惹恼用户但不要感染文件	425年	0.49

3.2。拟议的框架的设计原理

所展示的间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK的表1Trend Micro灰色软件,每个条目的百科全书是由模板主要包括三个部分:一般情况下,描述,细节。在某种程度上一般,特点是包括一系列的分类特征类型,系统的影响,信息曝光。部分描述概述了标本的入口,通常覆盖安装机制,活动,和症状受感染的系统。信息部分细节概述了技术采用灰色软件对文件压缩方法,模糊负荷特性和消息。虽然Trend Micro灰色软件设计百科全书一打分类特征描述灰色软件的物种,只有一小部分的条目实际上提供的信息定义功能由于耗费时间和劳动密集型的标记过程。例如,只有8301的86834株Trend Micro曲目的信息暴露的特征信息;虽然不到9.57%条目标记对系统特性的影响。此外,没有分类特性是设计趋势科技的灰色软件百科全书”来形容灰色软件行为攻击的途径,为灰色软件的评估是非常重要的。

灰色软件分类对分类特征有助于制定国防政策针对集群品种具有类似的行为,而不是个人的应变。此外,组织灰陶器物种系统地根据他们的特点可以自动化新发现的灰色软件的分类,阐明灰色软件宇宙的进化。然而,巨大的人口趋势科技的灰色软件百科全书基本上呈现它效率低下和不切实际的手工分类物种基于不同的分类特征。因此,我们提出一个灰色软件分类框架称为灰色软件评估员,将灰色软件自动化分类和泛化。灰色软件评估员不仅从Trend Micro灰色软件自动提取特征的百科全书,而且设计新的分类功能覆盖整个灰色软件生命周期。例如,功能攻击大道和注册表关键定义描述了灰色软件的特点渗透和根除阶段的寿命。

每个分类特性有其dimensionality-the数量的类别,在这种情况下,功能攻击大道和系统影响包含十个和三个类,分别,前者包括类别减少了恶意软件,驾车下载,网络文件共享,而后者拥有类低、中,高。一个分类学特性是multilabel如果灰色软件标本可以同时分配给多个类别,和单标牌。攻击大道在拟议的框架中,特性是multilabel灰色软件标本可能同时采取多种渗透机制;例如,广告软件ADW_ALEXA.AK成功地感染机器的受害者驾车下载和减少了恶意软件方法。另一方面,功能系统影响单标牌,因此间谍软件TSPY_LINEAGE.GL的表1只有投入范畴高而广告软件ADW_ALEXA.AK被认为对影响不严重影响系统相比TSPY_LINEAGE.GL因此分配给类媒介。

框架进行灰色软件分类分类功能分三个阶段:灰色软件表示,学习模式构建和unlabeled-sample分类。在第一阶段,描述文本的标本Trend Micro灰色软件百科全书对机器学习转换为一种格式是可行的。更具体地说,趋势科技曲目中的每个条目是一袋的话忽略单词位置的文本,然后进一步用一个特征向量表示将袋中的每个单词作为一个特性(或属性)和词出现在相应的条目作为其价值。减少dimensionality-number所有灰色软件的属性特征空间的形成特征向量,该框架将话说到他们的共同根源遏制过程。特征空间进一步减少了过滤stopwords只有语法功能和一般的文章和常见的介词。此外,根据他们的信息的属性集收益和只有这些功能都放在一组最重要的收益。不同所带来的偏差大小的灰色软件条目是被正常化的特性向量长度单位。为了提高分类精度,提出框架尺度每个属性的特征向量与它的逆文档频率(IDF) (53)定义为灰色软件数量之间的比例和数量的条目(即包含属性。词)。

在学习模式建设的阶段,提出了框架首先自动收集每个分类特性的训练数据趋势科技灰色软件百科全书和构建一个支持向量机学习模型。这一事实分类信息分类特征的趋势科技灰色软件百科全书是手动由领域专家通常会导致一个非常小的训练数据集生成。因此,框架扩展了训练数据通过识别条目匹配的模式分类所特有的功能。稀疏灰色软件特征向量由于极短描述每个灰色软件条目激励我们采用svm在拟议的框架与密度的概念和一流的学习任务稀疏特征向量(29日]。小吵或冗余信息灰色软件生成的文本领域专家也证明了支持向量机的应用提出了特征选择框架,因为它减轻了负担,影响学习模型的性能。学习模型的分类性能评估通过倍交叉验证过程。

构建学习模型,提出框架分类标记灰色软件不是训练数据的一部分。multilabel特性,多个SVM的学习模型由二元分类器,每个歧视一个类别,而对于一个单标牌特性,一个多级分类器通常是建立。灰色软件条目可以根据各种组织系统地分类功能的帮助下学习模型。例如,可以构造一个灰色软件层次结构如果我们物种分类对一系列的分类特性,比如灰色软件类型,系统的影响,发现日期。很明显,由此而来的层次结构使它容易识别2008 -出生间谍软件,严重影响系统的完整性。此外,学习模型建立在设计框架也可以用来分类灰色软件菌株可能会发现在未来,并分配到建立层次结构。最后,分类结果可视化与自组织映射(索姆)。

3.3。灰色软件特征向量

将灰色软件进入适合结构化表示自动过程支持向量机等机器学习算法和索姆,拟议的框架首先对待每个灰色软件的文本部分描述序列的令牌,代表一袋的话忽略标记位置的文本。灰色软件的一个特征向量问题然后形成与每个不同的令牌属性及其发生频率值。灰色软件功能空间特征向量的大会对所有物种及其维度的关键因素是学习任务的计算复杂度。为了降低特征空间的维度,提出框架度假村波特阻止算法经常用于信息检索(IR) [54),这令牌被剥离合并为他们共同的茎根复数、过去分词和其他后缀。由此产生的词是进一步转换为小写同行压缩特征空间。例如,在阻止过程之后,令牌安装、技术,自动的TSPY_LINEAGE.GL在表1转换为茎吗安装,techniqu,自动售货机分别放入特征向量。造成结果的条目TSPY_LINEAGE.GL和ADW_ALEXA.AK介绍了行”字数”的表3。


部分	TSPY_LINEAGE.GL	ADW_ALEXA.AK

字数	安装:1自动启动:1 techniqu: 1窗口:7元:2000:2 xp: 2服务器:2003:2 spywar: 4下降:2 copi: 5程序:1文件:4文件夹:7调整:1:2 registri: 2 entri: 2 ensur: 1自动售货机:1 execut: 1系统:5启动:95:98:2 rundll32。例:1国际比赛。例:2通知:2盗窃:1偷:1日志:1 sensit: 1影响:2游戏:1 lineag: 1	设置:2自动启动:1 techniqu: 1 adwar: 2令人:1系统:6文件:9下载:2 unsuspect: 1用户:1访问:1网络:2网站:1下降:3 graywar: 1 execut: 1创造:2文件夹:4 alexa: 2工具栏:4计划:2文件:9:2。dll: 1感染:3结果:1设备:1 adw: 4展览:1 registri: 1祺:1细节:1 regist: 1浏览器:2助手:1对象:1

特征向量	窗口设置:0.0010自动启动:0.0106 techniqu: 0.0101: 0.0485元:2000年0.0216:0.0144 xp: 0.0144服务器:2003年0.0149:0.0151 spywar: 0.0036下降:0.0147 copi: 0.0456程序:0.0003文件:0.0281文件夹:0.0553调整:0.0127:0.0146 registri: 0.0156 entri: 0.0163 ensur: 0.0097自动售货机:0.0085 execut: 0.0076系统:0.0034启动:95:0.0085 0.0286 98:0.0146 rundll32。例:0.0163国际比赛。例:0.0344通知:0.0032盗窃:0.0104偷:0.0075日志:0.0105 sensit: 0.0138	安装:0.00138自动启动:0.0076 techniqu: 0.0072 adwar: 0.0077令人:0.0060系统:0.0029文件:0.0450下载:0.0116 unsuspect: 0.0091用户:0.0002访问:0.0070 web: 0.0014网站:0.0031下降:0.0157 graywar: 0.0100 execut: 0.0054创造:0.0066文件夹:0.0225 alexa: 0.0430工具栏:0.0488程序:0.0004文件:0.0450:0.0104。dll: 0.0075感染:0.0288结果:0.0120设备:0.0062 adw: 0.0462展览:0.0117 registri: 0.0056祺:0.0076细节:0.0086 regist: 0.0098

拟议的框架设计stopword-elimination过程进一步减少特征空间的维度。令牌是一个stopword如果只有语法功能没有添加新的意义句子它涉及。Stopwords在拟议的框架通常的文章中,粒子,连词(55]。stopword-elimination过程,令牌这一点,在,在的条目TSPY_LINEAGE.GL被排除在其特征向量;以同样的方式,单词5月,由,然后的条目ADW_ALEXA.AK也stopword列表的一部分,从特征向量。拟议的框架还将出现一个令牌作为一个特性候选人只有至少指定次数的灰色软件曲目(默认3)。减轻影响的差异大小的灰色软件条目,拟议的框架使每一个特征向量长度单位规范化。我们也改善分类性能扩展每个属性的一个特征向量与它的逆文档频率。与上述单词词干和stopword消除过程,特征空间的维数,减少了从5881年到4910年。行”特征向量”在表3描述了特征向量的条目TSPY_LINEAGE.GL和ADW_ALEXA.AK。特征向量的非零属性TSPY_LINEAGE.GL和ADW_ALEXA.AK分别是61和72,让他们极其稀疏相比4910维的特征空间。

3.4。灰色软件分类支持向量机和SOM

对于一个给定的训练数据集,,每个数据点(或例子)与特性和一个真正的标签,一个监督学习的任务是构建一个模型,试图平衡的分类精度在看不见的例子及其泛化能力。分类时发生错误的标签分配模型的一个例子与它真正的标签。支持向量机(svm)试图最小化分类误差构造模型在随机选择的例子26]。当标签集积极,学习模型(一个二进制classifier-distinguishes数据点(从负面(−1)同行)类别分离超平面,最大化的总和其最短的距离最近的正面和负面的例子。分离超平面可以表示为,这里的权向量是正常的超平面,操作符计算向量的内积和,是偏见。目标函数的支持向量机二元分类器可以表达减少与参数一个点球分类错误,一个非负的松弛变量th的例子这正面例子和对负面的例子。显然,参数控制训练误差和分类精度之间的权衡。

在实践中,一个二元模型的目标函数转化为最大化的沃尔夫对偶形式,受到和。参数是一个非负的乘数为每个约束。显然,沃尔夫形式的目标函数是凸约束也形成一个凸集,它呈现一个凸二次规划(QP)问题[41]。沃尔夫给出对偶问题的解和参数可以获得与方程对于任何。数据点对应支持向量的集合。一个看不见的例子分配标签如果公式是积极的,否则和标签−1。

如果标签集和多类支持向量机的学习模型,采用两种方法构建的拟议的框架:multiclass-to-binary减少和multiclass-optimization方法。multiclass-to-binary还原方法,学习问题的问题是减少到一组二进制分类任务和一个二元分类器建立独立地为每一个标签one-against-rest训练技术(47]。更具体地说,在构造分类器的训练数据指定标签与标签数据点认为是积极的,而剩下的例子被视为消极的,然后一个SVM二进制学习者构建。因此,由此产生的学习模式由multiclass-to-binary还原的方法二元分类器。相比之下,multiclass-optimization方法定义了一个单一目标函数复杂约束覆盖所有类,这样一个多级分类器构造。类似于一个支持向量机二元分类器,目标函数的多类分类器是最小化受(所有)。在这里,是一个矩阵的权重大小,是th排,是一个损失函数,生成一个输出1如果和0否则,和参数控制之间的平衡训练错误和分类精度。类似于multiclass-to-binary还原法,目标函数的多类分类器沃尔夫也转换为其对偶问题推导的解决方案(51]。多级优化方法对类是相互排斥的,因此主要用于构建学习单标牌特性的模型。相比之下,multiclass-to-binary还原法可用于multilabel和单标牌分类特性。

沃尔夫对偶形式的目标函数及其解决方案的支持向量机分类器,我们可以观察到数据点与内积的形式只出现(例如,)。通过指定一个映射函数,我们可以变换训练数据的特征向量成一个空间甚至更高的无限维度模型构造只有依赖于数据点通过函数的形式。使用一个内核函数=,我们可以替换通过在目标函数和约束条件,建立学习模型的空间通过使用没有明确的计算。以同样的方式,一个看不见的例子的标签可以通过计算其特征向量的内积和参数(或)通过函数而不是。中使用的内核设计框架可以多项式,径向基函数(rbf),或乙状结肠功能(26]。

SVM-supervised学习技术相比,自组织映射(索姆)可以被认为是无监督学习方法,把数据从高维空间到低维对应这实例与前中类似的功能空间聚集在一起,后者。由多个组件组成的称为神经元排列成六边形或矩形网格,SOM地图将每个神经元与权向量有相同的维度作为输入数据的特征向量。神经元在地图上被训练的方式的不同部分映射是激活不同的输入模式;同时,相邻节点的回应同样映射到相同的刺激。SOM训练进行竞争学习方法,计算每个输入之间的欧几里得距离和所有神经元的权向量地图和指定最小距离的细胞作为最佳匹配单元(BMU)。BMU及其邻近神经元的权重SOM晶格中调整,然后他们像输入向量和成为获胜者有高概率时在未来遇到类似的实例。

权向量的大小调整为节点降低随着时间和距离BMU根据公式,在那里是时代的训练,是输入向量,是附近的函数BMU,是学习速率单调递减。社区功能取决于晶格节点之间的距离和BMU。在其最简单的形式称为泡沫,一个社区为每个节点定义吗和如果节点或否则。另一个邻居内核用于拟议的框架高斯函数表示为与和半径向量的节点和,分别。显然,邻居神经元随时间减少,最后完全消失的培训过程。SOM的事实不仅调整赢家,而且周边细胞在训练过程中导致空间聚类的实例相邻地区的地图,呈现其拓扑保护能力。通过校准SOM晶格贴有标签的输入数据,这样一个输入样本的BMU继承的标签对应的输入,地图可以作为分类器标记每一个未知的数据点和BMU的标签。此外,校准地图也是一个优秀的可视化工具由于其聚集能力和拓扑保护财产。

3.5。学习和训练数据模型的建设

学习模式建设的监督学习方法需要训练数据表示为的可用性,在这里特征向量的吗数据点,它真正的标签。的建设是劳动密集型和耗费时间应该是准备和手动标记。拟议的框架,因此自动化分类的训练数据收集利用Trend Micro灰色软件功能定义在百科全书中所示部分一般和细节的间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK的表1。事实上,只有一小部分条目提供分类特征信息的趋势科技灰色软件百科全书呈现结果训练数据可能不足以建立一个可靠的学习模式。为了克服这个问题,该框架可以配置为扩大训练数据集与关键字相匹配的条目的分类特性问题。关键字的分类与正则表达式特性提出了设计框架和模式匹配过程只进行条目尚未在训练数据。

训练数据的分类特性,可以构建一个学习模型与支持向量机的帮助。当标签的大小设置分类的特点是两个,一个二进制学习模型是物化。分类功能,学习问题分解成二元分类的任务multiclass-to-binary还原法,随后二元分类器构建one-against-rest训练方法。例如,在构建训练数据的类高分类功能系统的影响,包括三个类别低、中,高、间谍软件TSPY_LINEAGE.GL被视为一个积极的样本但广告软件吗ADW_ALEXA.AK作为一个负样本,尽管后者真正的标签媒介。单标牌分类特性,提出了框架还创建了一个多级分类器multiclass-optimization训练方法。

的训练数据分类特征不可能覆盖所有Trend Micro灰色软件百科全书条目,留下一些灰色软件未标示。此外,灰色软件的快速扩张人口还显示,大多数新发现的物种等分类。拟议的框架保存所有分类的学习模型建立他们的特性和使用分类标记灰色软件条目或新发现的物种。multilabel分类功能,标记灰色软件可以分配给多个类别,只要相应的二元分类器输出正值灰色软件的问题。相比之下,单标牌分类特性,灰色软件评估员仅仅把灰色软件属于最大的输出如果模型是由多个二元分类器或最高的类信心当多级模型。

雇佣了一个拟议的框架倍交叉验证方法来评估性能的学习模型的分类精度,精确,回忆,衡量。训练数据集首先划分为分类特征同样大小的组,每组呈灰色软件分布相似所以,每个分区包含从所有可能的类实例。交叉验证过程中执行以下步骤th的迭代:(a)培训阶段:分区举行,作为验证集,其余()分区组合在一起,形成一个新的训练集。一个学习模型建立和训练数据集吗;(b)标记阶段:在验证数据点集用学习标记模型;在一个例子如果指定标签的正确分类它真正的标签是一样的;(c)测量阶段:性能指标,如分类精度、精度和回忆学习模型计算。

除了分类精度的定义是正确的数量的比例分类例子验证集的大小,拟议的框架也度假村测量加权调和平均数的计算精度和回忆与公式;在这里,精度为一个类的定义是正确的数量之间的比率标签样本和样本总数分配给类;另一方面,召回的比例是正确的标签样本的样本总数实际上属于类。通过设置这样的精度和回忆被认为是同样重要的是,我们获得了吗测量,。分类精度和精度等性能指标达到的学习模式是平均获得的措施上述交叉验证过程的迭代。

4所示。利用灰色软件渗透机制

灰色软件的第一步将受害者主机转换成利润资源发现后者的入口点。财务收益的动机驱使灰色软件感染尽可能多的机器通过尝试所有可能的手段包括社会工程、文件共享和安全漏洞剥削。成功的体系渗透严重依赖于灰色软件之间的兼容性代码和计算平台在目标机器上。同样重要的是为灰色软件,以确保其可执行文件的可操作性目标环境。在本节中,我们定义分类特性分类灰色软件行为表现的舞台渗透它的生命周期。

4.1。计算平台灰色软件的目标

计算平台定义了计算机系统的体系结构,主要包括硬件、操作系统(OS)和运行时库。作为计算平台的支柱,一个操作系统管理和协调计算机资源通过系统调用访问提供的服务或应用程序编程接口(api)。像合法应用程序一样,灰色软件通常通过操作系统服务实现其功能。此外,同质性证明了OSs源自相同的代码基本呈现灰色软件可以成功地渗透到几乎所有变体的一个操作系统家族。例如,间谍软件TSPY_LINEAGE.GL能够影响窗户的七名家庭成员包括Windows 95和Server 2003。提高普及率,灰色软件试图调整其攻击策略和调整其安装机制根据目标主机的操作系统类型,导致不同的行为在不同的平台上。在这方面,间谍软件TSPY_LINEAGE.GL伪装自己SVHOST32.EXE当攻击Windows NT但模仿RUNDLL32.EXE为Windows 95平台。

分类特性影响平台中定义的框架描述OSs灰色软件的攻击。灰色软件通常目标计算平台和庞大的用户基础和丰富的应用程序。例如,Linux只是一些灰色软件种类包括黑客攻击工具HKTL_CALLBACK变体。相反,绝大多数灰色软件目标物种Windows 95, Windows 98,我,NT, XP, 2000,2003年。因此,我们把主要精力集中于上述7个窗户成员和指定的类别特征影响平台;为了方便起见,我们也按照给定的顺序分配标识符1到7。所展示的间谍软件TSPY_LINEAGE.GL的表1,灰色软件可以成功穿透多个OSs同时,我们因此把平台作为multilabeled特性的影响。训练数据构建自动提取Trend Micro灰色软件百科全书的条目信息字段系统的影响。

训练数据,我们建立一个学习模式称为阻止通过使用multiclass-to-binary还原法和使遏制和stopword去除过程。生成的灰色软件分布模型阻止图中描述的是1,它清楚地表明,绝大多数的灰色软件攻击Windows 98,我,NT, XP, 2000,2003年;相反,只有少数物种侵入Windows 95主要是因为这是一个遗留和过时的操作系统。灰色软件的大小86834相比,类别Windows 98,我,NT, XP,2000年灰色软件人口几乎相同,这表明他们通常同时攻击,容易受到几乎所有灰色软件的物种。七个二元分类器的分类性能呈现在图2。所有二进制学习模型实现类似的分类精度最高的达到99.80%的分类器Windows XP和最低97.48%的学习者Windows ME。另一方面,精密,回忆,措施的分类器Windows 95远低于其他的类。平均7个二元分类器的分类精度达到98.34%,与此同时,平均精度,回忆,分别测量是97.50%,98.72%和0.981。

调查对分类精度的影响摘要和stopword-elimination操作,我们构建另一个两种学习模式,No-Stemming和No-Stemming-Stopword,前者是跳过这个词所获得的过程,而后者是由进一步除去stopword-elimination过程。图3概述了三种模型的分类精度达到。显然,大多数二元分类器模型No-Stemming超越同行的模型阻止对分类精度。此外,平均分类精度可以衍生为98.34%,98.48%,和98.46%,分别为模型阻止,No-Stemming,No-Stemming-Stopword,进一步说明模型No-Stemming最好的表演者。事实上,模型No-Stemming和No-Stemming-Stopword实现更好的分类精度阻止清楚地揭示了引发的负面影响的过程。以同样的方式,轻微恶化模型的分类精度No-Stemming-Stopword模型相比No-Stemming体现stopwords的有害影响。然而,如果不阻止的过程,模型No-Stemming生成一个5719维的特征空间,比4910年更大的模型阻止;而模型No-Stemming-Stopword进一步扩大其特征空间包含5881治疗stopwords属性的功能。一大特征空间显然增加了模型训练时间,拟议的框架进行遏制和默认stopword消除。

4.2。类型的文件由灰色软件走私

成功渗透感染系统和有效地执行受害者机器之后,灰色软件应该在文件格式兼容包本身的目标环境。是典型的OSs定义自己的文件格式和拒绝处理文件不兼容的形式。在这方面,可执行文件和链接格式(精灵)主要是认可的Linux,而动态链接库(DLL)对象是独特的窗户家庭。拟议的框架介绍了分类特征文件类型来识别文件格式利用灰色软件向目标主机传输它的代码。根据文件类型的受欢迎程度和趋势科技提供的信息灰色软件百科全书,我们指定四类特征文件类型:EXE, DLL、PE,其他分别,分配标识符1 - 4。的体育文件格式定义了一个基本的数据结构封装信息操作系统加载程序,以便包装代码可以在不同的环境中执行软件架构。识别Windows 95元和其他新版本体育文件格式是经常用来表示对象代码和API导入/导出表。的动态链接库(DLL)格式描述共享库,ActiveX控件,或系统所使用的驱动程序窗户和OS / 2。文件可执行(EXE)格式可以在执行窗户和OS / 2家庭;此外,对象相关的位图、图标等可执行文件也可以用EXE文件。

我们收集的训练数据的特性文件类型从趋势科技检索条目灰色软件百科全书。手头的训练数据,我们构造一个自组织映射(SOM)组成网格的神经元,每一个都是在六角形状采用下列程序:(a)初始化:神经元的权重向量,相同的维数作为输入样本在训练数据的特征向量,用随机值初始化;(b)培训更新:权重向量与竞争学习技术描述部分3.5。社区功能泡沫和学习速度为每个节点是用来确定相邻细胞;(c)细化:地图与细粒度进一步细化学习速率;(d)校准:最好的匹配单元(BMU)为每个输入样本识别和BMU继承了样本的标签。一个神经元的最终标签是简单多数投票机制决定的。

SOM的U-matrix称为SOM-Hexa按照上面的程序构造是通过每个节点代表平均距离其最近的邻居。图4描绘了U-matrix的SOM-Hexa模型特性文件类型,在这里,地图的起源是在左上角,和矩阵的每个值(即。、距离)转换为灰度在[0,100]与黑暗0灰度表示最大的距离。图4清楚地表明SOM往往聚集在一起和样品相同的标签,这样,他们住在相邻的神经元。例如,连续六个节点定位在左边部分的第八行类别EXE;同样,邻居一个细胞的标签体育极有可能分享细胞的标签。此外,深点的颜色在左边的部分地图表明神经元在正确的一半的SOM彼此更接近。地图的多数房地产是被分类体育指出,特征向量类DLL和EXE更均匀。

通过改变神经元从六角晶格矩形形状,我们获得另一个称为SOM地图SOM-Rect。此外,基于相同的训练数据,我们也建立一个支持向量机学习模型的帮助下multiclass-to-binary减少方法。通过使用交叉验证过程中,我们评估的三个模型的分类精度,SOM-Hexa, SOM-Rect,支持向量机,和现在的结果图5。很明显,模型SOM-Hexa优于SOM-Rect产品种类DLL和体育,而SOM-Rect达到一个更好的分类精度的类别EXE。通过平均每个模型的三个类别的分类精度,我们获得SOM-Hexa, SOM-Rect,支持向量机模型提供了分类精度为80.78%,79.56%,和88.03%,分别。很明显,SVM模型执行明显比SOM同行。然而,索姆的可视化功能也是宝贵的灰色软件特征评估。根据灰色软件分类特性文件类型的支持向量机模型,灰色软件运输在53.36%DLL格式,而船为25.80%和20.84%体育和EXE,分别。

4.3。灰色软件的攻击途径利用

灰色软件转移本身通过各种攻击受害者机器途径存在的各种服务和应用程序。文件共享应用程序的广泛包括即时通讯(IM)和点对点(P2P)不仅提供了方便安装渠道灰色软件由于其出色的匿名,但也提供了一个大型infectable用户群归因于他们无处不在。大量的安全漏洞存在在网络和系统促进了恶意代码的自动传递,而宏观的灵活性和脚本语言进一步加速灰色软件传播。类似于蠕虫病毒和恶意软件,灰色软件也经常使用社交工程的有效机制欺骗用户开放grayware-carrying文档或者访问恶意网站。在拟议的框架中,我们定义了分类特征攻击大道,由灰色软件安装机制概述在表4。


ID	通道	描述	样本模式

1	束与软件	独立的公用设施分布与其他软件	捆绑与
2	组件的软件	作为其他合法软件的组件实现	组成部分的一部分
3	驾车下载	访问web站点或包含灰色软件下载页面	开车的
4	减少了恶意软件	传播等灰色软件下载者	下降了
5	漏洞利用	利用缓冲区溢出等漏洞	漏洞,漏洞
6	即时信使	安装通过AOL和MSN等即时信使(IM)	即时消息
7	电子邮件和附件	嵌入在收件人的电子邮件和附件	电子邮件
8	手动安装	直接从网站下载或通过FTP服务	手动安装
9	点对点	运输在P2P应用程序如努特拉和KaZaA	点对点、点对点
10	网络文件共享	可信网络共享文件夹作为传播渠道	网络共享

模式匹配技术的帮助下,我们的训练数据集特征攻击形式大道Trend Micro灰色软件检索条目的百科全书,匹配任何模式中指定的列样本模式的表4。例如,据的描述ADW_ALEXA.AK在表1,应变问题是掉进一个目标系统的恶意软件或手动安装不知情的用户。模式匹配过程由灰色软件评估结果的分类ADW_ALEXA.AK成类减少了恶意软件由于关键字的存在下降了在它的描述。然后构建一个支持向量机学习模型的特性multiclass-to-binary减少方法和使用它分类整个灰色软件曲目。灰色软件分布生成的模型显示,58.56%的物种可以捎带蠕虫等恶意软件和病毒,呈现减少了恶意软件最喜欢的灰色软件安装机制。接下来的两个常用的攻击途径组件的软件和束与软件前包灰色软件组件的其他合法软件,而后者将灰色软件看作一个独立的程序包。飞车下载也受雇于许多灰色软件物种包括TSPY_LINEAGE.GL和ADW_ALEXA.AK的表1。相比之下,攻击渠道等漏洞利用、即时通讯,网络文件共享由灰色软件只是偶尔使用。

评估参数对分类性能的影响用于训练学习模型,我们构建一系列的分类器通过改变参数在[0,300]的范围和计算他们的分类精度,精确,召回,以及测量。通过控制之间的平衡训练错误和分离超平面的边缘,参数最终影响了分类性能,演示图6。显然,分类记忆改善单调增加参数,增强时具有重要意义的变化范围[100]。以同样的方式,测量,精度和召回的加权调和平均数,主要遵循的趋势召回,因此当证人明显改善下降的范围[100]。正如所料,一个更大的对任何训练更重的惩罚犯下的错误模式,迫使后者犯更少的分类错误,以最小化目标函数,从而提供更好的分类性能,但较小的分离超平面的成本。

5。灰色软件有效载荷及其影响

有害的灰色软件活动由代码实例化后运输到受害者机器后者成功渗透。灰色软件代码的行为只能受制于其创作者的想象力,拟议的框架并没有试图列举所有可能的灰色软件的有效载荷,相反,它主要侧重于对保密灰色软件的影响,完整性和可用性(CIA)受感染的系统。影响宿主的机密性是不可避免地受到grayware-committed信息盗窃;而其完整性破坏其安全应用程序丧失劳动能力时,和它的可用性被破坏后的资源(如CPU周期和网络带宽被入侵者。在本节中,我们定义分类特征描述灰色软件特征表现在激活它的生命周期阶段。

5.1。信息曝光

机密信息,如密码、财务文件,或敏感数据存储在用户系统是灰色软件生成的利润源。拟议的框架使用分类特征信息描述信息保密灰色软件的影响。该功能包括三个类别:低、中,高,被视为单标牌,以便每个灰色软件病毒只有一个标签。功能问题的训练数据构建Trend Micro灰色软件的帮助下百科全书。例如,间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK表中所示1被分配到类高和媒介,分别。收集到的训练数据帮助我们构建一个SOM六角晶格,U-matrix产生的地图呈现在图7。很明显,地图上有很强的聚类能力。在这方面,神经元与标签媒介主要定位在地图的中左;而节点的分类低占据了上层,左下方角落,剩下的细胞类的领土高。

Trend Micro灰色软件百科全书,广告软件的家庭亚莉克莎有158个成员,每一个都有自己独特的名字由三部分组成:灰色软件类型,家庭名字,后缀。灰色软件类型通常是描述的类型的缩写列的名字的表2。例如,标识符ADW指定广告软件,而TSPY分配给木马间谍软件。姓识别一群灰色软件标本,共享相同的代码库,因此,也有类似的行为。在同一家庭成员分化的后缀字母或数字次序分配的根据他们发现日期。例如,认为广告软件的家庭亚莉克莎有一个实例ADW_ALEXA.AA,它的两个直接被命名为后代ADW_ALEXA.AB和ADW_ALEXA.AC,分别。显然,灰色软件菌株在同一家庭的年龄与他们的名字有密切的关系,和他们的时间安排可以通过分类他们的名字按字母顺序升序排列。在这方面,标本ADW_ALEXA.GS的后裔ADW_ALEXA.AK表所示1。通过确定最佳匹配单元(BMUs) SOM映射为一个特定的灰色软件的家人和连接他们根据他们的实际订单,我们获得一个曲线称为系谱的轨迹,它描述了进化的灰色软件家庭问题对特征信息曝光。图8概述了系谱轨迹为家庭ADW_ALEXA。

它可以看到从图8,158年亚莉克莎家庭成员只有占领14 100个神经元的地图,表明共享相同的BMUs许多菌株。为此,145年亚莉克莎成员选择节点(0,3)BMU,而剩下的13个标本有自己的独特的细胞。这一事实神经元(0,3)熊标签媒介特征信息曝光显然指出,大多数亚莉克莎家庭成员中威胁强加于信息的机密性。相比之下,只有4亚莉克莎压力包括ADW_ALEXA.BI用标签打神经元低4,另一个家庭成员等ADW_ALEXA.A驻留在领土属于一类高。有趣的是,亚莉克莎成员标记高的祖先ADW_ALEXA.AK而那些标签低它的后代,这意味着其下降影响信息的机密性。相反,系谱的轨迹TSPY_LINEAGE家庭显示,大部分成员土地类别所占据的区域高暴露的特征信息,因此对网络加以严重威胁生态系统。

每个神经元在耶鲁大学管理学院有一个相同的权向量维数作为输入数据的特征向量。SOM建筑过程中,神经元的权重向量调整根据输入样本,后者的特点可能是保存在特定细胞的地图。因此合理期望主导特征空间的属性应该仍然SOM晶格有高概率的意义。我们定义飞机SOM的地图th属性,这是一个令牌出现在趋势科技,晶格形成的组件在每个神经元的权向量。图9介绍了平面地图与令牌偷在这里,属性值转换为灰度[0,1]:灰度越亮,大的值属性假设。显然,最亮的神经元定位在0.950(8、9)灰度,恰好是在类别高。同样,它的两个邻国(9,9)和(9 8)也属于类高分别为0.946和0.776,灰色鳞片。此外,标记神经元显著值偷形成一个紧密的社区,SOM聚类功能的一项指标。图9令牌的明确体现,大值偷只有与神经元标签高,呈现的属性问题的惟一区别的范畴高。在这种背景下,间谍软件TSPY_LINEAGE.GL表中列出1可以被认为是高信心把高风险信息机密性的描述包含令牌偷。相反,平面地图标记出口和系统取消主要功能是他们出现在神经元和标签低和高同时进行。很明显,特征属性的平面地图,如均值和方差,特征选择是有帮助的。我们的实验表明,基于最高——70%的性能模型属性与最高灰度方差相似模型的完整的功能。因此,最高——70%令牌与最高灰度方差分类性能的重要贡献者。

5.2。灰色软件对完整性的影响

功能完整性影响旨在描述灰色软件影响感染系统的完整性。隐藏的恶意活动用户,灰色软件通常改变配置,降低感染的系统安全设置以未经授权的方式,影响后者的完整性。一些灰色软件物种甚至积极禁用或终止安全应用程序安装在终端系统,基本上使灰色软件攻击未被发现。灰色软件分类对功能完整性的影响分为三个类别,低、中,高。我们收集培训Trend Micro灰色软件百科全书条目的数据字段的信息系统的影响和建立一个支持向量机学习模型和多级优化方法。的分类精度达到学习者很大程度取决于参数和它的关系描绘在图10。很明显,分类精度提高了单调增加和达到90%。类似于在二进制SVM模型中,参数平衡训练误差和利润率之间的分离超平面,和一个大征收沉重的惩罚训练SVM模型犯下错误,迫使后者减少训练的错误。比的影响在分类精度的二进制学习者特性如图攻击途径6、参数多级模型的完整性影响要求更大的大小实现相应的性能由于它控制复杂的目标函数和约束。

相同的训练数据,我们建立一个六角SOM的地图神经元晶格的功能完整性的影响,和现在U-matrix图11。显然,神经元具有相同标签往往聚集在地图:节点类媒介主要居住在地图的上边缘,境内的类别低在左上角,中间的网格,而其余房地产属于类别高。的相对深色区域被分类低显示,其神经元之间的平均距离是更大的比类媒介和高。细胞形成的小团体标签媒介明确指出,类的成员媒介相似的特性。相比之下,在课堂上物种高分散地域辽阔的SOM地图,展现他们的多元化特征。通过执行分析平面地图功能完整性的影响,我们可以发现令牌等敏感的和偷来的强大功能的差异问题。

分析对分类性能的影响特性集的大小选择信息增益,我们构建不同的属性包含60%,70%,80%,和100%,分别的功能具有最高信息收益和构建学习者基于这些属性集。由此产生的性能模型如图12。很明显,属性集的大小之间的关系和分类性能是单调的,也就是说,一组更大的特性会导致一个更好的分类器。然而,边际最高——70%的学习者之间的性能差异属性和完整的特性集的模型也表明属性信息增益较低的实际贡献小的分类性能。

5.3。灰色软件的破坏性

造成的直接损害受害者的系统可用性灰色软件与分类特征破坏性测量提出了框架。一个灰色软件被认为是破坏性的,如果腐败受害人的文件系统或甚至整个硬盘格式;灰色软件也是破坏性过度消耗目标系统的资源影响后者的稳定性和效率。通过使用受感染机器发射台的拒绝服务(DoS)攻击其他主机,灰色软件进一步影响DoS-targeted系统的可用性。单标牌特性中定义的破坏性框架包括两类:是的和没有。的训练数据收集特性自动从Trend Micro灰色软件百科全书。例如,间谍软件TSPY_LINEAGE.GL和ADW_ALEXA.AK描述在表1样本的类别是的和没有,分别。通过使用multiclass-optimization分类器的方法,我们建立一个序列特征与不同的参数在[1、7]和展示他们的分类精度,如图13。

staircase-like曲线在图13清楚地表明分类准确性和之间的非线性关系。时边际改善分类精度的变化范围[1,2];然而,它通过增加的82.87%上升至90.42%从2到3。后遇到一个相对不敏感范围(3、4),再次分类精度明显提高从92.82%降至99.45%提出从4到5。分类精度饱和烃作为参数。对灰色软件分类评估影响的参数,我们物种分类灰色软件曲目和上面的一系列学习者获得计算灰色软件分布在类是的和没有破坏性的特性。我们的分析指出,0.19%灰色软件物种是标记为是的当参数特性的问题;参数时,它就变成了0.34%和0.95%分别是4和5。因此,灰色软件分类只是松散的敏感参数。

评估性能通过使用基于数据训练模型提取Trend Micro分类在其他灰色软件百科全书条目,我们随机选择1000种灰色软件收集了赛门铁克百科全书作为分类特征破坏性测试集。不使用赛门铁克的百科全书,相反,一个特性称为风险影响的定义,它有5个级别:非常低,低,中,高,非常高。我们标记一个条目在测试设置为破坏性的如果是高以上的功能风险的影响,或无损。相比之下,我们也从Trend Micro随机挑选1000个条目获取另一个测试集,手里拿着两个测试集,我们评估学习者的表现呈现在图13与图中描述14。显然,测试集上的学习者更好地执行收集从趋势科技和达到更高的回忆。这一事实模型提供令人满意的性能在赛门铁克百科全书似乎暗示类似的令牌是用来描述相同的灰色软件不同的百科全书。

5.4。有效载荷由灰色软件

灰色软件的效果在机密性、完整性和可用性(CIA)受感染的系统测量了分类功能的帮助信息曝光,完整性的影响,和前面描述的破坏性。另一个维度描述灰色软件活动相关的中央情报局是识别关键负载类型由物种虽然枚举所有可能的有效载荷是不现实的。Trend Micro灰色软件百科全书我们分析表明许多灰色软件物种提供广告和其他弹出窗口结束系统,虽然有些菌株定期修改系统配置或受感染的机器上的安全设置,以避免检测。此外,流程和网络连接了大量的灰色软件受害者系统不仅消耗宝贵的资源,而且还会降低用户的工作效率。秘密安装多个灰色软件受害者主机上物种不同的入侵者的贪婪和不协调的方式进一步恶化目标主机的性能。拟议的框架,因此引入了分类特征进行有效载荷分类灰色软件有效载荷分类表中描述5。特征进行有效载荷作为多元灰色软件通常同时拥有多个有效载荷。


ID	有效载荷	描述	关键字

1	攻击安全软件	降低安全级别,禁用安全性的应用程序	防病毒、防火墙、安全
2	劫持会话	拦截联系或沟通渠道	劫持,下属,定向
3	弹出式广告	显示广告的上下文或重叠	弹出,会有
4	信息盗窃	收集敏感数据和击键,发送给攻击者	密码,信息
5	配置更改	修改主页,偏好,书签,注册表	文件夹,注册表,配置
6	任意命令	被攻击者执行任意程序	执行任意代码,运行
7	下载软件	作为额外的下载者或滴管项目	下载,下降
8	终止流程	杀死系统守护进程或网络应用程序	终止,杀死,停下来
9	网络连接	打开网络连接给攻击者完全控制	连接、代理
10	文件处理	添加、修改、移动或删除系统/数据文件	文件,覆盖、负载,那就动起来吧

我们求助于模式匹配技术生成训练数据的特征进行有效载荷:我们首先提取Trend Micro灰色软件百科全书的条目信息字段有效载荷,然后搜索领域问题为任何模式中指定的列关键字的表5分配到相应类别条目。例如,间谍软件TSPY_LINEAGE.GL的表1执行三种不同的活动,首次task-move系统文件到其他folders-causes放入类别文件处理由于关键字文件,而其他两个任务导致它的类终止流程和信息盗窃。以同样的方式,广告软件ADW_ALEXA.AK表中所示1是分配给类劫持会话因为它通过篡夺用户连接重定向搜索查询。上述模式匹配过程使我们形成一组训练数据组成的2418个样本,其中400个属于一类下载软件从类,而350年和300年文件处理和终止流程,分别。的帮助下multiclass-to-binary减少方法,我们获得一系列的支持向量机学习模型获得的不同参数[500]中,每一个学习者由十二进制分类器,每个标识类别见表5。

的分类性能学习者获得如图15。当参数,该模型达到平均分类精度,精确,回忆,量92.22%、93.47%、47.09%和0.58,分别。回忆和测量可以显著增强增量参数。更具体地说,通过改变从10到100年,回忆从47.09%增加到73.09%,相应的测量从0.58到0.82;回忆和通过进一步调整措施继续改善显著从100年到300年,但浸透超出300。相比之下,分类准确度和精密度在整个保持在92.00%以上光谱,在这方面,他们分别是98.95%和98.20%,分别的时候。灰色软件分布生成的学习者描绘在图16。显然,最大的类别弹出式广告(与在图16)占整个灰色软件的51.39%人口。人口最多的贡献从接下来的两类文件处理和网络连接(和9)分别为21.12%和19.15%,。它可以得出的结论是,绝大多数的灰色软件操纵受害者的文件系统存储收集用户配置文件,将它们发送回攻击者通过网络连接,获取针对性的广告显示在受感染的系统。

6。延长寿命,逃避检测

灰色软件生成的利润严重依赖的时间跨度发现阶段,激励其不惜一切代价延长其寿命。为了避免检测以便财务收益最大化,灰色软件通常采用加密技术加密的沟通渠道和收集信息。灰色软件也可以被识别的难度增加安全应用通过压缩生成的可执行文件和数据。驻留在内存受感染的系统和注入本身合法的过程,灰色软件基本上过着寄生虫的生活,成为无形的常规管理实用程序,进一步扩大其生命时间。多元化的灰色软件行为发现它的生命周期阶段的特点是在这一节中。

6.1。信息加密

击败基于模式的anti-grayware灰色软件产品的一种方法是爬与加密的文件和网络通信技术作为安全设备几乎是不可能把暗文变成明文进行模式匹配可行性没有加密算法和密钥涉及的知识。拟议的框架描述灰色软件项目上投入特征信息的加密密码的行为,它包含两个类别:是的对于物种加密方法和运用没有为他人。例如,间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK表中所示1运输和存储文件明文;而TSPY_LINEAGE.BZY隐瞒其数据以加密的形式。训练数据的特征提取收集的信息加密Trend Micro灰色软件百科全书的条目信息字段加密。

我们评估的训练数据,对灰色软件的影响通过索姆的晶格尺寸分类性能。为简便起见,我们只考虑六角地图假设的维度与5、10和分类精度,精确,回忆,测量相应的索姆在图17。一般来说,分类精度可以通过扩大稳步提高SOM网格的大小。在这方面,分类精度从80.62%提升到74.16%通过改变晶格维度来,它进一步进步83.97%SOM网格。以同样的方式,测量也增加单调的增加维度SOM地图。为此,测量从0.63到0.72时,可以解除地图所取代如果一个格子,达到0.78使用SOM网格。

的U-matrix六角SOM点阵图中概述18显示地图的集群功能。SOM的大型网格大小可能导致标记神经元所体现的细胞在(1)和(8、1)。另一方面,一个大地图房地产的确提供了更多的灵活性权重向量调整和细化导致更好的分组。在这种背景下,形成的最低和最高灰色尺度范围的神经元被类没有在地图是[94],而这是一个更窄的光谱[72]的网格。在索姆分类精度最高的83.97%相比,支持向量机的学习建立在相同的训练数据multiclass-optimization方法提供了分类精度为90.00%。

6.2。文件压缩

可执行文件压缩由灰色软件不仅可以减少存储空间,从而减少其暴露在审查,但也混淆其文件内容帮助阻止逆向工程和基于模式的anti-grayware躲避检测设备。达到相同的效果是未压缩的可执行文件,灰色软件通常将其可执行文件转换成一个自解压档案组成的压缩文件,解压的一段代码文件解包成原来的形式和传输控制动态执行。尽管当代安全设备能够开箱文件压缩在各种公开已知的算法用于灰色软件检测,他们仍然无效时挤满了专有软件压缩方法。

在拟议的框架,我们设计一个特性文件压缩的灰色软件行为包装可执行文件。几乎是不可能列举所有可能的压缩算法,特别是当考虑到专利包装机制,我们只关注最grayware-favorite压缩方法列在表中6。特性文件压缩的训练数据是由从趋势科技检索条目灰色软件百科全书。例如,间谍软件TSPY_LINEAGE.GL描述在表1压缩的文件UPX格式之前航运系统的影响,因此它是标记为一个积极的样本进行分类UPX。相比之下,广告软件ADW_ALEXA.AK转移其文件在一个未压缩的时尚从训练数据不包括它。通过使用multiclass-to-binary减少方法与参数8,我们建立一个支持向量机模型组成的二元分类器,每个标识一个类别文件压缩的特性。学习者获得的性能可以与交叉验证过程分类精度为90.36%,96.33%,19.09%,29.00%,精度,回忆,和分别测量。


ID	压缩	描述

1	Aspack	Win32可执行压缩机能够减少文件大小和抵制逆向工程
2	最为	一个文件压缩机特别适合小EXE或ASM文件。
3	PECompact	压缩机为代码、数据和导入/导出表专用的压缩算法。
4	娇小的	一个实用程序压缩和加密文件,自动扩展文件在内存中执行。
5	自解压	自我器(SFX)压缩一个文件传输到一个远程系统,进行减压。
6	UPX	最终封隔器可执行文件是一个开源封隔器执行就地减压。
7	Upack	Upack是一个文件基于LZMA压缩式封隔器。
8	其他	有许多新石等其他文件压缩包,Nullsoft, PEPack或RAR。

回忆和极低上述的测量学习者通过调整参数使我们改善其性能。通过全面的在[500],我们观察到召回可以显著改善从19.09%降至57.94%改变从10到100年,它进一步增加到94.00%。以同样的方式,测量时也达到96.17%设置为500。通过分析灰色软件分布特性文件压缩生成的学习者,我们观察到大约一半的灰色软件物种采取娇小的压缩方法,Aspack和UPX通过灰色软件也大量使用。相比之下,压缩方法Upack, PECompact,最为只是偶尔受雇于灰色软件。

评估由SVM核函数对分类性能的影响,我们训练学习模型与以下类型的内核,并展示他们的性能措施在图19。(一)多项式形式的内核与变量指数为简便起见,我们只描述结果或2(称为poly-1和poly-2图19)。(b)径向基函数(rbf)表示与不同的,图19只显示了结果或2。(c)乙状结肠函数的格式与可调参数和结果或1(表示sigmoid-1和sigmoid-2图19)。它可以看到从图19乙状结肠功能提供最糟糕的分类性能,而rbf略优于其他内核类型即使不同的是无关紧要的。相对于线性内核,学习模型与其他内核类型如rbf需求更多的CPU周期训练;因此,该框架采用线性核函数默认情况下的学习模式的一代。

6.3。内存使用量

灰色软件驻留在内存是最理想的受感染的系统为了持续跟踪用户活动,活动进程注入本身,躲避政府公用事业。内存使用量的另一个好处是,相关文件运行灰色软件程序不能修改或删除,除非他们首先被从内存中删除。我们指定功能内存驻留在拟议的框架来描述灰色软件内存使用量的财产。两类定义的功能问题:是的对于物种能够留在内存中,没有为他人。例如,两个间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK表中所示1内存常驻菌株,而黑客工具HKTL_HIDEOUT.A和饼干CRCK_REALVNC.A不是。

功能的训练数据内存常驻Trend Micro灰色软件自动生成的百科全书。手头的训练数据,我们构造四个学习模型命名bubble-SOM,inverse-SOM,gaussian-SOM,linear-SVM。的bubble-SOM和inverse-SOM使用SOM模型是由技术与社区功能泡沫但不同的学习利率:利率随时间线性前反向变化对时间在后者;与此同时,gaussian-SOM模型是获得与社区功能高斯和线性学习速率。另一方面,linear-SVM是一个基于svm和线性内核的学习者生成的吗multiclass-to-binary减少方法。分类性能的分类精度,精确,回忆,测量的四个模型如图20.。分类精度为83.78%,linear-SVM学习者显著优于SOM同行最好的SOM模型只能达到73.84%。在三种SOM-based模型中,inverse-SOM提供最糟糕的性能,而bubble-SOM和gaussian-SOM具有可比性的分类准确度和精密度。的灰色软件分类功能内存常驻显示,56.85%物种内存常驻。

7所示。趋势灰色软件特点和风险

拟议的框架也可以用来评估灰色软件威胁和阐明灰色软件进化导致更有效的预防策略和特有的国防政策。

7.1。灰色软件与紧凑的足迹

灰色软件的存储占用应变特征与特性文件大小在拟议的框架明显影响其功能和安装方法。灰色软件标本感染主机的运输是不可避免地慢了下来,如果它假定一个巨大的足迹。灰色软件的足迹也限制在穿透目标利用缓冲区溢出等安全漏洞后者成功的开发需要特定的输入数据的大小。此外,一个相当大的灰色软件受害者系统中消耗大量的存储空间和树叶可见跟踪导致其检测。另一方面,一个小灰陶器足迹并影响其有效载荷,因此其功能。因此,预计灰色软件创作者将大量的精力优化他们的产品存储消耗和功能之间的平衡。

复杂的灰色软件行为及其定制功能复杂化的定义分类特性文件的大小。第一,灰色软件可以调整其足迹根据动力学系统,如操作系统和网络带宽的影响。接下来,灰色软件也能够以一种累积的方式传送文件,此外,定期更新文件可以改变文件大小和额外的数据/文件可以下载。最后,它是一种常见的实践灰色软件压缩的文件,以方便运输和储存。因此我们选择最小的未压缩的足迹为灰色软件如果它体现多元化行为特性文件的大小。

我们指定10个类别的特性文件大小:10、20、30、40岁,60岁,90年,150年,300年,600年,> 600 (kb)。训练数据是由提取Trend Micro灰色软件百科全书的条目信息字段文件大小和他们交谈文件大小桶。然后建立一个支持向量机模型,用于分类灰色软件,导致灰色软件分布在图21。显然,大约50.77%的灰色软件人口标本分为60 kb的桶,使其成为最密集的类别,而桶10和90 kb的贡献分别为17.74%和15.56%,分别为灰色软件的宇宙。通过考虑存储消耗小于100 kb的足迹紧凑,我们可以很容易得出,94.49%的灰色软件物种紧凑的脚印。

调查之间的关系灰色软件类型和存储足迹,我们根据功能分类灰色软件灰色软件类型,然后每组分类特性文件的大小,和现在的分类结果图的一部分22。类似的积累为灰色软件类型分布间谍软件和广告软件结果在94.76%和90.86%的间谍软件和广告软件菌株紧凑存储足迹(即。,< 100 kb)。以同样的方式,灰色软件工具栏和浏览器助手对象(BHO)累积分布相似;然而,他们有很大的不同间谍软件和广告软件。更具体地说,只有38.10%和41.21%的工具栏和BHO足迹紧凑;而其余物种熊大存储的足迹。主要功能作为web浏览器的插件,工具栏和BHO强加的限制的编程范式等主机应用程序Internet Explorer。

进一步得到洞察趋势灰色软件存储足迹,我们分类灰色软件特性文件大小和发现日期和得到的分类结果图23。这里,我们总在一起之前2004年灰色软件物种发现由于其稀疏的样本。灰色软件倾向于缩减存储占用的进化顺序可以很容易地观察到。为此,在2004年之前74.03%的灰色软件物种创造紧凑存储的足迹,它增加到2005年的92.56%,进一步发展在2006年和2007年的96.79%和93.10%,分别。重尾分布的存储占用2004 -生菌株在图中也显而易见2312.24%的成员不属于[0,600]k字节的范围。相比之下,只有2.13%、0.70%和3.70%的灰色软件物种发现于2005年,2006年和2007年消耗存储超过600 kb。

7.2。多样化的攻击途径和多个有效载荷

灰色软件通常携带各种载荷为了执行多个活动包括列于列有效载荷的表7。同时,灰色软件的有效载荷也发展和演变随着时间证明了分类特征进行有效载荷和发现日期表所示7。显然,181种,545株发现之前的2004年的33.21%,83年主要影响系统操作文件,而修改系统配置。同样,绝大多数2005 -出生灰色软件专注于文件操作;然而,越来越多的灰色软件旨在窃取敏感信息。广告交付和软件下载的主要载荷类型物种在2006年发现的。所包含的三个关键载荷标本发现于2007年,网络连接,任意命令,劫持会话任何成熟的灰色软件,显然是分不开的;attackers-initiated命令上执行劫持用户会话收集敏感信息,发送回攻击者通过网络连接。


#	有效载荷	2004年	2005年	2006年	2007年	2008年

1	攻击安全软件	4 (0.005)	60 (0.069)	458 (0.527)	33 (0.038)	3358 (3.867)
2	劫持会话	39 (0.045)	183 (0.211)	397 (0.457)	14660 (16.883)	86 (0.099)
3	弹出式广告	58 (0.067)	594 (0.684)	43219 (49.772)	611 (0.704)	141 (0.162)
4	信息盗窃	49 (0.056)	821 (0.946)	621 (0.715)	152 (0.175)	3429 (3.949)
5	配置更改	83 (0.096)	362 (0.417)	1033 (1.190)	602 (0.693)	3578 (4.121)
6	任意命令	58 (0.067)	404 (0.465)	758 (0.873)	14789 (17.031)	151 (0.174)
7	下载软件	37 (0.043)	350 (0.403)	3532 (4.068)	1603 (1.846)	794 (0.914)
8	终止流程	10 (0.012)	166 (0.191)	597 (0.688)	165 (0.190)	105 (0.121)
9	网络连接	26日(0.030)	313 (0.361)	1307 (1.505)	14829 (17.077)	150 (0.173)
10	文件处理	181 (0.208)	12806 (14.748)	1102 (1.269)	241 (0.278)	4009 (4.617)

分类表7也体现,有效载荷类型攻击安全软件阿森纳在灰色软件的使用是一个重要的武器对抗anti-grayware产品和随后延长其寿命。四个2004年出生的灰色软件菌株相比,检测和影响上禁用安全保护应用程序系统;物种的数量与载荷问题达到60和458年,分别在2005年和2006年;后进一步发展到3358年的2008减少到2007年的33。毫无疑问,提高检测能力anti-grayware产品绝对削弱灰色软件攻击的有效性,迫使后者暂时抛弃其无效的载荷直到发明新的和有效的攻击机制。灰色软件之间的斗争和anti-grayware进展,形成的周期的相对实力的增长和减少双方将继续下去。也可以应用于其他类似的观测负载类型,例如,最喜欢的负载类型文件处理在2004年和2005年的阴影下别人在2006年和2007年2008年但复兴了作为一个主要参与者。

灰色软件物种的总结在表的行和列7的人口是133114,远高于趋势科技曲目(即。,86834)。因此,一些灰色软件菌株同时携带多个有效载荷。我们灰色软件分类根据携带有效载荷的数量显示,73.96%的人口拥有只有一个有效载荷;封装两个和三个有效载荷,而3.52%和18.02%分别。虽然很少有一个灰色软件携带超过6有效载荷,23灰色软件菌株仍发现包6个有效载荷在他们的足迹。有效载荷的演化由灰色软件可以进一步分析了分类灰色软件对特性进行载荷和发现日期描绘在图24。大多数灰色软件种类2004——2006年创作single-payload运营商(即。,单例);更具体地说,2004 - 65.67%的菌株携带出生只有一个有效载荷,它是2005年和2006年的92.48%和95.46%,分别。相比之下,只有12.26%和27.47%的灰色软件发现在2007年和2008年是单件,而83.67%的2007 -发现物种携带三个有效载荷和64.49% 2008 -创建菌株包含四个有效载荷。考虑到事实灰色软件倾向于减少其足迹,以换取传播速度和普及率,我们显然认为灰色软件成就更有效载荷在减少碳足迹,表明形成专业的灰色软件开发过程。

灰色软件攻击途径的发展可以分析的帮助下根据功能分类发现日期和攻击大道如图25。曲线”攻击途径 “描述了灰色软件的分布,穿透目标系统利用两个攻击机制。显然,峰值明显指出,大多数two-attack-channel灰色软件是在2005年创建的。在相同的方式,曲线”攻击途径 ”形式在2006年的顶峰,而峰值曲线”攻击途径 ”和“攻击途径 ”2007年一致。观察上述曲线的峰值变化顺序意味着新灰色软件喜欢穿透目标与多个安装机制。减少排放量的目标,multi-payloads,多元化的攻击途径获得灰色软件确实可以作为一个强大的指标灰色软件行业的成熟度。

7.3。凝血能力强

通过渗透深入受害者系统与其他应用程序和缠绕紧密,灰色软件可能增加的难度被安全产品删除,因此扩大其寿命。灰色软件抵制消除的方法之一是在受感染的系统中创建多个文件,使其工作在一个协调的方式,这样任何文件删除可能引发自愈过程:生存文件自动重新安装任何丢失的文件。显然,可以增强自愈效果增加文件的数量;然而,大量的创建的文件做影响系统上留下更多可见的痕迹,让灰色软件检测。灰色软件演化上创建的文件的数量可以根据分类对被评估特性发现日期和创建的文件概述了在图26。在这里,灰色软件≥10生成的文件是聚合为一类文件数量= 10。图26显示,2004年出生的灰色软件菌株没有偏好创建的文件的数量;而物种在2005年发现往往具有大量的污染影响系统文件,增加困难恢复被感染的系统到一个干净的状态。灰色软件发现在2006 - 2008年之间似乎整齐平衡创建文件和探测概率作为大多数物种仍然可以创建3 - 4文件,以便自动恢复方案是可行的而边际可见痕迹。

灰色软件的另一个方式来增强其连贯性与污染受害者系统注册表数据库与多个键,后者是自动激活在每个系统重启和生存系统崩溃,使它成为永久居民在受影响的系统。通过定义分类功能注册表键和分类灰色软件因此,我们观察到52.44%的灰色软件物种只创建一个注册码,而18.29%和8.92%生成两个和三个注册表键,分别。尽管90%灰色软件菌株污染与小于7项注册表数据库,实际上有些离群值插入大量的注册表键值,例如,2%的灰色软件样本生成20多个注册表键,一打,包括ADWARE_180SOLUTIONS和ADW_ALEXA.BS甚至在受害者散射超过100注册表键系统。

通过进一步分类灰色软件对特性发现日期除了注册表键显示在图27,我们可以分析灰色软件演化对注册表键操作。首先,注册表键由灰色软件的最大数量逐渐增加:2004年是84,但到167年,119年,189年,分别在随后的三年。接下来,灰色软件的数量与多个注册表键也扩大,每年在这方面,只有4%的2004 -创建灰色软件生成> 10注册表键;然而,8%以上的菌株发现在2005 - 2008年至少10个条目插入到注册表数据库。注册表键的功能,之间有一个权衡连贯性与受感染系统和接触检测:大量的注册表键值有助于改善凝血功能但代价过度留下的痕迹可能最终背叛灰色软件的创建密钥。类似于功能创建的文件,注册表键可以实现自愈效果通过监视注册表数据库的状态,如果检测到任何改变rematerializing钥匙。

7.4。风险由灰色软件

有效的事件响应和有效的防御策略需要灰色软件风险评估。然而,不同的灰色软件行为和其复杂的特点使它具有挑战性彻底评估灰色软件在互联网上生态系统的威胁。基于灰色软件特点提出的框架和总结在表中定义8,我们设计功能风险水平测量由灰色软件的威胁。除了清单分类特性表8显然,覆盖整个灰色软件生命周期,我们也量化贡献功能风险级别由每个特征列中定义的可配置的评分机制默认评分法每个灰色软件和计算风险评分。例如,间谍软件TSPY_LINEAGE.GL表中列出1袭击七种不同的OSs导致7分被添加到它的风险评分;此外,每个高信息暴露和系统的影响3点有助于其风险评分。通过总结表中描述的所有功能的贡献8为TSPY_LINEAGE.GL,得到其风险得分27。


阶段	功能	描述	默认评分法

渗透	影响平台	操作系统(OSs)容易灰色软件	OSs的影响
渗透	攻击大道	安装机制感染系统	数量的攻击渠道
激活	信息曝光	公开机密信息	低:1、媒介:2,高:3
	完整性的影响	对系统的完整性和可用性的影响	低:1、媒介:2,高:3
	破坏性	损坏的文件系统、稳定性和效率	没有:1,是的:2
	携带有效载荷	恶意入侵后活动的受害者	的有效载荷
发现	信息加密	受雇于灰色软件加密方法	没有:1,是的:2
发现	内存常驻	呆在主内存后执行	没有:1,是的:2
根除	注册表键	创建注册表键重启生存	的注册表键
根除	操作文件	创建/修改文件来定制系统的受害者	创建的文件数量

基于风险的分数,我们定义五类功能根据以下标准风险水平。(1)非常重要。这一类最危险的灰色软件适应物种具有重大破坏性的力量,很难完全消除。这一类标本通常有风险分数> 40(可配置)。(2)非常关键的。这组包含灰色软件病毒非常危险和难以控制,和分配风险分数大于一个阈值36。(3)适度的关键。灰色软件在这门课上可能有多个有效载荷或攻击渠道和实施媒介系统影响或创建注册表键值> 2。默认阈值对风险分数是26。(4)温和的批评。这类拥有灰色软件标本与风险得分大于指定的阈值默认(20)。(5)轻微的关键。物种小威胁影响系统和终端用户。

灰色软件分类,对功能风险水平基于上述标准,使我们能够获得的间谍软件TSPY_LINEAGE.GL和广告软件ADW_ALEXA.AK表中所示1在类别适度的关键。相比之下,TSPY_QQPASS。AXY, ADW_HOTBAR.P,HKTL_IPSCAN.C被分配到类非常重要,而CRCK_QIQI。,ADWARE_HUNTBAR.C,SPYWARE_TRAK_ACTLOG.16被认为是非常至关重要的。此外,灰色软件根据灰色软件类型和风险等级分类表9帮助我们调查的风险由不同的灰色软件类型。一般来说,大多数的灰色软件和标签非常重要来自灰色软件类型破解应用,广告软件,间谍软件。的类别非常关键的灰色软件类型广告软件,黑客工具,远程访问木马(老鼠)是关键贡献者;虽然大多数成员的类适度的关键属于间谍软件,广告软件,木马间谍软件,浏览器助手对象。相反,大多数菌株间谍软件、Trojan-Spyware,工具栏适度是关键的,大多数的拨号器,黑客工具,使滴下的东西被标记为温和的批评。


#	类型	极	高度	适度	温和	略

1	间谍软件	223 (0.257)	44 (0.051)	47244 (54.407)	3954 (4.554)	609 (0.701)
2	拨号器	9 (0.010)	5 (0.006)	95 (0.109)	14931 (17.195)	156 (0.180)
3	广告软件	413 (0.476)	12165 (14.010)	774 (0.891)	475 (0.547)	297 (0.342)
4	黑客工具	4 (0.005)	68 (0.078)	86 (0.099)	3444 (3.966)	70 (0.081)
5	浏览器助手对象	70 (0.081)	18 (0.021)	351 (0.404)	160 (0.184)	92 (0.080)
6	破解程序	461 (0.531)	0 (0.000)	100 (0.115)	27日(0.031)	36 (0.042)
7	Trojan-Spyware	6 (0.007)	0 (0.000)	516 (0.594)	68 (0.078)	18 (0.020)
8	工具栏	46 (0.053)	16 (0.018)	233 (0.268)	66 (0.076)	33 (0.020)
9	Trackware	63 (0.073)	0 (0.000)	39 (0.045)	9 (0.010)	5 (0.004)
10	键盘记录器	8 (0.009)	5 (0.006)	36 (0.042)	25 (0.029)	11 (0.011)
11	远程访问木马	2 (0.002)	58 (0.067)	9 (0.010)	4 (0.005)	2 (0.001)
12	强盗	4 (0.005)	2 (0.002)	30 (0.035)	5 (0.006)	4 (0.004)
13	使滴下的东西	2 (0.002)	1 (0.001)	24 (0.028)	34 (0.039)	21日(0.019)

分析风险由灰色软件的进化,我们根据功能分类灰色软件风险水平和发现日期获得的结果图28。大多数出生的2005 -灰色软件非常关键,虽然大多数物种创建于2006年是比较关键,和许多菌株发现在2007年和2008年都贴上温和的批评。通过计算物种之间的年度比率极/高度和适度/轻度/略组,我们可以观察到,比在2005年达到高峰,然后落入谷2007年,但在2008年再次上升。因此预计灰色软件风险波动随着时间的推移,要求不断监测其进化和持续努力遏制和缓解。

8。结论和未来的工作

按时间顺序列举发现间谍软件,广告软件,和其他灰色软件,趋势科技灰色软件百科全书为灰色软件提供了重要的信息分析和事件响应。百科全书是提出框架进一步加强的灰色软件评估员提供分类和泛化能力。将灰色软件分类作为一个监督学习问题,提出了分类特征框架构建学习模型与支持向量机的帮助。灰色软件百科全书中的每个条目倒塌成一袋词汇在输入文本和忽略提高进一步表示为一个特征向量作为属性每个单词和单词出现频率作为其值在相应的条目。我们降低特征空间的维数由灰色软件条目通过特征选择减少,阻止,stopword去除。学习模型的训练数据自动从百科全书中提取,和SVM学习模型构建与multiclass-to-binary减少和multiclass-optimization方法,虽然分类结果与自组织映射可视化。

分类分类功能覆盖整个灰色软件生命周期表明,该框架可以分类灰色软件性能高的精度,精度,回忆,和测量。在拟议的框架进行趋势分析可以帮助我们了解灰色软件演化和灰色软件的发展特征。为此,拟议的框架显示灰色软件物种不遗余力缩小他们的存储足迹提高传播速度,因此减少被发现的概率。找到入口点到受害者系统多样化的攻击途径,随后多个有效载荷运送到受感染的主机,灰色软件有效地增加其普及率和拥有大量通用的功能。拟议的框架还暴露了不断改进的灰色软件凝血能力体现的深层渗透到文件系统和注册表数据库中对机器的影响,使其很难被完全消除。此外,攻击安全保护应用程序已成为有效的武器击败anti-grayware产品。最后,进行威胁评估框架指出灰色软件类型,破解应用,广告软件,间谍软件、生态系统是互联网的主要风险。

进一步加强的功能和灵活性提出了框架,我们打算与一个更大的组分类功能决定论和特异性的属性。我们计划加强SOM技术提供的可视化功能,使复杂的结构形成的灰色软件分类对多样化的特性可以有效地预测。我们正在整合到框架其他分类和聚类技术包括决策树和层次分类方法,以便更有效的分类算法可以发现的分类性能。我们正在探索中的方法的适用性提出了框架,其他灰色软件百科全书和其他类型的恶意软件等安全相关标本。我们也试图评估的可行性和性能使用模型从一个百科全书对物种进行分类收集其他百科全书。我们的初步评估提出了表明,这样一个研究方向是承诺虽然仍然需要手动干预由于功能分类法,矛盾内涵和粒度不同的百科全书。最后,我们的目标是提供工具包能够实时监控互联网的生态系统,评估灰色软件演化,并预测了多种灰色软件的发展趋势。

确认

作者感谢匿名评论者的宝贵意见,帮助我们大大提高演示我们的工作。他们也感谢教授亚历克斯熟食店和Mema Roussopoulos雅典大学论文的建议草案。

引用

2011年灰色软件,http://en.wikipedia.org/wiki/Grayware。
n .好,r . Dhamija j . Grossklags et al .,“在门口阻止间谍软件:用户隐私的研究,注意和间谍软件,”诉讼的适用的隐私与安全研讨会”(汤' 05)卷。93年,43-52,2005页。视图:出版商的网站|谷歌学术搜索
m . Warkentin x罗,g·f·邓普顿,“一个间谍软件评估框架,”ACM的通信,48卷,不。8,79 - 84年,2005页。视图:出版商的网站|谷歌学术搜索
Tenebril“间谍软件:一个危险的新威胁,”2005年11月,http://www.tenebril.com/pdf/SpywareProfiling.pdf。视图:谷歌学术搜索
Webroot软件”,你的电脑监控软件:间谍软件、广告软件、和其他软件,”2004年,http://www.ftc.gov/os/comments/spyware/040521webrootsoftware.pdf。视图:谷歌学术搜索
b . Edelman“高清晰的误导安装Methods-Ezone.com,”2005年,http://www.benedelman.org/spyware/installations/ezone-claria/。视图:谷歌学术搜索
n·f·阿瓦德和k·菲茨杰拉德最冒犯我们的间谍软件的欺骗行为,”ACM的通信,48卷,不。8日,则高达55 - 2005页。视图:出版商的网站|谷歌学术搜索
t·f·斯塔福德和a . Urbaczewski”间谍软件:幽灵,”AIS的通信,14卷,第306 - 291页,2004年。视图:谷歌学术搜索
s . s . m . Chow l . c . k .回族s . m .姚k . p . Chow和r·w·c·卢伊”一般的反间谍软件解决方案由内核级别的访问控制列表,“系统和软件杂志》上,卷75,不。1 - 2、227 - 234年,2005页。视图:出版商的网站|谷歌学术搜索
你和k .严,“恶意软件混淆技术:一个简短的调查,”程序的国际会议上宽带,无线计算通信和应用程序,(BWCCA 10)IEEE,页297 - 300年,2010年日本福冈。视图:谷歌学术搜索
趋势科技,“间谍软件/灰色软件百科全书”,2009年4月,http://www.trendmicro.com/vinfo/grayware。视图:谷歌学术搜索
EarthLink,“最危险的类型的间谍软件增加,州SpyAudit调查显示,“2005年,http://ir.earthlink.net/releasedetail.cfm?ReleaseID=249692。视图:谷歌学术搜索
h·李,c·a·克里斯琴森和b·e·伯克“全球间谍软件2004 - 2008年的预测和分析:安全性和系统管理共享的噩梦,”2004年,http://www.idc.com/getdoc.jsp?containedId=32229。视图:谷歌学术搜索
奥斯特曼研究”调查的消息传递问题,“2005年,http://www.ostermanresearch.com/results/orresults_2005 - 01. - pdf。视图:谷歌学术搜索
Radicati集团”公司。公司反间谍软件市场,2006 - 2010年,“2006年,http://www.radicati.com/。视图:谷歌学术搜索
e·豪斯”,剖析“Drive-by-Download”,“2004年,http://www.spywarewarrior.com/uiuc/dbd-anatomy.htm。视图:谷歌学术搜索
d . j .刺”,网络入侵者:间谍软件、广告软件、劫机者和其他害虫,”2004年,http://Research.PestPatrol.com。视图:谷歌学术搜索
b . Edelman”,对间谍软件的威胁探测器、消毒剂和批评,”2005年,http://www.benedelman.org/spyware/threats。视图:谷歌学术搜索
CNet,”标签产品的广告软件赛门铁克起诉”,2004年,http://news.com.com/2100 - 1023 3 - 5293992. - html。视图:谷歌学术搜索
联邦贸易委员会”,你的电脑监控软件:间谍软件、广告软件、和其他软件,”2005年,http://www.ftc.gov/os/comments/spyware/040521webrootsoftware.pdf。视图:谷歌学术搜索
e·豪斯,“联邦贸易委员会间谍软件车间:一年之后,“2005年4月,http://netfiles.uiuc.edu/ehowes/www。视图:谷歌学术搜索
广告商使用WhenU b·埃德尔曼。”2004年6月,http://www.benedelman.org/spyware/whenu-advertisers。视图:谷歌学术搜索
b·埃德尔曼,”谷歌的博客网站如何帮助传播不必要的软件,”2005年,http://www.benedelman.org/news/022205 - 1. - html。视图:谷歌学术搜索
b . Edelman”,更在谷歌的角色:联合广告通过非法第三方工具栏显示,“2005年,http://www.benedelman.org/news/060605 - 1. - html。视图:谷歌学术搜索
r·k·Shazhad s i海德尔,n . Lavesson“检测矿业间谍软件的可执行文件,”学报》第五届国际会议上的可用性、可靠性和安全性(阿瑞斯的10),第302 - 295页,2010年。视图:出版商的网站|谷歌学术搜索
v . n . Vapnik统计学习理论的本质:信息科学和统计数据施普林格,纽约,纽约,美国,1999年。
g·福尔曼,”一个广泛的实证研究的文本分类特征选择度量标准,“机器学习研究杂志》上,3卷,1289 - 1305年,2003页。视图:谷歌学术搜索
t . Kohonen自组织映射施普林格,柏林,德国,2000年。
t·约阿希姆,“多元支持向量方法性能的措施,”机器学习的国际会议(ICML ' 05)384年,页377 - ACM出版社,2005年。视图:谷歌学术搜索
g·哥特,”间谍软件:威胁,讨厌,或都有?”IEEE安全与隐私,1卷,不。3,10,11,2003页。视图:谷歌学术搜索
j·l·d·t·吉尔伯特·c·k·莫尔上升,和t·d·威尔逊,“期待回头看:遗憾的了,”心理科学,15卷,不。5,346 - 350年,2004页。视图:出版商的网站|谷歌学术搜索
计算机协会,“间谍软件百科全书”,2011年8月,http://gsa.ca.com/pest/browse.aspx。视图:谷歌学术搜索
p . j .并和m .史蒂芬,”间谍软件:技术、问题和政策建议,”互联网法律杂志》,7卷,不。9日,3 - 8,2004页。视图:谷歌学术搜索
Lindqvist和e·琼森”,如何系统地分类计算机安全入侵,”《1997年IEEE研讨会上安全与隐私,页154 - 163,IEEE计算机协会出版社,奥克兰,加利福尼亚州,美国,1997年。视图:谷歌学术搜索
m . Fredrikson介绍s Jha m . Christodorescu r .帆船和x燕,“合成算法从可疑行为,恶意软件规范”31日IEEE学报》研讨会上安全和隐私,45 - 60,2010页。视图:出版商的网站|谷歌学术搜索
d·巴比克、d·雷诺和d的歌,“恶意软件分析树自动机推断,”学报》第23届国际会议上计算机辅助验证施普林格雪鸟,犹他州,美国,2011年7月。视图:谷歌学术搜索
t·李和j . Mody、“行为分类,”EICAR会议程序2006年,页1 - 17日。视图:谷歌学术搜索
l . l . DeLooze”分类的计算机攻击使用自组织映射”诉讼弗伦联盟第五届IEEE系统,人与控制论信息保障车间、SMC,第369 - 365页,2004年。视图:谷歌学术搜索
h·s·文特尔,j .惠普Eloff和y l .李“标准化漏洞类别,”电脑和安全,27卷,不。3 - 4、71 - 83年,2008页。视图:出版商的网站|谷歌学术搜索
b . Schoelkopf和a·j·Smola学习与内核美国剑桥,麻省理工学院出版社,质量,2002年。
c . j . c . Burges”教程对支持向量机模式识别,”数据挖掘和知识发现,卷2,不。2、121 - 167年,1998页。视图:谷歌学术搜索
t . joachim”,使得大规模的支持向量机学习实用,”学习进步在内核方法支持向量b . Schoelkopf, c . Burges, a . Smola Eds。,chapter 11, pp. 169––184, MIT Press, Cambridge, Mass, USA, 1999.视图:谷歌学术搜索
r . Collobert和美国Bengio SVMTorch:支持向量机对大规模回归问题,“机器学习研究杂志》上,1卷,不。2、143 - 160年,2001页。视图:谷歌学术搜索
j·c·普拉特“快速训练支持向量机使用序列最小优化”学习进步在内核方法支持向量b . Sch.olkopf, c . Burges, a . Smola Eds。第十二章,麻省理工学院出版社,1999年。视图:谷歌学术搜索
Keerthi和d . Decoste”修改有限牛顿法快速解决大型线性支持向量机,”机器学习研究杂志》上》第六卷,2005年。视图:谷歌学术搜索
e . l . Allwein r . e . Schapire, y歌手,“减少多级二进制:保证金分类器,一个统一的方法”机器学习研究杂志》上,1卷,不。2、113 - 141年,2001页。视图:谷歌学术搜索
t . Hastie和r . Tibshirani“成对分类的耦合,统计年鉴,26卷,不。2、451 - 471年,1998页。视图:谷歌学术搜索
t . g . Dietterich和g . Bakiri”通过纠错输出编码解决多级学习问题,“人工智能研究杂志》上,卷2,263年- 286年,1995页。视图:谷歌学术搜索
j·c·普拉特:Cristianini, j . Shawe-Taylor“大型多级分类保证金无进取心的人,”先进的神经信息处理系统》12卷,547 - 553年,2000页。视图:谷歌学术搜索
e . j . Bredensteiner和k·p·班尼特,“Multicategory分类支持向量机,”计算优化和应用程序,12卷,不。1 - 3,53 - 79年,1999页。视图:谷歌学术搜索
k .谎言和y歌手”的算法实现多级基于向量机,”机器学习研究杂志》上,2卷,第292 - 265页,2001年。视图:谷歌学术搜索
赛门铁克赛门铁克,”病毒百科全书”,2009年,http://www.sarc.com/avcenter/venc。视图:谷歌学术搜索
g·索尔顿海和c·巴克利,“Term-weighting方法在自动文本检索,”信息处理和管理,24卷,不。5,513 - 523年,1988页。视图:谷歌学术搜索
m·f·波特,”庆祝40年的ICT在图书馆、博物馆和档案馆:一个后缀剥离算法,”程序,40卷,不。3、211 - 218年,2006页。视图:出版商的网站|谷歌学术搜索
“雪球:一个字符串处理语言创建阻止算法在信息检索中,“2008年,http://snowball.tartarus.org。视图:谷歌学术搜索