当代技术确保了高质量的研究数据的可用性在互联网上共享。这导致了一个巨大的可用性研究的文献,使进化本身。因此,识别的核心研究领域和趋势在这样不断发展文学不仅具有挑战性而且有趣。实证的概述当代机器学习方法,它有可能加快在研究文献证据合成,一直解释说。这手稿提出模拟分析研究专家理解趋势(烧焦)框架,它可以执行主观和定量调查在巨大的文学。TRENDMINER用例设计专门为烤焦的框架。TRENDMINER发现语料库444抽象的知识结构的研究(2010 - 2019)期间发表文章在Android恶意软件分析和检测。研究包括三个核心研究领域的识别,27的研究趋势。研究还表明,潜在的未来研究方向。
数据是无处不在的,无论他们是在博客、社交媒体平台,论坛、评论、文学,或研究。提取信息的多维数据不仅是重要的而且也很有挑战性。有一个范式转变不同分区之间的知识转移的研究。手动系统评价(
RQ1:拟议的框架可以发现研究领域中主要研究人员?
RQ2:这些框架足够健壮以确定最调查研究领域?
RQ3:拟议的框架揭示主题的重点如何在每个核心研究领域随时间改变了?
RQ4:它能展开未来方向的研究领域内选择吗?
众多话题建模技术等潜在语义分析(LSA),潜在狄利克雷分配(LDA),概率潜在语义分析(向量),和相关的话题建模(CTM)进行比较和总结在表
比较的话题建模技术。
| 技术名称 | 特征 | 限制 | 区域 |
|---|---|---|---|
| 潜在语义分析 | 使用奇异值分解特性,LSA可以执行TF-IDF降维。LSA同义词的单词。 | 专家的帮助总是所需标签的主题。加载值的解释有时变得繁琐。 | (我)垃圾邮件过滤 |
|
|
|||
| 概率潜在语义分析 | 主题可以很容易地通过多项随机变量来表示。能力部分处理一词多义。 | 无法执行文档级建模。 | (我)自动化论文评分 |
|
|
|||
| 潜在狄利克雷分配 | 提供了多项分布在单词和狄利克雷分布的话题。能够处理长度文档。 | 无法预测之间的关系的话题。 | (我)的自动贴标 |
|
|
|||
| 相关主题模型 | 对主题聚类使用对数正态分布。产生主题图也。 | 涉及复杂的计算处理。通用词太多可能会导致低效率。 | (我)查询分类 |
作者在
安卓系统安全是一个有趣的探索领域。恶意软件作者倾向于植物恶意代码矩阵内部合法应用程序解锁他们肆无忌惮的动机。持续的线程的恶意软件扩散让研究团体执行各种研究与Android恶意软件检测和分析技术。文献计量分析或frequency-based等传统方法分析侧重于定量分析而不是定性分析(
本文的其余部分被安排如下:部分
拟议的烤焦框架在给定的序列图
步骤1:这一步涉及数据采集方法,创建存储库和XML解析器,文件转换成文本文件。
步骤2:这一步涉及语料库的数据预处理。停止词和标点符号应该从数据集,它应该规范化之前执行任何文本挖掘的任务。
步骤3:这一步实现了TF-IDF和奇异值分解技术,进一步讨论的部分。
步骤4:这一步涉及核心的识别研究领域和研究趋势。它还侧重于映射的研究趋势与研究领域。
烤焦的框架的序列图。
烤焦框架使用一个叫做LSA语义分析技术。这是一个行之有效的算法将原始非结构化文本数据转换为有组织的信息对象,进一步分析这些对象识别模式学习的启示
对Android应用LSA安全语料库中的步骤是与之前报道的研究
TRENDMINER是烤焦的用例框架将文本文档作为输入,如图
TRENDMINER上传界面。
TRENDMINER文件被上传。
软件规范。
| 图书馆 | 版本 | 实现TRENDMINER | 开源 |
|---|---|---|---|
| PDFMiner | ≥20140328 | 用于数据采集(解析pdf文本) | 是的 |
| NLTK | ≥3.4 | 预处理(所有任务) | 是的 |
| Scikit-Learn | ≥0.20 rc1 | 数据分析 | 是的 |
这部分揭示了关键字,搜索策略,选择标准用于大型语料库做准备。认为数据库是用于研究文章的集合在Android上安全。包含和排除标准应用于改进搜索结果相关的研究文章。存储库是实现标准一致性的研究文章。
第一个任务是准备TRENDMINER文献数据集。随访收集文献数据集的方法主要是专注于Android应用程序的结构,现有的应用程序开发中可能的漏洞以及采用恶意软件识别和缓解的方法。搜索和选择文献采用的策略被定义为3 c的公式,描绘在图
数据集准备使用3 c的公式。
斯高帕斯分配索引数据库的文章。
Mendeley、工具从爱思唯尔
模块在TRENDMINER发达,被称为XML解析器。故意生成的XML语料库进一步解析更加结构化的格式,即。逗号分隔值(csv)。图
解析一个XML到CSV。
导出文件的元数据信息,比如作者、出版、出版商。以下的观察是在预备考试分析的语料库。基于事件的数据集的数量,最多的顶级研究人员出版物在Android上2010 - 2019年期间安全计算和呈现在图
在Android系统安全的研究人员。
图
顶级期刊上关注Android安全领域。
pdf转换成文本,随后执行数据输入准备,与TRENDMINER兼容。转换过程可用各种工具选项,即PDFMiner Tika, Textract。PDFMiner [
PDFMiner可以获得文本在页面上的确切位置以及字体或行数等信息。
它促进了PDF文件转化为其他文本格式(例如HTML)。
它提供了准确的结果即使在极端条件下,如解析大型语料库。
成功转换为文本文件后,下一步是使用预处理程序。预处理模块TRENDMINER有助于获得质量信息的文本采用适当的预处理技术。对于任何文本挖掘算法,收集数据的预处理是必不可少的一步
语料库的预处理涉及下列程序的执行,在Python开发平台使用NLTK的包。NLTK自然语言工具包(
在这一步中,大块的文本被标记成句子,然后句子成单词。
停止词使用NLTK支持和常用单词(样本,良性的,学习、恶意软件检测恶意软件、检测、培训、层、通道,攻击者,密码,市场,电话,警告,算法,安装探测器,插座,等等)被移除。
标准化应用在文字介绍文本文档之间的统一性和一致性维护。标准化的任务是由几个子任务如把标点符号从文本、改变整体内容类似案件中大写或小写,并将数字转换为字。标准化有助于保持所有单词等效平衡允许文本数据的平滑处理。
进一步处理的文档,字典的大小必须减少,应该填充独特的单词。阻止和lemmatizing执行的技术减少变形。这个想法是为了减少公共根形式。阻止,基本形式被称为干在lemmatizing的情况下,它被称为一个引理。茎可能不是实际或真正的话说,但另一方面,前题是实际的语言文字。这两个技术帮助实现更快的处理文本文档。
所有单词小于长度4都省略了(
要指出的是,初始数据集包含60184令牌代表的长度在语料库的全部词汇。数据集被用来喂养其他计算步骤之前,它必须是nonredundant和自由从任何类型的噪音。在应用适当的预处理程序如前面所讨论的,单词列表保留了1944令牌。在这项研究中,444个文档,导致单词表的1944令牌代表列和行,分别。创建一个词频率在每学期地图的计数在每个文档中出现的次数。此外,这个矩阵转化为一个加权矩阵使用TF-IDF加权方案。
这项工作利用建模技术来加快数据的信息语料库分析过程。与信息建模和机器学习技术的结合,人类可判断的主题可以从文档中提取语料。机器学习方法提高信息建模技术的能力,允许研究人员智能提取和管理关键的信息做出聪明的决定。部署潜在语义分析(LSA)作为信息建模技术可以自动识别主题和揭开隐藏的模式在广阔的语料库的数据。LSA使用矩阵方法称为奇异值分解(计算)从广泛的矩阵数据构建一个低秩近似。圣言会LSA的主要力量,是一个基本的机器学习算法。它能减少的尺寸数据不丢失大量的信息。主要的思想是应用LSA文档集和非监督机器学习方法在降低维度将组织类似的文件根据他们的领域。
在这项研究中,文档的映射需要调查的主题,他们都涉及到。最重要的话,确认可以后导致的潜在主题的发现。TRENDMINER利用技术的本质,称为词频率逆文档频率(TF-IDF)。还有其他的加权方法可用于分析。最常见的加权方案TF-IDF log-entropy。按照研究[
潜在语义分析(LSA)主题模型算法需要document-term矩阵作为主要输入。TF-IDF有助于保持document-term矩阵描述术语的频率出现在文档的集合。文档和词在一个矩阵对应列和行,分别。TF-IDF已经广泛使用了更好的主题分析(
Document-term矩阵描述的频率。
| 条款 | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|---|---|---|---|---|---|
| 访问 | 0 | 0 | 0 | 0 | 1 |
| 品 | 1 | 1 | 1 | 1 | 1 |
| 日历 | 0 | 1 | 0 | 0 | 0 |
| 连接 | 0 | 0 | 1 | 0 | 0 |
| 联系 | 0 | 1 | 0 | 0 | 0 |
| 呆立 | 0 | 0 | 0 | 1 | 0 |
| 数据 | 0 | 1 | 0 | 1 | 0 |
| 德维克 | 2 | 0 | 0 | 0 | 0 |
| 确切的 | 0 | 0 | 1 | 0 | 0 |
| 找到 | 0 | 0 | 1 | 0 | 0 |
| Identifi | 1 | 0 | 0 | 0 | 0 |
| 就像 | 0 | 1 | 0 | 0 | 0 |
| 列表 | 0 | 1 | 0 | 0 | 0 |
| Locat | 0 | 0 | 1 | 0 | 0 |
| Malwar | 1 | 1 | 0 | 1 | 0 |
| Messag | 0 | 0 | 0 | 0 | 1 |
| 甜点 | 0 | 1 | 0 | 0 | 1 |
| 网络 | 0 | 0 | 1 | 0 | 0 |
| 数量 | 0 | 1 | 0 | 0 | 0 |
| 电话 | 0 | 1 | 0 | 0 | 0 |
| 读 | 1 | 0 | 0 | 0 | 0 |
| 记录 | 0 | 0 | 0 | 1 | 0 |
| 发送 | 0 | 0 | 0 | 1 | 0 |
| 服务器 | 0 | 0 | 0 | 1 | 0 |
| 塔 | 0 | 0 | 1 | 0 | 0 |
| 跟踪 | 1 | 0 | 1 | 0 | 0 |
| Uniqu | 1 | 0 | 0 | 0 | 0 |
| Usag | 0 | 0 | 0 | 1 | 0 |
| 用户 | 1 | 1 | 1 | 0 | 0 |
| 各种各样的 | 0 | 0 | 0 | 1 | 0 |
| 无线网络 | 0 | 0 | 1 | 0 | 0 |
词频率分数为每个文档。
| 文档 | 词频率分数 |
|---|---|
| Doc1 | {“Malwar”: 0.1111111111111111,“品”:0.1111111111111111,“读”:0.1111111111111111,“uniqu”: 0.1111111111111111,“德维克”:0.2222222222222222,“identifi”: 0.1111111111111111,“跟踪”:0.1111111111111111,“用户”:0.1111111111111111} |
|
|
|
| Doc2 | {“Malwar”: 0.09090909090909091,“品”:0.09090909090909091,“甜点”:0.09090909090909091,“用户”:0.09090909090909091,“数据”:0.09090909090909091,“喜欢”:0.09090909090909091,“电话”:0.09090909090909091,“数量”:0.09090909090909091,“接触”:0.09090909090909091,“名单”:0.09090909090909091,“日历”:0.09090909090909091} |
|
|
|
| Doc3 | {“品”:0.1,“跟踪”:0.1,“确切”:0.1,“locat”: 0.1,“用户”:0.1,“发现”:0.1,“无线”:0.1,“网络”:0.1,“塔”:0.1,“连接”:0.1} |
|
|
|
| Doc4 | {“malwar”“各种”:0.1111111111111111:0.1111111111111111,“品”:0.1111111111111111,“记录”:0.1111111111111111,“呆”:0.1111111111111111,“usag”: 0.1111111111111111,“数据”:0.1111111111111111,“发送”:0.1111111111111111,“服务器”:0.1111111111111111} |
|
|
|
| Doc5 | {“访问”“品”:0.25:0.25,“messag”: 0.25,“甜点”:0.25} |
逆文档频率分数为每个术语。
| 条款 | IDF得分 |
|---|---|
| 访问 | 2.098612 |
| 品 | 1.000000 |
| 日历 | 2.098612 |
| 连接 | 2.098612 |
| 联系 | 2.098612 |
| 呆立 | 2.098612 |
| 数据 | 1.693147 |
| 德维克 | 2.098612 |
| 确切的 | 2.098612 |
| 找到 | 2.098612 |
| Identifi | 2.098612 |
| 就像 | 2.098612 |
| 列表 | 2.098612 |
| Locat | 2.098612 |
| Malwar | 1.405465 |
| Messag | 2.098612 |
| 甜点 | 1.693147 |
| 网络 | 2.098612 |
| 数量 | 2.098612 |
| 电话 | 2.098612 |
| 读 | 2.098612 |
| 记录 | 2.098612 |
| 发送 | 2.098612 |
| 服务器 | 2.098612 |
| 塔 | 2.098612 |
| 跟踪 | 1.693147 |
| Uniqu | 2.098612 |
| Usag | 2.098612 |
| 用户 | 1.405465 |
| 各种各样的 | 2.098612 |
| 无线网络 | 2.098612 |
在方程(
TF-IDF代后改变了词的频率。
| 条款 | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|---|---|---|---|---|---|
| 访问 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.589463 |
| 品 | 0.160859 | 0.164157 | 0.165134 | 0.176043 | 0.280882 |
| 日历 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| 连接 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| 联系 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| 呆立 | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 数据 | 0.000000 | 0.277942 | 0.000000 | 0.298067 | 0.000000 |
| 德维克 | 0.675160 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| 确切的 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| 找到 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| Identifi | 0.337580 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| 就像 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| 列表 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| Locat | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| Malwar | 0.226081 | 0.230717 | 0.000000 | 0.247423 | 0.000000 |
| Messag | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.589463 |
| 甜点 | 0.000000 | 0.277942 | 0.000000 | 0.000000 | 0.475575 |
| 网络 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| 数量 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| 电话 | 0.000000 | 0.344502 | 0.000000 | 0.000000 | 0.000000 |
| 读 | 0.337580 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| 记录 | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 发送 | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 服务器 | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 塔 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
| 跟踪 | 0.272357 | 0.000000 | 0.279596 | 0.000000 | 0.000000 |
| Uniqu | 0.337580 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| Usag | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 用户 | 0.226081 | 0.230717 | 0.232090 | 0.000000 | 0.000000 |
| 各种各样的 | 0.000000 | 0.000000 | 0.000000 | 0.369447 | 0.000000 |
| 无线网络 | 0.000000 | 0.000000 | 0.346553 | 0.000000 | 0.000000 |
利用奇异值分解,两组载荷矩阵是LSA的生产作为输出。一个是document-to-topic矩阵和另一个是一个term-to-topic矩阵。主题的解决方案是研究主题文献中数据集的数量。高项或文档加载在基质细胞透露一个特定的词或文档更倾向于一个特定的主题的解决方案。研究人员可以调整一些主题的详细级别的解决方案识别研究领域和发展趋势。较小的价值观主题解决方案的代表共同研究的核心领域,和更高的价值主题解决方案的代表主要研究趋势
截断奇异值分解是一个框架variable-based数学方法,分解TF-IDF晶格分为三个网格的结果:
在这里,
假设
表
Term-loading五个潜在的主题。
| 话题1 | 话题2 | 话题3 | 主题4 | 主题5 | |
|---|---|---|---|---|---|
| 访问 | 0.198118 | −0.244194 | −0.399978 | 0.007002 | −0.317144 |
| 品 | 0.348381 | −0.034393 | −0.080514 | −0.037085 | −0.120670 |
| 日历 | 0.166381 | −0.098917 | −0.004802 | 0.024460 | 0.299730 |
| 连接 | 0.107482 | 0.219059 | −0.075849 | −0.241415 | 0.008454 |
| 联系 | 0.166381 | −0.098917 | −0.004802 | 0.024460 | 0.299730 |
| 每天 | 0.128417 | −0.108420 | 0.265857 | −0.127129 | −0.161347 |
| 数据 | 0.237841 | −0.167279 | 0.210618 | −0.082833 | 0.111647 |
| Locat | 0.107482 | 0.219059 | −0.075849 | −0.241415 | 0.008454 |
| Malwar | 0.284974 | −0.031505 | 0.205508 | 0.104866 | 0.037136 |
| Messag | 0.198118 | −0.244194 | −0.399978 | 0.007002 | −0.317144 |
| 甜点 | 0.294076 | −0.276820 | −0.326574 | 0.025384 | −0.014050 |
| 网络 | 0.107482 | 0.219059 | −0.075849 | −0.241415 | 0.008454 |
| 数量 | 0.166381 | −0.098917 | −0.004802 | 0.024460 | 0.299730 |
| 电话 | 0.166381 | −0.098917 | −0.004802 | 0.024460 | 0.299730 |
| 读 | 0.130719 | 0.160295 | 0.045805 | 0.259253 | −0.082933 |
| 记录 | 0.128417 | −0.108420 | 0.265857 | −0.127129 | −0.161347 |
文档加载与五个潜在的主题。
| 话题1 | 话题2 | 话题3 | 主题4 | 主题5 | |
|---|---|---|---|---|---|
| Doc1 | 0.542964 | 0.677204 | 0.434886 | 0.487392 | 0.471276 |
| Doc2 | 0.491949 | −0.297480 | 0.654891 | −0.304044 | −0.429196 |
| Doc3 | 0.129873 | −0.013342 | −0.209489 | 0.688773 | −0.649469 |
| Doc4 | 0.640698 | 0.592341 | −0.581166 | −0.287077 | 0.919112 |
| Doc5 | −0.189251 | 0.670234 | 0.187921 | −0.336431 | −0.414465 |
TRENDMINER用于识别的核心研究领域和重要研究趋势Android安全,和一个最优值
小石子阴谋。
此外,根据专家意见和小石子情节分析(
所(
term-to-topic和document-to-topic矩阵包含重要值来揭示主题。每个细胞在两种矩阵表示的加载值后在降序排序。前面的步骤的结果TRENDMINER成为成功的话题标签输入。分别条款和文件一起检查和合理的标签有三个和27主题的解决方案,如图
映射3.2核心研究领域和发展趋势。
映射3.3核心研究领域和发展趋势。
德尔菲法的工作流程。
因此,三个主题的解决方案目前主要的核心研究领域,如图
出版数三因子解决方案在三个不同的时期。
词云TRENDMINER三主题生成的解决方案(一)- (c)。3.1 (a)词云主题的解决方案。3.2 (b)词云主题的解决方案。3.3 (c)词云主题的解决方案。
27因素解决方案在三个不同的时间段(a)和(b)。
核心研究领域如图
结果表明,各种high-stacking分布与勘探地区之一,即。“静态级别监控”(T3.2)安排的三个主题。静态调查是最常用的检查恶意软件战略调查;因此,很明显,“静态级别监控”(T3.2)住在移动勘探地区随着时间的推移,2010 - 2019。结果同样表明,“自动恶意软件分析”(T3.3)此外变成了一个移动的勘探地区在2015年- 2019年。然而,“应用程序结构分析”(T3.1)影响较小的论文收集在这个研究。
语料库的方法依赖于静态监测(T3.2)是最著名的技术水平(大约74%)利用科学家捕捉到安全危险的Android系统。恶意软件自动分析(T3.3)约为20%,和应用结构分析(T3.1)为6%。2009年首次介绍了静态分析技术(
TRENDMINER发现27日主题核心研究趋势显示在数字
在主题的解决方案采用分析(T27.21),授权扮演不可或缺的组件报复性的应用程序的检查,因为大多数操作需要显式的同意记忆完成的最终目标
另一个重要研究趋势成为分析基于网络地址(T27.1),专注于网络地址。恶意软件作者利用网络地址建立通信与指挥控制(C&C)工人发送客户的机密信息。分析人士发现IP地址是一个关键的静态组件进行调查(
另一个考试模式,出现在这个空间研究敏捷记录(T27.7),发挥了至关重要的作用在理解敏捷文件,通常难于解释的人类。认识到恶意代码部分,科学家首次对敏捷代码进行反编译等更多可能的组织收集、Smali, Dalvik字节码,源代码,容器,Jimple或Java字节码(
核心研究领域发现了有趣的研究趋势等数据流跟踪(27.6),过程间控制流图(27.16),(27.11)和基于分析。所有出现的趋势与一个有趣的和关键的分支领域的静态安全机制来识别强占了安卓系统的漏洞。数据流跟踪(T27.6)处理跟踪敏感信息的流动从设备向外部实体应用程序执行时(
字节码控制流图调查识别所有可能的方法,应用程序可以同时执行。这些推断趋势有助于培养推进调查,通过创建控制流字节码图(CFG) intraprocedural分析或过程之间的调查(跨越不同的策略)。创作者在[
意图的趋势监控(T27.15)相关概念,应用程序清单文件中声明的意图能够足够的泄漏数据服务器。意图对象用于从一个活动到另一个利用Android应用程序的小部件。从一项活动开始,开始一个服务,和交付的三个基本用例是一个广播的意图,有助于在几个方面建立组件之间的通信。这一趋势是流行的研究发现
估计在字符串匹配(T27.8)被发现在这个领域另一个重要趋势,分析发现在各种字符串可以在Android应用程序。的研究人员完成的工作(
趋势模式评估(T27.20)发现了这一事实,攻击者可以推断出用户的敏感信息通过访问共享资源的行为模式。这一趋势的影响已经在各种各样的文章(
本节确定的结果TRENDMINER可以用来回答节中提到的研究问题
数据
考试的结果表明,静态级别监控(T3.2)一直是最通常在Android恶意软件调查和研究点的位置。静态下的策略运用水平监测(T3.2)分析了代码没有Android模拟器或设备上运行应用程序。静态调查的好处是,计算费用低,不沉闷,和低资产使用。图
影响时间2015 - 2019年期间的研究趋势。
静态监测水平成为一个重要的技术来完成各种检测私有数据泄漏等安全问题,检测组件劫持或意图注入,建筑框架组件之间的漏洞和内容机构漏洞,危险的恶意应用程序所使用的权限,能源消耗问题通过Android应用程序,Android应用程序复制检测相比,自动测试生成测试用例,并通过代码检查Android应用程序的正确性验证。经过进一步的调查,我发现有各种工具可用于静态监测,如烟尘,Dex2jar, Dexdump, Dedexer, d,敢和WALA。烟尘是最支持工具采用静态监测、Jimple是广泛使用的中间表示(IR)格式为Android应用程序的进一步分析。图的趋势线
在这项研究中,2010 - 2014和2015 - 2019两个时间框架被用来维持有效的解释和比较的话题之一。表
机器学习方法被证明是令人信服的其他严重的方法在Android恶意软件的位置。这些方法都是在调查,并承诺期间2015 - 2019。
检测应用程序使用的图表调查/信息随后使用人工智能计算,期间2015 - 2019。
权限已经发现很可能最利用静态元素识别Android恶意软件应用程序。在2010 - 2019年的流行趋势。一些特定的权限清单文件中声明激活某些事件在一个Android生态系统。
静态分析在很大程度上是由研究人员解决安全和隐私问题,由于其易于实现。然而,静态分析是脆弱的隐形技术,如加密和本机代码,导致垮台的使用纯静态的解决方案。然而,它仍然是受欢迎的在研究社区。
在出版物污点分析是一种广泛应用的技术。这种信息流分析的对象是污染使用数据流分析和跟踪。
在2015 - 2019年,一个研究趋势成为“分析基于网络地址”(T27.1),专注于网络地址。恶意软件作者利用网络地址建立通信与指挥控制(C&C)服务器发送用户的个人机密数据。研究人员发现网络地址作为一个关键的静态特性进行分析。
这种趋势“文本分析”(T27.26)依赖于提取关键短语和关键字,例如,敏感的api和权限分析。这一趋势在2015 - 2019年的时间框架。
这种趋势“象征性执行”(T27.9)显示2015 - 2019年的时间框架的垮台。它处理生成所有可能的程序输入探索所有条件分支内的路径。这一过程可能耗时,因此变得不那么流行的研究社区在2015 - 2019。
另一位研究趋势,出现“重新打包应用程序识别”(T27.23)。重新包装是一种流行的技术被受雇于恶意软件作者产生欺诈重新打包的应用程序。很多文章都与这一趋势发表在2015年至2019年的时间框架。
“基于元数据的研究趋势”(T27.2)发现了利用元数据来识别和解剖Android恶意软件应用程序。元数据包括必需的授权、描绘、形式,最后刷新,评级机构,工程师数据。2015 - 2019年期间这种模式遇到失败。
表
趋势”字段敏感性”(27.19)似乎是最被认为是在所有的敏感性,表中描述
”类型的趋势和模型Checking-Based分析”(T27.5)突然下降期间2015 - 2019。当一个开发Android应用程序对于某些任务,通常定义一个应用程序必须满足特定的属性。模型检查有助于确保给定系统满足给定的规范或正确性的属性。类型检查确保给定的程序是类型安全的通过保持类型错误的可能性(例如,应用整数操作浮点数字)降到最低。
另一个研究的趋势是“Dex文件研究”(T27.7),发挥了至关重要的作用在理解敏捷文件是受欢迎的在2010年至2014年的时间框架。敏捷代码通常由人类繁琐的解释,因此显示了在2015 - 2019年垮台。
研究趋势”采用分析”(T27.21),权限清单文件中声明,因此,容易获得,这可能是它的流行的原因研究人员在2010 - 2014。然而,检查只在检测恶意应用程序权限不是有用的。因此,这种趋势出现在2015 - 2019年垮台。
有趣的研究趋势,如“数据流跟踪”(27.6),(27.16)“程序间控制流图”,和“基于分析”(27.11)的数据结构分析。数据流分析和控制流分析有助于了解不安全功能,如隐私泄露和滥用的电话服务跟踪信息的流动在不同的执行。字节码的优点是控制流图调查识别所有可能的方法,应用程序可以同时执行,因此流行期间2015 - 2019。
“目的监测”的趋势(T27.15)与概念,应用程序清单文件中声明的意图能够足够的泄漏数据服务器。意图对象用于从一个活动到另一个利用Android应用程序的小部件。从一项活动开始,开始一个服务,和交付的三个基本用例是一个广播的意图,这有助于在几个方面建立组件之间的通信。这是更受欢迎的时间2010 - 2014比2015 - 2019年的时间框架。
另一个趋势,“硬件组件的检验”(T27.12),反映了在申请上市的硬件组件静态分析调查。它可以令人信服的恶意应用程序与特定需求阐述了所有的硬件,例如,摄像头,GPS和麦克风。这一趋势逐渐减少2015 - 2019年的时间框架。
另一个重要趋势,“估计在字符串匹配”(T27.8),分析发现在各种字符串可以在Android应用程序。2015 - 2019年期间稍微的影响。
这种趋势“应用程序级别功能”(27.4)展开的使用CPU和内存使用情况跟踪恶意应用程序。2015 - 2019年期间仍然是热门。
话题的焦点改变随着时间的推移,从2010年到2019年。
| 没有话题。 | 标签 | 2010 - 2014 | 影响时间1 (%) | 2015 - 2019 | 影响时间框架2 (%) | + /− | |
|---|---|---|---|---|---|---|---|
| T27.1 | 分析基于网络地址 | 6 | 6.45 | 24 | 10.17 | + 3.72 |
|
| T27.3 | 对象的敏感性 | 3 | 3.23 | 4 | 1.69 | −1.53 |
|
| T27.5 | Checking-Based类型和模型分析 | 7 | 7.53 | 12 | 5.08 | −2.44 |
|
| T27.6 | 数据流跟踪 | 7 | 7.53 | 23 | 9.75 | + 2.22 |
|
| T27.7 | Dex文件研究 | 8 | 8.60 | 9 | 3.81 | −4.79 |
|
| T27.8 | 估计在字符串匹配 | 5 | 5.38 | 19 | 8.05 | + 2.67 |
|
| T27.9 | 符号执行 | 6 | 6.45 | 9 | 3.81 | −2.64 |
|
| T27.11 | 图论分析 | 3 | 3.23 | 13 | 5.51 | + 2.28 |
|
| T27.12 | 硬件组件的检查 | 7 | 7.53 | 10 | 4.24 | −3.29 |
|
| T27.13 | 路径敏感 | 5 | 5.38 | 3 | 1.27 | −4.11 |
|
| T27.15 | 目的监测 | 6 | 6.45 | 11 | 4.66 | −1.79 |
|
| T27.16 | 程序间控制流图 | 0 | 0.00 | 8 | 3.39 | + 3.39 |
|
| T27.18 | 内存映射 | 7 | 7.53 | 13 | 5.51 | −2.02 |
|
| T27.19 | 场灵敏度 | 3 | 3.23 | 16 | 6.78 | + 3.55 |
|
| T27.21 | 采用分析 | 10 | 10.75 | 11 | 4.66 | −6.09 |
|
| T27.22 | 上下文敏感 | 2 | 2.15 | 7 | 2.97 | + 0.82 |
|
| T27.24 | 流敏感性 | 2 | 2.15 | 10 | 4.24 | + 2.09 |
|
| T27.25 | 程序切片 | 3 | 3.23 | 15 | 6.36 | + 3.13 |
|
| T27.26 | 基于文本的分析 | 2 | 2.15 | 7 | 2.97 | + 0.82 |
|
| T27.27 | 污染分析 | 1 | 1.08 | 12 | 5.08 | + 4.01 |
|
| T27.10 | 形式分析 | 2 | 13.33 | 9 | 12.33 | −1.00 |
|
| T27.14 | 输入匹配 | 3 | 20. | 8 | 10.96 | −9.04 |
|
| T27.17 | 机器学习方法 | 2 | 13.33 | 29日 | 39.73 | + 26.39 |
|
| T27.20 | 模式的评估 | 6 | 40 | 13 | 17.81 | −22.19 |
|
| T27.23 | 重新打包应用程序识别 | 2 | 13.33 | 14 | 19.18 | + 5.84 |
|
| T27.2 | 应用程序级别的特性 | 4 | 50 | 12 | 63.16 | 13.16 |
|
| T27.4 | 基于元数据的研究 | 4 | 50 | 7 | 36.84 | −13.16 |
|
许多Android恶意软件设定的障碍,这需要认真解决后彻底的观察。基于TRENDMINER的结果,毫无疑问,显然,Android安全最近发表的文献中已经大量的考虑。也许,这主要是由于无处不在的Android作为一个著名的操作系统在社区。重要的模式是在过去十年,反映在撰写本文调查的后遗症。因此,基于TRENDMINER的结果,讨论了一些建议,如下:
映射的API使用权限来实现更细粒度的结果:使用API调用和传输敏感信息在网络上进行通信。恶意软件等家庭Fakeinst、Opfake Smsreg利用API调用,如sendSMS()和readSMS(),这意味着收集的信息可能通过短信发送。迫切需要深入分析API调用这些API模式和权限需求
并发症在静态分析:静态分析技术无法应用程序时使用伪装技术(
进化智能恶意软件:应用程序倾向于使用技术,如加油,antidebugging,代码混淆和内核级特性来躲避检测过程(
发展反直观的功能强大的恶意软件分析和检测方法:静态和动态特性需要探索下一个层次来描述应用程序的行为
需要自动化的恶意软件分类:semisupervised方法来检测恶意应用程序的开发(
阻碍动态分析的有效性:计算时间和资源约束的主要原因是阻碍性能的动态分析
有限的可用性数据集:ransomware供应有限的数据集和缺乏理解的智能策略限制的有效性检测机制(
精度预测机制:被研究者所面临的最大挑战是预测ransomware虚报率高。大多数的技术产生大量的假阳性和假阴性的警报,从而影响检测机制的准确性。需要一个前沿方法生产更少的假警报(
研究发现,检查恶意软件的方法结合静态检查和动态调查或者两者的混合。静态检查基本上围绕着拆除代码,落后的手工检查代码中的有害的例子。另一方面,动态调查执行代码在虚拟平台和分解其执行遵循注意到应用程序的有害行为。静态检查有助于遵循独特而完整的执行方式;随后,它给总代码内容;然而,最后它经历晦涩的代码。应用程序必须首先解码执行静态调查。顽固的问题错综复杂破坏考试。动态检查更有效率和不需要麻烦可执行卸载或复原。检查的应用程序在一个受控的安排。 This cycle is time and asset devouring. It additionally raises adaptability issues. Besides, some malevolent conduct may be unseen on the grounds that the environment does not fulfill the setting off conditions. Besides, malware creators utilize mechanization innovation to produce a colossal measure of new malware variations, accordingly representing a major test to malware experts. The current situation with the-workmanship requests the combination of existing crude strategies with valuable methods to accomplish a powerful arrangement. The yield of TRENDMINER proposes that strengthening strategies ought to be utilized to supplement the arrangement of quickly developing Android malware families. Beneficial methods can end up being viable in deciding strange current vindictive conduct or security weaknesses. In view of the assortment of information got by this investigation, a plan for designing a cutting edge environment has been imagined for the characterization of Android malware families, as examined in the next section.
恶意软件是快速发展的恶意软件的创造者的能力改变小块的源代码产生新的恶意软件变种。恶意软件变异可以被想象为灰度图像。一张照片能赶上甚至小的变化。因此,在当前的工作中,提出了一种认知结构减少默默无闻的影响通过改变恶意软件的noninstinctive组件成独特的手指印象图像Android恶意软件家庭的安排。拟议的方法,被称为SWAYAM(停止为Android恶意软件)系统如图
建议他为Android恶意软件(停止)系统。
这个模块处理将恶意软件样本转化为数字图像。恶意软件的二进制文件首先被转换成8位向量,然后转换成灰度图像。灰度图像的整体结构是由各个部分组成的。每个部分都有一个固定宽度,但高度是根据文件大小不同。简而言之,恶意软件样本往往表示为图像和有一种强烈的倾向,恶意软件变种相同的家庭形式相似和视觉的影响(
一旦图像转换为数字图像,下一步是提取图像的特性。功能发挥了重要作用在恶意软件样本分类到特定的家庭。各种图像描述符如全球形象描述符(要点),灰度共生依赖于应用灰度共生矩阵建立()和局部二值模式(LBP)从图像中提取特征,从而形成一个特征向量。纹理模式,强度、颜色模式和频率在图像构成的图像特征样本。欧氏距离或标准差可以用来测量在特征空间的距离
进一步的机器学习算法或神经网络受聘在特征向量来确定样本的家庭。例如,在资讯的方法,样本是家庭f1如果分类
这项研究中遇到的一些问题可能出现在文献的收集数据集在Android上安全。它取决于某些因素,例如,在准备使用的类型的查询和来源文献的数据集。发现适当的出版物,文章选择使用“恶意软件”或“脆弱性”或“安全”或“隐私”或“监控”或“应用”或“智能手机”或“安卓”或“病毒”或“静态”和“动态”或“检测”或“数据流”的搜索关键词。著名的数据库中剩下的自动搜索也浏览出版在该地区的影响。相关论文被使用纳入和排除标准筛选搜索结果限制当前研究的目的。尽管如此,这有可能,一些重要出版物过程中可能已经离开了。
TRENDMINER得到的潜在语义分析(LSA)技术。文理学院是一个无监督的方法发现同义词提高了向量空间模型。然而,许多问题的解决方案不能决定统计。为了缓解这种情况,一个最优的值许多主题的解决方案是强化与专家讨论后决定。最终,这项工作推断话题标记的过程纯粹是基于人类的判断,这可能导致主观偏见。
可能存在的障碍与投机的结果。随后的逐步过程推断核心研究领域和研究趋势。过程包括文献收集、预处理的数据集,代TF-IDF矩阵,截断奇异值分解,标签和话题。每一步的算法往往会影响结果。例如,结果将影响如果在这项研究中使用的数据集是修改作文的标题或长篇文章。
做完的LSA表示一些文件,新建一个文档不能被添加到这个集合。一个新文档,因此,只能逐步添加。不能捕捉新文档添加的元素。因此,LSA的性能降低添加新文档,允许重新计算。
最关键的一个灵感的工作,传统的手工文学评论往往没有准备好利用巨大的文学,因为人类的障碍物和洞察力。因此,本研究提出另一个文献回顾的方法来应对这一挑战。这项研究发布了一个框架称为烤焦的框架,它可以执行主观和定量调查在巨大的文学。这是一个适应力强、多才多艺的框架画信息调查和概念化的进步倾斜测量任何领域的文学研究。烤焦框架利用信息建模技术的线性组合,即。,LSA紧随其后
TRENDMINER烤焦的用例设计框架。展示的效用和使用TRENDMINER, Android安全领域的广泛文献利用的背景调查。框架需要444摘要的研究文章的贡献分配期间2010 - 2019。本研究确定了三个核心研究领域和27研究趋势的结果。结果表明,特定的研究模式保持可靠的检查时间。分类和Android安全领域的未来研究方向提供了在这个研究。时间趋势图讨论了每个因素的解决方案。一些研究趋势发展虽然也同样拒绝。TRENDMINER放大了效用和承诺提出未来研究方向在发展研究减轻人类的倾向。这项研究还强调回答研究的问题框架的技术被采用和选择的数据集。 This paper additionally exhibited general suggestions to help new researchers to comprehend the idea of Android security research and assess their regions of interest for their latent capacity research alongside the related research pattern.
这次考试另外建立客观、观测建立未来的方向对Android的结构和分析分解安全研究。特定的研究领域和趋势发现在这个工作可以让未来的研究维度,可以利用的研究科学家和行业。此外,研究人员可以选择至少一个研究领域,使另一个调查与等效或另一种方法。尽管如此,其他实际因素调查策略可以适用于这个探索。未来工作,研究者可以将类似的技术应用到一个不同的可比数据集的倾向和体面的各种核心研究领域内和趋势相关的文章。增加这项研究的应用领域,烤焦的框架可以增强通过构建一个动态查询系统在相同或不同的语料库运用深度学习模型。
这手稿展品的全景Android安全领域。这项研究有一定的有趣的实际意义。首先,研究领域和趋势发现在这个工作可以接触未来的研究维度,可以利用这项新的研究科学家和行业。分析获得的研究可以帮助他们理解的多样性和深度Android安全领域。第二,学术大学可以提高他们的教学内容和学生的动机通过修改课程更关注Android安全领域相关的研究活动。
第三,视角的研究将帮助受人尊敬的期刊的编辑计划特别会议在Android恶意软件研究主题如Android应用程序的静态分析,对物联网安全和隐私和多媒体设备,应用级威胁,Android恶意软件分析和检测的新领域,cryptojacking,基于组件的Android恶意软件分析,深度学习为Android恶意软件分类、深度学习数字取证和网络安全。有未来研究的方向进行了讨论如下。
使用太多的特性为Android恶意软件分析和检测是一项繁琐的任务。安卓系统的权限作为一种特殊特性清单中。安卓系统文件的xml文件的结构。执行application-sensitive操作所需的权限。他们是嵌入到清单中。xml文件以文本的形式。他们扮演着至关重要的角色在检测可疑的Android设备上运行的应用程序。一些恶意软件作者的权限使用利用敏感信息的设备
评估发现的可疑的应用程序也可以在应用程序商店用户评论。用户的反馈是至关重要的,因为他们倾向于写评论的特定应用程序基于实时使用和体验。安全公司不能忽视评论无论是积极的还是消极的。用户评论等各种目的的表达功能,UI(用户界面)/设计,电池消耗报告,和其他应用程序的安全问题。此外,应用程序中的安全问题大致分为四类:恶意代码注入到应用程序对货币的好处,垃圾邮件,信息泄漏,在应用程序中使用超水准的权限。潜在语义分析可以应用于众包应用程序的用户评论发现安全问题。初始步骤,相关评论可以从喧闹的众包过滤审查通过预处理技术的使用在这个手稿。相关条款的审查可能与Android API文档然后映射形成集群基于组件的审查。
假设板球游戏应用程序的用户评论,“每当我打开这个CRC联盟应用程序,它会自动点击我的照片,也从我的账户中扣除了1美元。我也收到了消息,说谢谢你订阅IOIO服务。“阅读本文之后,无疑认为这是一个恶意的应用程序。可能有成百上千的评论与此相关的上下文。这里的数据驱动的分析可以了解文本结构,单词,和审查讨论的话题。本文反映了这个应用程序访问摄像头,发送短信,从用户帐户扣除金额。有人可能认为板球游戏永远不可能执行这些类型的敏感操作。这个场景中只描述了应用程序的安全问题。因此,回顾可以发现的语义标记这些应用程序使用LSA是可疑的。
重新包装是一个开放的问题在Android恶意软件检测和分析领域。使用这种技术,恶意软件作者第一次下载的合法应用程序从应用程序商店,然后提取所有应用程序的文件和文件夹。提取过程后,注入恶意代码或部分应用程序和上传相同的其他应用程序商店。他们也吸引用户下载恶意应用程序通过执行社会工程活动。无辜用户没有意识到这个事实被困和下载恶意合法应用程序的版本。这样,恶意软件渗透的电话,他们的设备被破坏。重新包装从而打开恶意软件作者的其他维度生成恶意复制或抄袭合法版本的应用程序。简而言之,开发人员广泛的专有权利剥削、虐待在恶意软件作者合法应用程序的创建克隆Android恶意软件变种。此外,他们还部署逃避技术规避检测过程。在这个场景中,LSA可以用来推断语义语料库的源代码文件。 The degree of similarity can be measured by comparing the code segments of the source code files.
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突有关这篇文章的出版。
本研究工作是自筹资金。