文摘
早期数据泄漏防护方法对智能移动设备通常关注保密条款和他们的背景下,真正预防某些类型的数据泄漏事件。然而,由于高维度和冗余的文本数据,很难检测到文件含有保密内容准确。我们的方法更新集群图结构基于CBDLP(数据泄漏保护基于上下文)模型通过计算的重要性范围内的保密条款和条件的上下文。通过应用CBDLP修剪过程已验证,我们进一步去除冗余和噪声条件条款。实际上,保密条款不仅可以准确地检测到还在实验检测到复杂的机密内容重新修改。
1。介绍
随着互联网和信息技术的发展,智能移动设备出现在我们的日常生活,和信息泄漏的问题在智能移动设备将按照已成为越来越严重1,2]。各种各样的私人或敏感信息,如知识产权和金融数据,可能会有意或无意地分发给未经授权的实体。这是不可能阻止蔓延一旦机密信息泄露。
根据调查报告(3,4),大多数的信息安全威胁是由内部数据泄漏引起的。这些内部威胁包括近似29%私人或敏感数据意外泄漏,近似16%窃取知识产权,和近似15%其他盗窃包括客户信息、财务数据。进一步说,大约67%的共识组织表明,从内部威胁所造成的损害比形式更为严重。
虽然通过了法律法规惩罚故意泄漏数据的各种行为,仍然很难有效地防止数据泄漏。机密数据可以很容易地掩盖了挖出保密内容或内容嵌入机密nonconfidential内容(5,6]。为了避免数据泄漏而引起的问题,开发了大量的软件和硬件解决方案在第二章讨论。
在本文中,我们目前的CBDLP,数据泄漏预防模型基于保密条款和背景条件,可以有效地检测到机密内容。在CBDLP图结构采用涉及保密条款和上下文来表示文档相同的类,然后被探测到的保密文档的得分是计算来证明是否涉及保密内容。基于粗糙集理论的属性约简方法,我们进一步提出一个修剪方法。根据保密条款的重要性和他们的背景下,每个集群的图结构修剪后更新。论文的动机是开发一个解决方案,可以有效地防止故意或偶然的数据泄漏内幕。mixed-confidential文档是很常见的,它是非常重要的准确检测包含保密内容的文件即使已经把大部分的保密内容。
本文的其余部分组织如下。节2之前,我们将介绍相关工作数据泄漏预防。节3一起,我们现在CBDLP模型相应的聚类,决定,和计算算法。实验评估CBDLP在所有情况下讨论了部分4。最后,部分5本文总结并讨论了未来研究的方向。
2。相关工作
在本节中,我们审查文本文档的聚类,属性约简方法,分别和图形表示的文本文件。
2.1。聚类的文本文件
聚类的问题类似于高维聚类文本文档。一般来说,每一项的文本文档被认为是一个独立的维度,然后每个文档被认为是一个向量由成千上万的条款。通过计算文档之间的夹角余弦度量,可以将文本文档的相似度由角余弦值反映(7- - - - - -10]。
向量空间模型,分析扫描仪,是使用最广泛的文本表示模型(11),由沙顿在1960年代第一次提出并成功地应用于聪明,一个系统的操作和检索文本。在VSM模型,文本文档表示为 ,在哪里和表示th文档中的词和它的重量,分别,然后一个文本文档的分类是由计算分类的文本文档之间的相似度和已知分类的文本文件。
TF-IDF词频率和逆文档频率,是一个经常使用有效的统计方法用于评估一个术语的重要性对于一个文档集合(12]。众所周知,一个术语的重要性成正比的频率出现在文档和成反比的频率出现在整个语料库。直到现在,TF-IDF已广泛应用于各个领域,如文本挖掘、搜索引擎和信息检索。
基于VSM模型和TF-IDF方法,现有的文本文档聚类算法可以被分为五大类:划分方法、层次方法、density-based方法、基于网格的方法和基于模型的方法。分区方法,高效和不敏感的序列文件,鸿沟文档集群的集群标准。代表分区方法包括则和-medoids [13,14]。分层方法文档分解到不同的集群或不同文档一起整合到一个集群的自顶向下或自底向上的层次的方式相似。代表分层方法包括桦树和治疗(15,16]。除了分区方法,density-based方法专注于某一地区的密度。在某一区域内的密度文档时超出了预先定义的阈值,它们纳入同一集群。代表density-based方法包括DBSCAN和光学17,18]。基于网格的方法数据空间分割成有限细胞提前和集成相邻细胞的密度超过密度阈值到相同的集群。代表基于网格的方法包括刺痛和集团19,20.]。在基于模型的方法,不同的模型分别与每个集群,目标是找到所有数据子集,最好每个模型一致。统计数据的解决方案,如支持向量机(21),和神经网络解决方案广泛采用基于模型的方法(22]。产生的支持向量聚类算法有Siegelmann和弗拉基米尔Vapnik应用支持向量的统计数据,开发的支持向量机算法,对无标号数据进行分类,是一种最广泛使用的聚类算法在工业应用中。
在这篇文章中,我们计算角余弦值,反映了与DBSCAN文档之间的相似度和集群文件。DBSCAN马丁酯在1996年提出的,是一个被广泛引用的density-based聚类算法在科学文献[23),获得2014年时间的考验奖(24]。当聚类,除了则,DBSCAN并不需要指定集群的数量,它可以发现任意形状的簇。此外,DBSCAN是健壮的异常值,而不是则。
2.2。图表示的文本文件
图已经被用在许多文本相关任务,雇佣图作为文本表示的模型,而不是现有的方法(25]。作为替代方法的向量空间模型表示文本信息,图形可以创建文件和被进一步用于文本相关任务,如信息检索(26),文本挖掘(27),和主题检测(28]。
一般来说,通常是采用基于模式在信息检索领域,如网页排名(29日和打30.]。确定相似时,图像匹配,这是通常用于检测类似的文件,是NP复杂度(31日),而基于向量空间模型的方法进行有效地通过计算文档向量之间的欧几里得距离或余弦度量(32]。基于模型的主要优势是,它不仅可以捕捉一个文档的内容和结构,也代表了他们一起上下文。我们最好的知识,基于模型很少用于文本相关的任务。辛克物流提出了graph-related算法的几个变量(33)提出了一种图形和条款与边缘视为节点。变体之间的差异基于词汇的相关技术。吉拉德·卡茨礼物CoBAn,基于上下文模型数据泄漏预防,照亮我们很多(34]。然而,CoBAn部分限制的影响——这是在CoBAn就业。此外,可能存在一些冗余节点在CoBAn生成的图表。小红黄等人提出一种自适应加权图模型(索引)走到解决转换造成的数据泄漏的问题映射到加权图的尺寸(35]。
在本文中,我们使用了混合方法相结合图和矢量表示。聚类文件时,我们采用DBSCAN余弦度量。当代表机密文本内容及其每个集群,每个集群的图只包含机密和上下文创建节点。
2.3。减少冗余信息
在处理文本相关的任务,通常是无用的冗余信息,更糟糕的是,它可能减少任务执行的效率。存在许多代表冗余信息还原方法,如主成分分析(36),圣言(37),大规模集成电路(38]等。主成分分析的原理是将多个属性转换成几个主要属性,可以有效地反映原始数据的信息。然而,PCA的复杂性通常很高,可能有部分原始信息的损失。以上特点,圣言几乎一样的优点和缺点PCA。LSI代表文本数据与潜在的主题,包括具体条款,但在大多数情况下,具体条款的影响被忽略。本文从粗糙集理论还原法,如部分所示3工作和部分重组,以满足需求。
2.4。数据泄漏的预防
的泄漏事件,造成成本继续增加,数据泄漏对公司和组织的威胁越来越严重(39- - - - - -41]。考虑到巨大的数据泄漏预防、各种模式和方法已经开发解决问题的数据泄漏预防。Tripwire是最近乔DeBlasio等人2017年提出的原型系统;寄存器蜂蜜账户与个人第三方网站,从而获得一个电子邮件帐户提供了间接的证据资格盗窃在相应的网站42]。然而,Tripwire更适合取证而非机密数据泄漏预防。2018年,许Wenjia等人提出一种新的有前途的密文块图像加密域的图像检索方法基于Paillier同态密码系统可以有效地管理和检索密文数据(43]。不过,专注于数据加密的方法而不是数据检测。由于智能设备基于ARM处理器成为网络攻击的一个有吸引力的目标,金华崔等人提出一个方案在2018年任命SecDisplay信任显示服务,它可以保护敏感数据显示被窃取或破坏暗中破坏操作系统(44]。但它却很少关注的场景故意或意外的数据泄漏内幕。据王叮et al。的工作,很多的身份验证方案已经提出在工业无线传感器网络安全的数据访问,然而,他们不工作45]。此外,丁王等人开发的一系列实际实验来评估四个主要的安全建议honeyword-generation方法,进一步证明他们都未能提供预期的安全(46]。
3所示。CBDLP模型
CBDLP由培训短语和短语检测。培训短语可以进一步分为三个步骤,聚类步骤中,图构建步骤,和修剪步骤。短语训练期间,培训文档首先分为不同的集群,每个集群由图表示,最后每个图的节点是修剪的重要性。在探测词、文档匹配图分别为集群和机密的分数计算。文档被认为是机密只有机密得分超过一个预定义的阈值。CBDLP培训短语的细节提出了算法1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1。与DBSCAN聚类文档
在第一步中,我们应用遏制和障碍移除所有文件在训练集,并将处理过的文档转换为向量的加权。应用DBSCAN余弦度量向量后,代表培训文档,每个产生的集群代表一个独立的主题培训文档和可能存在机密和nonconfidential文档。如图1。
DBSCAN的过程描述如下:
步骤1。给出了一个数据集文件和文档之间的相似度最小的阈值相同的集群和阈值的最小数量的文档在一个集群中。
步骤2。从任意文档没有访问和找到所有的文件社区。如果在附近文档的数量超过 ,文件合并到同一个集群和标签。
步骤3。如果不是所有的单据已经访问了,开始从另一个任意文件,还没有去过。
步骤4。的文件没有被贴上标记为噪声。
3.2。代表集群图
在这个步骤中,在所有集群机密内容,其中包括不仅保密条款,而且他们的上下文,需要用图表表示。创建图表表示集群的过程包括保密内容描述如下:(1)检测领域专家提供的保密条款或推断出关键术语的培训文档。(2)分析每个保密条款的上下文。(3)创建的图表示保密条款和对集群级别的上下文。
3.2.1之上。检测保密条款
一般来说,一个术语,它出现在高概率和机密文件出现在nonconfidential文件概率较低,被认为是机密的。我们首先建立语言模型的机密和非机密文件相同的集群,这是用(保密的向量模型)(nonconfidential向量模型)。然后保密分数可以用概率的比率在nonconfidential机密文件,文件如下所示,和表示词的概率在保密和nonconfidential语言模型,分别为:
然而,可能存在以下问题。如果一个集群只包含几个nonconfidential文档或者根本没有,其语言模型不能完全代表nonconfidential文档。我们提出的解决方案是一个扩张的方式;我们首先预先确定最小相似度阈值迭代和扩大包括更多的集群。被称为集群的余弦相似度阈值的测量几乎nonconfidential文档。请注意,并不是所有的集群需要扩大。每一次迭代后,我们的价值更低 。除非大于 ,扩大集群的nonconfidential文档都包含在原始集群重新计算分数的术语。
当相邻的集群包含和保密条款重新计算分数,每一项的得分大于1被认为是机密的,也就是说这个词更有可能出现在比非机密文件的机密文件。这一阶段后,保密条款, ,是获得。
3.2.2。分析的背景下,保密条款
保密条款检测后,我们进一步分析的背景下,保密条款。显然,一个术语更可能被视为机密,如果它出现在类似的环境其他机密文件。相反,如果保密期限的上下文中经常出现在nonconfidential文件,保密期限的概率较低的保密内容。
作为一个预定义的参数、上下文确定的数量之前和遵循保密期限。上下文跨度与高价值可能会增加计算成本,相反,和上下文跨度与低价值不能提供足够的上下文信息的保密条款。实验结果表明, 往往是最优值的上下文跨度在我们的实验中,这意味着机密的上下文中术语包括五项前它和其他五个。显然,只在机密文件保密条款的背景下需要考虑。
保密期限的可能性和它的上下文一起出现在机密文件和nonconfidential文档,用 和 ,分别计算。如果前者大于后者,则相应的保密内容可以由保密期限的上下文。 被定义为保密的机密文件项的数量与上下文出现的数量除以机密文件只有出现的保密条款。和 被定义为nonconfidential文档的数量的保密期限与上下文出现的数量除以nonconfidential文档只有出现的保密条款。
正如上面提到的,我们预先确定最低余弦相似度阈值的措施 ,和迭代扩展到包含更多的集群。被称为余弦相似度阈值的测量之间的集群,很少有非机密文件,其扩展集群。每一次迭代后,我们的价值更低在一定的速度这是预定义的,即 。除非大于 ,扩大集群的非机密文件包括重新计算在集群原始上下文项的分数。通过包括相邻的簇,我们可以准确地估计哪些术语最有可能表示文档的保密。
通过减去每个上下文项的出现的概率的概率与非机密文件保密期限的外观在机密的,每个上下文项的得分计算,所示(2)。
使用减法,而不是分裂的原因是为了避免大的波动上下文项的值。当用人部门,甚至一个文档可以显著改变的概率只有文档包括考虑到保密条款。
我们迭代扩展到包含更多的集群。每一次迭代后,我们的价值更低直到小于 ,每个上下文项的得分计算,所示(3)中,表示数量的集群。
这一阶段后,上下文与他们的分数, ,是获得。对于每一个机密,其上下文方面的成绩是积极的更有可能出现在机密文件的保密。
3.2.3。创建图表表示
在前一节中描述的操作之后,保密条款和背景可以很容易地根据他们的相互关系表示为节点和连接在一起。如图2为每个集群,一套保密条款和一组其上下文方面得到训练阶段后,和保密条款和其上下文条件分别表示为机密的节点和上下文节点。机密节点连接在一起,只要存在他们之间至少有一个共同的上下文节点。
3.3。修剪的节点图
由于保密条款和上下文项的计算是基于统计分数,可能存在偶然情况下nonconfidential术语的高分,因为词滥用。在修剪阶段,我们使用术语的方法减少粗糙集理论中删除冗余节点图。
信息的保密和nonconfidential文档,我们评估每个集群节点图的重要性。节点图只能删除,如果删除这个词所代表的节点不影响识别结果的机密文件在这个集群。所示(4),表示测量的重要性这是表示为节点在图。和表示的部分机密文件集由图可以确定正确吗 。同样的,表示的部分机密文件集由图可以确定正确吗 ,这意味着节点从图中删除 。修剪过程的细节图提出了算法2。
|
||||||||||||||||||||||||||
3.4。检测的短语
显然,一个机密文档没有任何修改根据保密条款容易被探测到。然而,机密文件,描述或划分部分,进一步隐藏在不同nonconfidential文档剽窃者往往大多数人是这样做的,很难被探测到。一旦机密内容检测失败,它更有可能导致数据泄漏或侵犯版权。
在检测阶段,我们采用CBDLP模型处理三种情况可能发生。三个不同的场景描述如下:(我)检测到每个机密文档作为一个整体。(2)每个机密文档和嵌入nonconfidential分为部分。(3)机密文件的保密条款是完全描述。
我们采用的检测方法包括三个步骤,如图3,描述如下:(1)分类的文档进行测试相应的集群。(2)确定保密条款和背景条件根据图相应的集群。(3)计算文件的机密性分数和得出结论,是否一个文档是保密的。
然后,安全模型,结合培训检测短语,短语和图所示4。
4所示。实验
在本节中,我们评估CBDLP路透社- 21578数据集的性能。作为测试数据集,路透社- 21578由21578块的新闻由路透社1987年保存在22日分发文件。路透社- 21578数据集是手动划分为五类,又可以再细分为不同的子类。例如,经济新闻包括库存子集,黄金子集,货币供应的子集。
4.1。性能实验
在实验中,我们提出基于CBDLP数据泄漏的预防方法模型,并提出一个修改模型表示为CBDLP-Pr没有修剪步骤。SVM以来被证明是一个优秀的分类器精度高和CoBAn表现良好的情况保密内容嵌入nonconfidential文档或描述,我们比较CBDLP的性能,CBDLP-Pr,支持向量机,CoBAn。我们评估本文方法的性能与真阳性率(TPR)和假阳性(玻璃钢),和我们的目标是最大化TPR和最小化同时玻璃钢。
我们进行实验在上面所述的三种情况。对于第一种场景中,我们选择“赚”为载体的新闻为机密内容,然后把它们放在新闻来自其他经济子集分别作为训练数据集和测试数据集。至于第二种类型的场景中,我们从文档中提取内容“赚”的子集和嵌入在文档子集。检测到嵌入式部分作为保密内容。至于第三种类型的场景中,我们手动改述“赚”的内容在文档子集和嵌入在文档子集。
以下4.4.1。机密文件
第一个场景的实验结果呈现在图5。如图5,当处理场景,机密文件被认为是作为一个整体,四个检测算法的性能没有多大差别。尽管如此,CBDLP CBDLP-Pr仍然执行略优于CoBAn和支持向量机,可以解释为,CoBAn的性能在一定程度上受到了限制,则不能有效地处理各种形状的簇,不过和SVM只关注保密条款忽略了上下文。在这种情况下,自包含机密条款都明确的文档作为机密文件,发现四种方法的性能没有太大区别。
4.1.2。保密部分嵌入Nonconfidential文档
第二个场景的结果呈现在图6。如图6,当处理情况保密部分嵌入nonconfidential文档,CBDLP, CBDLP-Pr, CoBAn执行比支持向量机,可以解释为,支持向量机是欺骗的场景由于其统计性质。正如所料,CBDLP的性能略优于CBDLP-Pr和CoBAn由于其修剪步骤图中删除冗余节点可能恶化的结果检测。
在这个场景中,从文档中提取机密部分定义为机密,然后嵌入nonconfidential文档的长度至少十倍提取的部分。由于统计特性,大多数包含机密部分的文档是错误检测到SVM nonconfidential,导致急剧下降SVM的准确性。除了SVM, CBDLP、CBDLP-Pr CoBAn考虑保密条款连同他们的上下文,和大多数nonconfidential包含嵌入的文档保密部分检测是保密的。
4.1.3。保密内容重新修改,Nonconfidential文档
第三个场景是的结果呈现在图7。如图7,当处理机密内容描述的场景和嵌入nonconfidential文档,支持向量机的性能大大恶化由于其统计性质。自描述的内容不太偏离从原来的意义,CBDLP CBDLP-Pr, CoBAn执行。此外,CBDLP的性能比CBDLP-Pr和CoBAn由于其修剪步骤,消除了冗余节点图。
在这个场景中,把保密条款是嵌入在nonconfidential文件混淆大大支持向量机,和大多数包含保密内容重新修改的文档作为nonconfidential错误检测。除了支持向量机,保密条款的背景下考虑,CoBAn检测大多数包含保密内容的文档;然而,CoBAn部分的准确性影响集群的条件图的质量取决于集群产生的则。因此,CBDLP集群文件以DBSCAN可以改善质量的集群和集群的条件图;同时,修剪方法消除了冗余节点图,进一步提高CBDLP的性能。
4.2。运行时间比较
在这个实验中,我们一起混合非机密文件的三个类型的机密文件,这是机密文件,机密内容嵌入nonconfidential文件和机密内容重新修改嵌入在非机密文件。实验采用10折交叉验证。比较CBDLP的运行时间、CBDLP-Pr CoBAn,支持向量机,我们不同大小的数据集进行实验。结果如图8训练阶段和测试阶段的运行时间也表现出线图CBDLP的运行时间,CBDLP-Pr, CoBan和SVM增加更多的文件被添加到数据集。虽然CBDLP的额外的步骤,CBDLP-Pr CoBan导致运行时间比支持向量机需求,运行时间仍然是一个数量级;更重要的是,CBDLP执行比支持向量机。
5。结论和未来的工作
在本文中,我们提出一个新的基于CBDLP模型,数据泄漏的预防方法,具有以下优点:(1)它与DBSCAN和余弦度量集群文件已被证实是有效的。(2)它代表了保密条款和他们的背景条件图。(3)它提出了一个修剪方法基于粗糙集理论的属性约简方法。
到目前为止,一些指定商业DLP解决方案可以减少大多数意外泄漏的风险;然而,他们不能提供足够的保护故意泄漏。和其他DLP的解决方案,如防火墙、IDS,防病毒软件,和管理政策,能够协助检测入侵或恶意软件和实施政策来保护数据,仍然不能完全防止故意泄漏。我们所知,可能有两个主要的DLP未来的研究主题,从移动设备和泄漏的数据意外造成的数据泄漏内幕。
因为意外数据泄漏可能攻击的一部分,他们的作用将主要用于激活一个先进的持续威胁在组织内部,它预计将继续是最具挑战性的研究课题之一。和我们未来的工作将集中在意外泄漏的数据在两个方向上。首先,尽量提高效率和有效性的CBDLP机密内容检测。其次,调整模型根据训练数据集的变化动态。
数据可用性
本研究中所有生成的数据或分析包括在发表的这篇文章。
的利益冲突
作者宣称没有利益冲突。
确认
研究支持下由中国国家自然科学基金批准号。61871140和61871140。