文摘

分类和分级系统采用不同的安全保护方案通过实现分类和分级管理不同类型的数据的数据,这是一个重要的数据安全保护和预防pretechnical意味着数据泄漏。介绍了人工智能分类、机器学习、和其他方式学习和培训企业文档根据企业敏感数据的特点。生成的训练模型可以智能地识别和分类文件流,提高工作效率和分类和分级精度。同时,差异,优势和缺点的事例(再邻居),DT(决策树),和LinearSVC算法进行了比较。实验数据表明,LinearSVC算法适用于高维数据,与离散,稀疏的数据特性和大量的特性,更适合企业敏感数据的分类。

1。介绍

随着互联网的出现加上时代,数据作为一个基本的战略资源的地位越来越突出(1- - - - - -3]。作为网络安全威胁日益突出,数据面临许多安全风险在存储、处理和传输。管理和监控的挑战伴随着它越来越严重4,5),所以建立一个数据分类和分级系统环境的基本前提是企业的快速发展6,7]。根据数据分类和分级的结果和公司的政策要求,有效地匹配整理数据和安全策略是企业提高其核心竞争力的重要手段。对于大型企业,数据安全面临许多问题和挑战。根据国际信息安全标准(8),不同的数据的重要性是不同的,和高价值数据需要更严格的保护机制。因此,作为数据安全保护的目标,和复杂的企业数据资产分为不同类别和多级分类和分级方法。根据数据的类型和值,不同的保护策略制定(9,10),和敏感数据的不断加强和改进安全管理变得更加突出和重要。

目前,国家已经颁布法律、法规等“网络安全法律的中华人民共和国”(11),清楚地说明“网络运营商应该遵守网络安全等级保护系统的要求,执行以下安全保护义务保护网络免受干扰,破坏,或未经授权的访问,防止网络数据泄露,被盗,或破坏,”和“采取措施如数据分类、重要数据备份,和加密”。数据结合工作有以下问题。首先,敏感数据的企业,由于缺乏严格的管理计算机网络的管理者和缺乏对网络安全的认识,为计算机很容易泄漏信息,导致一系列后续安全风险破坏计算机网络(12]。第二,大部分的理解政策,法规和标准也依赖于手工相结合。有可能的理解和解释政策、法规和标准可能会人为地扩大或减少。第三,与此同时,关于大数据业务类型的特点和大数据量的大型企业13,14),业务人员不能快速识别敏感数据是基于标准,和相应的保密级别定义敏感数据并不容易。因此,建立一个分类和分级目录相应的商业秘密保护的大型企业,建立一个更详细的分类和分级流程规范和实现指南根据业务数据,提高分类的效率和准确性和分级管理,为业务人员提供参考保密的文件,并形成合规管理措施是必要的(15,16]。

通过集成人工智能分类技术(17),本文进行自动分类和分类文件。本文比较了三种分类算法和显示LinearSVC算法的可行性和效果的分类和分级系统,以提高数据分类和分级的准确性18]。

2。分类和分级系统架构和部署

企业信息的分类和分级管理可以使企业的各种敏感数据信息及时抓住,高效、准确的方式(19]。这是一个重要的pretechnical意味着大规模企业保护数据安全,防止数据泄漏。根据数据隐私标准和企业管理系统,分类和分级管理企业敏感数据是制定更方便的数据安全策略和保护敏感数据。

1显示了分类和分级的部署。核心部分的分类和分级,人工智能服务器可以预测企业的分类和分级文件通过人工智能和机器学习分类和为用户提供更高层次的智能应用程序服务;负载均衡服务器的角色分配用户web服务器组;文件服务器和数据库,分别为文件提供存储和关系数据的分类和分级系统;和报表服务器提供了一个全面的显示分类和分级信息。

DLP系统连续捕获和分析网络上的交通将监视器的出口企业的外部网络和检测敏感数据和重要交通元素(20.通过协议(如SMTP)、FTP和HTTP防止敏感数据的转移。从图可以看出2的分类和分级系统集成了DLP(数据泄漏预防)系统来获取网络或终端数据泄漏事件信息并显示相关信息的组织与数据权限的基础上严格的权限控制设计。可以收集用户数据保护需求信息或安全管理部门的数据安全策略提供依据。同时,DLP系统与分类和分级交互系统比较外向的指纹与指纹数据库文件的分类和分级系统预测文件属于哪一类。

3所示。材料和方法

数据智能分类主要使用智能分类技术,形成不同类别的数据分类(21]。如图3,AI智能分类功能主要分为两个模块:人工智能训练和人工智能分类。人工智能的培训模块由一个独立的服务器处理。通过学习分类和分级的全额由用户上传的信息来源,生成系统模型,并上传AI分类模块,AI将分类文档根据分类模型。在人工智能分类模块,当用户输入的分类和分级信息,平台智能分类和为用户提供分类提示为用户提供一个参考。

3.1。数据预处理

能够计算分类算法的准确性,在模型训练之前,系统需要自动分类和标注示例文件,然后分类不准确的数据文件自动通过手动校对到正确的分类。手动校对步骤是非常重要的,对最终的精度有很大的影响。校对后的校准文件,如果需要获得高质量语料库数据在模型训练,应该事先预处理(数据22]。数据预处理流程图如图4

原文是第一次清洗。这是最后一个过程来发现和正确识别数据文件中的错误。它透过和验证数据,删除重复信息,纠正存在的错误,并提供数据一致性。之后,执行分词过程中,汉字分为单词,连续序列重组成词序列按照一定的规范。最后,停止词删除。单词,不会导致文本功能大致分为两类。一种停止词的特点是广泛的应用程序,可以发现在各种文件;例如,“公司”一词出现在几乎每一个文档,和文档的特征不能反映这样的单词。另一种停止词包括模态粒子,一个副词,介词,连词,通常没有明确的意义。这些话不会有特定的意义,直到他们投入一个完整的句子,如常见的“,”“,”等等。 After the data is preprocessed, the original text is expected to have higher quality prediction data for the next model training.

3.2。模型训练

将所有训练数据分成两部分,一个用于训练模型被称为训练集,和其他模型的精度检验称为测试集。然后TF-IDF(术语frequency-inverse文档频率)23)在两个数据集进行计算。计算过程如下:这个词 在每个解析。txt文件 ,这个词频率(TF)可以表示为如下方程: 在哪里 是这个词出现的次数 在文档中 和分母的和文档中出现的所有条款 IDF(逆文档频率)的主要思想是,如果有更少的包含这个词的文档 ,IDF的值越大,表明这个词 有一个良好的阶级歧视能力在整个文档集合。IDF表达如下: 在哪里 所有文件的总数在语料库和分母是所有包含这个词的文档的数量吗 TF-IDF重量实际上是两个参数的乘积。也就是说,

TF-IDF是一种常用的信息检索和数据挖掘的加权技术。这是一个统计方法用于评估一个单词的重要性文档集或一个语料库中的文件(24]。一个单词的重要性增加的比例在文档中出现的次数,但同时它减少成反比语料库中出现的频率。如果在一个特定类型的测试集文件的TF-IDF价值这个词 高,但在其他类别很低甚至0,表明这个词更重要的是这种类型的文档和拥有强大的分类能力这种类型的文档,它可以被视为特征字的文件。具体模型训练过程如下:TF-IDF计算执行文件数据中的词在每个类别的训练集;然后选择单词最强大的分类能力的特征字类型的文件。所以,使用这些特性进行分类器训练。最后,生成一个分类模型。每个模型的训练后,测试数据集需要被用来验证模型的准确性。当精度达到要求,模型能得救。如果没有达到更高的精度,有必要分类注释数据来确认是否有数据分类错误,然后调整模型的参数,评估模型,并重复这个过程,直到获得更高的精度。模型训练过程如图5

3.3。学习分类模型的函数

针对众多复杂的特性文件的企业,与企业制度的变化和不断增加的文件,有时需要更改分类标准和调整数据文件类别。AI智能分类模型学习框架如图6。模型学习服务,文件的框架由解析服务,和模型训练。语料库和新标准的分类reuploaded,调用文件解析服务将数据文件转换成一个txt文件,语料库是最初自动分类的基础上,新的分类标准。手动校对后,调用模型训练模块培训。结果是重复迭代实现模型的学习功能。

4所示。结果与讨论

4.1。几种常见的分类算法

逻辑回归(LR) [25),一个广义线性回归分析模型,基于s形的函数来处理大规模数据给样本属于每个类别的概率。逻辑回归算法通常用于解决两个分类问题;朴素贝叶斯(NB) [26),后验概率的一种计算方法,从先验概率,需要一个假想的前提。在实际的数据分类分析过程中,这个前提假设往往是太理想主义,这不是成立于实际情况。因此上述两种算法并不适用于企业数据multiclassification系统。

决策树(DT) [27)创建了一个树节点通过计算每个属性的信息增益和选择最高的属性信息增益测试给定数据集的属性,并与该属性标志,然后创建一个单独的分支为每个值的属性,并据此划分样本;再邻居(事例)28分类,一个analogy-based学习方法,通过将所有训练样本存储在一个n维空间模型,计算示例文件通过计算K接近给定的训练样本未知样本使用欧氏距离公式;LinearSVC [29日)是一个SVM(支持向量机)的分类算法。采用核函数技术,线性不可分的特性映射到高维空间,这样的特性可以分为在高维空间中。根据有限的样本信息,模型的复杂性(特定训练样本的学习精度)和学习能力(能够识别出任何样本没有错误)最大化的最大分离单独的类别来取得良好的分类预测的示例文件。

4.2。实验方案和结果

智能分类和分级模块基本上是文本分类的一个模块。文本分类是指输入文本的自动分类过程按照一定的分类系统通过计算机算法。算法的分类和分级模块由一个更成熟的机器学习算法实现。在机器学习中,有许多可以用于文本分类的算法。比较不同算法的优缺点后,结合企业的文本数据稀疏和离散特性,三个算法(决策树、事例和LinearSVC)选择适合企业文本分类的实验。

实验工作的探索模型的数据量训练精度和建模时间的三个分类算法,根据大多数企业系统和组织组件,企业数据通常可以大致分为12类,包括人员、审计、法律事务、材料采购、生产管理、技术管理、纪律检查和监督,维护信访、综合办公室、计划、财务、国际合作和政策研究。离散、稀疏和企业数据的功能丰富的特点,如果有太多的训练样本,会出现一些异常的特征值在离散和稀疏的企业数据,这将影响模型的准确性。与此同时,大量的训练数据不应太小;否则,它也会影响精度。针对训练样本的数量会影响这一事实分类模型的准确性,这个实验固定样本类别的大小为12探索的变化三分类算法的精度和建模时间的训练数据量为每个分类文件是40岁,60岁,80,100,120,140,160。值得注意的是,为了避免其他因素对实验的影响,所有实验在相同的硬件配置服务器。结果如图所示7

由于企业数据是离散的特性,稀疏,和众多类别进行分类,每个类别中功能重合程度越高,这使得模型的精度更容易受到影响。一般来说,企业文档大致分为12类:公司人事、财务、等等。根据企业的不同性质和不同的系统,数据类别的物种将略有变化。

当探索的训练样本数量的影响模型精度和建模时间,从图可以看出7建模时间增加训练样本的数量的增加,而模型的准确性由当地的三个算法峰值范围内的样本大小(75 - 100)。因此,对于实验工作探索企业数据分类类型的数量的影响精度和建模时间的三个分类算法,为了方便实验参数的计算,这个实验的固定训练样本大小是100个文件。因此,本实验探讨了变化的精度和建模时间三种分类算法在分类的数量是8,10,12日,14日,16日,18日和20日在序列相同的服务器硬件配置。三个算法的变化显示在图中8

4.3。实验结果分析

从数据和行可以看出图从两个实验,获得不同数量的训练样本,每个算法的模型训练时间几乎是相同的三个算法。但是决策树算法模型的训练时间一般在1 s,而其他两个算法基于事例和LinearSVC稍快的速度,1岁以上培训时间当训练样本规模超过100人。然而,在视图的准确性,LinearSVC分类算法优于其它两种算法;它的精度可以达到95%左右。LinearSVC分类算法的精度最高,当训练样本的数量大约是100文件。实验的不同类型的企业数据分类,所有算法的训练时间仍然是相似的,但LinearSVC分类算法的准确性最高,可达到95%左右。根据两个实验的结果,可以看出,当考虑用于建模的时候,三个分类算法是没有多少不同,但LinearSVC分类算法仍然有更好的精度比其他两种算法的两个实验,因此最适合在企业数据分类和分级系统中的应用。

5。应用程序验证和总结

5.1。实验结果分析

以石油企业为例,AI智能分类由LinearSVC算法的分类和分级系统的企业。然后,根据性质和系统的石油公司,该公司大约将数据划分为19类:人员、审计、法律事务、等等。与此同时,我们发现19从石油公司中类型的文档,和每种类型的文档的数量约为100。各种文档分为两个部分:训练集和测试集。两个文本集的数目可以灵活设置,通常设置为训练集和测试集的比例是4:1,但轻微的增加或减少的比率不会影响模型的准确性训练的结果。

数据文件的数量为每个分类的训练集和测试集分类如表所示12

监督模型训练是在企业进行分类和分级系统。当精度达到所需水平,模型生成。表3显示的准确性和时间培训企业分类和分级系统模型。

从表可以看出3当训练精度达到100%,在模型训练时间小于1,测试时,模型的精度可以达到94%,超过90%。因此,训练模型显示训练时间短、精度高的优点。

5.2。应用程序验证

为了验证系统的分类模型的准确性对敏感数据的分类文档的企业,3000年的数据文件随机选择测试文件在石油企业。测试文件被随机分为三组,连续三次系统测试和验证了三个指标:(3),(4)和(5)。

在前面的方程, 是正确的各种类型的数据的文档数量确定的分类模型, 文档的数量预测模型,然后呢 实际样品的总数。

4清楚地表明,在三个随机测试实验中,生成的模型显示伟大的分类效果:召回率达到95%以上,分类精度都高于94%。结果与测试部分的结论一致,表明该模型具有良好的稳定性,可以应用于企业敏感数据文档的分类。

关于分类错误的数据没有被验证,虽然数据不是分为正确的类别,它不会影响敏感文件的检测在实际场景。原因如下:增加敏感文件的分类类别,类别之间的差异分类标准将逐步减少。因此,在这种情况下,很容易导致误分类的数据。但事实上,即使被误诊为其他类别的数据,因为这些不同的类别也属于敏感文件的范畴,目的是防止泄漏敏感文件仍然可以实现。

6。结论

本文介绍了智能分类技术实现企业敏感数据的自动分类和分级。通过企业数据的智能管理,企业可以快速掌握的具体数量和分布信息的企业,大大减少了系统用户的学习成本,提高工作效率和数据分类和分级的准确性。企业数据分类和分级系统补偿不足的问题技术支持和系统适应性的多元化系统敏感数据分类和管理通过AI智能分类技术的集成。但是,当指企业文档分类的准确性,仍然有一些误分类。不准确的分类会影响检测的敏感文件的准确性。在未来,文档分类的准确性应改进的分类和分级系统,和错误分类应该最小化最大程度提供一个更准确的pretechnical意味着为企业数据安全保护和数据泄漏预防。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(61827811),国防基础研究项目(JCKY2019407C002),河北省教育部门支持计划(SLRC2019042),河北省融资项目的引入海外学生(C20200364)和中国石油天然气集团公司信息化建设项目(中石油- - 2018 n001)。