复杂性

在这一页上

文摘介绍材料和方法结果与讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

复杂性问题由先进的计算机仿真技术在智能城市2020人

把这个特殊的问题

研究文章|开放获取

体积2020年| 文章的ID6695484| https://doi.org/10.1155/2020/6695484

应用研究的智能分类技术在企业数据分类和分级系统

莉娜余 ,¹ Chunwei王 ,^1、2 洛常 ,¹ 盛沈 ,¹ 方侯 ,¹ 和Yingwei李 ¹

学术编辑器: Zhihan Lv

收到了 2020年10月22日

修改后的 2020年11月18日

接受 2020年11月25日

发表 2020年12月07

文摘

分类和分级系统采用不同的安全保护方案通过实现分类和分级管理不同类型的数据的数据,这是一个重要的数据安全保护和预防pretechnical意味着数据泄漏。介绍了人工智能分类、机器学习、和其他方式学习和培训企业文档根据企业敏感数据的特点。生成的训练模型可以智能地识别和分类文件流,提高工作效率和分类和分级精度。同时,差异,优势和缺点的事例(再邻居),DT(决策树),和LinearSVC算法进行了比较。实验数据表明,LinearSVC算法适用于高维数据,与离散,稀疏的数据特性和大量的特性,更适合企业敏感数据的分类。

1。介绍

随着互联网的出现加上时代,数据作为一个基本的战略资源的地位越来越突出(1- - - - - -3]。作为网络安全威胁日益突出,数据面临许多安全风险在存储、处理和传输。管理和监控的挑战伴随着它越来越严重4,5),所以建立一个数据分类和分级系统环境的基本前提是企业的快速发展6,7]。根据数据分类和分级的结果和公司的政策要求,有效地匹配整理数据和安全策略是企业提高其核心竞争力的重要手段。对于大型企业,数据安全面临许多问题和挑战。根据国际信息安全标准(8),不同的数据的重要性是不同的,和高价值数据需要更严格的保护机制。因此,作为数据安全保护的目标,和复杂的企业数据资产分为不同类别和多级分类和分级方法。根据数据的类型和值,不同的保护策略制定(9,10),和敏感数据的不断加强和改进安全管理变得更加突出和重要。

目前,国家已经颁布法律、法规等“网络安全法律的中华人民共和国”(11),清楚地说明“网络运营商应该遵守网络安全等级保护系统的要求,执行以下安全保护义务保护网络免受干扰,破坏,或未经授权的访问,防止网络数据泄露,被盗,或破坏,”和“采取措施如数据分类、重要数据备份,和加密”。数据结合工作有以下问题。首先,敏感数据的企业,由于缺乏严格的管理计算机网络的管理者和缺乏对网络安全的认识,为计算机很容易泄漏信息,导致一系列后续安全风险破坏计算机网络(12]。第二,大部分的理解政策,法规和标准也依赖于手工相结合。有可能的理解和解释政策、法规和标准可能会人为地扩大或减少。第三,与此同时,关于大数据业务类型的特点和大数据量的大型企业13,14),业务人员不能快速识别敏感数据是基于标准,和相应的保密级别定义敏感数据并不容易。因此,建立一个分类和分级目录相应的商业秘密保护的大型企业,建立一个更详细的分类和分级流程规范和实现指南根据业务数据,提高分类的效率和准确性和分级管理,为业务人员提供参考保密的文件,并形成合规管理措施是必要的(15,16]。

通过集成人工智能分类技术(17),本文进行自动分类和分类文件。本文比较了三种分类算法和显示LinearSVC算法的可行性和效果的分类和分级系统,以提高数据分类和分级的准确性18]。

2。分类和分级系统架构和部署

企业信息的分类和分级管理可以使企业的各种敏感数据信息及时抓住,高效、准确的方式(19]。这是一个重要的pretechnical意味着大规模企业保护数据安全,防止数据泄漏。根据数据隐私标准和企业管理系统,分类和分级管理企业敏感数据是制定更方便的数据安全策略和保护敏感数据。

图1显示了分类和分级的部署。核心部分的分类和分级,人工智能服务器可以预测企业的分类和分级文件通过人工智能和机器学习分类和为用户提供更高层次的智能应用程序服务;负载均衡服务器的角色分配用户web服务器组;文件服务器和数据库,分别为文件提供存储和关系数据的分类和分级系统;和报表服务器提供了一个全面的显示分类和分级信息。

DLP系统连续捕获和分析网络上的交通将监视器的出口企业的外部网络和检测敏感数据和重要交通元素(20.通过协议(如SMTP)、FTP和HTTP防止敏感数据的转移。从图可以看出2的分类和分级系统集成了DLP(数据泄漏预防)系统来获取网络或终端数据泄漏事件信息并显示相关信息的组织与数据权限的基础上严格的权限控制设计。可以收集用户数据保护需求信息或安全管理部门的数据安全策略提供依据。同时,DLP系统与分类和分级交互系统比较外向的指纹与指纹数据库文件的分类和分级系统预测文件属于哪一类。

3所示。材料和方法

数据智能分类主要使用智能分类技术,形成不同类别的数据分类(21]。如图3,AI智能分类功能主要分为两个模块:人工智能训练和人工智能分类。人工智能的培训模块由一个独立的服务器处理。通过学习分类和分级的全额由用户上传的信息来源,生成系统模型,并上传AI分类模块,AI将分类文档根据分类模型。在人工智能分类模块,当用户输入的分类和分级信息,平台智能分类和为用户提供分类提示为用户提供一个参考。

3.1。数据预处理

能够计算分类算法的准确性,在模型训练之前,系统需要自动分类和标注示例文件,然后分类不准确的数据文件自动通过手动校对到正确的分类。手动校对步骤是非常重要的,对最终的精度有很大的影响。校对后的校准文件,如果需要获得高质量语料库数据在模型训练,应该事先预处理(数据22]。数据预处理流程图如图4。

原文是第一次清洗。这是最后一个过程来发现和正确识别数据文件中的错误。它透过和验证数据,删除重复信息,纠正存在的错误,并提供数据一致性。之后,执行分词过程中,汉字分为单词,连续序列重组成词序列按照一定的规范。最后,停止词删除。单词,不会导致文本功能大致分为两类。一种停止词的特点是广泛的应用程序,可以发现在各种文件;例如,“公司”一词出现在几乎每一个文档,和文档的特征不能反映这样的单词。另一种停止词包括模态粒子,一个副词,介词,连词,通常没有明确的意义。这些话不会有特定的意义,直到他们投入一个完整的句子,如常见的“,”“,”等等。 After the data is preprocessed, the original text is expected to have higher quality prediction data for the next model training.

3.2。模型训练

将所有训练数据分成两部分,一个用于训练模型被称为训练集,和其他模型的精度检验称为测试集。然后TF-IDF(术语frequency-inverse文档频率)23)在两个数据集进行计算。计算过程如下:这个词在每个解析。txt文件 ,这个词频率(TF)可以表示为如下方程: 在哪里是这个词出现的次数在文档中和分母的和文档中出现的所有条款。IDF(逆文档频率)的主要思想是,如果有更少的包含这个词的文档 ,IDF的值越大,表明这个词有一个良好的阶级歧视能力在整个文档集合。IDF表达如下: 在哪里所有文件的总数在语料库和分母是所有包含这个词的文档的数量吗。TF-IDF重量实际上是两个参数的乘积。也就是说, 。

TF-IDF是一种常用的信息检索和数据挖掘的加权技术。这是一个统计方法用于评估一个单词的重要性文档集或一个语料库中的文件(24]。一个单词的重要性增加的比例在文档中出现的次数,但同时它减少成反比语料库中出现的频率。如果在一个特定类型的测试集文件的TF-IDF价值这个词高,但在其他类别很低甚至0,表明这个词更重要的是这种类型的文档和拥有强大的分类能力这种类型的文档,它可以被视为特征字的文件。具体模型训练过程如下:TF-IDF计算执行文件数据中的词在每个类别的训练集;然后选择单词最强大的分类能力的特征字类型的文件。所以,使用这些特性进行分类器训练。最后,生成一个分类模型。每个模型的训练后,测试数据集需要被用来验证模型的准确性。当精度达到要求,模型能得救。如果没有达到更高的精度,有必要分类注释数据来确认是否有数据分类错误,然后调整模型的参数,评估模型,并重复这个过程,直到获得更高的精度。模型训练过程如图5。

3.3。学习分类模型的函数

针对众多复杂的特性文件的企业,与企业制度的变化和不断增加的文件,有时需要更改分类标准和调整数据文件类别。AI智能分类模型学习框架如图6。模型学习服务,文件的框架由解析服务,和模型训练。语料库和新标准的分类reuploaded,调用文件解析服务将数据文件转换成一个txt文件,语料库是最初自动分类的基础上,新的分类标准。手动校对后,调用模型训练模块培训。结果是重复迭代实现模型的学习功能。

4所示。结果与讨论

4.1。几种常见的分类算法

逻辑回归(LR) [25),一个广义线性回归分析模型,基于s形的函数来处理大规模数据给样本属于每个类别的概率。逻辑回归算法通常用于解决两个分类问题;朴素贝叶斯(NB) [26),后验概率的一种计算方法,从先验概率,需要一个假想的前提。在实际的数据分类分析过程中,这个前提假设往往是太理想主义,这不是成立于实际情况。因此上述两种算法并不适用于企业数据multiclassification系统。

决策树(DT) [27)创建了一个树节点通过计算每个属性的信息增益和选择最高的属性信息增益测试给定数据集的属性,并与该属性标志,然后创建一个单独的分支为每个值的属性,并据此划分样本;再邻居(事例)28分类,一个analogy-based学习方法,通过将所有训练样本存储在一个n维空间模型,计算示例文件通过计算K接近给定的训练样本未知样本使用欧氏距离公式;LinearSVC [29日)是一个SVM(支持向量机)的分类算法。采用核函数技术,线性不可分的特性映射到高维空间,这样的特性可以分为在高维空间中。根据有限的样本信息,模型的复杂性(特定训练样本的学习精度)和学习能力(能够识别出任何样本没有错误)最大化的最大分离单独的类别来取得良好的分类预测的示例文件。

4.2。实验方案和结果

智能分类和分级模块基本上是文本分类的一个模块。文本分类是指输入文本的自动分类过程按照一定的分类系统通过计算机算法。算法的分类和分级模块由一个更成熟的机器学习算法实现。在机器学习中,有许多可以用于文本分类的算法。比较不同算法的优缺点后,结合企业的文本数据稀疏和离散特性,三个算法(决策树、事例和LinearSVC)选择适合企业文本分类的实验。

实验工作的探索模型的数据量训练精度和建模时间的三个分类算法,根据大多数企业系统和组织组件,企业数据通常可以大致分为12类,包括人员、审计、法律事务、材料采购、生产管理、技术管理、纪律检查和监督,维护信访、综合办公室、计划、财务、国际合作和政策研究。离散、稀疏和企业数据的功能丰富的特点,如果有太多的训练样本,会出现一些异常的特征值在离散和稀疏的企业数据,这将影响模型的准确性。与此同时,大量的训练数据不应太小;否则,它也会影响精度。针对训练样本的数量会影响这一事实分类模型的准确性,这个实验固定样本类别的大小为12探索的变化三分类算法的精度和建模时间的训练数据量为每个分类文件是40岁,60岁,80,100,120,140,160。值得注意的是,为了避免其他因素对实验的影响,所有实验在相同的硬件配置服务器。结果如图所示7。

(一)

(b)

由于企业数据是离散的特性,稀疏,和众多类别进行分类,每个类别中功能重合程度越高,这使得模型的精度更容易受到影响。一般来说,企业文档大致分为12类:公司人事、财务、等等。根据企业的不同性质和不同的系统,数据类别的物种将略有变化。

当探索的训练样本数量的影响模型精度和建模时间,从图可以看出7建模时间增加训练样本的数量的增加,而模型的准确性由当地的三个算法峰值范围内的样本大小(75 - 100)。因此,对于实验工作探索企业数据分类类型的数量的影响精度和建模时间的三个分类算法,为了方便实验参数的计算,这个实验的固定训练样本大小是100个文件。因此,本实验探讨了变化的精度和建模时间三种分类算法在分类的数量是8,10,12日,14日,16日,18日和20日在序列相同的服务器硬件配置。三个算法的变化显示在图中8。

(一)

(b)

4.3。实验结果分析

从数据和行可以看出图从两个实验,获得不同数量的训练样本,每个算法的模型训练时间几乎是相同的三个算法。但是决策树算法模型的训练时间一般在1 s,而其他两个算法基于事例和LinearSVC稍快的速度,1岁以上培训时间当训练样本规模超过100人。然而,在视图的准确性,LinearSVC分类算法优于其它两种算法;它的精度可以达到95%左右。LinearSVC分类算法的精度最高,当训练样本的数量大约是100文件。实验的不同类型的企业数据分类,所有算法的训练时间仍然是相似的,但LinearSVC分类算法的准确性最高,可达到95%左右。根据两个实验的结果,可以看出,当考虑用于建模的时候,三个分类算法是没有多少不同,但LinearSVC分类算法仍然有更好的精度比其他两种算法的两个实验,因此最适合在企业数据分类和分级系统中的应用。

5。应用程序验证和总结

5.1。实验结果分析

以石油企业为例,AI智能分类由LinearSVC算法的分类和分级系统的企业。然后,根据性质和系统的石油公司,该公司大约将数据划分为19类:人员、审计、法律事务、等等。与此同时,我们发现19从石油公司中类型的文档,和每种类型的文档的数量约为100。各种文档分为两个部分:训练集和测试集。两个文本集的数目可以灵活设置,通常设置为训练集和测试集的比例是4:1,但轻微的增加或减少的比率不会影响模型的准确性训练的结果。

数据文件的数量为每个分类的训练集和测试集分类如表所示1和2。

监督模型训练是在企业进行分类和分级系统。当精度达到所需水平,模型生成。表3显示的准确性和时间培训企业分类和分级系统模型。

从表可以看出3当训练精度达到100%,在模型训练时间小于1,测试时,模型的精度可以达到94%,超过90%。因此,训练模型显示训练时间短、精度高的优点。

5.2。应用程序验证

为了验证系统的分类模型的准确性对敏感数据的分类文档的企业,3000年的数据文件随机选择测试文件在石油企业。测试文件被随机分为三组,连续三次系统测试和验证了三个指标:(3),(4)和(5)。

在前面的方程,是正确的各种类型的数据的文档数量确定的分类模型,文档的数量预测模型,然后呢实际样品的总数。

表4清楚地表明,在三个随机测试实验中,生成的模型显示伟大的分类效果:召回率达到95%以上,分类精度都高于94%。结果与测试部分的结论一致,表明该模型具有良好的稳定性,可以应用于企业敏感数据文档的分类。

关于分类错误的数据没有被验证,虽然数据不是分为正确的类别,它不会影响敏感文件的检测在实际场景。原因如下:增加敏感文件的分类类别,类别之间的差异分类标准将逐步减少。因此,在这种情况下,很容易导致误分类的数据。但事实上,即使被误诊为其他类别的数据,因为这些不同的类别也属于敏感文件的范畴,目的是防止泄漏敏感文件仍然可以实现。

6。结论

本文介绍了智能分类技术实现企业敏感数据的自动分类和分级。通过企业数据的智能管理,企业可以快速掌握的具体数量和分布信息的企业,大大减少了系统用户的学习成本,提高工作效率和数据分类和分级的准确性。企业数据分类和分级系统补偿不足的问题技术支持和系统适应性的多元化系统敏感数据分类和管理通过AI智能分类技术的集成。但是,当指企业文档分类的准确性,仍然有一些误分类。不准确的分类会影响检测的敏感文件的准确性。在未来,文档分类的准确性应改进的分类和分级系统,和错误分类应该最小化最大程度提供一个更准确的pretechnical意味着为企业数据安全保护和数据泄漏预防。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(61827811),国防基础研究项目(JCKY2019407C002),河北省教育部门支持计划(SLRC2019042),河北省融资项目的引入海外学生(C20200364)和中国石油天然气集团公司信息化建设项目(中石油- - 2018 n001)。

引用

j·坎波斯,p .沙玛,g . Gabiria e . Jantunen和d . Baglee”资产管理大数据分析架构,”Procedia CIRP卷,64年,第374 - 369页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
h·w·歌,y, j . Wang,孟y,和r . Cheng”研究的特点和价值分析电网数据资产,”Procedia计算机科学卷,139年,第164 - 158页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
黄z . Liu b, b . et al .,“决策优化低碳双通道的汽车零部件供应链基于智能城市建筑,”复杂性,卷2020,不。5、文章ID 2145951, 14页,2020。
视图: 出版商的网站 | 谷歌学术搜索
T.-M。崔h . k . Chan和x曰,“最近发展的大数据分析业务操作和风险管理”IEEE控制论卷,47号1,第92 - 81页,2017。
视图: 出版商的网站 | 谷歌学术搜索
诉诉Glukhov,即诉Ilin和a . b . Anisiforov”工业公司企业架构,数据保护的问题”第八届国际会议的程序信息和网络的安全页34-37,西安,中国,2015。
视图: 谷歌学术搜索
d .核心”,企业支持文档文本分类的应用。”论文,2012年。
视图: 谷歌学术搜索
s ay, c . Riege和r .冬天,“企业架构scenarios-an探索性分析,分类”企业建模与信息系统架构(EMISAJ),3卷,不。1、5、2008页。
视图: 谷歌学术搜索
k磨练和j·h·Eloff”信息安全政策——国际信息安全标准怎么说?”电脑与安全,21卷,不。5,402 - 409年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
s . Alneyadi大肠Sithirasenan,诉Muthukkumarasamy”semantics-aware分类数据泄漏预防方法”,澳大拉西亚的会议信息安全与隐私,8544卷,2014年。
视图: 谷歌学术搜索
H.-C。燕,黄永发。周,c·k·庞”高斯混合模型使用semisupervised学习概率故障诊断新数据类别下,“IEEE仪表和测量,卷66,不。4、723 - 733年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m .阳伞”的影响,中国2016年的网络安全法律对外国技术公司,和中国的大数据,智能城市的梦想,”计算机法律和安全审查,34卷,不。1,第98 - 67页,2018。
视图: 出版商的网站 | 谷歌学术搜索
t . Lewellen g . j . Silowash d·l·科斯塔et al。内部威胁控制:使用剽窃检测算法来防止数据在近乎实时的漏出美国宾夕法尼亚州匹兹堡卡内基梅隆大学,2011。
视图: 出版商的网站
m . Sogodekar Pandey,即Tupkari, a . Manekar“大数据分析:hadoop和工具,”学报2016年IEEE孟买节研讨会(ibs)IEEE,页1 - 6,孟买,印度,2016。
视图: 谷歌学术搜索
r·h·律,p . Li Yan, h .钱和b .盛,“高可用性部署对于大型企业,”国际会议程序进展信息和计算(图片)IEEE,页503 - 507年,上海,中国,2016。
视图: 谷歌学术搜索
s . Daskalaki i Kopanas, n . m . Avouris”与不平衡企业数据预测分类”,企业数据:数据挖掘算法中的最新进展和应用程序》第六卷,第188 - 147页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
e . Nwafor p Chowdhary, A·钱德拉”文档分类和企业安全策略驱动的框架,”学报2016年Intl IEEE会议无处不在的智能和计算、先进、可信计算、可伸缩的计算和通信、云计算和大数据计算,互联网的人,聪明的世界大会图卢兹,页949 - 953年,法国,2016年。
视图: 谷歌学术搜索
h .梁j .邹、k .左和m . j .汗”一种改进的遗传算法优化模糊控制器应用于井口回压控制系统,”机械系统和信号处理文章ID 106708卷,142年,2020年。
视图: 谷歌学术搜索
梁h ., A .西安m .毛p .倪和h . Wu”研究远程压裂监测和决策方法支持智能城市,“可持续城市和社会文章ID 102414卷,62年,2020年。
视图: 谷歌学术搜索
d . Ben-David t Domany, a . Tarem“企业数据分类使用语义web技术,”程序的语义Web-ISWC-International语义Web会议斯普林格出版社,雅典,希腊,2010。
视图: 出版商的网站 | 谷歌学术搜索
梁h . j .邹z, Li m·j·汗和y,“钻井泄漏风险动态评估基于模糊理论和PSO-SVR算法,”未来一代计算机系统卷,95年,第466 - 454页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
a . v . sachenko搜索技术在智能分类系统施普林格国际出版,柏林,德国,2016年。
徐黄z、x、j .倪h·朱和c·王,“多通道表示学习建议在物联网中,“IEEE物联网》第六卷,没有。6,10675 - 10685年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
a . Abu-Errub”,阿拉伯语的文本分类算法使用TFIDF和x平方分布测量,”国际期刊的计算机应用程序,卷93,不。6,降价,2014页。
视图: 出版商的网站 | 谷歌学术搜索
y, r·朱z . Chen j .高和d .夏,“通过信息评估和选择特性的理论下界特性为高维数据内在相关性,”欧洲运筹学杂志》上,2020年。
视图: 出版商的网站 | 谷歌学术搜索
k·a·基廷和樱桃,“使用和解释的逻辑回归在生境利用的研究中,“野生动物管理》杂志上,卷68,不。4、774 - 789年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
s . b . Kim k . s .汉h . c . Rim和s . h . Myaeng“一些有效的朴素贝叶斯的文本分类技术。”IEEE知识&数据工程,18卷,不。11日,第1466 - 1457页,2006年。
视图: 谷歌学术搜索
s, s .叮,l .钱“决策树分类及其应用研究在土地覆盖,“遥感技术与应用,17卷,不。1,2002。
视图: 谷歌学术搜索
m . Potamias f . Bonchi a Gionis, g . Kollios”再邻居在不确定图”,美国养老,3卷,不。1 - 2、997 - 1008年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
j . Lehečka和j .Švec捷克新闻文章,提高多标记文档分类”文本、演讲和对话施普林格国际出版,柏林,德国,2015年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

856年

下载

798年

引用