文摘

广泛的数据收集由物联网(物联网)设备可以把用户数据泄漏的风险。因此,物联网供应商在法律上有义务提供隐私政策声明数据收集的范围和目的。然而,复杂和冗长的隐私政策对用户不友好,而缺乏一种机器可读格式很难自动检查策略遵从性。为了解决这些问题,我们首先提出一个purpose-aware规则形式化目的导向的数据收集或使用的声明。这时,一个新颖的方法来识别自然语言提出了隐私策略的规则。解决问题的多样性表达目的,我们提出显性和隐性的概念的目的,这使使用句法和语义分析在不同的句子中提取的目的。最后,域适应方法应用于语义角色标注(SRL)模型来提高萃取效率的目的。手动标注数据集上进行的实验表明,这种方法可以从隐私政策中提取purpose-aware规则高召回率为91%。调整模型的隐式目的提取F1-score显著提高了11%。

1。介绍

物联网应用程序覆盖人们的生活的各个方面,如智能家居、可穿戴设备健康管理和交通监控。用户在享受物联网应用带来的便利的同时,也承担更大风险的个人信息泄漏比通用的应用程序。物联网应用程序收集的数据不仅来自智能手机也从各种智能设备,更接近用户的日常生活,所以这些数据是更敏感1]。数据的收集和使用应该更严格遵守规定。此外,由于潜在的物联网数据采集的不引人注目的性质,用户可能不知道什么信息被收集和为什么它是收集2,3]。为了解决上述问题,数据保护法律、法规,如一般的数据保护监管(GDPR),要求收集和使用数据之前,物联网应用程序供应商必须通知用户的隐私政策,获得他们的同意这句话4]。隐私政策描述应用程序的数据实践(5),特别是收集哪些数据和如何使用它。然而,隐私政策的繁琐和复杂的作品妨碍用户阅读和理解这些政策(6,7]。法律协议,自然语言隐私政策缺乏一个机器可读的形式来处理自动化合规验证,也就是说,是否隐私政策提供了法律要求的所有信息,并实现符合隐私声明(8,9]。

有多种分析工具可以从隐私政策中提取关键信息,帮助用户快速访问的政策利益。这些工具的一种常见做法是分类和标签的声明方隐私政策等分类收集和第三方共享(10- - - - - -12]。粗略的分类的结果是,用户仍然需要读取语句获取细节,如数据收集的意图。为了克服这个问题,一些工具引入体力劳动与特定领域知识注释中的细粒度信息隐私政策(13),其中一个需要平均72分钟的政策(5]。这个解决方案存在效率低下和耗时。在合规方面,近期作品已经开始从隐私政策中提取结构化数据收集或使用语句违反分析数据(14,15]。这些研究的重点是使用未申报数据,很少考虑所用的数据是合格的目的在隐私政策。关键概念的目的是数据保护法规(16]。GDPR显然法术目的限制;即“个人资料应收集指定,明确、合法的目的,而不是进一步处理的方式是不符合这些目的。”因此,目的语句的表达和提取数据合规的隐私政策是至关重要的(17]。然而,表达的目的是不同的,可以是名词或动词词组在自然语言文档。它不像动作元素,它是自然的一个动词,也没有组织实体,如“谷歌”“Facebook”或数据对象,如“name”和“电子邮件地址”,这是命名实体的一种。因此,提取的目的不仅可以依靠词法和语法分析提取操作,数据对象实体,但也需要语义分析。

为了克服上述问题,我们提出一个方法来表达和自动提取purpose-aware隐私政策规则,叫做PurExt。首先,数据收集和使用在隐私政策声明正式作为purpose-aware规则,这是一个四元组元素作为演员,行动,数据对象和目的。规则表明一些数据对象收集或使用(行动)在一定演员在一定目的。然后,通过隐私政策的调查,本研究定义了两种类型的表达式,目的明确的目的和隐含的目的,并实现了自动提取规则元素结合句法和语义分析。最后,验证PurExt隐私政策的有效性数据集收集从物联网应用和人工注释。这种方法可以应用在以下方面。首先,这种方法可以利用我的访问控制策略(acp)安全规范,因为purpose-aware规则近机场核心计划的草案。第二,PurExt可以帮助隐私政策分析工具来提高细粒度信息提取的能力。第三,PurExt的提取结果可以进行数据的基础和起点合规研究目的。

这项工作的主要贡献如下:(我)purpose-aware规则提出了形式化和表达的数据收集和使用在隐私政策声明。规则的元素是由数据收集和使用目的,这是隐私保护的核心概念。(2)自然语言的自动提取规则提出了隐私政策。显式和隐式定义目的指定目的表达和识别结合SRL语法分析。我们所知,这是第一个研究提取purpose-centric规则从隐私政策。实验数据集从真正的IoT-related应用证明了该算法的有效性。(3)领域适应用于提高SRL的效率领域的隐私政策。实验表明,隐式的F1-score目的domain-adapted SRL模型提取的增加11%。

本文的其余部分组织如下:在部分2,相关工作领域的物联网隐私政策分析,政策与NLP提取,介绍了SRL的工具。我们详细说明PurExt核心概念的部分3。之后,详细描述PurExt提出了部分4。部分5提供了广泛的实验结果评估建议的方法。最后一节总结本文并指出了未来的研究方向。

2.1。在物联网隐私政策分析

通过意识到体会到问题对隐私政策和合规评估其重要性,几项研究对隐私政策分析近年来出现。Parvaneh et al。18]利用分类和图论方法使隐私政策的结构和分类,以帮助用户更好地理解他们。Onu et al。19)定义了一个分类框架,它使用一种类似树状的层次模型在物联网环境下的隐私政策。一个框架称为Polisis [20.]提出了划分一个隐私政策成了碎片,并分配一组标签的片段,描述其数据实践。Subahi和Theodorakopoulos21]提出的八个标准物联网隐私政策和实现一个测试床为确保合规的物联网数据披露相应的隐私政策。验证应用程序的行为是否根据其隐私政策,Zimmeck et al。22提议使用一个自动分析系统,是基于机器学习和静态分析来识别潜在的隐私需求不一致。通过考虑一个隐私政策的潜在矛盾,本雅明等人提出了一个自动分析工具叫做PolicyLint [14),提取结构化数据收集和共享报表和识别内部矛盾。此外,他建议POLICHECK [23),这是一个entity-sensitive flow-to-policy一致性模型,该模型是基于从PolicyLint提取结果。几位工作24,25)建模数据的识别在隐私政策实践语句作为一个分类问题。以这种方式得到的分类结果是一些粗粒度的标签,这都是不利于合规分析具体的条款,其中包括特定数据的处理是否坚持声明的意图。巴蒂亚和。布鲁11,26)提出了一个语义框架表示数据的做法,可以被用来识别上下文不完备数据操作。这项工作向隐私政策的分析引入了语义角色。然而,他们使用一个低效率的人工注释的方式而不是自动语义角色标注工具。

2.2。政策与NLP提取

最早试图从自然语言中提取数据访问信息安全规范与NLP自动提取机场核心计划。肖et al。27)提出了第一个工作从自然语言的软件文档中提取acp和生产正式规范,叫做Text2Policy。描述acp第一次分开的句子其它无关的文本通过执行匹配四个预定义的模式。然后,通过使用注释部分匹配的模式,他们确定了主题,行动,从句子和资源元素。这种方法的主要缺点是,ACP句子以外的预定义的模式不能分辨。已经证实,只有34.4%的ACP句子匹配被发现的四种模式(28]。然而,这仍然是启蒙工作,导致许多后续研究。Slankas和威廉姆斯(29日)提出了访问控制的概念关系提取(亩),这是一个把自然语言处理和机器学习的方法来提取ACP元素。他们使用分类算法来确定这些句子是否与访问控制。启动过程中采用提取ACP实例从一个小的种子依赖图模式。随后,提出了一个扩展的英亩(28]。与前面的方法,再投票支持(资讯),朴素贝叶斯和简单向量机取而代之的是句子中的资讯分类算法识别阶段。Narouei et al。30.]介绍了四种不同的功能改善的影响区分ACP句子从其他的句子。随后,他们试图利用语义角色标注识别ACP的元素(31日),但该方法的识别效果在不同的数据集有很大的不同。所有上述方法可用于提取政策。然而,他们提取对象acp的元素,如角色、资源,和属性,几乎不涉及数据的收集和使用目的,这是一个重要的概念在隐私政策。

2.3。生存研究实验室的工具

SRL浅层语义解析任务,目标是识别句子中动词谓语的参数,并将语义标签分配给这些参数(32]。SRL从句子的行动谓词来确定其他句子成分对应于谁对谁做了什么,,,,为什么。这些信息用于识别的关键概念的数据收集和使用声明一个句子。评估的影响不同的SRL工具提取出结构化的数据收集和使用语句,PurExt算法是基于四个SRL工具实现的。EasySRL [33),它是用Java编写的,提供了一个语义角色贴标签机和组合范畴的语法解析器。Mate-tools [34)提供一个管道的模块,执行词元化,词性(POS)标签,依赖解析和SRL的句子。独立于语言的,高精度的工具。语义/句法提取使用神经网络体系结构(塞纳)[35)是一种SRL PropBank语料库训练程序,还提供了其他常见的词类等自然语言处理任务,分块,命名实体识别(尼珥)。与其他SRL系统,塞纳将语义角色赋给句子成分没有语法树的帮助,从而导致更好的效率。漩涡(36)是一个SRL系统之上构建完整的英语语法分析的文本。漩涡一个用户友好的特性;即模型可以接受再培训,通过应用程序编程接口(API)所提供的系统,它允许用户添加特定领域的知识。

3所示。Purpose-Aware规则

在这一章,我们定义purpose-aware规则基于隐私政策目的的意义,它指定对象中提取。分析了自然语言和目的表达澄清提取方法。

3.1。隐私政策的目的

目的是隐私政策的关键概念,这解释了数据收集和使用的原因。它决定了用户是否会同意的数据收集和使用应用程序的行为。虽然目的是显示为几个单词或短语在隐私政策,目的是约束的内涵在收集数据和如何使用它。

例1。我们说明的意义目的使用隐私政策从小米穿应用。声明“促进登记你的聪明的这套应用程序,我们会收集你的Mi账户相关信息,智能这套标识,标识符的手机(IMEI号码加密通过散列算法),手机模型、操作系统版本,和蓝牙智能这套”信息的隐私政策表明,比如帐户的数据,标识符的设备,和操作系统版本只允许收集智能衣物的登记的目的,如图1
从这个例子中,我们可以看到,一个目的是特定对象相关的数据,对数据执行操作,执行行动的演员。由这一观点,数据收集和使用声明正式作为purpose-aware规则,它可以被视为一组演员,行动,和数据对象由一个目的。

定义1。(purpose-aware规则)。purpose-aware规则定义为一个元组: 在哪里演员是对数据执行操作的实体对象,行动数据对象上执行的操作,数据对象数据相关目的,目的的目的是数据收集和使用情况。

例2。声明的例子1可以正式作为purpose-aware规则 ({},{收集},{Mi帐户,智能这套标识,标识符的手机(IMEI号码加密通过散列算法),手机模型、操作系统版本,蓝牙信息智能这套},登记你的智能应用这套)
该规则的一个好处是它的元素直接或内在联系和实现层数据访问控制的概念。虽然规则元素提取的隐私政策大多是抽象的,高级面向用户的规则可以通过层次提炼成低级操作政策和演绎方法(37,38]。例如,数据对象“个人信息”,最常出现在隐私政策可以精炼和映射到领域如“name”和“时代”在数据库中。相反,还可以判断底层数据实践符合数据使用声明的隐私政策通过感应元素。

3.2。目的表达自然语言

有关规则的表达元素在自然语言中,演员和数据对象通常是名词和视为一种命名实体(14作为一个动词,行动是礼物。因此,它们可以被识别和基于这些词汇从自然语言句子中提取特征。然而,刑罚的目的是模棱两可的。

因为数据收集的目的是解释原因和使用行为,它通常是作为附加的语义作用目的一些关键词,如“为了”和“,”修改收集和使用的动词动作的句子;例如,“我们使用购买记录来分析用户的偏好。“使用行为的统计显示,78%的语义角色修改隐私政策的目的(26]。根据我们的观察大量的隐私政策,这也是最常见的方式出现在隐私政策文件。与此同时,我们发现另一个外观的目的“收集购买记录的目的是偏好分析。”在这种情况下,句子的谓语不再是一个收集或使用(8)动词,所以不能连接到目的谓词语义角色但只能单独出现。通过分析两种结构和关键成分的句子,两种模式的目的表达自然语言隐私政策得出的结论如下:

3.2.1之上。明确的句子

这类句子的主干是国家直接目的。的模式是P名词+ / +目的,P名词是名词代表的目的, 等连接动词“是”和“,”和 动词是表示包含的意义。

例3。“收集你的位置数据和速度的目的是分析您的培训统计”和“使用您的姓名和电子邮件地址的原因包括网站帐户登记”是明确的句子。
隐式的句子:这类句子的主干是状态数据收集或使用行为,并收集或使用行动修改语义角色的目的。的模式是 在哪里 是代表收集和使用行为动词,sbj的主题是什么 ,数据代表了收集和使用的数据对象。

例4。“应用程序将收集您的心率和脉搏建议未来运动”是一个隐式的句子。
两种模式只代表不同的表现目的的自然语言句子,但目的的语义不会根据其表现不同。两种模式的定义和特点也决定了提取方法两个目的。隐式的目的使用语义角色标注句子可以很容易地确定,而目的明确的句子,可以提炼出基于句法的特征模式。区分的来源提取的目的,从一个显式的句子叫做提取的目的明确的目的,从一个隐式的句子叫做目的隐含的目的

4所示。PurExt

为了确定purpose-aware规则的隐私政策,我们提出一个自动规则提取框架,PurExt。该方法的总体视图如图2。每一步的细节将在以下小节中描述。

4.1。预处理

本研究使用开源库,宽大的39),执行一系列基本自然语言句子的预处理。宽大的是一个快速NLP工具箱,在Python中实现。断词,一个句子的词类,尼珥可以很容易地和连续通过构造一个管道任务完成。标记将文本分隔成单独的单词,这使我们能够获得的最小单位处理。POS标签分配的令牌提供了所需的词汇信息尼珥和依赖解析。作为一种重要的初步提取的任务关系,尼珥的目标是识别短语代表真实世界的对象,如名称、地理位置,组织,和日期,用相应的命名实体的标签和标签。PurExt domain-adapted尼珥模型适用于标签的实体有关的隐私政策。例如,“名字”和“时代”作为命名实体类型的注释数据对象,“我们”和“广告”是命名实体类型的注释实体。尼珥模式识别的能力数据对象实体特定于隐私政策培训宽大的尼珥的引擎有500带注释的句子从隐私政策。

4.2。句子的分类

句子分类的目标是将句子划分为显式的句子,隐式的句子,和其他的句子。明确的句子和隐式的句子都是相关数据收集或使用声明,以及规则提取的目标,所以我们称之为虽为简洁的句子。其他句子描述服务条款等信息,数据保留,政策更新,或联系信息。因为他们有与数据收集或使用声明,他们不处理。

中描述的算法1SentenceClassification(),句子分类的第一步是建立一个依赖树为每个句子。依赖性解析树草图的词法结构句子单词之间通过构造一个依赖关系。

输入:一个句子 分类。
输出:一个句子类别标签 ,在哪里 为明确的句子, 隐式的句子, 其他的句子。
(1) 构造一个依赖树结构
(2) 的根
(3) 如果 是一个 然后
(4) 如果这个话题 是一个Pnoun然后
(5) 如果 由补充修改包含至少一个计谋是动词然后
(6) 返回
(7) 其他的
(8) 返回
(9) 如果
(10) 其他的
(11) 返回
(12) 如果
(13) 其他的如果 是计谋是动词然后
(14) 如果的对象 包含至少一个数据对象然后
(15) 返回
(16) 其他的
(17) 返回
(18) 如果
(19) 其他的
(20) 返回
(21) 如果

句子的分类从依赖树的根节点开始。明确的句子有两个陈述目的的方法。(1)句子的谓语表示的关系存在,这通常是一个连接动词(表示 ),意思是“什么是目的。“(2)谓词表示包含关系,通常一个动词包含(表示为代表的意义 ),如“包括”和“包含”,传达了“目的包括什么。“因此,如果句子的谓语满足其中一个条件,这个句子有潜力成为一个显式的句子。然而,如果谓词描述数据收集或使用行为(为简便起见,这些动词被称为计谋是动词,表中列出1),这句话是一个潜在的隐式的句子。那些不满足上述两个条件被归类为其他句子,不会分析。所筛选的候选句子谓语被确定为显式的句子在两个方面。首先,目的名词主语的谓语(Pnoun呼吁简洁,这是列在表中1),也就是说,一个名词,指的是目的。第二,Pnoun修改的补充描述了数据收集或使用的声明。这个约束关系旨在避免错误的目的。隐式句子的附加条件是包含至少一个数据对象。通过句子分类,加工范围缩小,要提取的元素的位置大致位置。

4.3。规则提取

这一步的目的是提取演员,行动,数据对象和目的,从句子形式的数据安全规则。由于目的的不同表达式,明确句子的元素提取是基于句法分析,而显式的提取句子主要是基于语义分析。

4.3.1。元素提取显式的句子

据的定义明确的句子,主语的谓语,也就是说,Pnoun,被修改的数据收集或使用声明,这表明目的的关系。因此,行动和数据对象的提取首先解析的介词补Pnoun。PurExt遍历的分支识别节点匹配的计谋动词作为一个动作元素和提取所有节点标注为数据对象。目的表达明确的句子派生动词和名词。第一个是通常用作补充修改谓词,而另一对象的形式出现。相关的口头表达目的是谓词依赖“xcomp”标签,这意味着它是打开条款补的谓词。PurExt解析这个分支,形成一个目标短语。至于目的表达名词形式,PurExt将解析分支,连接谓词的“dobj”(直接宾语)依赖性标记或“pobj”(对象介词)标签,开始用介词。这是因为有一个例子的目的由介词短语和谓词连接;例如,“收集个人信息的目的是为法律义务。“演员元素通常不参与明确的句子。

例5。两个明确的句子的例子3有目的的动词形式和名词形式,分别。依赖树如图的句子3。和两个句子可以提取 ({},{收集},{你的位置数据,速度},分析你的训练数据),和 ({},{},{你的名字,电子邮件地址},网站帐户登记)。

4.3.2。元素提取隐含的句子

目的短语不是隐式的句子的主要成分。修改其他成分的作用,它的各种形态。语义分析可以跨越不同语法结构的句子,它的语义信息。例如,虽然语法“汽车Bob”建设和“鲍勃被车撞了”是不同的,它们的语义信息是相同的,可以统一打(汽车,鲍勃)。因此,PurExt采用SRL [40),一个浅语义解析,来推断的目的数据收集或使用语句隐含的句子。SRL检测语义参数相关的动词在一个句子,分配定义的语义角色PropBank项目句子的成分。常见的语义角色的含义如下所示:V:动词。A0:动词的代理人。A1:耐心。AM-MOD:模态。AM-PNC:目的。

数据安全规则的内涵是,演员表演或使用操作数据对象集合为一个特定的目的。合理,演员对应的“A0”作用的动词,数据对象匹配" A1 "的角色,目的是“AM-PNC”角色。因此,通过这个映射,四种元素的规则可以提取SRL的帮助。为了提高提取的准确性,命名实体类型的约束也一并附呈。除了标记为“A0”,演员需要标记为元素实体尼珥。同样,数据对象应标注为“A1”角色,以及实体类型的数据对象

例6。这句话在示例4标注为“应用程序吗A0][将AM-MOD][收集V][心率和脉搏A1][为未来的训练提出建议AM-PNCSRL)”的工具。从句子和规则提取 ({app},{收集},{心率、脉搏},为未来的锻炼提出建议)。

4.4。领域适应

提取的成功主要取决于准确的注释SRL。通过考虑标签的效果和用户友好性,我们选择实现PurExt漩涡。漩涡是一种SRL PropBank语料库工具培训,这是一个带注释的句子从《华尔街日报》的集合。金融杂志的术语和表达不同于那些在隐私政策。因此,迁移到这个问题域的模型容易不当。例如,目的的短语应该被贴上“AM-PNC”错误地分配给“A2”作用,导致假阴性结果。这也证实了实验部分5.3

为了缓解这个问题,本研究试图适应SRL工具漩涡隐私政策领域;我们使用少量的特定领域数据集漩涡进行再培训,这样可以获得更准确的注释结果在目标域。准备,400 purpose-related句子收集隐私政策的实际应用和手动标注的语义角色。实验部分5.4证明了隐式目标提取的影响,使用新的注释,域适应后明显改善。

5。实验

在本节中,我们提出三个评估进行评估我们建议的方法的有效性。在我们的评估中,我们特别关注以下问题:RQ1:如何有效地PurExt提取明确目的和隐含的目的吗?RQ2:有任何改善PurExt领域适应应用?RQ3:有效地PurExt提取其他三个元素,也就是说,演员,行动,和数据对象?

5.1。数据集

由于缺乏一个公共数据集带注释的目的宣言,我们收集和注释数据集隐私政策的实际应用,主要属于穿操作系统,医疗和其他IoT-related应用类别在谷歌商店。首先,每个应用程序的HTML文件隐私政策和由作者开发的一个爬虫程序下载。然后,一个工具叫HtmlToPlaintext [41)是用于这些HTML文件转换成明文政策文件。最后,一个博士生和一个主学生背景知识从这些文档和注释1000句短语中选择每个句子的元素标签相关。

有750的计谋的句子,包括584年与目的宣言隐式的句子,46没有目的,和120年明确的句子。为了使数据集的分布与真正的隐私政策,有250个句子描述另一个九实践类型的数据(5),如第三方分享/收藏,数据存储,数据安全、和政策变化。执行和验证领域适应实验,584年约68%的隐式的句子被用于训练和测试为32%。漩涡模型重新训练数据集组成的400隐式的句子,原来训练语料库。除了400句,剩下的600句构成的测试数据集。表2总结了许多不同的句子及其注释元素的测试数据集。

5.2。评估标准

评估元素提取的有效性,实验结果测量的精度(P),回忆起(R), F1-score (F1) [42),定义如下:计算这些值,实验结果分为四类。真阳性(TP)意味着正确提取的元素。假阳性(FP)代表一个案例中,一个不相关的成分被确定为一个元素。假阴性(FN)是一个真正的元素在一个句子的预测并不认可。最后,真阴性(TN)是一个情况下,正确的方法识别组成无关:

5.3。目的提取的影响
5.3.1。实验设置

我们分别计算TP、FP和FN值显式和隐式的目的,展示PurExt的萃取效果的两种类型的目的。确定不同的SRL工具如何影响提取隐含的目的,PurExt实现基于语义注释从四个不同的生存研究实验室系统。四个SRL系统EasySRL Mate-tools,塞纳,漩涡,介绍了部分2.3。因为提取不使用SRL明确目的,明确目的提取结果的四个SRL的工具都是相同的。

5.3.2。实验结果

明确的目标提取的结果如表所示3。句子中明确目的的位置是相对固定的;因此,基于句法结构提取的精度很高。然而,明确目的的召回率是比较低。我们分析了fn在结果和发现的句子,没有检测到PurExt,没有主题描述数据使用的条款修改行为,这是一个显式的句子的标准之一。例如,考虑“目的是处理你的付款。“隐私政策文件是丰富的上下文;因此,从属的目的可能出现在标题或其他地方。这种方法能NLP语句表示,判断错的句子分开他们的依赖性。

4显示的目的确定句子有四个SRL工具没有达到总数的一半。通过挖掘四SRL的注释工具,我们观察到一个现象,一些短语,目的应该标记为AM-PNC角色,分配的 的角色。就像前面提到的4所示。4,这些工具被训练在另一个领域语料库,PropBank和FrameNet等。因为单词的用法和表达习惯的差异,他们在分配表现不佳的语义标签的隐私政策文件。

5.4。领域适应的影响
5.4.1之前。实验设置

域介绍了适应提高召回率提取通过SRL的目的。考虑的可训练性工具和效果显示在第一个实验中,漩涡,这是用户友好的,并提供一个培训的API,被选为目标。训练数据集描述的部分4所示。4。本节演示了PurExt的整体效果,实现domain-adapted漩涡和一个单独的隐性目标提取的结果,可直接反映领域适应的影响。

5.4.2。实验结果

5与少量的特定领域的数据显示,培训大大提高了SRL对隐性目标提取的影响。详细,召回率和F1-score增加了近13%和11%,分别。在未来,我们将继续探索的影响重新训练模型的训练数据集大小。的整体提取结果PurExt所意识到的domain-adapted漩涡如表所示6。每个元素提取的精度超过90%,和规则的精度达到97%。在召回率方面,除了目的,这是69%,其他元素都超过85%。规则的F1-score达到91%。

5.5。其他元素提取的效果
5.5.1。实验设置

有效地确定PurExt提取元素的演员,行动,和数据对象,PurExt PolicyLint[相比,最近的一次工作14)和目标是一致的,从这次调查的隐私政策。PolicyLint是一个隐私政策分析工具,识别潜在的矛盾,可能出现在相同的隐私政策。它能NLP语句提供了一种方法来捕捉分享和收藏在隐私政策声明four-tuple(演员、动作、数据对象、实体),在实体对应于数据共享的对象。我们隐私政策数据集上运行PolicyLint和比较其提取结果,仅仅是三个数组(演员、动作、数据对象),与我们的方法的结果来评估的效率PurExt提取的演员,行动,和数据对象。

5.5.2。实验结果

7展示了PolicyLint和PurExt提取三个元素的性能。作为演示,PurExt执行比PolicyLint在所有方面。一方面,PurExt的优势是它受益于句法和语义分析的结合与PolicyLint相比,这只使用前者。另一方面,PolicyLint使用82模板,从560例句子与句子提取;因此,它通过句子不遵循的模式。

6。结论

因为物联网设备收集大量的个人敏感信息,物联网的隐私问题是一个主要关注用户和法律。隐私政策是物联网的一个重要方式供应商获得用户的信任和遵守法律要求。因此,如何使隐私政策更好地服务用户和法规遵从性已经引起了我们的兴趣。本研究探讨了表达和自动提取purpose-centric数据使用目的的隐私政策。更准确地说,我们建议purpose-aware规则形式化数据访问报表,结合句法和语义分析,实现自然语言的自动提取规则的隐私政策。我们所知,这是第一次尝试提取结构purpose-centric声明隐私政策。真实数据集的实验结果表明,这种方法可以达到91%的召回率和精度97%。

因为PurExt能提取、语句执行一个单独的数据对象和目的的描述在不同的句子会导致不完整的规则。当你考虑未来的发展方向的研究,应该分析整个文档获得更多的上下文。在促销方面,我们将继续申请提取的purpose-aware规则遵从性的研究验证。

数据可用性

使用的数据来支持本研究的发现可以从第一作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(U19A2081号和61802270)。