文摘

随着信息技术的快速发展,人工智能和机器学习已经成为中央信息共享的技术工具。加快国家政府部门信息资源传输的效率,提高信息化水平的政府社会管理和公共服务系统,形象系统设计使用人工神经网络,和社会服务和管理资源池系统。行为用户在日常生活中随机生成的数据被收集和清洗,并在提取训练样本训练一个人工神经网络。接下来,人口属性标签和兴趣标签是模仿,和社会服务和管理资源池系统构建和测试。结果表明,人口属性标签结构,使用应用程序名称索引值映射到0或1,和样本抽样比例设置为1.0。该模型实现的总体精度85.2%,74.5%,和99.0%的预测了年龄,学历,分别和兴趣标签。构建系统大大加深了社会治理的特征元素的可视化。系统可以通过政府部门提高资源共享水平,并提供空间决策智能社会治理的基础。

1。介绍

政府机构之间的共享程序信息可以帮助实现重要的公共福利的提高生产率,改善决策,综合公共服务。政府信息共享允许不同政府机构之间信息交换以及公共和私营机构之间。信息共享可以提高效率,更好的流程和服务质量,和提高透明度。信息共享计划的实现需要不同类型的活动,如技术、组织、制度和政治(1]。在政府资源,传感器信息、公共信息和互联网信息继续收集。越来越多的机构或个人使用机器学习,准确的数据分析,和其他可控技术准确地分析社会治理的元素。现在,角色技术越来越多地用于社交媒体,电子商务、移动互联网和电子政务2]。

越来越多的研究人员研究了画像技术在社会治理中的应用。Elgammal et al。3)指出,公司治理和企业社会责任是由道德实践。企业伦理和企业社会责任之间的关系已被许多研究人员研究。他们显示之间存在着显著相关企业伦理和企业社会责任和伦理对企业社会责任实践有积极的影响。羌族et al。4)称,中国目前有14亿人口,也许正在经历人类历史上最大的城市化和现代化。在这种背景下,2014年,清华大学多学科的研究小组发起了社会治理实验清河街,北京。这个项目的目的是发现和解决社会问题在城市社区和研究社区治理模型在大城市的变化。作为一个创新的社会治理模式,这种新型农村合作医疗制度具有重要的理论和现实意义。Widyawati [5)指出,政府信息和传感器信息的融合可以促进精度的不断发展社会治理。

角色逐步应用于决策帮助规划更多的以人为本的政策和服务人口(6]。在交通运输领域,角色大多是应用关于不同流动行为模式为不同类型的游客提供服务,例如,基于汽车驾驶行为模式定义为汽车的使用动机或年度车公里旅行的数量,以允许不同程度的能源消耗(7]。其他方法使用角色表达不同类型的公共交通乘客,司机,或拥有权客户考虑不同的偏好和期望关于汽车设计和用户体验,例如,通过结合不同层次的开放对各种特性。角色是一个强大的工具在设计团队沟通,作为技术力量设计师要考虑社会和政治方面的设计,否则经常去审视。角色还提供一个共享的基础沟通,例如,客户和设计师之间。白羊座和做为8]提出了基于经验数据的开发和应用角色相关的业务,提供一个有用的方法来识别受众意识的需要,与一个预定义的安全主题项目周期。但是,生成的角色通常是基于技术的角色。收集的数据从更少的技术角色提供了一个平衡传播业务的观众可能更合适当充分应用这种方法在真实的场景中persona-centred正在进行信息安全意识工作的解决方案。Schoch et al。9)创建角色理解社会壁垒和使用web应用程序原型。的一个主要角色的局限性是,他们很难解释的变化,尤其是快速变化。即使是构建良好的角色可能会成为部分不准确的过了一段时间,导致需要额外的努力,时间和费用来修复不一致和失去了信誉。

越来越多的研究人员使用角色和信息动态感知技术和深度学习技术来准确地分析社会治理的元素。然而,这项研究工作仍然有一定的缺陷。在这项研究中,一个角色系统设计使用机器学习技术,和社会服务和管理资源池系统。行为训练样本数据所产生的不同的用户在他们的日常生活被收集,清洗,用来训练人工神经网络。此外,人口属性和兴趣标签是模仿和社会服务和管理资源池系统实现和评估。模型实现了总体预测精度为85.2%,74.5%,99.0%,年龄,教育背景,分别和兴趣标签。此外,构造系统链接在政府各部门的数据交换通道,使用户能够通过基本实现信息的互联互通和共享服务接口。

剩下的论文要求如下:部分2提供详细的建设对社会治理的角色模型。部分3说明了结果和分析,结论提出了部分4

2。社会治理的施工方法角色模型的元素

2.1。用户角色技术分析

用户角色链接用户数据和大数据的应用程序。用户角色的目的是给目标用户提供一系列的用户标签,比如年龄、性别和教育背景。用户是一个复杂的整体,它由一个术语来描述它是困难的。因此,一个品牌在用户角色只是用来描述一维的用户。描述一个用户需要与多个标签。用户角色的特点在于使用数学方法来描述一个人在一个特定的业务的特点,可以由机器解释(10]。机器生成的模型很难用于培训未加工的日志数据。如果数据标记在模型训练之前,数据分布可以很容易地分析,数据操作也可以改变。必须分类数据特征的用户角色和现在高度解释,多维,标记形式来满足各种业务需求。用户角色的目的可以分为两点。一个是对用户进行分类。例如,商人可以个性化建议用户根据不同类型的用户,这样用户粘性的产品。另一种是分析用户的特点,挖掘潜在用户,扩大业务。用户角色的作用是非常重要的。用户角色的核心工作是标签,可以处理和便于计算机处理的人11]。用户角色模型如图1。同样,一个人的角色模型形成了根据一个人的生活是图所示2的过程,并建立一个用户标签系统如图3

在图1、用户角色分为五个方面。(我)目标:它使用特定的数学方法来描述一个人在一个特定的业务的特点(2)方法:机器可以解释(3)组织:组织数据(iv)标准:它是建立一个知识系统与一个特定的业务(v)验证:它使用量化指标评价模型

2显示一个人的角色模型与时间有关。在图所示的人21990年出生在XX街,去小学1996年,于2012年加入公司,并于2013年结婚。图3显示用户标签系统的建设分为三个阶段。第一阶段是基本数据,应用行为,网络行为,位置的行为,地理位置、语音、语义,和文本。第二阶段是用户标签采矿、人口属性、网络行为、兴趣偏好,内容偏好和购买意图。第三阶段是用户角色、性别、年龄、地理分布、爱好、购买意愿,购买和职业12]。满足业务需求,建立用户角色的先决条件。建立一个用户配置文件,有必要澄清中使用的数据行建设目标奠定基础为指定的标签。用户角色标签分为两类,第一类是静态标签,第二类是动态的标签。人口属性标签在静态标签是相对稳定的,一般不改变(13]。它们通常用于描述用户的最基本特征。有静态标签之间的依赖关系。使用原始数据,可以构造是什么标签。通过简单的统计方法,标签可以构建更高级的偏好。使用深度学习技术在机器学习工具也可以预测标签。用户角色技术被用来构造一个角色模型的社会治理的元素。社会治理的剖面模型元素图所示4

4显示角色的社会治理模式具有三层结构的元素。底层结构的功能是建立一个角色模型,具体分为基本属性、位置特征、行为特征和关系网络。中间结构分析算法、自然语言处理、机器学习、聚类算法和预测算法。高层结构的基本数据,居住、生活、生产、和医疗保健。用户标签系统如图5,这表明人口属性分为基本属性和地理位置。的基本属性可分为性别、年龄和教育背景。行业偏好可以分为汽车、房地产、旅游、和融资。

各种标签的优先级结构如图6。这表明从底部到顶部是原始数据,标签,标签模型,和高级标签。其中,标签可分为使用*,历史趋势,活跃天,抱怨。模型标记分为人口属性、行业利益,地理位置,和产品偏好,和先进的标签分为人口属性和潜在损失。

Jieba是一种常见的分词方法(14]。的工作原理是将可能的单词在句子生成的环图。接下来,使用动态规划计算词频概率。最后,隐马尔可夫模型(HMM)是用来识别未登记的单词(15]。的原理图Jieba分词原理如图7:

一个完整的反向传播(BP)神经网络由输入层、输出层,和多个隐藏层。在BP神经网络中,神经元隐层之间的连接,但输入层和隐层,隐层和输出是完全连接16]。BP神经网络是由三个流程:(我)当输入信号输入BP神经网络,信号流经输入层到隐层传递到输出层。当信号传输到隐层神经元,它传播到下一个隐藏层神经元的动作后,隐藏层,最后传递到输出层。(2)不同网络的实际输出和期望输出的误差信号,输出层的神经网络用于修改连接权值一层一层地通过隐层输出层。(3)前两个步骤反复进行直到网络的全局误差达到阈值。

随着网络深度不断加深,网络训练精度的增加会平的。从AlexNet VGGNet网络模型层的数量继续增加,效果越来越好。随着网络层数的增加,网络会有问题,如过度拟合,退化、梯度爆炸,和梯度消失。要解决这些问题,剩余网络常常是优化[17]。尽管这个网络的深度更深比普通卷积神经网络(cnn)的计算效率高于普通cnn。剩余网络的关键是让信息流通过快捷方式到浅层的连接。剩余网络解决网络问题的恶化和梯度爆炸引起的层数的增加在CNN。递归神经网络(RNN)执行很好神经语言学领域的编程(NLP) [18]。RNN模型中,每个输入节点对应于一个隐藏的节点,和隐藏的节点形成一个线性序列,和信息传递从前面到后面。递归神经网络是神经网络的反馈结构。它的输出不仅与当前输入网络的重量也与之前网络的输入有关。RNN时间序列的概念,和国家在下一时刻的影响在当前时刻状态。一些研究人员称为递归网络的深度网络(19]。它的深度可以表现在三个方面。第一个方面是输入深度,第二个是输出深度,第三个是时间步。扩大RNN结构如图8

向前传播的计算RNN网络所示以下方程: 在哪里b激活函数的计算值,一个计算出的值聚合, 代表不同的节点之间的连接参数,输出层 ,和隐藏层

计算RNN网络的反向传播过程中显示以下方程: 在方程(4),(5)和(6), 的权重矩阵l×n,连接l隐层单元n输出层单元, 表示n×n权重矩阵,连接k隐层单元l输出层单元, 意味着隐藏层向量, 代表了固定参数, 是固定的系数, 是重量,l的参数矩阵单元。

RNN神经网络的优点是时间的概念添加到神经网络中。这个可以设置RNN的不同输入神经网络根据时间节点。RNN的神经网络,数据也可以多输入。RNN的缺点是它不能解决长期问题的网络依赖,梯度消失,爆炸。出于这个原因,长期短期记忆(LSTM)网络提出了多项研究[20.,21]。一个神经元LSTM模型包含一个细胞状态和三闸门机制。细胞状态LSTM模型LSTM模型的基础上,和它的功能相当于内存模型。随着时间的变化,细胞状态也在一定程度上改变。LSTM模型使用忘了盖茨,更新盖茨,盖茨和输出保护和控制细胞的状态。信息记录在LSTM网络更新和由闸门机制。

Vasvani et al。22)提出了一个结构变压器过程序列模型的注意机制。伯特(双向编码器表示从变形金刚)适用于变压器的双向培训。伯特的变压器网络指的是完整的encoder-decoder框架。完整的encoder-decoder框架包括mutihead self-attention,层规范,跳过连接,变压器结构。视觉注意力机制是一种信号处理机制类似于人类的大脑。人类可以选择当地的领域通过观察整个画面。然后,更多的关注集中在重点区域比正常区域得到更详细的功能和抑制其它无用的信息。根据大类别,注意力机制可分为软注意力机制和硬的注意机制。软计算方法的注意机制是包装上的所有组件和执行加权操作保留组件(23]。努力关注的计算方法是选择一些权重的组件。这种关注机制的示意图如图9

注意机制的基本思想是将输入的组成元素的键-值对组成数据。键-值对数据查询的输出对应的元素。通过计算查询元素之间的相似度,每个键,每个键对应的权重系数可以获取键值。多个键值求和得到最后的注意机制的价值。多元时间序列预测,注意机制的引入可以关注相关变量依赖于预测时间序列的维度,而不是所有的输入序列。

伯特模型pretrained模型具有优良的性能。在使用它时,不需要使用大量的数据来训练它和微调pretraining模型用于下游NLP的任务。伯特模型的示意图如图10和变压器编码如图11,分别。

变压器编码分为以下三个过程:令牌嵌入:它负责将每个单词转换成一个向量的固定尺寸。伯特使用零件标记词汇表。分段嵌入:它负责与符号分隔两个句子。每个单词的第一个句子是分配0,和第二个句子是分配的令牌1。嵌入的位置:它有助于增加位置编码。

2.2。研究逻辑回归和支持向量机(SVM)模型

火花是为了执行迭代工作,与机器学习算法的训练过程一致。MLlib火花的机器学习库。它支持分类、聚类、回归和协同过滤。分类是最广泛的商业应用。MLlib分类和regression-related算法如表所示1。的损失函数和次梯度MLlib如表所示2,MLlib算法的核心内容库如图12,分别。

使用的模型是LSVM和逻辑回归。凸优化方法用于优化目标函数,在给定以下方程:

逻辑回归算法的优化目标函数所示以下方程: 在方程(8),xth数据矢量,y显示的类别x, 表示所需的矢量和 的类别 所需的向量。计算方法的分类精度LSVM在高维空间中寻找一个超平面。此超平面用于分类的点在空间和计算点和超平面之间的距离对分类精度进行评估。损失函数的支持向量机算法计算

2.3。方法建立资源池的社会治理的框架元素

因为用户数据系统需要大量的数据处理工作,常见的大数据处理系统,如使用MapReduce和火花。一个常见的大数据处理平台是Hadoop分布式文件系统(HDFS)。用户的行为应用被收集并存储在Hadoop分布式文件系统。纱是用来管理数据资源。移除瓶颈是Hadoop 2.0中引入工作追踪在Hadoop 1.0。数据处理流程如下:客户端首先发送一个请求并根据相应的协议,服务器日志存储(24]。使用一个脚本文件检索服务器日志。引擎调用程序包加载临时文件中的内容,将结构化数据存储在不同的文件夹,将解析后的数据存储在HDFS。在标签的建立,人口的性别标签和教育背景标签标签被选中。其中,性别标签分为男性和女性。学历是贴上低,中间,和更高的。使用的数据来自统计公司的真实数据。二百万数据点作为种子,性别标签和行为数据分割的应用。270000数据点被保留作为训练样本,220万度标签作为训练样本。因为有很多分类的兴趣标签,贷款类别下金融标签被选中。 In this way, the framework of the social governance element resource pool was established. First, a classification system needs to be established. By sorting out 200 million pieces of information shared by 30 departments, forming an information resource directory, and establishing multiple classifications and labeling systems. Next, the rules are constructed. To study the situation of the functional department data, the data analysis method is used to obtain the similarities and differences of the population and the degree of matching. The authoritative data of the authoritative department is the rule basis of the model, which is used to compare and match all information fields. The resource pool of social governance elements by the user profile model consists of three parts: construction of resource pool data warehouse and storage mechanism, the design of persona model of social governance elements, and the design of label system rules. The experimental programs are divided into four types:解决方案1:数的名字使用应用程序和创建索引表解决方案2:计算的次数和使用数量灌装功能解决方案3:地图二级分类目录,建立特征索引解决方案4:解决方案3一样,除了使用二级目录的数量积累和填满

3所示。结果

3.1。分析人口属性的挖掘

实验发现,使用应用程序名称映射索引表和填补它与1是最好的选择。在实验过程中,采样率和模型改变,结果如表所示3。显然,抽样比例为1,获得的LR的准确性(AUC) 0.82%,分别和精度(前)的0.77%。当采样率降低到0.4,模型报道AUC 0.81%,前0.77%,分别。在支持向量机的情况下,抽样比为0.2,最高的AUC和以前报道是0.73%和0.66%,分别。然而,支持向量机模型的预测性能不如LR模型。

教育资格预测的结果显示在图13

13表明,整体学术资格预测的准确率达到74.5%,和构建系统的预测准确率最高学历低。在调查样本,与高等教育的人口比例相对较低,与高等教育的人口比例训练集低,和模型更少的特点,教育高的人学习。构建系统预测的准确率高度低于低学位。

3.2。模型的性能分析

比较不同的机器学习模型的性能,每个深度学习模型的比较结果验证设置在每个时代如图14

可以看出,伯特在第一期的准确性为92%,和伯特在第五期的准确性为0.94%。CNN的准确性在第一和第二时代分别为89%和0.90%,分别。同样,双向长期短期记忆的准确性(Bi-LSTM) +关注在第一期为85%,分别在第五纪元是87%。同样,变压器块在第一期的准确性为81%,在第五纪元是84%。四个模型的性能比较,很明显,伯特模型提供了最高的性能。此外,CNN在数据集也有良好的性能。尽管CNN的准确性略低于伯特模型的训练速度t更快。深度学习模型的测试结果如图所示15,每个模型的训练过程如图16

16显示,不需要使用复杂的函数构造位置信息在一个较小的数据集;因此,伯特pretrained模型。迁移微调模型对中国意图识别子任务有一个很好的效果,可以准确判断用户的意图。

4所示。结论

与快速发展,人工智能已成为智能核心技术资源信息。在这项研究中,角色系统旨在加快国家政府部门信息资源传输的效率,提高政府社会管理的信息化水平,社会服务和管理资源池系统。根据收集到的数据,人口属性和利益的标签是模仿和社会服务和管理资源池系统构建和测试使用深度学习模型。在实验中,构造的整体精度的年龄,学历,和兴趣标签报告是85.2%,74.5%,和99.0%,分别。构建系统大大加深了社会治理的特征元素的可视化。其可视化和生动显著增强,由政府部门资源共享的水平已经大大提高,并在智能空间决策的基础社会治理。

数据可用性

和/或使用的数据集分析在当前研究可从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。