网络成瘾的智能行为数据分析

摘要

网瘾是指过度使用网络而影响日常生活。由于网络成瘾对大学生的学习和生活产生了负面影响，因此有必要及时发现大学生的网络成瘾倾向，并对其进行正确的引导。然而，目前分析大学生网络成瘾的研究方法主要是问卷调查和统计分析，很大程度上依赖于领域专家。幸运的是，随着智能校园的发展，学生在校园内的消费、轨迹信息等行为数据都被存储了起来。有了这些信息，我们可以定量地分析学生的网瘾水平。在本文中，我们提供了一种估计大学生网络成瘾水平的方法，利用他们的行为数据在校园。具体来说，我们认为学生上网成瘾是一个隐性变量，它与其他行为一起影响学生每天上网的时间。通过预测学生每天上网的时间，我们可以发现学生的网瘾程度。在此基础上，我们分别建立了线性网络成瘾(LIA)模型、神经网络成瘾(NIA)模型和基于聚类的网络成瘾(CIA)模型来计算学生的网络成瘾水平。这三种模型考虑了学生行为的规律性和学生行为之间的相似性。 Finally, extensive experiments are conducted on a real-world dataset. The experimental results show the effectiveness of our method, and it is also consistent with some psychological findings.

1.介绍

网络成瘾症是指过度使用网络而影响日常生活[1]．有研究表明，对网络成瘾对大学生来说，如学习，健康的落后造成负面影响，与社会的关系[1-3.]．因此，有必要发现学生的网络成瘾倾向，并对其进行正确的引导。

目前，网络成瘾的相关工作都集中在心理领域。这类作品注重的原因，网络成瘾的影响，并导致网络成瘾的内部机制，用的方法来消除网络成瘾在一起。上有定量计算网络成瘾水平的作品很少。此外，用于分析的方法主要有问卷调查和统计分析，这是麻烦的，并且依赖于领域专家严重。因此，有必要开发一种以定量和自动探索大学生网络成瘾的水平。

幸运的是，随着智能校园的发展，学生的行为数据被收集，如访问数据和消费数据。有了这些数据，就有可能定量分析学生的网瘾水平。

为此，在本文中，我们提出了一种方法来估计学生的网络成瘾水平使用他们的行为数据。目前还没有准确的方法来评估学生的成瘾程度，因此我们也无法明确地采用监督的方法进行研究。相反，我们可以通过另一项任务来计算学生的网瘾水平。具体来说，根据网络成瘾的定义，我们认为学生的网络成瘾水平是一个隐性变量，会影响学生每天上网的时间。此外，学生的消费数据和上网差距等行为数据反映了学生的日常活动，这也可能影响他们上网的时间。然后，我们可以预测学生上网时间的行为数据和网络成瘾水平。通过这样的任务，可以推断网络成瘾的价值。沿着这一思路，我们提出了线性网络成瘾(LIA)模型、神经网络成瘾(NIA)模型和基于聚类的网络成瘾(CIA)模型，以捕捉学生的行为数据、网络成瘾和他们每天上网时间之间的关系。

此外，学生每周有固定的纪律，这导致他们每周花在网上的时间有规律。LIA和NIA模型考虑了学生行为的规律性，CIA模型主要利用学生行为之间的关系来了解其网络成瘾水平。最后，我们以一所中国高校的真实数据集为样本，进行了网络成瘾计算、网络成瘾验证和网络成瘾分析实验。特别地，为了验证我们计算的网络成瘾值是可信的，我们将我们的结果与心理量表评估的结果进行了比较。实验结果证明了模型的正确性和有效性。这个结果也与一些心理学的发现相一致。

本文的主要相关工作可分为两部分:网络成瘾分析和校园数据挖掘。

２.１.网络成瘾分析

网络成瘾分析是心理学领域的一个研究方向。一些作品关注网络成瘾的原因。研究人员发现，人际交往困难、心理因素、社交技能等都是导致网络成瘾的原因[1那4.那5.]．其他作品的目的是发现网络成瘾的影响。Upadhayay等。声称，过度使用互联网会导致研究的缺点[2]．他等人探究了网络成瘾对惩罚和奖励敏感性的影响[6.]．他们的结果表明，严重网瘾的人对风险更敏感。关于网络成瘾形成的内在机制也有一些研究。Zhang等着重研究了家庭功能对网络成瘾的负面影响的内在原因。他们揭示，家庭的稳定和发展可能会影响用户的心理状况，如尊严和孤独感，然后这些心理状况会对网络成瘾产生影响[7.]．Zhao等人注意到有压力的生活事件会让用户感到抑郁，从而导致用户沉迷于网络[8.]．

２.２.校园数据挖掘

数据产生无处不在我们的日常活动，例如，消费记录，聊天记录，网页浏览记录，依此类推。使用这样的数据，我们可以做一些有趣的应用程序，如标签推荐，这表明当用户想要标注项目的标签列表。Wang等人。提出了TAPITF模型了时间意识和个性化方面进入标签推荐任务[结合9.].校园数据挖掘是指利用数据挖掘方法解决校园问题。一些作品主要分析学生的日常生活行为。Guan等人通过智能卡使用、互联网使用和学生在校园的轨迹（Dis硬模型）预测学生的经济困难这样学校就可以给这些学生发放助学金了[10]．在此基础上，Ye等人提出了a模型 [11，它用多模式数据预测助学金投资组合。与Dis-HARD模型相比，他们的工作具有更高的准确性，并保护了学生的隐私。贝叶斯方法在许多领域得到了广泛的应用。Wang等人提出了一种用于评级预测的贝叶斯概率多主题矩阵分解模型[12]．而同样朱等人。提出的经验贝叶斯框架下计算学生的拖延值无人监督的方法与在库中的借用信息[13]．Peng等人提出了一种深度专题相关性分析方法，利用多模态数据跟踪学生的思想，为智能校园的发展服务[14]．也有一些作品，旨在分析学生的学习过程，提高他们在课堂上的表现，这就是所谓的教育数据挖掘（EDM）。例如，Burlak等。如果学生在考试中通过在线课程系统，如开始时间，结束时间，IP地址，访问频率[分析他们的互动数据识别欺骗15]．Abdi等人根据学生对平时作业的回答和在一个问题上停留的时间来预测他们的成绩[16]．

首先，据我们所知，有利用学生的日常行为分析网络成瘾没有工作。而且我们是第一个基于数据挖掘方法，他们的行为数据来分析网络成瘾。

3.预赛

网络成瘾在心理学领域是一个抽象的概念，很难给出一个可衡量的定义。为了解决这个问题，我们首先对网络成瘾做一个合理的假设。然后，基于这一假设，我们利用学生的行为数据计算网络成瘾值。

３．１．网络成瘾的假设

心理学研究表明，大多数大学生上网成瘾。17]．我们提到过，网络成瘾是指过度使用网络干扰日常生活。因此，不同网瘾程度的学生上网时间很可能不同。此外，不同的行为表现出不同的活动在学校，反过来也导致了不同的上网时间。不同性别或不同院系的学生在使用互联网方面也会有一些差异。

基于这一事实，我们假设网络成瘾是一个隐性因素，它可能影响学生的日常上网时间，以及他们的行为和个人资料信息。因此，我们将通过建模学生的网络成瘾和行为如何影响每日上网时间来了解这些因素。为了简化问题，我们还假设学生的网瘾水平在一个学期内不会改变。

３.２．问题公式化

由于我们没有任何关于网络成瘾水平的标签，我们不能使用监督的方法来研究学生的网络成瘾价值。因此，我们需要通过一些已知的数据来估计它。基于我们的假设，网络成瘾值是一个隐性变量，可能会影响学生上网时间，该值可以通过预测学生每日上网时间来学习。

在形式上，我们定义作为学生的网络成瘾程度你．学生每日上网时间序列你期间T.被表示为．以及日常行为的顺序你在同一时期表示为．我们还定义了学生的个人资料信息你作为．我们的任务是对关系模型那这是学生的行为，网络成瘾是如何影响网络的日常时间。那么网络成瘾水平可以从这个模型中计算出来。请注意,T.上面是集合T.．

4.网络成瘾计算模型

为了计算学生网络成瘾水平，我们提出了三种网络成瘾计算模型:线性网络成瘾(LIA)模型、神经网络成瘾(NIA)模型和聚类网络成瘾(CIA)模型。对于LIA模型，我们主要考虑学生的行为、网络成瘾水平和他们每天上网时间之间的线性关系。此外，由于神经网络能够捕获特征之间的高阶关系，我们探索NIA模型来发现学生的行为、网络成瘾水平和他们每天上网时间之间的非线性关系。

对于CIA模型，我们并没有直接研究学生的行为、网络成瘾水平和每日上网时间之间的关系，我们认为上网时间多于正常上网时间的学生更容易上网成瘾。因此，我们设计了一种基于聚类的方法来寻找学生的正常上网时间，然后将学生的实际上网时间与正常上网时间的差异作为学生的网络成瘾水平。

在本章中，我们首先详细描述了这三种模式，然后我们将讨论的优点和模型的缺点。

4．1.线性网络成瘾(LIA)模型

在本节中，我们首先介绍我们如何使用线性模型揭示的关系．在强化模型的同时，还考虑了学生行为的规律性。

以下4.4.1。天真LIA

基于网络成瘾假设，网络成瘾行为是影响学生上网时间的一个因素。然而，不同种类的行为可能有不同的效果。因此，需要一个权值向量来表示每种行为的不同效果。行为对上网时间的影响因人而异，所以每个学生都有这个权重向量。我们以同样的方式处理不同的个人属性。此外，即使两个学生的行为和个人属性相同，他们上网的时间也可能不同，因为他们对网络的成瘾程度不同。我们假设，在相同的行为和个人属性下，不同的网络成瘾程度是导致上网时间不同的唯一原因。下面是我们的幼稚线性网络成瘾模型: 在哪里表示持续时间你上网时间T.．指学生的行为向量与个人属性的结合你在时间T.,是，合成矢量的权重向量。这是学生的网瘾程度你．我们的任务是找出和使损失函数最小化，也就是说，

该项目用于防止模型过拟合。可以用来调整行为与网瘾之间的权重。

4.1.2。行为正常的LIA

大学生通常有固定的课程。因此，他们的行为每周都有一定的规律性，这也会导致他们上网时间的规律性。带学生你作为一个例子;星期一的课有点无聊，所以他花很多时间上网。然而，周二的课程很难，这意味着他必须认真听讲，所以他可能不能在课堂上上网。基于这些事实，有必要考虑正常上网时间。

因此，我们通过添加一个项目来修改线性网络成瘾模型表示学生的正常上网时间你在时间T.．由于大学学习的特点，他们每周都有相似的上网习惯。这里装置，该装置的时间日T.是它属于的一周，和指一天中正常的在线时间X的一周。我们的新模式来了:

为方便计算，我们定义作为一个8维向量，第一个代表网瘾，其他代表这周的热点。上面的公式等于与等于

我们的任务是找到一个合适的和这将最大限度地减少损失函数，第一项学生的网瘾程度如何你：

同样,我们添加为了防止公式过拟合，我们使用了公式调整行为、个人属性、网瘾程度和日常习惯之间的权重。

4．2．神经网络网络成瘾(NIA)模型

神经网络能够对特征之间的高级关系进行建模。它在各种应用场景中功能强大[18-20.]．例如，在标签推荐任务中，Yuan等利用多层感知器对用户、商品和标签之间交互的非线性进行建模[21]．在本节中，我们开发了一个神经网络网络成瘾(NIA)模型来表示学生的行为、个人属性、网络成瘾和日常行为对他们每天上网时间的非线性影响。

4.2.1。准备网络结构

神经网络由两部分组成:公有部分和私有部分。我们用公共部分表示个体的行为和个人属性对每天上网时间的影响没有差异，这意味着公共部分的输入是学生行为向量的组合你准时T.以及他的个人属性向量．权重矩阵阈值向量这部分将更新每次迭代。

由于个体的网络成瘾程度和正常行为不同，我们使用私处来描述这些特征。每个学生都有自己的权重矩阵和阈值向量那只有当相应学生的数据被用作输入时，这些参数才会被更新。私人的输入的学生你准时T.是一样的载体（5.）.为了忽略常规行为的影响，我们也可以只保留vector的第一项(5.）.

模型的目标输出是学生的实际上网时间你准时T.：．

网络结构如图所示1．

使用我们提到的象征，公众隐层的输出为

私有隐藏层的输出为和网络的输出是在哪里公共隐藏层、私有隐藏层和输出层的激活函数和是输出层的阈值。该网络将更新对于每个输入，而我们使用的损失函数是均方误差：在哪里代表了一些学生的实际上网时间你准时T.和是整个模型的输出。

4.2.2。网络成瘾的计算

神经网络训练完成后，网络成瘾对私隐单元贡献的总和即为学生网络成瘾水平的值。我们将计算网络成瘾值如下: 在哪里表示私有隐藏层单元的数量。j为私部输入向量中对应的网瘾指数，这里指数为1。为矩阵，该矩阵连接私有部分的输入层和隐层。代表了一世-th行和j-矩阵的第th列值．

4.3。集群为基础的网络成瘾（CIA）模型

在本节中，我们开发了一种基于聚类的方法来计算学生的网络成瘾值，该方法考虑了学生行为之间的相似性。

4.3.1。网络成瘾的计算

随着智能手机成为学生日常生活中不可缺少的一部分，即使是不沉迷于网络的人也会花一些时间上网，可能是为了娱乐，也可能只是为了打发时间。然而，那些严重上网成瘾的人会比那些不上网成瘾的人花更多的时间上网。因此，我们认为与学生行为相对应的上网时间是正常的，上网时间越长越容易成为网瘾者。上网时间越长，网瘾程度越重。因此，我们的在线时间预测公式如下: 在哪里表示持续时间你上网时间T.．指学生正常上网时间你在时间T.．这是学生的网瘾程度你．我们的任务是找出这将最小化损失函数，也就是说，

该项目用来调整正常上网时间和网瘾之间的权重。

4.3.2。正常的在线时间

因此，学生每天都有不同的活动，正常上网时间因行为而异。查找正常上网时间的学生你在时间T.我们首先需要找到那些与学生行为相似的人你在时间T.．与学生行为相似者的平均上网时间你在时间T.约等于正常上网时间。也就是说, 在哪里代表学生的行为向量你在时间T.．S.代表着相似的行为集合，以及一个相似的行为向量是那也就是学生的行为向量在时间和学生的相似吗在时间．不同院系的学生可能会因为学科特点而表现不同，这就会导致正常上网时间略有差异。例如，软件工程系的学生可能会比其他学生花更多的时间上网。所以，我们也考虑了轮廓信息，符号它等于这个向量节4．1．公式模拟(一种那B.）是矢量的相似度值一种和向量B.．

考虑到计算的数量，我们并不总是比较所有学生的每一个行为。相反，我们首先将学生的行为汇总成K.类别。当我们需要找到相似的行为集时S.行为向量那我们首先找到行为向量的类别属于;让我们假设这个范畴是C，然后我们开始计算以及所有其他行为向量在类别C．最后，我们将相似性大于阈值的行为向量保留在集合中S.；据此，我们将得到正常上网时间．

4.4。模型比较

LIA和NIA的思想是直接的，这两个模型的目标是发现学生的行为和网络成瘾水平如何影响他们的日常上网时间。LIA模型比NIA模型参数少，易于训练。虽然NIA模型更加强大，但是由于参数太多，很难对网络进行训练。

中央情报局的想法符合我们的直觉，上网时间比平时多的人更容易上网成瘾。然而，很难找到正常的上网时间。在本文中，我们计算一个学生的正常上网时间你在某一天T.通过平均那些行为类似的学生的上网时间你在T.．聚类结果的准确性可能会影响网络成瘾计算的正确性。

5.实验

5．1.数据描述

我们的数据来自中国的一所大学，包括学生在学校餐厅的消费记录和上网记录。此外，还包括学生的个人属性信息，如系、性别、年龄等。

消费记录包括学生的个人资料、时间、地点和一次消费的金额。学生有各种消费行为，如正常的用餐、零食、淋浴、存款等。在这里我们认为存款是一种特殊的行为，这是存钱到学校卡。行为类别可以通过消费行为发生的地点来识别。例如，在学校餐厅消费一定是正常的用餐行为，在澡堂消费一定是淋浴行为。因此，我们首先将场所划分为不同的类别，然后从消费记录中提取餐饮、零食、淋浴、存款和每小时总消费金额。我们还统计了学生每天的消费频率。

此外，学生只有在获得认证后才能使用校园Wi-Fi访问互联网。根据认证记录，我们提取学生每小时访问校园Wi-Fi的时间。该时间与他们在校园内的时间近似。同样，学生每次访问网站时，都会生成连接记录ed.访问完成后，会有一条断开连接的记录。根据这些记录，我们可以提取学生的实际在线时间和每天两次上网之间的平均间隔。在特征提取后，结合日常消费行为和在线行为（不包括实际在线时间），学生一天的行为可以表示为一个向量。我们还使用每个学生的个人资料信息，用一个热门方法表示每个学生。

由于一些原因，我们没有在宿舍和图书馆学生的上网记录。据认为，学生的活动主要集中各地的教室和食堂以及一些大学生活动中心。在课堂上，学生需要听的大部分时间的教师，并在餐厅，他们总是有玩手机打发时间。因此，实际的上网时间，我们提取物主要是关于娱乐圈。直观上，娱乐时间是适合于被用于计算网络成瘾水平。

我们选择了2018年9月1日至2018年11月11日期间2016年和2015年在校本科生的记录。记录天数少于35天的学生辍学后，有3767名学生。前50条记录用于培训，剩余记录用于测试。学生的档案表示和日常行为表中显示了这些参数1．


类型	功能	维	表示

配置文件	性别	2	一个热
	部门	61
	年龄	8.

消费	进餐量	24	统计值
	零食数量	24
	淋浴量	24
	存款金额	24
	总金额	24
	频率	1

互联网	无线网络访问时间	24	统计值
互联网	互联网接入的差距	1	统计值

5.2.网瘾计算

LIA、NIA和CIA模型可以通过预测学生每天上网的时间来研究网络成瘾水平。为了证明我们模型的正确性，我们进行了几个实验。

对于LIA和NIA模型，我们进行了三个实验。第一个实验去掉了LIA和NIA模型中的网络成瘾和常规行为部分，并以学生的行为数据和个人资料作为基线，预测学生每天的上网时间。第二个实验只考虑了网瘾。对于LIA，这意味着使用朴素的LIA模型，而对于NIA，这意味着只有一个私有部分的输入项。最后一个实验考虑了网瘾和正常行为。对于LIA，它意味着使用具有常规行为模型的LIA，对于NIA，它意味着有8个私有部分的输入项。对于CIA模型，我们进行了两个实验:第一个实验使用了相似行为集中的平均上网时间S.另一个实验首先利用方程计算每个学生的网络成瘾值(14)，然后利用邻居的实际上网时间和网瘾值预测学生的上网时间由方程(13）.

对于线性模型，的值设置为0.6，设置为0.4。对于神经网络模型，隐含层的激活函数为那输出层的激活函数为．此外，公共隐藏层单元的数量为10，私人隐藏层单元的数量是2。学习速率被设置为0.01，并且历元的数目是40。注意，对于NIA的第三个实验模型中，我们设置了学习率0.05，将得到最好的预测精度。对于基于聚类的模型中，阈值被设置为0.7和簇号被设置给每个方法的50. MSE性能示于表2．


模型	功能
模型	ia−	ia	ia +

投资局	0.000056	0.000048(14.3%)	0.000050（10.7％）
NIA	0.000092	0.000083（9.8％）	0.000086 (6.5%)
美国中央情报局	0.000138	0.000127(8.0%)	没有这样的条件

“ia−”为基线实验;“ia”表示第二次实验;“ia+”代表第三个实验。

从表中的结果2，我们知道，无论哪种模型，预测的准确性都会随着我们对网络成瘾的假设而提高。这样的结果保证了我们对网络成瘾假设的正确性。然而，对于LIA和NIA模型，加入规则行为假设后，与没有这样假设的结果相比，准确性并没有提高。一个可能的原因是，学生的行为有些不稳定;然而，LIA和NIA无法对其建模。一般情况下，神经网络模型和聚类模型的效果不如线性模型。也许是因为线性模型足够强大，能够代表学生的行为、网瘾和上网时间之间的关系。而神经网络模型中参数过多，不易训练。虽然在计算相似度之前将学生分成几个类别进行聚类会降低计算复杂度，但预测结果依赖于聚类结果，这可能会造成一定的误差。聚类结果的偏差可能是导致CIA模型预测精度最差的一个原因。

5.3。网络成瘾的验证

在本节中，我们进行了一些实验来验证我们提出的方法的正确性。首先，我们展示了我们使用我们提出的模型计算的网络成瘾价值与心理量表评估的价值的一致性。然后，我们设计回归和分类任务来验证我们计算的网络成瘾值对每日在线时间预测任务的关键作用。

5.3.1。与心理量表比较

在心理学上，研究人员通常使用网络成瘾量表来衡量人们是否对网络上瘾。因此，我们采用问卷调查的方法来测试学生是否网瘾，并将问卷计算的结果与我们的方法计算的结果进行比较。

考虑到中国的国情，我们选择了由范教授设计的网络成瘾量表[22，在中国心理学研究中得到广泛应用。由于今天的情况与几年前不完全一样，我们削减了一些问题，只保留了五个必要的问题。我们用4点李克特量表来衡量每个问题的程度。见表S1在补充材料部分，了解我们使用的比例的细节。

让调查问卷的学生后，我们取回128份调查问卷，这足以分析在心理领域的学生网络成瘾的水平。谁完成问卷包括78名男性和50位女性，并有大约81名学生在3年级和47名学生在4级，这表明样品是均匀分布的学生。

为了证明我们使用的新量表的有效性，我们计算了量表的信度和效度，这两个维度是用来检验量表在心理学上是否可信的。量表的信度和效度分别为0.789和0.731。信度和效度值越高，量表越好，0.7表示我们的量表具有足够的信度来测试网络成瘾。

在自愿的原则下，我们没有强迫学生写下他们的学号或名字。由于只有39名学生自愿给我们提供学号，所以我们主要比较的是心理量表和我们方法的结果。我们的量表上有五个问题。因为我们使用4点李克特量表来测量，所以总分是20分。成绩越高的学生越有可能沉迷于网络。我们将10级以下的学生定义为不上网成瘾者，其余的学生则定义为网瘾者。对于LIA模型计算的结果，我们认为价值大于等于0.45的人是网络成瘾者。NIA和CIA模型的阈值分别设为0.5和0.35。0.45、0.5、0.35近似于相应方法的平均值。我们使用F1分值来评价LIA模型、NIA模型、CIA模式与心理量表结果的一致性。 The results are shown in Table3.．


模型	投资局	NIA	美国中央情报局

F1的分数	0．71	0．63	0．71

从表3.我们看到，通过这三个模型计算所有的网络成瘾值是从心理量表评估的结果是一致的。特别是，虽然在网络成瘾计算任务不佳CIA模型执行，与NIA模型相比，CIA模型中的网络成瘾值与心理量表结果较为一致。这样的结果表明，我们的方法的正确性，给我们一个线索，计算网络成瘾值时的行为之间的关系是一个重要因素。

5.3.2。在线时间预测

基于我们的假设，网络成瘾是一个隐藏变量，它会影响学生的日常上网时间。因此，学习到的网络成瘾值应该是预测学生上网时间的有用特征。我们设计了两个任务来验证学习到的网络成瘾值的正确性。

回归任务的目的是预测学生的每日上网时间。基线实验以每日行为向量和个人资料信息为输入。对比实验使用学生的网络成瘾值、每日行为向量和个人资料信息预测每日上网时间。对于分类任务，这与回归任务类似。首先，记录分为两部分：一部分在线时间大于或等于平均在线时间，另一部分在线时间小于平均在线时间。分类任务的目的是预测在线时间属于哪个部分。实验设置为ame作为回归任务。回归任务和分类任务中使用的方法包括决策树（DT）、支持向量机（SVM）、k近邻（KNN）、随机森林（RF）、梯度提升决策树（GBDT）、bagging和极端随机树（ET）。

MSE是用作回归任务的评价方法，以及F1分数的分类任务。结果示于表4.和5.．


功能模型	ia−	ia (LIA)	ia (NIA)	ia (CIA)

DT	0.000076	0.000061(19.7%)	0.000072 (5.3%)	0.000064 (15.8%)
支持向量机	0.004114	0.003636 (11.6%)	0.003677 (10.6%)	0.003024(26.5%)
然而,	0.000065	0.000064(1.5%)	0.000066(−1.5%)	0.000064(1.5%)
射频	0.000040	0.000039 (2.5%)	0.000040 (0%)	0.000038(5%)
GBDT	0.000042	0.000039（7.1％）	0.000042 (0%)	0.000040 (4.8%)
装袋	0.000041	0.000039(7.3%)	0.000041 (0%)	0.000039(7.3%)
等	0.000068	0.000057(16.2%)	0.000065 (4.4%)	0.000065 (4.4%)

“ia−”为基线实验，“ia (LIA)”为naive LIA模型学习到的网络成瘾值实验，该实验在LIA模型的网络成瘾计算任务中得到的结果最好。“ia (NIA)”表示NIA模型在不考虑常规行为的情况下学习到的网络成瘾价值最佳的实验，该实验在使用NIA模型的网络计算任务中获得的结果最好。同理，ia (CIA)是指基于聚类模型的网络成瘾价值实验。


功能模型	ia−	ia (LIA)	ia (NIA)	ia (CIA)

DT	0.960643	0.997667（3.9％）	0.997989 (3.9%)	0.998899(4.0%)
支持向量机	0.960773	0.960773 (0%)	0.960773 (0%)	0.960773 (0%)
然而,	0.959270	0.970958 (1.2%)	0.981605(2.3%)	0.973924（1.5％）
射频	0.967783	0.978654 (1.1%)	0.979268 (1.2%)	0.981382(1.4%)
GBDT	0.959812	0.961584 (0.2%)	0.960936 (0.1%)	0.962591(0.3%)
装袋	0.965652	0.998827 (3.4%)	0.998481 (3.4%)	0.999378（3.5％）
等	0.958128	0.966017 (0.8%)	0.970712(1.3%)	0.969175 (1.2%)

从表4.，我们观察到，对于回归任务，支持向量机模型得到了巨大的均方误差。一个可能的原因可能是它不适合这个任务，所以在下面的讨论中我们将忽略SVM的结果。加上LIA和CIA模型计算的网络成瘾值后，预测精度均有所提高。加上NIA计算的网络成瘾值后，虽然预测精度的提升不如LIA或CIA模型计算的值显著，但大多数方法仍有一定的提升作用。

在分类任务中，无论将哪种网络成瘾值添加到行为向量中，除了支持向量机方法的效果没有改变外，其他所有方法的效果都有了明显的提高。

一般来说，在加入LIA、NIA或CIA计算的网络成瘾值后，回归任务和分类任务都得到了显著的提升，这表明我们所提出的模型学习的网络成瘾值是有效的。

5.4。网络成瘾分析

要显示在大学网络成瘾的情况，我们分析了网络成瘾的分布和不同群体之间的网络成瘾程度等不同性别，不同部门的差异。因为天真LIA模型具有最好的预测精度时就读的学生网络成瘾价值与天真LIA模型学到的价值与心理的结果最一致的，下面的分析是基于天真LIA模型计算出的值。

5.4.1之前。网络成瘾分布

数字图2（a）举例说明学生人数与计算网瘾值。网络成瘾价值越大，学生网络成瘾越严重。我们观察到网络成瘾的分布类似于正态分布。为了清晰的显示网络成瘾值的分布，我们将大于0.7或小于0.2的值删除，如图所示2 (b)．如果我们定义网络成瘾小于0.45是正常的，从图中可以看出2 (b)，我们观察到，大多数学生都沉迷于不同级别的网络连接。

(一)

(b)

5.4.2。不同群体的网络成瘾差异

为了揭示不同性别网络成瘾的差异，我们统计了不同性别的平均网络成瘾值。我们还计算了不同性别的平均上网时间。数字3.这表明女孩上网的时间比男孩多。然而，男孩比女孩更沉迷于网络。这一结果与心理学领域的研究结果一致。Wei等采用问卷调查的方式对湖北理工大学大学生网络成瘾状况进行了调查。

他们指出，男孩通常不善于沟通，因此，现实生活中的沟通不足以满足他们的实际沟通需求。以网络为媒介的沟通方式更容易控制，也就是说，他们可以通过这种方式提高沟通的质量和数量，满足他们的需求此外，女孩在时间管理能力和处理网络使用时间方面比男孩更好。因此，男孩比女孩更沉迷于互联网[23]．这与心理学研究结果的一致性进一步证明了我们所了解的网络成瘾值的正确性。

数字4(一)说明了不同部门的平均网瘾水平。总体而言，除个别部门网络成瘾水平极高外，在0.43上下波动。此外，我们统计分析了不同学科学生网络成瘾水平的差异。在图4 (b)，我们可以观察到不同学科学生的网络成瘾水平没有显著差异。这一结果也与[23]．魏等人进行的实验。演示虽然有学生在不同学科之间的人际健康和时间管理能力差一些，差别并不显著。而在网瘾的差别并不显著。心理调查结果一致的结果，也是我们学习的网络成瘾值的有效性的证据。

(一)

(b)

5.4.3。网络成瘾对上网时间的影响

决策树是一种经典的机器学习模型。它擅长于分类和回归任务，并且具有可解释性。因此，决策树模型在各个领域有着广泛的应用[24-26]．为了表明网络成瘾在预测学生上网时间时所起的作用，我们提取了学生每天的Wi-Fi接入时间、消费数量、消费频率、平均上网差距和实际上网时间。然后我们使用分类和回归决策树方法进行了两个二元分类实验:一个根据每日Wi-Fi接入时间、消费数量、消费频率和平均上网差距预测上网时间间隔，另一个根据每日Wi-Fi接入时间、消费数量、消费频率、平均上网差距和上网成瘾值预测上网时间间隔。因为整棵树太大了，不能放在这里，所以我们选择了两个有代表性的分支。注意，所有的值都是规范化的。网络成瘾值、消费金额、消费频率、Wi-Fi接入时间、上网间隔、上网时间的平均值分别为0.45、0.009、0.044、0.062、0.004、0.015。

从图5(一个)，我们知道Wi-Fi接入时间和平均上网间隔是预测上网时间的重要特征。这与我们的直觉思维是一致的，即更少的Wi-Fi接入时间和更长的互联网接入间隔将导致更少的上网时间。数字5 (b)说明在加上网瘾值后，该值对于预测每日上网时间至关重要。特别是在这个分支中，较高的网络成瘾价值是导致上网时间长的一个原因。

(一)

(b)

5.4.4。网络成瘾对年级的影响

心理学研究表明，网络成瘾会损害学生的学习[1]．为了说明网络成瘾的不良影响，验证我们所计算的网络成瘾值的正确性，我们对网络成瘾者和非网络成瘾者的等级进行了统计。

正如我们之前提到的，只有39名学生自愿给了我们学生证，其中一人没有任何成绩记录，所以这部分的分析主要是基于剩下38名学生的成绩。

首先，我们定义网络成瘾值等于或大于0.45的学生为网络成瘾者，其他学生为非网络成瘾者。我们根据学生对网络成瘾的看法将他们分为两组。然后计算他们2018年第二学期的平均绩点。最后，我们统计每组的平均绩点和至少有一门课不及格的学生人数。每个学生的平均成绩计算公式如下: 在哪里指的是平均绩点的学生你2018年第二学期，代表所有课程的学生你这学期的选修课，信用是当然的吗C,当然是的绩点C学生你得到。

分析结果示于表6.．


	斯图号	平均G	失败的斯图号

斯图与ia	18	2.75	3.
斯图没有IA	20.	3.21	1

“有ia的学生”指上网成瘾的学生，“没有ia的学生”指不上网成瘾的学生。“平均G”代表每组所有学生的平均成绩点。“学生不及格人数”是指每组中至少有一门课程不及格的学生人数。

从这个表格中我们可以看到，几乎一半的学生上网成瘾。网络成瘾学生的平均成绩显著低于正常学生。网络成瘾组的考试不及格的学生比另一组的学生多。统计数据与心理学研究结果一致，网络成瘾对学生的学习有不良影响。这些结果进一步验证了我们所计算的网络成瘾值的正确性。

6.结论

本文利用大学生在校园内的网络成瘾行为数据，对大学生网络成瘾水平进行了定量估计。具体来说，我们将网络成瘾值定义为一个影响学生上网时间的隐藏变量，并将这个问题表述为一个回归问题。

沿着这条线，我们首先提出了一个线性网络成瘾（LIA）模型，该模型描述了在学生中网络成瘾程度，行为数据的线性关系，而他们的时间花在网上。为了模拟非线性关系，我们也提供了神经网络的网络成瘾（NIA）模型。此外，我们还开发了一个基于聚类的网络成瘾（CIA）模型，其基于之间学生的实际上网时间和正常的联机时间的差异网络成瘾。这三种模式也需要学生的常规行为和学生之间的相似性的行为纳入考虑。

最后，我们在一个中国高校的真实数据集上进行了大量的实验，实验结果证明了我们的模型的有效性。分析结果与一些心理学研究结果一致，也验证了我们所提出模型的正确性。

数据可用性

出于隐私考虑，用于支持本研究结果的行为数据尚未公布。

信息披露

它是论文的延伸利用行为数据预测大学生网络成瘾[27该论文发表在2019年国际网络信息系统与应用会议(WISA)上。

利益冲突

作者声明本文的发表不存在利益冲突。

致谢

基金资助:国家重点研发计划项目(no. 201430724);2017YFC0803700)和国家自然科学基金资助项目(615322021和61972155)。

补充材料

表S1。大学生网络使用情况调查。（补充材料）

工具书类

2019年，网络成瘾症，https://en.wikipedia.org/wiki/Internet_addiction_disorder．
N. Upadhayay和S. Guragain， "医学生的互联网使用及其成瘾水平"医学教育与实践进展， vol. 8, pp. 641-647, 2017。视图:出版商的网站|谷歌学术
Y.薛，Y.董，罗M.等人，“调查移动SNS成瘾对个人自评健康的影响，”互联网研究第28卷第2期2, pp. 278-292, 2018。视图:出版商的网站|谷歌学术
a . Fumero, R. J. Marrero, D. Voltes，和W. Peñate，“青少年网络成瘾的个人和社会因素:元分析，”计算机与人类行为，第86卷，第387-400页，2018。视图:出版商的网站|谷歌学术
M. Z. Malak, A. H. Khalifeh, A. H. Shuhaiber，《约旦在校学生网络成瘾患病率及其相关风险因素》，计算机与人类行为，卷。70，第556-563，2017。视图:出版商的网站|谷歌学术
何伟，齐安，王琪等，“网络成瘾者的奖赏和惩罚敏感性异常”，计算机与人类行为，第75卷，第678-683页，2017。视图:出版商的网站|谷歌学术
张颖，秦昕，任鹏，“青少年学业投入对网络成瘾与学业成就的影响:课堂成就规范的调节作用”计算机与人类行为，卷。89，第299-307，2018。视图:出版商的网站|谷歌学术
F.赵Z.-H.张L.毕等人，“生活事件与中国的职业学校学生网络成瘾行为之间的关联：抑郁症的调解作用，”计算机与人类行为， vol. 70, pp. 30-38, 2017。视图:出版商的网站|谷歌学术
Wang K.， Jin Y.， Wang H.， Peng H.， and X. Wang，“个性化时间感知标签推荐”，in第32届AAAI人工智能会议论文集(AAAI)，第459-466页，AAAI-18，美国洛杉矶，新奥尔良，2018年2月。视图:谷歌学术
C.关，十路，X. Li等人，“大学生经济困难的发现，”在2015年IEEE数据挖掘国际会议论文集， pp. 141-150, IEEE，大西洋城，新泽西州，美国，2015年11月。视图:出版商的网站|谷歌学术
叶海杰，詹德昌，李旭东等，“高校学生奖学金与补贴的多模式、多标签研究”，高等学校学报数据挖掘的2016年IEEE第16届国际大会（ICDM）论文集， pp. 559-568, IEEE，巴塞罗那，西班牙，2016年12月。视图:出版商的网站|谷歌学术
王凯，“基于贝叶斯概率的多主题矩阵分解预测方法”，出版国际人工智能联合会议论文集，第3910-3916页，纽约，美国纽约，2016年7月。视图:谷歌学术
朱艳，朱慧，刘强，陈恩，李海华，“大学生拖延症的研究:基于数据驱动的行为视角”，《心理学报》高级应用的数据库系统，第258-273页，施普林格，Cham，瑞士，2016。视图:出版商的网站|谷歌学术
。J.鹏，Y.周，十，Sun等人，“智能校园基于社交媒体主题建模：一个深外用关联分析法，”IEEE访问，第7卷，第7555-75642018页。视图:出版商的网站|谷歌学术
G. N. Burlak, J. Hernandez, A. Ochoa等人，“在在线学生评估中使用数据挖掘来确定作弊”电子、机器人和汽车机械会议论文集(CERMA ' 06)，第1卷，161-166页，IEEE, Cuernavaca墨西哥，2006年9月。视图:出版商的网站|谷歌学术
S.阿卜迪H.霍斯拉维和S.萨迪克，“预测学生成绩：结合知识追踪和协同过滤的情况下，”在教育数据挖掘国际会议论文集2018年7月，美国纽约州布法罗市。视图:谷歌学术
刘文，“大学生网络依赖调查及相关原因分析”，中国的惯例，第13卷，第8期，第2485-2487页，2010年。视图:谷歌学术
M. A. Albahar，“使用带有新型正则化器的卷积神经网络进行皮肤损伤分类”，IEEE访问，第7卷，第38306-38313页，2019。视图:出版商的网站|谷歌学术
A. Almuhareb, W. Alsanie，和A. al - thubity，《长短期记忆神经网络和词嵌入的阿拉伯语分词》，IEEE访问，第7卷，第12879-12887页，2019。视图:出版商的网站|谷歌学术
S. Al-Dahidi, O. Ayadi, M. Alrbai, J. Adeeb，“太阳能光伏发电功率预测的优化人工神经网络集成方法”，IEEE访问，第7卷，第81741-81758页，2019。视图:出版商的网站|谷歌学术
刘伟，王旭东，“基于神经网络的标签推荐”，《中国科学:信息科学》，2014年第4期高级应用数据库系统(DASFAA)，第350-365，施普林格，瑞士Cham，2019。视图:谷歌学术
F.Fan和Y.Bai，“大学生网络依赖的研究：测量的修订和应用，”心理发展与教育，第24卷，第2期2，页187 - 203,2005。视图:谷歌学术
Y. Y.卫，G. S.黄，Z. B.谢等人，“研究 - 以湖北工业大学为例大学生网络依赖和孤独感之间的关系，”柳州职业技术学院， 2018年第3期。视图:谷歌学术
“基于梯度提升决策树的高速公路行驶时间预测模型研究”，IEEE访问，第7卷，7466-7480页，2018。视图:出版商的网站|谷歌学术
M.B.B.Heyat，D.Lai和F.I.K.Y.Zhang，“结合头皮EEG的C4-P4和C4-A1通道，使用决策树方法检测睡眠磨牙症，”IEEE访问， vol. 7, pp. 102542-102553, 2019。视图:出版商的网站|谷歌学术
W.旷，Y.-L.陈S.-H.曾荫权和W.-C.兆，“快HEVC SCC的转码器早期CU分割终止和决策树为基础的帧内编码模式的灵活决策，”IEEE访问，第7卷，第8773-8788页，2019。视图:出版商的网站|谷歌学术
彭文，张昕，李昕，“基于行为数据的大学生网络成瘾预测研究”网络信息系统和应用，页151-162，施普林格，Cham，瑞士，2019。视图:出版商的网站|谷歌学术

科学的规划

科学编程中的大数据管理与分析

摘要

1.介绍

2.相关工作

２.１.网络成瘾分析

２.２.校园数据挖掘

3.预赛

３．１．网络成瘾的假设

３.２．问题公式化

4.网络成瘾计算模型

4．1.线性网络成瘾(LIA)模型

以下4.4.1。天真LIA

4.1.2。行为正常的LIA

4．2．神经网络网络成瘾(NIA)模型

4.2.1。准备网络结构

4.2.2。网络成瘾的计算

4.3。集群为基础的网络成瘾（CIA）模型

4.3.1。网络成瘾的计算

4.3.2。正常的在线时间

4.4。模型比较

5.实验

5．1.数据描述

5.2.网瘾计算

5.3。网络成瘾的验证

5.3.1。与心理量表比较

5.3.2。在线时间预测

5.4。网络成瘾分析

5.4.1之前。网络成瘾分布

5.4.2。不同群体的网络成瘾差异

5.4.3。网络成瘾对上网时间的影响

5.4.4。网络成瘾对年级的影响

6.结论

数据可用性

信息披露

利益冲突

致谢

补充材料

工具书类

版权

更多相关文章

相关文章