文摘

COVID-19突然高度传染性传染病,它有一个非常坏的影响大学生的心理在成年早期。为了实时掌握大学生的心理状态,这项工作在COVID-19研究大学生的心理状态。首先,本研究介绍了数据挖掘的相关理论,确定研究对象和方法。然后,模型的特性和由两个方面分析了静态特性和动态特性,并挖掘特点与心理状态。最后,选择遗传算法建立模型和模型评估;结果表明,该模型能准确地预测COVID-19期间学生的心理状态。

1。介绍

COVID-19突然高度传染性传染病,给日常生活带来极大的不便的人1,2]。基于当前形势下,COVID-19将持续很长一段时间。与别人相比,大学生更容易感到孤独和沮丧,所以学生的情感是复杂的,多变的。同时,大学生缺乏经验在处理突发事件和他们的情感更有可能不稳定3,4]。作为世界上主要的突发公共卫生事件,COVID-19也有一个非常坏的影响在成年早期心理学的大学生。因此,重要的是要研究不同学生的心理状态,从而为进一步改善心理健康教育提供科学依据。

研究人员已经进行了很多研究流行期间大学生的心理健康。大学生的心理状态在研究了COVID-19引用(5,6),结果表明,高级的大学生更容易焦虑和敌意,重大生活事件的人更有可能有躯体化症状,没有亲密的朋友和学生更有可能有抑郁和恐惧症的症状比学生亲密的朋友(5,6]。返回COVID-19期间大学生的焦虑状况调查文献[7),结果表明:20%的大学生有轻度焦虑和6.5%的中度或严重的焦虑7]。萨顿和Barto8]研究了大学生的心理健康状况在两个阶段中紧急状态和正常化状态。结果表明,大学生有明显的负面情绪,如焦虑、自责,无聊在流行,降低和稳定的流行8]。上述研究表明,COVID-19很差对学生的心理产生影响,但有两个问题的研究,一是研究样本太小,另一个是,样本代表性不够。大多数研究关注大学生的整体心理健康,关键群体的心理健康状况并不是足够的关注(9,10]。

首先,本研究介绍了数据挖掘的相关理论;考虑到众多COVID-19可能对大学生的影响,确定研究对象和研究方法。然后,模型的特点进行了分析,从两个方面构建静态模型的特点和动态模型的特点。最后,一个模型之间的关系大学生的心理状态和疫情构造基于GA,和评估模型的准确性。

2。数据挖掘理论

随着时代的发展,数据在各个领域相互交织,这意味着大数据的时代已经到来。大数据有五个特征是大量的数据规模、快速数据循环、动态数据系统,各种各样的数据类型,和巨大的数据值,其关系如图1。隐藏在数据的值不浮在表面,所以内部的巨大价值的数据通常需要由各种方法(11]。

知识发现是用来识别有效的数据集的数据,其过程可分为五个部分,数据筛选、数据预处理、数据转换、数据挖掘和数据解释和评价(12]。首先,知识发现需要过滤目标数据从最原始数据进行数据预处理,预处理数据转换。然后,数据挖掘方法应用于表单模式或规则,通过解释和评价知识生成,基本过程如图2

3所示。研究对象和方法

3.1。研究对象

通过便利抽样法,进行了网上问卷调查对大学生在大学在北京,和12018份有效问卷。根据性别和教育背景,研究对象可分为两个部分,不同的研究对象总数的比例如图3。在性别方面,男生的数量远低于女生,男生占总人数的26.19%,女生占73.81%。在学历方面,大学生的比例是最高的,占总数的89.91%,其次是大专学生,占6.83%,本科和大专的比例是最低的,占3.26%。

3.2。研究方法

调查问卷主要考虑COVID-19增长经验的影响,人格的神经质、消极生活事件、社会支持、程度的抑郁,隐蔽,自杀的大学生的潜在风险,如图4

增长的经验是指事物的影响个人成长的过程中经历了研究对象,如父母的情感上的不相容和虐待的经历。研究表明,离婚率大大增加流行期间,这将对孩子有一定的影响和产生深远影响孩子未来的人际关系。同时,流行造成的经济压力会让父母失去了控制自己的情绪,和儿童可能被滥用13]。

人格特质神经质人格特质中是一个基本的心理学研究,用于测量情绪变化的稳定性。人格特质神经质高分的人压差阻力,更可能有一种敌意。他们通常以自我为中心,很难控制他们的冲动和欲望,和一个小挫折常常会使他们绝望。

消极生活事件指的是遇到负面事件的受试者在最近的生活中,比如过度的学术压力和家人的期望很高。这些事件可能发生在大多数同龄人,造成身体或社会或心理创伤,但是不同的人可能显示不同的反应,当他们遇到同样的事,因为不同性别、年龄、文化背景。

社会支持是指研究对象的关注和援助可以从社会的感觉。当个体遭受困难,社会支持程度越大他可以得到,它将帮助个体摆脱麻烦。

抑郁症是一种沮丧和厌恶的活动状态,认为有一定的影响,行为,感觉,和身体健康的人。抑郁程度越高,越强的感觉沮丧,无助、易怒、和其他负面情绪。

蒙面心理学是心理学的研究对象欺骗自己和其他人为了逃避责任,是一种心理防御机制和心理疾病通常伴随着一个过度的心理防御机制。

自杀是用来测量的潜在风险科目有自杀行为的可能性。潜在风险越高的自杀,自杀意识越强,和他们中的大多数患有精神疾病,特别是抑郁症。

研究表明,主要有两种负面情绪爆发在一种新的冠状肺炎,一个是,另一个是抑郁、焦虑抑郁焦虑压力量表是选为调查工具,适合大学生。如图5负面情绪分为五个层次,是正常的,温和的,温和的,严重的,非常严重。在这项研究中,使用SPSS软件分析数据,数据差异小于0.05的显著性水平。

4所示。模型的特性分析和建设

影响大学生的心理状态的因素可分为两个方面,一个是天生的静态因素不会改变极大地随着时间的推移,如性别、出生地,和国籍,这些被称为固有属性。另一个是瞬时或上演了后天环境的心理影响将改变随着时间的推移或外部干预,如饮食和行为改变,这些被称为动态特性。这项工作主要研究大学生的心理状态在COVID-19流行,很明显,COVID-19是一个动态的特性,因此本研究将主要构造的特点,心理状态感知模型通过动态特性。

4.1。数据清理

特定的特性分析和建设之前,需要先清理的数据。对缺失数据的调查问卷,通过特定的需要完成数据填充策略。部分缺失的问题领域,有两种方法可以填写数据,一个是零值填充,另一个是意味着填充。例如,数据丢失的年龄,应该使用均值填充方法来填补它,和数据的字段不符合要求应过滤。数据和重复数据,数据计算的关键字段,和重复数据消除。判断是否有相关测量标准数据源的属性是冗余的,如以下公式所示: 在哪里n代表元组的数量, 代表的平均, 代表的平均B, 的标准偏差是A和B。

4.2。静态特性分析

从数据的角度来看,静态特征包括三个部分,性别,年龄,国籍信息,学生的基本信息。考虑新大学生,静态特征还包括信息,如高考分数,候选人类型和录取批次。本节分析的固有属性之间的相关性,通过回归分析人们的心理状态;我们可以判断这个属性之间存在统计学意义和精神状态根据回归系数的大小,和静态特性的精神状态感知模型可以构造。

对于性别的离散属性,数据应该是数值处理首先,男性和女性被映射到1和0,分别。交叉频率进行分析,结果如图所示6。可以看出,没有显著的性别和抑郁之间的关系。

年龄的单位;月小于12个月时,得到小数部分的月数除以12。例如,当从出生日期的时间评估日期是20年,3个月,参与者的年龄属性是20.25。不需要专门处理连续属性数据,并输出结果可以通过添加一个常数项为数据。

同样,对于国家的离散属性,有必要先做数值处理。由于小数量的少数民族,不是每个民族独立意义的分类,所以只有少数民族属性分为两类,一个是汉族和其他少数民族,并分别映射到1和0。其中,抑郁症在少数民族的比例是24.34%,汉族是18.72%;可以看出,抑郁症在少数民族的比例明显高于汉族。

4.3。动态特性分析

心理状态感知模型的最终目标是在COVID-19实时预测学生的心理。基于学生的行为数据,本研究构建三个动态特性是学生消费特点、学生的行为特征和社会特征的关系。

学生的消费数据在COVID-19日常消费数据主要包括三个部分,图书馆访问控制数据,和选课数据。日常消费数据包括时间、地点和数量的消费,图书馆的访问控制数据包括入口和出口的国家和时间,和选课数据包括学期和课程类型。在这项研究中,只有行为数据的大学生从入学测试选择时间范围,这也有利于数据时间跨度的需求模型。

除了消费数据,大学生也会生成行为数据在他们的学校天包括访问控制宿舍的记录、访问控制的记录库和选课记录。行为的人们可以在很大程度上反映了人们的心理状态;本研究描述自我约束能力的人通过他们的行为特征,主要包括三个方面,即图书馆学习规律,选课行为特征,丢失货物的行为特征。

社会关系的活跃程度密切相关,内向和外向的性格。当学生的社会关系更加活跃,学生更活跃和他们的朋友的数量相对较大。当学生没有积极的社会关系,它表明学生不擅长或不愿意交往。相对独立的人格的人不善于表达自己和他们倾向于积累心里压力和负面情绪。从长远来看,当他们不能承受的心理压力达到阈值,它将导致精神崩溃,最终形成抑郁。没有科学的定量方法评估社会关系的活跃程度;本研究将描述活跃程度的社会关系的朋友的数量,也就是说,学生有更多的朋友,就越活跃在社会关系。

5。模型建立和验证

该模型的目的是通过行为来预测学生的心理状态在COVID-19数据。基于数据挖掘的算法和模型的建设上面介绍的特性,本节将从构建模型的特定数据大学生的心理状态之间的关系和疫情。

5.1。模型建设

本研究用于构建模型的大学生的心理状态和流行之间的关系情况下,和各种类型的分类模型算法需要在预选阶段。选择从不同的数据挖掘模型,遗传算法是最后选为模型输入优化算法,可以找到最佳的子集在范围广泛的数据集。

遗传算法的基本原理是通过遗传算法找到最优的二进制代码,代码中每一点对应特征向量的特征表。如果我咬是“1”,选择相应的功能。如果是“0”,这意味着该功能不是选择。基本步骤主要分为五个部分,编码,计算健身,选择个人最大的健身、交叉和变异操作,和繁殖,基本过程如图7

遗传算法的训练方法主要有两个基地,一个是健身,另一个是计算的结果选择策略。首先,它是必要的,选择适当的培训方法;然后,贴上监督样品应该受到有限的迭代操作,以便选择最合适的组合特征区分标签。遗传算法在这项研究是基于距离的适应度函数则直接取决于样品的数据本身。该算法有两个优势,一个是直观和简单,另一个是明确的物理概念,和样品的分离性可以通过计算判断之间的距离相似的样本和不同样本之间的距离。给出了相应的计算内容在以下方程: 其中C表示类别的数量,M代表的意思是向量,M代表样本的平均向量组。

而寻找最优配比因素的变量组合,比例因子的值范围应该首先确定,然后,基于遗传算法反演的一般形式,如以下公式所示: 在哪里 表示变量的组合, 代表值区间的下限, 代表了价值区间的上限。

模型的主要目的是进行分类和判断学生的精神状态信息在流行,根据他们的数据和模型的构建主要分为四个部分训练样本数据集的准备,样本数据集的划分,预选模型算法,训练模型,如图8

在模型的构建,应该首先获得标签数据。其次,根据基于遗传算法的特征选择方法,应匹配不同的标签数据选择最优特征维度。最后,比较选择的影响特性的遗传算法的输出模型,模型对照组应该选择比较的算法和模型应该被训练。

5.2。模型评价

最常见的模式,有三个评价指标,即准确率、召回率,和F1分数相结合的准确率和召回率。这些评价指标的计算从混淆矩阵的存在是分不开的,这通常是用于分类算法。正确分类的准确性反映了比例在每个类别的分类结果,也就是说,每个类别的判断模型的准确性。召回率可以反映出每个类别数据集分类模型的灵敏度。F1分数是一个新的索引设计代表模型的综合性能是调和平均数的精度和召回率。F的值范围1分数是0 - 1,值越大,模型的效果越好。计算方法的准确性,回忆,和F1得分给出以下方程: 其中TP表示积极的情况,实际结果是积极的,FN代表了负面情况,实际结果是正的,《外交政策》代表了积极的情况下当实际结果是消极的,当实际结果和TN代表了负面情况是负的。

为了验证该模型,该模型没有遗传算法设置对照组和模型与遗传算法组作为实验组。从图可以看出9的F1数十多个算法模型可以达到0.9以上,这表明学生的心理状态在COVID-19的确是可预测的,也有相对较大的联系学生的心理状态和行为数据。通过行为数据的变化,我们可以准确地预测COVID-19期间学生的心理状态。

6。结论

首先,本研究介绍了数据挖掘的相关理论;考虑众多影响COVID-19流行可能对大学生,本文的研究对象和研究方法。然后模型的特点进行了分析,由两个方面,一个是静态模型特征,包括基本信息,如性别,年龄,国籍,和另一个是动态模型特征包括学生消费的特点,学生的行为和社会关系。最后,模型之间关系的大学生的心理状态和疫情构造基于遗传算法;结果表明,提取的特征维度数据遗传算法更代表和模型能够准确地预测学生的心理状态在COVID-19 [14,15]。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。