杂志上的传感器

在这一页上

文摘介绍结论数据可用性的利益冲突引用版权相关文章

特殊的问题

先进的传感器技术在农业、环境和生态工程2021

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID9704315| https://doi.org/10.1155/2022/9704315

分析大学生思想政治动态和基于强化学习的通信路径

Wenbin吴 ¹ 和:刘¹

学术编辑器: 元李

收到了 2022年5月25日

修改后的 2022年7月11日

接受 05年8月2022年

发表 2022年9月12日

文摘

当代大学生是未来国家建设的主力军。他们意识形态的政治动态与党和国家的发展。一些学生有一些问题研究的概念和学习习惯。长期以来,大学生的思想政治教育并没有注意,导致无法准确地分析大学生的意识形态的政治动态。掌握新时期大学生思想政治动态是当前教育工作的首要任务和重要保证高校思想政治教育的发展。随着时代的发展,沟通渠道也不断更新。本文的重点是分析大学生思想政治动态和沟通渠道。在某种程度上,传统的分析方法无法满足当前的研究。本文构造一个大学生思想政治动态分析模型和基于强化学习的通信路径。马尔可夫决策过程和蒙特卡罗方法用于分析大学生的思想政治动态和通信路径。 The results show the following: (1) the highest accuracy of reinforcement learning is 99.7%, and the lowest is 96.2%; the highest accuracy is 99.7%, and the lowest is 97.4%; the highest recall is 99.6%, and the lowest is 97.6%. (2) The average accuracy rate of reinforcement learning is 98.16%, the average accuracy rate is 98.75%, and the average recall rate is 98.65%. (3) In the ideological political dynamics of college students, the score of value orientation is 6.975, the score of learning status is 8.025, the score of consumption concept is 7.7, and the score of employment is 7.45. (4) In the communication path analysis, there are 12 people in interpersonal communication, 15 people in organizational communication, 21 people in mass communication, 28 people in network communication, and 24 people in Internet communication.

1。介绍

作为一个青年组织的重要组成部分,大学生的思想政治动态不容忽视。全面分析了大学生思想政治动态和沟通渠道,提高大学生思想政治教育的有效性。本文构造一个大学生思想政治动态分析模型和通信路径基于强化学习和分析大学生的意识形态和政治动态。本文提供了大量的支持的基础上,以前的结果。强化学习是一种流行的模型分析问题(1]。通过反复分析行为与动态的交互环境。强化学习描述了一种算法类似 - - - - - -学习寻找最优策略(2]。受欢迎的 - - - - - -学习算法高估行动值在一定条件下(3]。一个常见的强化学习模型是标准的马尔可夫决策过程(4]。强化学习等理论开发动物学习和参数扰动自适应控制(5]。强化学习的目标是动态调整参数(6]。最大信号增强,这种趋势被称为一个大学生思想政治教育的重要内容(7]。这也是一个有效的方法进行大学生思想政治教育。了解大学生的思想动态和应用网络思想政治教育(8]。思想政治教育必须符合身体的变化和趋势,继续创新9]。目前,高校思想政治教育应该结合艺术教育(10]。信息技术的不断进步扩大了大学生思想政治动态的传播路径(11]。思想政治教师的一个重要方法优化思想政治教育的传播(12]。强化学习获得学习信息和更新参数,接受环境的行动回报(13]。强化学习主要表现在强化信号(14]。强化学习关注在线学习(15]。

2。理论依据

2.1。强化学习

2.1.1。概述

强化学习(RL) [16)是一种面向目标的学习。强化学习过程是连续的代理和环境之间的相互作用。在这个过程中,代理不断观察环境状态的特点和采取的行动在当前环境下,根据一定的策略规则。环境给反馈行动的形式的回报。代理更新政策基于奖励价值得到更好的奖励在接下来的行动。

强化学习的基本框架如图1。

2.1.2。马尔可夫决策过程

马尔可夫决策过程(MDP) (17)是一种数学描述,可以强化学习,提供最强化学习问题可以建模为一个MDP。MDP将动作元素添加到概率从一个状态转换到另一个状态,丰富马尔可夫特性,并且可以表示为

对答案,MDP包括5个基本元素,即。其中,是状态空间,它可以反映所有的状态集的完整的信息系统;当前状态, ; 是有限的行动空间,它是由所有可能的行动;是目前采取了行动, ; 是奖励函数,代表的期望回报值,代理可以从当前状态到下一个状态 ; 代表从状态转移的概率州 ;和代表了贴现因子,这是一个随机漂浮在0到1的范围。点可用于确定是否总奖励折扣。

寻找最优策略,找到最优的状态,动作值在哪里即时奖励的平均值吗。

2.1.3。探索和利用

强化学习的目的是获得最优的结果;代理得到的最大回报。因此,在培训过程中,有必要对代理执行的行为根据行为可以获得最大的回报价值。同时,考虑到“试错”体验经历了由代理不一定是富裕,只能获得局部最优解,所以代理不能盲目使用现有的经验做出行动,但有必要改善代理的最新勘探寻找新的和解决的能力。由于时间有限,我们需要依靠之间找到一个平衡勘探开发战略。

2.1.4。策略

政策是指在MDP代理的经营方针,这是一个函数,该函数可以计算输出。在强化学习,政策可以被定义为确定的政策和随机的政策。确定性策略意味着在同样的状态,输出由代理是确定性和独特的行动;相反,在相同的状态下随机策略,输出行为的代理不是唯一的,而是遵循一个特定的概率分布,但所有可能的输出行为概率的总和在同一个州应该等于1。

2.1.5节讨论。值函数

在代理和环境之间的交互,操作需要评估,以确保最终的行动集可以获得最大的回报。这里有两个评价机制,即功能和价值函数。价值函数指的价值功能状态,衡量利弊的代理的国家政策。值函数可以定义如下:

上面的公式表达了期望的奖励,可以得到以下政策在国家。其中,代表了代理从环境中获得的奖励 ,可表示如下:

如果是在一个连续的情况下,可能没有最终状态,即

需要奖励折扣,折扣因素可以表示为

其中,如果是0,立即奖励奖励,如果是1,奖励主要是反映在未来回报。因此,价值函数可以表示为

的函数,也称为国家行动价值函数,是用来测量的优缺点后的代理政策和执行的操作。的函数可以定义如下:

上面的公式表示期望的奖励,可以得到以下政策并采取行动在国家。这个公式可以表示为

函数是用来评估价值,和函数是用来评估行动18]。进一步推导值函数可以得到:

类似地,函数也可以派生

根据上面的推导过程功能和价值函数(19]。这可以进一步扩展的贝尔曼方程:

所产生的价值函数最大值应该满足

同样,最优策略应该优于或等于其他策略。最优政策能产生最优值函数(20.]。的最大价值函数最优成本函数:

结合上面的公式,最优成本方程可以得到:

2.2。常用的强化学习算法

2.2.1。蒙特卡罗方法

蒙特卡罗方法(21),一个非常重要的优势是,它不需要了解环境,只需要把马尔可夫四所代表的经验与环境互动,然后解决强化学习问题的平均回报样本。状态值函数可以写成

其中,表明,在国家 ,行动一直使用生成的轨迹数据策略 ,和显示在这个轨迹回报的总和。当更新动作值函数时,增量方法可以用来实现蒙特卡罗方法。

2.2.2。时间微分方法

萨顿提出了时间差分算法,结合蒙特卡罗和动态编程方法(22]。这是一个重要的强化学习算法。这种方法可以学习在一些连续的状态。

标准时间差分法是一个学习的模范自由算法直接从经验和估计的当前状态值的一个或多个步骤之后的行动。最基本的一步更新TD(0)算法(23]。当使用一个表的值,TD(0)算法的迭代公式在哪里价值函数的状态吗在时间。

TD法也叫TD(0)方法,因为这种方法更新值函数与相应的后续状态后一步。我们可以定义一步返回的一般形式

这时,价值函数的更新

2.2.3。撒尔沙的学习

撒尔沙算法的名称来自于更新值函数时,使用5变量的当前状态 ,这个动作在当前状态,奖励当前的行动,下一个状态了,以为下一个状态。行动包括。

在当前状态和行动 ,后状态转换到另一个状态 ,当前操作成本函数必须更新。到达下一个状态之后,更新下一个操作成本函数直到最后。这个成本是更新如下: 在哪里率和学习衰减系数。

2.2.4。 - - - - - -学习

- - - - - -学习是一个时间差分算法在偏远的策略。偏远的策略意味着判定当前行为策略的不同策略的更新值函数。代理选择行动通过战略和当前状态与环境相互作用,但是,当更新值函数,它使用另一个策略。行为价值函数更新公式 - - - - - -学习如下:

3所示。分析大学生思想政治动态和通信路径

3.1。大学生思想政治的动态分析

面对复杂和不断变化的社会环境,开展思想政治教育工作在大学和把握大学生的思想动态,有必要分析当前大学生思想政治动态。分析四个方面:价值取向、学习状况、消费的概念,和就业,如表所示1。

3.2。传播路径分析

3.2.1之上。最初的传播路径

最初的通信路径大学生思想政治动态分为三类:人际沟通、组织沟通、和大众传播,如表所示2。

3.2.2。新的传播路径

虽然最初的通信路径大学生思想政治动力学都有自己的优势,对人际沟通的影响并不广泛,受限于时间和地点。与此同时,它也在很大程度上限制了沟通的质量。组织沟通的范围仍局限于地方,和很难解决的问题及时和有效的沟通。大众传播是单向沟通,没有互动交流24]。因此,在意识形态和政治动态传播的过程,而采用和改进原有的传播路径,一个新的意识形态和政治动态传播路径也应该打开。(1)网络通信是基于计算机通信网络传输、交换和利用信息,从而达到社会和文化交流的目的。在互联网上,人们可以自由地浏览几乎所有的信息在互联网上25](2)开放互联网是一种新的方式对大学生交流思想政治动态。这不仅仅是发布一些信息在互联网上思想政治动态交流。关键是使用互联网的各种优势和电脑实现动态交换的意识形态和政治动态postevent preevent通过思想政治动态数据库和科学使用本系列数据库在实践中,从定性沟通量化通信和优势传播到多向传播

3.3。模型建设

本文构建一个大学生思想政治动态的分析模型,基于强化学习和传播路径。该模型首先收集大学生思想政治动态,然后总结了意识形态的政治动态和传播路径通过调用请求。如果没有调用请求,调用请求将会继续,直到有一个调用请求。意识形态和政治动态和传播路径只能分析信号后感觉直到最后。同样,如果没有感觉,信号传播路径分析将被重复,直到一个信号是感觉到,如图2。

4所示。实验分析

4.1。模型试验

基于强化学习,本文构造一个大学生思想政治动态的分析模型和通信路径。模型首先需要测试。100名大学生被随机选为实验对象,分为10组和10组。强化学习是与深度学习相比,机器学习,结构方程建模和传统方法。在模型试验比较,本文采用最常见的准确率,精确率和召回率的比较指标。实验结果数据如表所示3- - - - - -5。

从数据结果可以看出,强化学习是高于其他模型精度的比较,精度和召回,有明显的优势,这表明强化学习更适合本研究。

强化学习的精度是99.7%和96.2%,37.6%高于其他方法。最高的准确性为99.7%,最低为97.4%。与其他方法相比,它是37.8%高于最低的准确性。召回率最高为99.6%,最低为97.6%。与其他方法相比,它是39.3%高于最低的回忆。为了看到这个模型更加直观的优点,如图3- - - - - -5。

通过综合比较的精度、精度和召回的五个方法,每个指数的平均值的5个方法表明,强化学习方法有更明显的优势,如图6。

从图6,我们知道强化学习最高的平均精度,精度和召回,平均精度为98.16%,平均精度为98.75%,平均98.65%的召回。因此,该模型是最适合本文的研究分析。

4.2。大学生的意识形态和政治的动态分析

经过测试,该模型将应用于本文的研究。首先,分析大学生的意识形态和政治动态。随机抽取100名大学生被分为四组:大一,大二学生,青少年和老年人。分析四个方面:价值取向、学习状况、消费的概念,和就业。通过问卷调查,学生分四个方面根据自己的情况,总分为10分。结果如图7。

根据图6,价值取向分数在大学生的思想政治动态是6.975,学习状态是8.025,7.7消费概念,就业方面是7.45。其中,大一学生更关心学习的状态,而高级学生最关心的就业问题中,得分最高的评分结果,达到10分。

4.3。传播路径分析

本文列出了五个通信路径,人际传播、组织传播、大众传播、网络通信和互联网。为了更准确地分析大学生的思想政治动态通信路径,这个实验统计了100名大学生的意识形态的政治动态传播路径。结果如图所示8。

实验结果表明,12人交流通过人,15人通过组织交流,21人交流通过大众传播,28人通过互联网交流,24人通过互联网沟通。这表明大学生的通信路径意识形态动力学主要是基于网络通信,和一年级学生的数量通过人际沟通和高级学生组织交流只有2。

5。结论

大学生的思想政治趋势与国家和民族的前途和命运,和通信路径也是非常重要的。基于强化学习,本文构造一个分析模型的大学生思想政治动态和通信路径,提高了精度,精度和召回率的基础上,传统的方法,有助于分析思想政治动态和通信路径的大学生。

本文的研究结果表明(1)通过比较与深度学习强化学习,机器学习,结构方程,和传统方法,强化学习的精度是99.7%和96.2%,分别是37.6%高于其他方法。最高的准确性为99.7%,最低为97.4%。与其他方法相比,它是37.8%高于最低的准确性。召回率最高为99.6%,最低为97.6%。与其他方法相比,它是39.3%高于最低的回忆(2)强化学习最高的平均精度、精度和召回,平均精度为98.16%,平均精度为98.75%,平均98.65%的召回(3)大一学生更加注重学习的状态,而高级学生最关心的就业问题,他们中得分最高的评分结果,达到10分(4)大学生意识形态动力学的通信路径主要是基于网络通信。一年级学生的数量通过人际沟通和高级学生通过组织沟通的数量最少,分别只有2人

基于实验结果的分析,得出为了引导积极发展大学生的意识形态的政治动态,(1)提高思想政治教育,(2)提高课程和心理健康监测机制,(3)提高学校就业指导,(4)加强对网络舆论的管理,和(5)加强家庭教育的合作。虽然本文中的模型构造有明显优势的精度,精度,和回忆,它仍然具有一定的局限性。这个模型仅限于研究大学生的意识形态的政治动态。一般性的模型需要进一步研究在未来增加模型的通用性,使模型适用于更广泛的研究。

数据可用性

使用的实验数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称,关于这项工作他们没有利益冲突。

引用

马哈德文和j·康奈尔”,自动编程的基于行为的机器人使用强化学习,”人工智能,55卷,不。2 - 3、311 - 365年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
m . m . Botvinick y和合,a·c·Barto”分层次组织行为及其神经基础:强化学习的角度来看,“认知,卷113,不。3、262 - 280年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
l·贝尔德“剩余算法:强化学习函数近似,”第十二学报》国际会议上机器学习太浩,页30-37,城市,加利福尼亚,1995年。
视图: 出版商的网站 | 谷歌学术搜索
m·j·弗兰克和e . d .老人,”解剖学的决定:striato-orbitofrontal交互在强化学习中,决策、和逆转,”心理评估,卷113,不。2、300 - 326年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
s p·辛格和r·s·萨顿”与更换合格的痕迹,强化学习”机器学习,22卷,不。1 - 3、123 - 158年,1996页。
视图: 出版商的网站 | 谷歌学术搜索
j·彼得斯和s . Schaal”运动技能的强化学习策略梯度,”神经网络,21卷,不。4、682 - 697年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
b.f. Wan和g . y .王”现状的分析大学生思想政治教育系统”,南昌航空技术学院学报》(社会科学版),18卷,不。3、265 - 279年,2006页。
视图: 谷歌学术搜索
l . i明“体验式教育:有用的轨迹在加强大学生思想政治教育的有效性,“高等教育论坛,11卷,不。4、739 - 752年,2008页。
视图: 谷歌学术搜索
c . g . Sibley d·奥斯本和j . Duckitt“个性和政治取向:荟萃分析和测试的威胁——约束模型,”在人格杂志》上的研究,46卷,不。6,664 - 677年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
A . Schwartz”尚未完全回报最大化的强化学习方法,“机器学习程序卷,1993年,第305 - 298页,1993年。
视图: 出版商的网站 | 谷歌学术搜索
c .姚明,“传播舆论传播路径分析WEB2.0同行生产社区基于相似性链接预测,“计算机工程与应用,48卷,不。30日,第88 - 83页,2012年。
视图: 谷歌学术搜索
美国k能剧,d . y . Choi和c . k .公园,“传播路径分析蜂窝移动通信的基站的位置选择,”网络- ICN 2005。ICN 2005施普林格,柏林,海德堡,3421卷,第911 - 904页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
k . a . Hujsak e·w·罗斯·w·凯洛格,y,和v . p . Dravid”高速/低剂量与动态取样,分析电子显微镜”微米卷。108年,31-40,2018页。
视图: 出版商的网站 | 谷歌学术搜索
e·A·Theodorou j . Buchli, s . Schaa“广义路径积分控制的强化学习方法,“机器学习研究杂志》上,11卷,不。11日,第3181 - 3137页,2010年。
视图: 谷歌学术搜索
莫泽尔和m . c . Hasselmo强化学习:介绍,“IEEE神经网络,16卷,不。1,第286 - 285页,2005。
视图: 谷歌学术搜索
a·e·凯利,s . l . Smith-Roe和m . r .他是“Response-reinforcement学习是依赖onN-methyl-d-aspartate受体激活伏隔核的核心,“美国国家科学院院刊》上的美利坚合众国,卷94,不。22日,第12179 - 12174页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
a . Dezfouli和b·w·Balleine”习惯,动作序列和强化学习,欧洲神经科学杂志》上,35卷,不。7,1036 - 1051年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
盛田昭夫,k . m . Morishima k .酒井法子,“强化学习:计算值的时序差异通过不同层次的途径,”神经科学的趋势,35卷,不。8,457 - 467年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
h . r . Beom和h . s .赵这样说道,“移动机器人的导航传感器使用模糊逻辑和强化学习,”系统与控制论IEEE的男人,25卷,不。3、464 - 477年,1995页。
视图: 出版商的网站 | 谷歌学术搜索
d . a . Pizzagalli a·e·艾文·e·c·Schetter et al .,“单剂量的多巴胺受体激动剂会损害人类的强化学习:从奖励的实验室测量响应行为的证据,”精神药理学,卷196,不。2、221 - 232年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
公元Redish,詹森,a·约翰逊和z . Kurth-Nelson”“调和强化学习模型与行为灭绝和更新:影响成瘾,复发,问题赌博”:修正,”心理评估,卷116,不。3、518 - 518年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m x科恩和c . Ranganath“强化学习信号预测未来的决定,”神经科学杂志》上,27卷,不。46岁,12540 - 12545年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
t, l .周,j .元,“基于TD(0)统一民主党方法学习平均和贴现马尔可夫决策过程,”控制理论与应用,23卷,不。2、292 - 296年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
f·l·刘易斯、d . Vrabie和k . g . Vamvoudakis”强化学习和反馈控制:使用自然决定方法来设计最优的自适应控制器,”控制系统IEEE,32卷,不。6,76 - 105年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
g . Tesauro n . k .郑大世,r·达斯”混合强化学习自主资源分配方法,”在自主计算IEEE国际会议,页65 - 73,都柏林,爱尔兰,2006年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

170年

下载

199年

引用