文摘
世界主要发展领域的学习和远程学习,特别是在COVID-19危机,显示这两种教育的重要性和卓有成效的好处提供了在一群国家,特别是那些有良好的基础设施。教师的科学Semlalia下级法官Ayyad大学马拉喀什,摩洛哥,我们已经创建了一个简单的电子平台远程实际工作(RPW),和它的结果还不错的学生互动,甚至促进就业的教授。这项工作的目的是提出一个基于深quality-learning网络的推荐系统(DQNs)推荐和直接学生提前做RPW根据他们的技能的鼠标或键盘点击每个学生。我们专注于这项技术,因为它有很强的,巨大的可见性和解决问题的能力,我们将演示在结果部分。我们的平台使我们收集一系列学生和教师信息和与学习内容的交互,我们将依靠作为输入每秒(大量图片为每个鼠标或键盘点击每个学生)到我们的新系统的输出(做RPW)。这种技术是反映在试图体现平台中的虚拟老师的形象,然后充分执行RPW DQN技术训练。
1。介绍
2017年,Ouatik et al。1)创建了一个电子平台远程实际工作可以描述这个概念,方法,结果支持的先进一步E-lab L 'AUF工程(跟大学医疗de la法语区)。这个平台的目标是结合e-technologies和e-pedagogies创建在线等工程的本科课程实践经验。这个项目是一个部分的远程学习系统的改善和发展(学习),尤其是远程实验室,是新技术,允许学习者或研究人员创建,开展科学实验和深化他们的实验知识通过网络远程实验室。这个电子学习系统的良好的和重要的特征是使用和尊重教育教学和教学标准之后,这个系统的性能有关的速度和精度与实验室。此外,这个系统必须的工作和任务容易实验室经理准备和管理访问的重要实验和操作。
机器学习是人工智能最重要的分支之一,用于各种领域和学科(2- - - - - -4),包括教育领域,我们将关注5]。AI分为三个分支:监督学习、无监督学习和强化学习。这些类型是雇佣和使用根据我们想做的和形式。强化学习(RL)重点检查行动,累计奖励从环境中获得最大的价值。此外,RL利用试错学习过程,以实现其目标。这种独特的功能已被证实是一个先进的方法来构建一个人类代理(6]。1992年,马哈和康奈尔大学建立了一个动态机器人基于RL叫贝利克斯,学会了如何推动盒(7]。1996年,Sarcos人形DB是由学习Schaal pole-balancing任务(8]。RL方法提出了控制的动态步行机器人没有先验知识的环境9]。在[10等人采用的)•巴克勒RL训练机器人打乒乓球,而且,在11),Riedmiller等人应用一批RL为足球机器人准备至关重要的技能。最后,RL已经成为最大的一个常用的方法来构建一个自主代理;传统的学习方法的缺点限制它处理复杂问题12]。最近与RL集成深度学习的方法改善了现有RL方法相当的性能。创建一个智能代理,研究者结合深度学习和RL获取深层强化学习,几乎是不可战胜的一系列视频雅达利游戏(13,14]。延长深RL的成功,谷歌DeepMind AlphaGo创建子公司,一个程序,打了一个最好的专业的球员,在2016年(15]。同时,法令等。16]深quality-learning网络(DQNs)方法应用于有效的股票市场预测。发表的另一篇论文的法令等。17]提出了一步这样一个任务提出了一个深的q学习的分类器与环境和不同的经历。此外,谷歌,Uber,特斯拉加速研究深RL设计新一代的智能无人驾驶汽车。DQNs [18)连接这些点之间的深层神经网络与RL征服传统RL方法的棘手的问题。特别是DQNs利用卷积神经网络(CNN)分析输入图像和使用这些CNN近似核反应能量函数(12]。换句话说,DQNs的目标是最小化CNN的损失函数,我们将展示这个表达式。因此,DQNs创建一个智能代理,优于最好的RL方法到目前为止测试一系列雅达利的游戏。
我们专注于深度强化学习的原因是它的效率高,我们可以解决一些问题,有时是困难的。这项技术包括所有参与的一系列决策的问题。在学习过程中,它可以帮助学习者交互和集成到教训,甚至考试作为学生执行一组程序来解决问题。所有这些行动和行为由reinforcement-learning-based然后收集和分析系统告知学生他们有采取行动是否他们是对的。另一个原因是它的算法,已经开始产生很好的结果在许多具有挑战性的环境,有时效果极佳。在这里可以说,深RL日益发展和开始表明新算法将给它一个巨大的潜力来解决未来艰难的挑战。我们的第一个问题是关于如何使用深度强化学习技术学习过程以及他们如何可以帮助学生提高他们的认知水平,引导他们,教他们如何与他们交互RPW在真实的方式。第二个问题是关于设计新的智能electronic-interface-based DQNs包括虚拟老师(代理人)与一个定制的互动环境,可以帮助学生整合。定义完全贡献在这篇文章中,我们采用一个框架促进学习,我们将专注于实现DQN产生重大影响的方法构建一个智能代理,可以RPW明智地在很短的时间内;这个代理的培训后,我们将把它给学生教他们如何做RPW。
2。提出了系统架构
作为我们的问题是关于如何使用深度强化学习技术学习过程以及他们如何可以帮助学生提高他们的认知水平,引导他们,并与他们在一个现实世界的方式,我们提出了一个例子,展示了这种技术的工作计划和使用在教育。图1分为三个重要部分。
2.1。第1部分
这是使教育内容的结构的一部分,它是主要的过程和成功的过程的本质,因为通常被称为社交媒体和电视频道,如果人们报告的结构和内容很好,人们会与一个伟大的方式,考虑它,所以必须关注这个方面。
2.2。第2部分
这一部分是有关学生。我们的主要目标是帮助学生和提供所需的所有需求,实现他们的目标,所以,我们作为设计师,反应和最简单的方法;可以观察到的,例如,在图2学生与一个简单的环境出现在他们的电脑屏幕上。电路组成的一组电极允许学生按现有的断路器,例如,电流或功率的计算。只有电子领域的形象,可以代替这张照片与另一个力学领域,光学等根据需要和做同样的操作。
2.3。第3部分
这声明是一个虚构的老师的照片,工厂,或机器人,指导学生通过给他们一组建议,这些形式的书面文本,声音,图片或一组动作,激发学生他们将做什么。
深深理解部分2和3对他们如何工作在我们的教育过程中,我们将以下解释:(我)输入图片:他们似乎的学生,他的表情是练习,测试,或基于图像系统的文本(2)深q学习网络他们这些照片的部分相关处理和提取相似的元素和链接,链接这些照片取决于系统的重量(3)可能采取行动:它是最重要的阶段的学习者,通过他们的行为和决定他们认为正确的从环境中获得一个好的回报,以点的形式,或其继任者的比例下降的物质,和环境也告诉他们如何成功或得到一个好的分数和一个好的奖励
这种技术帮助学生与他们互动的平台和环境。代理谁能指导学生做出决定他们必须做的事情,他们不需要做的事情,这样他们就可以理解这个问题。代理认为这些工人。补充说,这些工人可能发生在不同的时间,因为它可以同时或不同时,允许学生采取正确的时间学习。它还允许学生被吸引到融入学习过程通过交换对话和互动的平台,这将为其提供的事情要做。
3所示。方法
3.1。强化学习:Agent-Environment
强化学习是机器学习的一个分支,它与自主学习主要通过试验和错误的自我教育系统,执行工作以增加回报,检查代理学习如何实现目标在一个复杂的和不确定的环境中达到最好的结果。
见图2,代理的当前状态 ,采取行动 ,相互作用和响应环境,重建和奖励 ;鉴于其状态和当前的奖励,代理选择下一个行动和重复,直到其环境是解决和终止。
在我们的例子中,RL的任务是训练一个代理(与环境交互的虚拟老师)(电脑屏幕的电子电路)。代理出现在不同的场景中被称为国家执行操作(对组件的,错把的组件,点击右键,错误的点击,和外部单击)。行动导致奖励(奖励分配基于这些行动的结果。如果代理可以单击真或者把真,它需要积极的奖励。然而,犯规点击或错误的将是负的奖励,但点击之外没有任何东西;有一个序列所需的行动。RL的重点是学习贯彻这些序列和最大化回报),可以是积极的和消极的。我们的代理的目的是通过一个集总回报最大化。这一事件发生之间的第一个状态和最后一个在环境或终端状态。我们提高代理学会执行完美的操作体验。
3.2。q学习的
这个代理驱动的动作可能会弱,不足以解决,所以我们使用一个名为q学习的新技术,特别强化学习方法。这种技术可以用来快速找到解决方案,在理想的情况下,它的目的是学习工作计划告诉代理在任何情况下,不应当采取什么行动需求环境的模型。质量(问)用于显示有用的是一个特定的行动支付在未来,表达我们说过去在数学上,我们将使用数学等效称为传达员等价,体现最正确、最简单的地图获得奖励。我们将形式化策略如下(19]:
在哪里问价值提交在国家和实施行动是最直接的奖励 加上最高问值可能的下一个状态 。γ这是折现系数控制在未来进一步的贡献奖励。 又取决于 将会有一个系数γ的平方。所以,问价值取决于问价值观的未来状态所示以下方程:
调整γ的值将降低未来回报的捐赠。由于这是一个递归方程,我们可以从任意的假设问值。敏捷,将收集的最佳政策。在可行的情况下,执行以下作为一个更新(20.]: 在哪里是学习速率。这集新获得的信息在多大程度上忽略了旧信息。
3.3。深q学习的
强化学习取得了许多显著的成功在困难的决策和现实的解决更复杂的问题。然而,这些算法需要返回数据一样好,才能达到一个合理的性能。有时,RL软弱,不是最优,所以研究人员采取别的称为深Q-networks (DQNs) [21),另一种技术,它结合了RL深度学习,如表所示1和图3。
在DQN,我们使用神经网络近似问价值函数。作为输入提供的状态,问值的所有可能的行为产生作为输出。所示的q学习和DQN之间的比较。
当然,这种技术被证明是有利于问题与困难和更复杂的环境。他们发现,这提供了好的结果,给了一个很好的质量的系统,该系统采用的技术。
涉及使用DQN RL的步骤如下:(我)用户所有的经历都储存在内存中(2)下一个行动是固定Q-network的最大输出(3)损失函数是预示的均方误差问价值和目标问值,问∗
这是一个回归的问题。然而,我们不知道我们的目标或实际值作为RL我们交易的问题。以下是核反应能量更新方程从“传达员”获得方程:
方程(4)代表的目标。我们可以讨论,它是预测其价值,但这个词是公平的真正奖励;使用反向传播网络将更新其嗜好收敛。
3.4。深RL和深度学习
我们理解神经网络如何帮助代理学习完美的动作。然而,这是一个挑战,当我们对比深RL深度学习:非固定的目标:让我们回到深q学习算法W是网络的重量20.]。
在算法1在每次迭代中,我们的目标是不断变化的,但在深度学习,不改变目标变量。因此,培训是稳定的,这对RL是不正确的。短暂,我们经常依靠政策或价值函数RL样本操作。然而,这是经常变化的,我们不断学习探索。在我们的工作(测试模型),我们了解更多关于地面真值的状态和行为,因此,输出也发生变化。因此,我们试图了解地图的不断变化的输入和输出(图4)。(我)目标网络:尽管同一个网络计算预测价值和目标价值,它们之间可能有很多分支。因此,而不是使用一个神经网络学习,我们可以用两个神经网络如图4。我们可以使用网络来估计目标分离。该网络具有相同的架构功能近似,但磨砂的参数。在每个迭代中,预测网络的参数复制到目标网络。这将导致更多的不断培训,因为它使目标函数固定(19,21]。(2)经验回放:(一)一批休闲的样本大小是选择从经验重播缓冲(b)贝尔曼方程(c) (d) 从我们的网络获得预测下一个状态(e)网络安装到新的批处理
|
||||||||||||||||||||||||||
3.5。DQN算法与经验重播
我们要从初始化开始回放记忆一些我们选择的能力。然后,我们也将与我们的随机初始化我们的Q-network权重;然后,我们将播放一集将是我们的训练集,根据函数,我们将初始化状态,开始使用电脑屏幕像素每一集的开头。我们经过一个预处理步骤实际输入状态。对于每一个时间步的工作,我们正在做一个小概率,随机选择行动,所以算法2中很重要的一件事22)有足够的勘查;这就是为什么我们要确保我们抽样的不同部分状态空间;否则,我们将从当前的政策选择贪婪的行动。所以,大多数时候,我们将贪婪的行为,我们认为是一个很好的政策行为的类型,我们想要日期,我们希望看到小概率,我们将样本随机的东西。我们将采取这个行动并观察下一个奖励和下一个状态 ,和我们也会转变,并将它存储在回放记忆米我们建立,然后我们要培养网络一点(做经验重放);在那之后,我们将一个小翻译的一个随机mini-batch回放;换句话说,我们要执行一个梯度下降带这种经历重演,直到得到我们的秋季培训循环。同时,我们进行了抽样minibatches经验重播的权重更新Q-networkas算法所示2。
|
||||||||||||||||||||||||||||||||||||||||||
4所示。仿真结果
我们实现了该模型和环境2017年Python 3.8.3和虚拟仪器编程语言。表2总结了模型的实验装置。实验和结果的系统都使用英特尔(R)至强(R)的CPU e5 - 2603 v4 @ 1.70 GHz处理器24 GB内存。推荐我们的系统,我们使用深强化学习技术。此外,我们使用Jupyter笔记本作为库和框架。
5。数据库描述和可视化
在这项研究中使用的数据库是由电子平台从2017年到2020年。我们的18000名学生被分成不同的组。我们收集了大量的图片,因为每个点击学生采取的是伴随着照片并存储在每个学生的文件。每天超过2000万图片收集他们足够的训练我们的代理。我们密切关注DQN[的实验装置6)使用相同的预处理和网络架构。我们通过将采样预处理210×160 RGB图像84×84,提取亮度通道。
5.1。创建一个环境
强化学习环境对于我们的案例中是一个电路组成的一些断续器和电子元器件的代理可以点击一个,也可以移动、添加或删除一些组件。培训目标是点击正确的断续器或把组件放在一个合适的地方。的观测环境的形象电路和中断的情况下,和+ 1奖励正确的点击正确的断续器和完美的位置组件,−1错误的点击错误的断续器和糟糕的位置,并为nonclick 0,点击其他地方,或没有运动。
观察和操作,我们可以使用评论家值函数表示DQN代理近似奖励。所以,关于我们的环境,评论家值函数是一个深层神经网络与一个输入(图像)和一个输出(完美的行动)。
5.2。创建模型
选项用于构建模型如表所示3。
5.3。火车代理
训练我们的代理,我们使用以下选项指定培训选项:
我们要运行程序最多8000集,每集持续最多800时间步长;然后,我们停止训练当代理接收到平均累积奖励大于1500−默认窗口长度连续15集。在这个层次上,代理可以打开或关闭紧断续器或将电子元件之一。
6。结果
在这些实验中,我们钻总共2000万帧回放记忆和使用300万主要的新框架。我们的模拟包括两个数据:第一个是运行一个epsilon-greedy政策的ε0.07 800步,开始奖励获得约900−−4000集,第二是运行一个epsilon-greedy政策的ε0.06 800步,但在这里,−4500集的总回报开始奖励也约-900,如图5和6。
数据5和6显示平均总奖励生长在训练我们的环境。平均回报的情节很吵,一个学习算法的效果不是取得不断进步。另一个更稳定的度量是政策的评级行为价值函数问,工具估计多少折扣奖励代理可以安全通过其政策从任何给定的状态。我们收集一套稳定的州通过操作一个随机策略训练开始前和跟踪最大的中值(每个国家拥有的最高可能的行动)预示着问这些状态。
ε值1和开始衰变率为0.987每800步骤。(我)我们选择随机数[0,1]n(2)如果n<ε,我们选择一个随机的行动(3)其他的,我们选择使用我们的网络行动
6.1。可视化的价值函数
图7显示了一个概念后继学习价值函数的电路。这个图表明,预示值将组件在正确的位置(F1)关闭电路。代理然后关闭所有开关管的电路,和预示值峰值出现图时(F4)。此外,价值下降接近原来的价值后,代理需要合适的测量(点F8)。这种方法可以取的值函数的发展如何合理神经节的事件序列。
第一部分的结果(图8)是分析的操作;在这里,基本上,他们正试图在每一帧显示多少个动作需要为了找到对象;显然,数量少的行动显示了更好的效率。因此,该方法报道时代的发现正确的行为在不到5在每一帧为了找到对象,这就是我们要看到在图9支持前面的说法,因为正确的行为的数量超过其他行动。这基本上是说我们想要的东西会在每一帧一个接一个地发现没有一个相当数量的其他操作。
从图9,我们注意,右击率断续器和电子元件的放置在正确的位置的范围来 ,表明该系统准确、正确地学习,而代理的错误率错误的点击断续器,把电子元素,在错误的地方和其他地方的压力。训练系统,获得令人满意的结果取决于研究问题情境,正确选择系统中使用的变量和比例是必需的。例如,在图5在选择 ,代理开始收集奖励开始 ,而在图6, ,收集奖励过程才开始 。因此,我们可以得出结论,高精度,运行良好,不那么复杂,同时快节奏的系统必须选择所有系统变量正确和比例是必需的。
当我们创建了系统环境,我们代理有限值等于-100的奖励,这是值的我们可以说它已经学得很好。通过数据5和61000年,代理从4000−−如图4和从4500−−1000如图6,这意味着代理收集了足够多的奖励,获得目标。加强我们早些时候说,在底部两个图的图像7,我们注意,代理已经达到我们想要的目标,这是正确的把电子的元素,右键单击断续器。此外,图9显示了这个,我们注意到的正确的点击正确的将是94%,而错误的点击了错误的将只有7%。
表4展示了不同研究之间的比较与我们的工作相关。在这个表中,我们比较了结果与4最近的研究文章DQN和RL技术的实现,而且它显示结果的准确性提出的输出在17%和99%之间的各种方法更好的结果。提出的另一个文学评论Mystakidis et al。26)集中在电子学习的有效性的因素和条件,导致气候变化在使用社会虚拟现实环境(svr)在远程高等教育。作者研究了认知、社会和情感方面的深刻而有意义的学习(DML)和在svr学习它的重量。体重的影响结果表明,DML SVRE使用可以提供真正的经验,模拟,和深思熟虑的参与挑战的积极影响以及DQN技术平台。
7所示。结论
强化学习近年来越来越普遍,由于广泛的问题,可以解决通过它的使用控制,工业自动化,机器人,健康,经济,和许多其他领域。这就是为什么如此多的研究人员声称,增强学习将是最重要的一个访问人工总体智能的方法。这篇文章是一个起点学习最重要的条件和方法的应用深度强化学习教育过程的一部分建议和直接学生提前做远程实际工作根据他们的技能的鼠标或键盘点击每个学生。第一步是理解和分析问题和框架的基本元素,比如代理环境,行为的质量,可能的情况下,和奖励。然后,选择最好的方法,可以解决这个问题。每种方法在许多算法的性能和不同的类型,他们可以解决的问题。
数据可用性
在这项研究中使用的数据可从相应的作者。
的利益冲突
作者宣称没有利益冲突。