文摘
蜂窝网络的不断发展,交通从语音业务逐渐增加。无线传感器网络(WSN)是一个分布式网络由大量的外围节点分布在监测区域。网络中的节点完成它在一个自组织的形式,和水槽节点从每个传感器节点收集的数据。附近的节点发送数据时,接收者将很快耗尽精力,不能执行进一步传播的任务。由此产生的“电源空虚”问题对网络性能有很大的影响。因此,网络的功耗设计时必须考虑WSN路由的算法。为了有效地提高学生的学业成绩和监控学生的教学条件,教室远程监控系统两个摄像头的地方在大学英语翻译教学和使用技术合并执行整个过程的信息。通过录音课程,我们可以节省老师的课堂内容和学生的课堂表现和实时上传录像。此外,教室远程监控系统是一个multiclient系统分为教师与学生终端。用户可以登录,观看视频,并执行其他必要的操作。
1。介绍
声音质量检测算法本文中使用的组合PESQ算法和正弦检测算法,它可以帮助识别不同类型的语音网络语音质量问题的更多细节。通过研究PESQ和正弦分析算法,提出了一个可行的移动通信系统的优化方案。研究了语音质量评价算法原理和测试计划(1]。通过分析建议ITU-T算法的语音质量评价,可以了解共同目标的范围和精度评价算法,选择合适的评价方法2]。由于主观评价的沉重的负担,这是不适合日常工作。因此,语音质量评估系统使用PESQ方法模拟人耳的听觉过程测量可察觉的声音质量和传输相应的MOS值(3]。无线传感器网络技术已广泛应用于军事、医疗、环境监测领域,今天最重要的技术之一。无线传感器网络由大量传感器节点小,随机分布在某些领域的数据收集(4]。他们有特定的能源、存储能力、通信能力和计算能力。然而,资源是有限的,和传统的网络协议不能直接应用于无线传感器网络。因此,它是很有意义和有价值的研究节能、高效的无线传感器网络路由协议,也是当前的研究热点之一5]。本文主要从节能方面,研究无线传感器网络的路由协议。首先,贫穷问题的收敛性和不均匀的能源消耗注意路由协议,一个OPFH路由协议基于光学聚类算法(6]。协议第一次使用光学聚类算法将网络划分为多个一级簇,然后在每一级集群;同时进行簇头选举候选簇头的过程中竞争集群生成最终的头,当前能源和基站之间的距离作为输入参数,和竞争集群半径作为输出参数。模糊逻辑控制是用于获得最优聚类半径。根据获得的最优聚类半径,最后集群头是由竞争,最后,建立了簇头节点。多次反射路由机制来将数据发送给基站。仿真实验表明,集群和集群之间的能源消耗是更加平衡(7]。这有效地延长网络的生命。英语翻译课堂的远程监控系统通常由两部分组成。最上面一层是链路层,用于支持应用程序层数据链路层设备的需求和相关控制(8]。主要功能是录像、视频传输和相机控制。链路层上的视频收集通过以太网发送给主机,主机可以接收指令如何运行的模板匹配算法。此外,通过处理器主机可以控制摄像机。底层的应用程序层,使用c#编程和租金阿里巴巴云服务器存储数据和视频。同时,我们使用CDN的完整网站加速功能让用户理解和观看视频的时间,提高视频数据包的往返速度(9]。
2。相关工作
文献介绍了移动融合的WSN路由算法的特点和分类,描述了移动策略和数据采集方法10]。它描述了一些典型的路由协议基于移动同步,区分他们从位置检测等几个方面,路径规划,和数据收集方法,并比较不同的典型路由协议的性能(11]。文献介绍的问题不合理的簇头选择和高能量消耗的LEACH算法在长距离传输,提出了一个改进计划(12]。在改进的算法中,节点是由两个放映的作用,从而为高能提供首选的簇头节点,而控制簇头的数量和分布(13]。水槽节点计算集群之间的最短传输路径,比较沟通的能源消耗,并创建路线之间的集群基于结果。文献描述了移动传感器网络路由算法用于收敛的性质。我们提出一个基于移动接收器(能量平衡路由算法14]。算法首先集群分离模式,数据收集模式和路由(15]。集群头是由接收方节点,集群是根据k - means算法。同时,根据不同的数据延迟需求,结合不同的数据收集方法,水槽的路由节点计划。文献介绍了网络操作中影响语音质量的各种因素,为每个元素提供一个相应的测试计划的各种声音质量缺陷(16]。文献介绍了正弦分析算法,分析了离散正弦序列由接收器接收,以确定它包含传播正弦波,沉默或间歇17]。通过结合正弦识别算法和算法,它可以识别语音质量问题在不同类型的详细语音网络。
3所示。声音的质量检测和无线传感器网络模型
3.1。声音的质量检测
因为演讲短期稳定的特点,它分为多个小段。这个过程称为框架。框架后,端点检测问题转化为一个框架水准仪演讲/ nonspeech(0/1)的决定。整个系统分为训练和测试阶段,如图1。
在训练阶段,训练数据和相应的培训目标需要生成。假设干扰噪音是加性噪声,混合语音可以直接通过添加纯语音和噪声。我们有以下:
平均损失:
拟合模型的数据:
语音端点检测的二元分类问题,叉通常是作为损失函数:
目前,深度学习模型的表达能力不断增强,逐渐取代的角色功能设计和组合建模过程。对数振幅谱是一种最简单,最直接,最常用的功能。只因为振幅谱变换的演讲在时域到频域,利用振幅谱作为输入的方法也可以被称为一个端到端的方法。振幅谱计算公式
基于深度学习的语音端点检测方法作为VAD二进制分类问题,及其计算公式
在实际应用程序中,语音部分的比值nonvoice通常不是1:1的一部分。为了更好地评估模型的性能,通常指的是声音命中率(打击)和误警率(FA),显示如下:
AUC的计算公式如下:
TIMIT上的所有执行本文实验数据集。TIMIT是手动标记的数据集,并且很容易获得标记的训练目标单词抄写文件。TIMIT标签文件中,每个句子的语音对应的单词抄写文件,文件包含时间边界的所有单词。表1显示了一个示例的一个单词抄写文件,开始时间和结束时间都代表了16千赫采样率采样点。例如,“她”一词开始在第9640届第12783个采样点采样点和结束。我们时间边界转化为一个标签帧对应的培训目标。
随机选择2000纯语音生成TIMIT训练集训练集,并使用TIMIT核心测试集生成测试集。TIMIT核心测试集由24人记录,每8个句子和共有192个句子。这些声音通常包含更少的无声段。为了平衡言论和nonspeech的比例,在所有实验在这篇文章中,所选择的语言是与一个随机无声段的长度,所以语音帧的比例约占60%。
有五种类型的噪声生成培训演讲:演讲形状噪音(SSN),嘈杂的人声(喋喋不休),工厂噪音(工厂1),驱逐舰动力车间噪音(破坏引擎),和驱逐舰操作房间噪音(驱逐舰操作空间),后者四噪音都来自noisex - 92数据集。这个组合已经被证明有一定的互补性,可以覆盖更多的噪音。为了检验模型的性能在各种环境中,除了噪声的类型用于培训,我们还测试了两种类型的噪音,属于noisex - 92数据集:另一种类型的工厂噪音(工厂2)和海盗噪声(海盗)和两种类型的噪声从CHiME-4数据集:公共汽车噪音(总线)和街道噪音(街)。
为了确保培训和测试噪声的独立性,每个噪声分为两个不重叠的部分来生成一个训练集和测试集,为了保持样本的多样性,噪声是随机从碎片混合前长噪声。训练集生成的信噪比是−5和0分贝,测试集生成的信噪比是−5 dB, 0分贝,5分贝。2000(纯讲话)×5(噪声类型)×2(信噪比)= 20000块在训练集,验证集和10%。最后,演讲训练集的约30小时。训练和培训的噪音是用于生成测试集。有五个类型的训练噪声。相应的测试声音192×5×3 = 2880件;有四种未经训练的噪音,和相应的测试声音192×4×3 = 2304金币。由于TIMIT数据集的抽样率是16赫兹,所有的信号都是重新取样16赫兹在混合之前,如表所示2。
我们比较两级培训CLDNN四个基本系统,其中一个最常用的统计方法和基于深度学习的三个方法。模型的参数如表所示2。其中,孙SohnVAD代表提出的统计方法等。表中,T代表帧的数量,F代表频带的数量,和T是100年的实验。所有模型的输入是当前帧的特征和前后两帧。这种形式的框架扩展为模型提供了对当前帧最相关的上下文信息。
自从两阶段的训练方法可以被视为一个增强的数据,更好的表达潜在的卷积是由于接收到的丰富的数据模式,所以我们有验证的所有方法在两个尺度的数据。首先,我们进行了大约3个小时的训练实验数据。表3列出了实验结果。表中显示的数据是最好的结果,该模型可以获得相同的条件下使用相同的测试集。
从表可以看出3统计方法SohnVAD执行比深度学习的方法。LSTM显示更好的性能比CNN在所有噪声场景和相对平均增加2.02%和7.44%的训练和未经训练的噪声场景。结合的优势CNN和LSTM CLDNN比CNN在训练噪声场景高10.49%,比LSTM高8.29%,11.99%和4.22%更高的噪音在未经训练的场景。与CLDNN基线相比,本文中的训练方法提出了相对提高3.08%的训练场景和1.48%未经训练的噪声。
图2显示了每个模型的ROC曲线在培训现场,未经训练的噪声测试场景时,信噪比是0分贝。误警率越低(横坐标)越小,越好,命中率越高(纵坐标越大)。因此,中华民国整体曲线是左上角,更好的整体命中率和系统的误警率。曲线中的实线代表提出的方法在这篇文章中,这四种方法中最佳的性能。
图3显示了不同大小的对比训练数据。与模型训练3小时的数据,当训练数据增长了10倍,由两级CLDNN训练方法的改进是减少。它是可预见的,当训练数据的数量继续增加,两种方法之间的差距将会进一步降低。实验证明了两级培训方法有更多的优势在小样本的任务。
3.2。无线传感器网络
三边定位法是最基本的源节点定位算法。基本的想法是,当距离未知节点到至少三个锚节点,交叉口的几何特征的三个圆圈一度可以用来计算它的坐标。
然后,有以下方程:
计算公式(10)表明,未知节点的坐标点
这些变量应该满足以下公式:
从第二行开始,每一行减去前一行的获得
还记得
然后,这个方程斧头=B可以获得,所以呢
然后,节点的坐标O可以通过下面的公式:估计
原LRMD模型可以表示为
原LRMD可以转化为一个矩阵重建模型通过添加一个正交投影算子,可以表示为
我们有以下:
它可以被描述为
矩阵X可以被定义为
最近邻操作符可以定义为
结构阈值操作符被定义为
4所示。设计和应用程序的远程英语翻译课堂监控系统
4.1。远程英语翻译课堂监控系统的需求分析
传统课堂视频监控只收集、传输和存储视频数据,视频信息只能通过后由相关人员查看。然而,由于视频数据的数量是巨大的,包含大量无关信息,需要大量的人力。此外,手动观看视频信息容易误判,所以教室需要进一步的智能监控系统。因此,一个视频监控系统,依赖于人工智能技术来识别异常行为实时在教室里应该设计。在这篇文章中,学生的异常行为识别系统主要分为三个部分,即嵌入式视频数据采集模块,服务器智能处理模块,报警模块和手机应用。服务器智能处理模块主要包括两个部分:学生和手机目标探测和学生的异常行为识别。本章提出了系统的功能需求分析的特点,三个异常行为的学生在教室里,然后给出了系统的总体设计。
相比之下,一个开放的环境或室内环境存在着很大的流人,视频监控系统在课堂环境中具有独特的环境特征,也就是说,人的流动很小,所以可以通过监控录像视频捕获在一个固定位置和固定角度。不需要考虑跟踪需求。通过分析教室环境,发现第一课堂讲座分为普通教室和房间。相机可以放在中间的两个教室的角落或教室。在实际实验中,后者被选为这个设计(考虑畸变的摄像机图像),但在任何上述情况下,相机的位置不会改变。应该注意的是,相机的视角看下面的学生是最好的相机可以更清楚地捕捉每个学生的运动信息。尽管如此,一些学生还会阻挡,当教室里的长度超过5米,它有一个更小的分辨率为学生目标相对较近的教室。为了弥补课堂场景特征行为识别的影响,应该使用高分辨率相机的系统设计。罗技C270相机的分辨率可以达到1920×1080,它可以弥补学生的闭塞和低分辨率的问题。在教室里,固定背景目标检测方法不适合这个系统,因为学生的运动范围狭窄,和对象的位置可能会改变。 Therefore, the images suitable for this design are selected from the COCO data set as the training data set.
在教室的场景中,当学生有异常行为的玩手机,会有明显的手机图像中对象出现,和手机对象最接近一个特定的学生对象。学生对象的面一般向下移动电话对象的一部分。巧合的行为和行为的持续时间通常超过10秒。至于上课睡觉的行为,通过图像分析,发现学生的坐姿有了明显的改变。最基本的特征是,他们几乎看不到任何面部特征,和这种状态将持续很长一段时间。学生交流是一个多人在同一时间的异常行为。一般来说,有两个或两个以上的学生参与,一个接一个,一个在左边,另一个在右边。这种行为发生时,学生的头将继续旋转前进,后退,左,右。学生的整个身体的位置发生了重大变化,这超过了区域活动在正常的讲座。这个系统的根本目的是实现异常行为的识别在教室里的学生,但异常行为的识别是基于目标探测。 In order to achieve a more accurate recognition of abnormal behaviors, both the recall and accuracy of student target detection should reach more than 90%, and the recall and precision of small target mobile phones should both reach more than 85%.
本文设计的智能监控系统主要是针对室内集体活动,如会议室、教室、和其他地方,主要是用于监控成员的行为的情况下教师教学或领导人会议。因为这种类型的场景是相对较小,其发展必须的成本低,所以视频监测系统可广泛应用。基于上述原因,采用低成本嵌入式方法开发这个主题。此外,使用有线网络传输,网络更容易在这种情况下。系统也应该有智能的性能分析,可以智能地检测中的相关人物收集视频。根据教室智能监控系统的特点和要求,系统需要满足以下要求:(1)嵌入式摄像头必须能够实现视频数据的实时采集,视频编码和传输,终端设备可以显示视频图像不堵塞。因此,需要嵌入式摄像头采集视频数据在一个更高的采样频率。(2)嵌入式摄像头采用数字,方便信息传输、存储、和处理,容易与其他通信设备连接,具有很强的压缩潜力,可以提供更清晰的视频图像。由于其较强的抗干扰能力,图像不失真。(3)通过有线网络进行数据传输。由于视频数据收集的内置摄像头必须通过网络传播,相机是通过网络连接到路由器的电缆来传输视频数据。(4)图像分析和处理能力,处理收集到的视频数据行为识别算法,如玩手机、睡觉、和相互通信。行为识别算法检测上述行为,立即传送到老师的移动应用终端,和应用程序接收消息的形式和实现报警声音效果,振动,弹出消息框。(5)服务器端和手机应用程序有权限限制。当老师收到的手表屏幕监控服务器和应用程序,他需要输入密码在注册服务器和应用程序时,只有当密码和注册密码是一致的,他可以访问服务器和应用。此外,当管理员登录到服务器来处理接收的视频数据,也需要符合密码在注册过程中。
4.2。系统总体框架设计
为了使系统用户数量的可伸缩性和硬件设施的布局的灵活性,系统选择访问局域网,移植ARM9开发板上的摄像头应用程序,并将收集到的数据发送到服务器,服务器上执行智能视频数据。异常行为识别的手机应用程序可以接收视频数据与对方沟通后通过访问服务器,如图4。
根据系统的框图,系统主要由一个设备终端、路由器,网络,服务器智能检测模块,和老师的移动应用终端。这一系统使用ARM-LINUX平台使用视频数据采集模块采集视频图像,将收集到的数据发送到服务器发现模块、异常行为的识别结果传送给老师的移动应用终端。
嵌入式摄像头模块:根据ARM-LINUX平台,视频数据通过V4L2驱动程序框架。使用x264视频编码库来实现h编码。路由器:主要功能是嵌入式摄像头连接到网络。服务器智能检测模块:主要利用FFmpeg和h .解码的视频数据传输设备终端,YOLOv3智能检测和存储视频数据管理员和教师登录后查看。
老师的手机应用终端:接收服务器的检测结果,如检测异常行为的学生,将图像数据的应用程序,生成声音效果,振动,同时和弹出消息框。看到报警信息后,老师会检查接收到的图像数据的应用,这样你就可以找到一个特定的学生。
4.3。系统开发环境设计
下面是具体的步骤构建环境:(1)在电脑上安装虚拟机,然后安装Ubuntu 12.04版本LINUX操作系统的虚拟机(2)进入LINUX系统后,将压缩包复制到LINUX系统(3)把编译器解压压缩包在LINUX系统的终端通过命令(4)配置环境变量的交叉编译器和编译器检查是否安装成功
我们都知道,对于LINUX系统,能耗上有非常严格的规定和要求,功能,和成本。与此同时,它有多种不同的硬件接口实现文件系统的严格管理。此外,它也有一系列不同的优势,例如,容易移植,所以系统已经普遍受到业界的欢迎。
引导装载程序是第一个程序执行嵌入式设备启动后,可以读取和写入flash, SDRAM进行初始化,初始化,初始化串口,实现的功能等,启动内核。本文使用U-Boot 1.1.6,具体操作如下:(1)从一个网站下载U-Boot 1.1.6版本,转移到LINUX系统,进入目录,并通过命令解压缩它(2)下载补丁文件匹配U-Boot 1.1.6,转移到LINUX系统,打开U-Boot补丁的命令(3)配置和编译U-Boot配置通过命令,然后进行编译(4)使用编程工具程序编译后的u-boot。本文件为ARM开发板
4.4。视频采集模块设计
为了充分利用LINUX系统资源,相机应用程序最初设计使用V4L2接口实现图像数据的集合。图像数据的收集主要分为三个步骤,首先是初始化操作图像的数据收集,第二个是申请操作空间内存,最后是集图像数据的操作。
在信息传输的过程中,TCP / IP协议的一个基本位置,它有一个非常普遍的互联网领域的实际应用。对于TCP / IP,它包括不同层次,如硬件接口层和传输层。通过归纳和总结,可以得出结论,TCP / IP有很多优势,及其基本结构并不复杂。这是因为协议集成了物理层和数据链路层的IOS形成硬件接口层和会话层。和表示层包含在应用程序层。
在设计,嵌入式开发卡之间的通信协议和服务器使用面向连接的TCP协议。因为使用的TCP协议是TCP协议有以下特点:(1)TCP是一种面向连接的协议。之前的数据交换实现之间的开发板和服务器的应用程序,通过三次握手连接必须建立,又总是占领期间的联系沟通。直到数据交换完成后,双方将通过四波的手拆除的联系。(2)数据传输的TCP具有可靠性高的特点。在开发板之间的连接和服务器建立,发展委员会将向服务器发送新数据只有在服务器接收正确的数据。如果开发板不接收来自服务器的确认消息,发展委员会将重新发送数据到服务器发回的确认消息或消息发送。(3)TCP是一个全双工的通信协议。开发板和服务器可以互相发送信息在同一时间。(4)TCP具有滑动窗口控制的特点。TCP可以确定传输数据流量根据特定的网络条件。
4.5。系统测试
外围设备和嵌入式系统的核心,以及视频数据采集应用程序TQ2440上运行。芯板的具体配置参数如表所示4。
行为检测服务器:考虑实时要求,课堂行为检测和识别部分不能直接在移动平台上运行,因此本文使用上电脑服务器实现的主要课堂行为检测和识别算法的一部分。服务器使用i79700CPU和GTX1080GPU为核心的计算单位,并使用SSH与手机通信应用。具体参数如表所示5。
5。结论
近年来,已取得相当大的进展在语音质量测试的客观评价,但仍有许多问题有待解决的语音质量客观评价,如估值原则和估价方法。的支持VQIT(移动互联网语音质量测试评价系统)项目,本文首先介绍了远程英语翻译课程的需求分析,重点研究语言质量评估体系和措施,确保语言质量。实现需求分析时,从两个部分:功能需求分析、非功能性需求分析,然后分解每一个功能模块。功能需求的分析,主要功能点分为九个部分:视频录制,视频传输,相机控制、登记、视频搜索、教师查询、学生信息、课程查询,和个人管理。非功能需求的分析,从四个方面描述:可伸缩性、性能要求、可维护性和安全性。
数据可用性
使用的数据来支持本研究的发现可以从作者要求。
的利益冲突
作者宣称没有利益冲突。