语音识别和冗余机械手逆运动学控制基于多层人工智能网络

文摘

本研究提出了建设越南语音识别模块和冗余机械手逆运动学控制通过使用人工智能算法。第一个深学习模型是建立识别和语音信息转换成输入信号的6个自由度的机器人机械手逆运动学问题。逆运动学问题是解决基于建设和培训。第二个深学习模型是使用数据确定数学模型的构建系统的几何结构,关节变量的限制和工作区。深度学习模型是建立在PYTHON语言。建立深度学习网络的有效操作演示了人工智能算法的可靠性和适用性越南语音识别模块的各种任务。

1。介绍

近年来,控制系统设计开发了智能控制系统的发展趋势,但仍确保快速和灵活的实时响应不断变化的控制要求和允许高精度人工交互。

在传统的智能控制系统,研究基于语音的控制是吸引许多科学家由于其用户友好交互。工业机器人的语音控制系统中,用户可以有机器人执行各种各样的任务通过简单的命令,携带相关控制信息运动方向和对象的特征。

本质上,使用语音命令的输入控制系统来解决这个问题的逆运动学(反向),然后转化为机械手的各种操作。由于语音指令的不同性质,机械手任务不断变化,要求控制系统要处理迅速做出反应。动力学求解算法等分析方法(1)或数值方法,如自主移动小车(2],CLIK [3),和雅可比的转置4)是不合适的,尤其是对冗余机械手系统。

结果最近的人工智能(AI)的研究表明,神经网络(NN),深度学习和强化学习算法是非常有用且有效的处理复杂的非线性问题与成本节约计算时间和系统资源5]。应用这些算法时最重要的一点是要有一个好的理解的网络结构及其功能。网络的质量和网络的性能将被用作标准来评估算法的有效性。在编程语言方面,人工智能网络可以建立在不同的语言,像PYTHON, c++和Java (6]。然而,PYTHON语言最近变得更适合建立深度学习(DL)网络结构与高效的支持库,如Tensorflow PyTorch, Numpy Keras, Sklearn。更重要的是,这些库支持优化问题在数据科学、机器学习和控制(7]。基于人工智能技术的突出优点,许多智能控制系统已建成为冗余操作系统解决动力学问题。此外,这些人工智能技术非常适合控制系统需要不断变化的运动通过语音命令,不得预编的。

许多解决方案应用语音控制系统基于人工智能算法对工业机器中提到(8]。确定发射声源的方向,黄等。9)设计了一个智能机器人手臂耳朵。控制制造机器和工业机械手臂,Rogowski [10)设计了一个风投公司的解决方案具有良好的抗噪声性能。为服务,服务人类友好的交互通过多个机械手设计介绍了手势识别和语音反馈(11- - - - - -13]。的机械手14]服务家务由风投控制增加可用性和娱乐。一个增强版的DL算法提出了语音识别(15]。医疗机器人手臂在[16)设计与风投,让护士和病人容易与机器人互动。的机械手17使用VCS与可见光的沟通。自主机械手是由声音控制通过谷歌的助手应用程序工具基于物联网技术和所示(18]。一个语音应用程序,使用物联网技术结合提出了一种自适应神经网络(19)提高解决动力学问题的效率为6个自由度(自由度)的机器人。不同,Bayesian-BP NN建立创建一个有效的控制系统的均方根(RMS)与快速和精确的学习20.]。仿真结果表明,该方法的误差非常小。2自由度机械手使用神经网络的动力学问题提出了(21在[],3自由度机器人22),和4自由度机器人混合动力学控制系统神经网络和遗传算法在23]。神经网络的输出反馈解决动力学问题的6自由度机械手提出24]。这是一个效率非常高的控制技术。新算法实时5自由度机械手控制的基础上,提出了神经网络在25]。

本研究提出了设立两个深度学习网络DL1和DL2处理语音信号的输入6自由度冗余机械手来解决逆向运动控制问题。控制信息的语音标签包括运动的方向和对象的属性在演讲。机器人将会进行图像识别来确定对象都有适当的属性从句子的语音识别结果。图像识别是通过电脑的内置视觉模块,不会深入分析研究。对象的中心坐标将代表机械手的末端执行器位置点需要去。训练数据模型DL2取自正向动力学问题的结果基于运动学建模根据Denavit-Hartenberg (DH)理论。DL网络模型是使用PYTHON语言构建。成功地解决这两个问题有一个广泛的潜在应用,以应对不断变化的轨迹没有预编程序的操纵者。

2。材料和方法

2.1。语音控制器的图

操纵器接收来自运营商使用语音识别语音命令模块。然后,控制系统自动分析,计算,并给出了控制信号的汽车在机械手的关节(图1)。

具体来说,语音识别模块将从包含控制信息人的声音转换成文本的程序。机械手控制信息包含在语音信息包括机械手的运动的方向(向左转或向右),机械手需要执行什么操作(抓的动作或下降),识别对象(车轮、托盘、箱等),和特色的对象(颜色、形状、大小等)。

输入语音和输出控制信号必须定义解决机械手控制的目标。从本质上讲,语音识别模块是一个自然语言处理问题,和DL模型是为了网络学习如何将信息从语音到文本。的步骤来执行VCS是描绘在图2。

2.1.1。预处理输入声音

这个问题是通过以下步骤解决:噪音过滤,分离,将声音的振动转换成声能在频域中,DL1和将这种能量转化为输入数据模型。

噪音过滤步骤可以通过许多方法如降噪处理基于接收机的硬件设计麦克风或电子元件电路的记录或计划调整。声音包括的主要预期的声音,我们需要记录和噪音(不必要的声音或无法控制信息)。这些声学噪声可以来自外部环境的声音如交通和工业噪声。他们经常影响语音识别结果的准确性。显著降低音频噪声,降噪收发器是用于这项研究。

每个人的句子通常是由许多词汇的总和。每个词都包含一个或几个音节。因此,语音识别程序必须执行两个基本任务:将单词在句子和分离每个单词的音节。

有趣的是,每一个越南字只有一个音节。因此,本研究只需要关注第一个任务,就是将单词在句子分开。为了更好的理解这个问题,让我们考虑下面的例子。

我们考虑一个越南语音命令来控制机械手:“码头ben phải lấy banh xe茂稳索”(“右转,抓住黄河轮”英语)。注意到,越南的句子有8个音节,而英语有7个音节,“黄色”有两个音节。

通过麦克风和声音接收记录通过常规应用程序无效记录器可以在微软Windows操作系统。音频文件可以读取和写入Scipy图书馆在PYTHON编程。声学振荡幅度值标准化,以便输入信号不包含很多suboscillations,使分离过程更高效和容易设置一个有用的过滤阈值。正常化后,分解执行DL1模型与网络节点参数,可以通过调整样本的学习过程来提高精度。

声学振荡幅度值归一化,这样输入信号不包含很多suboscillations,使分离过程更高效和容易通过设置一个阈值过滤器。正常化后,这个词分解执行DL1模型与网络节点参数,可以通过调整样本的学习过程来提高精度。

归一化后的声学振荡振幅在图所示3。可以看出,规范化的振幅的差异可以明确区分说话的时候,不说话。这种差异作为一个关键特性是单独的单词在句子。

然而,应该注意的是,声音波动幅度非常大区域相对于其他领域,而演讲将被视为噪声在演讲。此外,具有小而相当等于振幅振荡区域也被认为是噪声信号,可以忽略。因此,如果一个用户突然尖叫一个词或说所有的话在一个句子在低体积,系统可能不理解语音命令。

声音振动的振幅的变化决定单独的单词使用梯度法[26]。分离后的单词句子,口语声音振动将分析声音能量通过傅里叶变换在频域。这声音能量价值将被用于转换为DL输入张量模型。人类的声音实际上是许多信号不同频率的组合。振荡函数的傅里叶变换可以通过以下描述(17]。在哪里是原始声音振幅,和傅里叶常量,是比例系数的频率,是角速度,t是一个时间变量。

从方程(1),声音能量值可以指定在频域(17]。图4显示了声能,演示了两个词“码头”(转)和“Phải”(右)在频域。

(一)

(b)

声音的一个基本特征是能量价值,用于将输入数据转换为DL模型。考虑到能源的价值在每个频率间隔的声音 ,的极限频率。张量的输入是一个向量的声能值频率递增的顺序(图5(a))。张量的值输入创建后通常是非常大的。DL模型更好的学会了,张量的输入数据水平需要规范化所有组件除以某个值大于能量的最大值。DL的张量输入模型归一化后可以在图进行描述5(b)。

(一)

(b)

2.1.2。构建DL1模型

在构建张量的输入之后,DL1模型是建立多输入和多输出(图6)类似于多层人工智能网络27]。

(一)

(b)

输入的数量取决于参数的数量在张量输入向量。网络的输出层DL1包括不同的节点,和每一个节点代表一个特定的词。输出单词出现的概率值的范围。最高的词概率值将被选择作为语音转换的结果。

层隐藏在DL1模型确定词的概率值产生正确的输出。内的元素张量的输入和张量的输出是标量,所以非线性激活函数。根据(28),可以使用一些非线性函数等乙状结肠,双曲正切,和线性整流函数（Rectified Linear Unit）,输出层使用Softmax激活函数来计算概率分布在整个类。DL模型模拟人类生物神经系统是如何工作的,这需要训练模拟与相应的输入和输出预测结果与其他输入。训练DL模型中,需要定义的限制标准以及它如何可以学到需要提出区分对与错。根据(29日),稀疏分类Crossentropy (SCC)函数如下:每次学习后,DL模型需要更新这些参数来创建实际的输出逐渐收敛到所需的值或换句话说,错误函数值降低为0。

更新DL模型,30.)亚当优化函数用于合并两个动量方法和RMSprop,学习速率的变化对时间和可以找到全球最小最优值而不是局部最小值的最优值。DL1是通过构建模型Tensorflow图书馆在PYTHON(图7)。

47行声明了输出层与17个节点将Softmax激活函数。这个输出数字代表17个常用单词的语音命令框架。的Softmax激活函数计算给样本概率最高的互相独立的单词和短语。字典单词或短语和单词的数量出现在句子构造和编码为一个向量。因此,网络DL1可以确保语音识别,将识别数据转换为文本包含特定的控制信息。

2.1.3。使用机器学习模型提取控制信息

从技术上讲,越南的句子,被分离成单个词后,将根据DL1分类模型,形成一套是必要的单词组合成一个等效完整的文本,自由的噪音和其他多余的单词。这个完整的文本(越南有意义的单词和短语)作为机器学习(ML)模型的输入。

实际上,该算法TF-IDF用于提取文本的特点。然后,朴素贝叶斯算法分类功能文本的词汇和短语属于控制信息层。毫升模型是建立在PYTHON语言结合数学库Sklearn和Pyvi。提取的信息字段将数字编码和传输机械手通过串行通信控制电路。模型的输出机械手控制信息,如运动方向,机器人的动作,和对象的颜色。

2.2。逆运动学控制机械手使用深度学习网络

真正的六自由度机械臂是呈现在图8及其运动学模型中描述图9。

在运动学模型,固定的全球坐标系统。当地坐标系统放置在相应的关节。联合变量用。

让我们表示的广义坐标向量6关节变量。六自由度机械臂的运动学参数,确定DH规则(1),表中给出1。


参数

链接1
链接2
链接3
链接4
联系5
链接6

注意:意味着变量。是一个长度从原点到原点沿轴 ; 旋转一个角度吗来在轴 ; 是一个长度从原点到原点沿轴 ;和旋转一个角度吗来在轴。

齐次变换矩阵在[6链接确定1下面的一般方程): 在哪里是一个局部坐标系的旋转矩阵吗局部坐标系和是位置向量的联合我在坐标系统。

末端执行器的位置和方向相对固定的全球坐标系统由齐次变换矩阵表示。这个矩阵计算如下: 在哪里是一个方向矩阵(3×3)全球坐标系旋转末端执行器的局部坐标系和位置矢量的末端执行器相对于固定全球坐标系统。

通过应用DH参数方程(2)- (4)和执行数学转换(见细节(1]),给出了末端执行器的位置坐标点在哪里cq_我代表和平方_我代表。

网络DL2模型的数据是末端执行器的空间坐标设置点和相应的关节变量参数的收集和输入训练DL2网络多次,直到模型可以给机械手精确控制信号,满足运动要求。训练后和评估响应性好,DL2模型作为模型来预测机械手旋转角度值和对象在机械手的工作空间。

图10描述了整个过程,DL2模型构建与输入请求信号后收到编码向量和可行的位置工作空间中的数据。模型的输出相应的关节变量值。

3所示。实验结果

操纵器的几何参数如下:

联合变量限制如下:

机械臂的工作空间图所示11。

(一)

(b)

驾驶汽车是伺服MG995Arduino纳米电路,罗技b525 - 720 p相机,戴尔精密M680笔记本电脑,和雷蛇Seiren迷你麦克风(图12)。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

网络参数DL2控制机械手如图13与输出对应5机械手关节的旋转角度。网络由9个隐藏层线性整流函数（Rectified Linear Unit）激活功能。每层节点的数目呈现在图13。

培训结果和预测结果的电机控制信号如图14。检查测试数据输入末端执行器的位置矢量点在工作区中 ,和输出测试数据对应的关节变量值。的从模型获得的价值。因此,测试数据集上的精度是98.67%。

电路的实际实验系统阅读和写作上的关节变量值和反馈值16×2液晶显示在图15。

(一)

(b)

关节变量值来控制机械臂位置对象(一个黄色的轮)如图16。

4所示。讨论

在实际操作中,一般工业机器人和冗余机械手尤其是经常执行完全不如计算在理想条件下,由于许多不同因素的影响称为噪音创建完美的机器人控制系统。根据(31日),但缺陷是不可避免的在实际生产过程中,真正的设备仍然运作良好制度远非理想。

例如,机械缺陷可能发生之前操作由于机械制造缺陷、装配错误,或在操作过程中由于机械系统振动。同时,电子缺陷可能是由于周围环境的电磁干扰,电源的不稳定或高强度电场脉冲焊接机器。克服缺陷,额外的模块相关噪声补偿,降噪、噪声抑制未来研究将研究阶段。

本研究只考虑理想的运动学问题条件或噪音的影响可以忽略。事实上,它不可能有一个一般对所有类型的噪声抗干扰问题。因此,在实际应用时,研究小组将抗干扰解决方案适合每个上下文。

在组之间的协调多个语音控制机器人在一个狭小的空间,命名或编码为每个机器人需要通过一个独立的模块与知名度或解码功能。当操作符调用机器人的名称或激活代码,相关机器人准备好接受下一个语音指令。因此,当需要添加一个新的机器人到现有的机器人网络,可以调整模块的知名度或解码没有任何改变在整个控制系统。

不同,在机器人网络音频缺陷可能来自于声音干扰。音频可以解决缺陷的影响范围不同的连接由一个中央控制分配器和声音干扰”可以提高包括远程连接机器人”(32]。

5。结论

总之,PYTHON语言被应用到越南语音识别模块的构建人工智能模型和动力学控制的6自由度冗余机械手。DL和ML技术已成功应用,准确率98%以上的培训。数据用于训练模型DL1和DL2独立建造根据越南语言从六自由度机械手运动学建模和计算数据。人工智能模型是真正的机械手模型上测试过,给可能的结果。本研究可以作为开发应用程序的基础为各种类型的机械手(串行机械手,并联机构、混合机械手和移动机械手)工业生产(焊接机器人、机器人3 d印刷和加工机器人),医疗、服务行业、家庭活动(手术机器人,柔性机器人、软机器人、仿人机器人、无人机、服务机器人在家庭和餐馆)。

数据可用性

生成的数据集在当前研究可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突。

引用

m . w . Spong、美国哈钦森和m·维德雅瑟格机器人的建模和控制美国,纽约,纽约,2001年第一版。
d . x好,“在末端执行器点轨迹的影响关节冗余机械手的混蛋,”应用和计算力学杂志》上,20卷,不。10、1 - 8,2021页。视图:出版商的网站|谷歌学术搜索
c . a .我d x好,h·b·东l . c . Hieu n v琮、和t . v . Hieu”焊接机器人定位器系统的逆运动学控制算法跟踪三维复杂曲线,”先进通信技术国际会议(ATC)河内,页319 - 323年,越南,2019年10月。视图:出版商的网站|谷歌学术搜索
丽安,韩y y王et al .,“加速high-DOF机器人的逆运动学,”第54届设计自动化学报》会议2017年,奥斯汀,TX,美国。视图:谷歌学术搜索
https://www.edureka.co/blog/artificial-intelligence-algorithms/。
https://www.geeksforgeeks.org/top-5-best-programming-languages-for-artificial-intelligence-field/。
https://www.cuelogic.com/blog/role-of-python-in-artificial-intelligence。
d . p . Mital和g·w·愣,“声控机器人与人工智能,”机器人和自治系统,4卷,不。4、339 - 344年,1989页。视图:出版商的网站|谷歌学术搜索
美国黄,y公园,Y.-s。公园,”声音方向估计对机器人使用人造耳朵,“机器人和自治系统卷,59号3 - 4、208 - 217年,2011页。视图:出版商的网站|谷歌学术搜索
a . Rogowski“面向工业的语音控制系统,”机器人和电脑一体机制造,28卷,不。3、303 - 315年,2012页。视图:出版商的网站|谷歌学术搜索
诉Alvarez-Santos, r·伊格莱西亚斯x m . Pardo c . v . Regueiro和a . Canedo-Rodriguez”的手势交互的声音反馈对于一个导游机器人,”杂志的视觉传达和图像表示,25卷,不。2、499 - 509年,2014页。视图:出版商的网站|谷歌学术搜索
s s Turakne和p . Loni智能交互式机器人与手势识别和语音反馈,”国际工程研究与技术杂志》上,5卷,不。4、276 - 280年,2016页。视图:谷歌学术搜索
m . Meghana Ch。美国Kumari j . s . Priya et al .,“手势识别和语音控制机器人,”今天材料:诉讼,33卷,不。7,4121 - 4123年,2020页。视图:出版商的网站|谷歌学术搜索
m·f·拉斐尔和d s Manuel”,设计机器人基于客户的家庭机器人的声音,“机器人和自治系统卷,79年,第107 - 99页,2016年。视图:出版商的网站|谷歌学术搜索
m . Buyukyilmaz和a·o . Cibikdiken”语音性别识别使用深度学习,”计算机科学研究的进步58卷,第411 - 409页,2017年。视图:谷歌学术搜索
k . Gundogdu s Bayrakdar, i Yucedag”开发和建模的声音控制系统修复机器人手臂在医疗系统中,“沙特国王大学计算机与信息科学杂志》上,30卷,不。2、198 - 205年,2018页。视图:出版商的网站|谷歌学术搜索
v . p . Saradi和p . Kailasapathi语音运动控制的机器人车辆通过可见光沟通,“计算机与电气工程卷,76年,第167 - 154页,2019年。视图:出版商的网站|谷歌学术搜索
美国Sachdev j . Macwan c·帕特尔,n . Doshi“声控自主车辆使用物联网,”Procedia计算机科学卷,160年,第717 - 712页,2019年。视图:出版商的网站|谷歌学术搜索
a·t·哈桑,a . m . s . Hamouda n .伊斯梅尔和h . m . a . a . Al-Assadi“逆运动学问题的自适应学习算法来解决一个6交货单F系列机器人机械手,”工程软件的进步,37卷,不。7,432 - 438年,2006页。视图:出版商的网站|谷歌学术搜索
y周、w . Tang和j .张“关节冗余机器人的逆运动学算法基于bayesian-BP神经网络”诉讼的2008智能计算技术与自动化国际会议上(ICICTA)长沙,页173 - 178年,中国,2008。视图:出版商的网站|谷歌学术搜索
b .亚都、美国Khawandi和m . Akoum”应用神经网络在机器人逆运动学问题,架构”《软件工程和应用程序,3卷,不。3、230 - 239年,2010页。视图:出版商的网站|谷歌学术搜索
A.-V。零售商店”,基于神经网络的逆运动学解机械臂轨迹跟踪,”Procedia技术卷,12日相较2014页。视图:出版商的网站|谷歌学术搜索
r角和t . Cakar neuro-genetic-simulated退火方法机器人的逆运动学解决方案:基于仿真的研究中,“与计算机工程,32卷,不。4、553 - 565年,2016页。视图:出版商的网站|谷歌学术搜索
A . r . j . Almusawi l . c . Dulger, s . Kapucu”一种新的人工神经网络方法在解决逆运动学的机械手臂(电装VP6242)”计算智能和神经科学卷,2016篇文章ID 5720163, 10页,2016。视图:出版商的网站|谷歌学术搜索
下午Shailendrasingh和l·p·普拉塔普,”一个实时的方法使用前馈神经网络的5自由度机器人机械手,”《IEEE国际会议的权力,控制,信号和仪表工程(icpcsi - 2017)钦奈,页1240 - 1245年,印度,2017年9月。视图:出版商的网站|谷歌学术搜索
a . Garzelli l . Capobianco f . Nencini,“多光谱和全色图像的融合作为一个优化问题,“图像融合算法和应用程序、学术出版社、剑桥、马、美国、2008。视图:谷歌学术搜索
https://www.securityinfowatch.com/video-surveillance/video-analytics/article/21069937/deep-learning-to-the-rescue。
https://www.programmersought.com/article/10025152444/。
https://www.Tensorflow.org/api_docs/python/tf/keras/losses/sparse_categorical_crossentropy。
https://www.programmersought.com/article/33553292079/。
m . Bucolo a . Buscarino c . Famoso l .命运和m . Frasca“不完美的动力系统,控制”非线性动力学,卷98,不。4、2989 - 2999年,2019页。视图:出版商的网站|谷歌学术搜索
a . Buscarino l .命运、m . Frasca和a·里佐”动态网络交互的分布式控制机器人,”混乱:一个跨学科的非线性科学》杂志上,16卷,不。1,文章ID 015116, 2006。视图:出版商的网站|谷歌学术搜索

机器人杂志

文摘

1。介绍

2。材料和方法

2.1。语音控制器的图

2.1.1。预处理输入声音

2.1.2。构建DL1模型

2.1.3。使用机器学习模型提取控制信息

2.2。逆运动学控制机械手使用深度学习网络

3所示。实验结果

4所示。讨论

5。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章