手势使用卷积神经网络分类基于Nonaudible声音

文摘

认识和区分用户的行为和动作已经成为重要的由于增加的使用可穿戴设备,比如smartwatch。本研究旨在提出对手势进行分类的方法通过创建声音nonaudible使用智能手机和反射信号频率范围。该方法将声音转换为数据,反映和记录,进入一个图像在很短的时间内使用短时傅里叶变换,和获得的数据被应用到一个卷积神经网络(CNN)模型对手势进行分类。结果显示平均8手势的分类精度为87.75%。此外,证实了提出方法具有更高的分类精度比其他机器学习分类算法。

1。介绍

随着IT技术的发展,使用可穿戴设备,如smartwatch或IoT-based设备,越来越普遍。然而,随着设备更加紧凑方便方便,它涉及到一些局限性,如使用按钮或触碰很难控制这些设备。在过去的几项研究已经调查这个问题。可以检测出运动的用户使用各种传感器,如一个红外线和光学传感器,或认识到运动使用相机。一个设备可以控制基于用户的公认的运动。特别是,谷歌独奏曲(1),它使用无线电频率信号,Okuli [2),它使用一个光学传感器,通过手势识别旨在控制设备。然而,这两个设备需要额外的部分,比如一个光学传感器或射频芯片。

因此,识别手势的方法不使用任何额外的部件或传感器已经吸引了大量的关注。最重要的方法是识别手势使用声波。在ER (3),这是一个基于手势识别的研究使用声波,声波对应nonaudible频率得到使用智能手机的内置麦克风和扬声器,和行为是基于多普勒效应的分类。在上述研究中,4疏忽驾驶事件使用支持向量机(SVM)分类。在声波4),由微软研究院,一台笔记本电脑和一个内置的扬声器和麦克风,而不是使用一个单独的转换器或接收器。Nonaudible频率不断获得使用内置的扬声器和麦克风,通过反射信号和手势识别基于多普勒效应。

本研究提出了手势的分类,没有一个单独的传感器,使用智能手机。使用智能手机应用程序中,我们在nonaudible创建声音频率范围和收集声音数据反映的手势。研究提取反射信号的特点,根据多普勒效应不使用一个过滤器或信号处理。研究区分不同的手势使用卷积神经网络(CNN) (5),深度学习模型与图像分类的精度高。,反映和记录信号转换成图像和CNN模型训练。使用训练模型,不同的手势进行分类和分类评价的准确性。合成,研究显示87.75%的准确性8手势。

本研究组织如下。部分2介绍了先前的研究使用nonaudible频率和手势识别跟踪手指位置。部分3讨论了该方法。部分4解释了实际的测试环境和过程并比较结果。最后,部分5描述了结论和未来的研究方向。

各种研究声波在技术进行集成。AAMouse [6)提出了一个方法,使用智能手机控制电视像遥控器使用声波来自智能手机。此外,有研究,如EchoTag [7),跟踪位置或控制装置通过结合声波与其他无线通信技术,如蓝牙和无线网络。IoT-based设备使用声波和语音识别,如谷歌家迷你(8和Kakao迷你9),吸引了大量的关注。因此,研究基于声波数据,包括声音或声音,正在增加。

在另一项研究中,声波的相移是用来跟踪手指的位置。FingerIO [10]使用一个正交频分复用(OFDM)调制技术常用的无线电通信。使用OFDM频带划分,计算使用的距离实际每个频率的复数。地层(11)进行了一项研究跟踪手指位置使用声波。在这项研究中,通道脉冲响应应用跟踪一个特定的通道相对应的图反映了多路径信号。基于信道估计的相移,绝对距离和相对距离计算跟踪手指的位置。在一项研究中,使用一个低延迟声阶段(LLAP) [12),声波的相移转换成对象的运动跟踪手指的长度的位置。一个静态的向量和一个动态向量计算来衡量变化和发现手指的位置。

最后,有研究,分类使用声波的行为或动作。ER (34)分类行为使用声波在一辆汽车。它产生的声波对应nonaudible 20 kHz的频率使用智能手机安装在汽车和提取特征的行为基于多普勒效应。然后,行为分类使用主成分分析和支持向量机,这是一个机器学习模型。合成,它显示一个分类的准确性94.8% 4日行为。在另一项研究中,声波(4),用户的手势分类使用一台笔记本电脑。连续导频音18 kHz的声音得到使用麦克风和扬声器建在一个笔记本电脑,和反射信号进行分析对手势进行分类。它分类共有5手势和显示96.6%的准确性。上述研究没有使用机器学习分类器使用单独的或深学习但是数学计算反射信号的特征分类。

拟议的研究中,与其他研究使用声波,获得数据在特定频段时间使用短时傅里叶变换(13),表明方法分类与深度学习模型的手势,CNN。与其他研究相比,本研究分类手势相互相似,显示一个类似的高分类精度水平更多的手势。

3所示。我们的方法

3.1。系统架构

我们提出一个系统分类手势使用智能手机和nonaudible声音。首先,我们在nonaudible创建声音频率范围和收集声音数据反映手势使用该应用程序。应用程序包含一个函数,生成一个nonaudible频率为一段时间和一个函数,记录声音。两个使用智能手机,一个演讲者和另一个麦克风。单波段nonaudible 20 kHz的频率是通过扬声器产生建在一个智能手机,和生成的信号被麦克风记录建立在另一个智能手机。智能手机录音的时候,我们能够执行每一个动作和获得不同信号相应的反映。

然后,收集到的数据被转移到一个电脑和一个任务申请CNN模型。一维数据,记录数据转化为数据,每个频带强度时间通过增加数据与STFT维度。在转换过程中,意外频带被遗弃和二维数据提取nonaudible频率得救了。

最后,学习建议CNN数据模型。保存的数据被转移到一个服务器,分为学习学习数据和测试数据与模型和评估性能。

3.2。数据收集

我们获得了不同的信号反射使用基于多普勒效应的手势。一只手的位置或运动的每个行为取决于时间。因此,是不同的反射和折射信号由于多普勒效应,导致不同记录信号。图1显示声波记录不同的行为由于多普勒效应。我们为每个行为重复记录和收集数据。

(一)

(b)

3.3。数据预处理

记录的声波数据转换通过STFT的频率特性随时间变化的信号。一般来说,可以获得整个频段的信号强度的变化与STFT随着时间的推移。在此,STFT应用于3秒的数据记录。记录数据的采样率是44.1 kHz。我们使用了窗口大小为500年和475年重叠STFT的大小。频率分辨率设置为2048。在转换过程中,感兴趣的领域是切断通过考虑分辨率的数据只使用nonaudible频带的输入数据。图2显示的结果减少19.8 - -20.2 kHz部分从STFT的结果。颜色是深红色,当在特定频率的信号强,和信号弱时的颜色是蓝色。开始删除0.2秒在切割过程中因为有一个内部系统0.2秒的延迟开始录音。

图3表明根据手势STFT的结果不同。图3(一个)是STFT的结果没有采取行动时,它显示了不同部位的深红色的颜色比图吗3 (b),这是记录声波的结果当麦克风被阻塞。

(一)

(b)

我们获得了STFT的特定部分的结果通过重复上述过程。获得的结果是保存,数据处理应用到CNN模型。

3.4。数据学习

相比之下,我们2 CNN模型,模型学习数据STFT之前STFT和模型学习之后。建议的模型由9层。一般CNN模型一样,他们是由输入、隐藏层和输出层。输入层输入数据分类按照输入格式通过考虑输入数据的大小。隐藏层由卷积、池、和完全连接层。卷积层连接到输入数据的一部分,和它的内积计算连接域和它的重量。池层输出上执行将采样体积减少了尺寸。许多池方法,提出模型使用max池方法选择的最大价值。在完全连接层,所有节点之间相互关联,每个节点计算的结果通过添加矩阵乘法和偏差的重量。建议模型通过一个单一的找到相应的域的平均平均拉之前是完全连接来减少数据大小。 Finally, in the output layer, all classes are converted into probabilities with the Softmax function and they are classified into the class of the highest probability.

图4(一)说明了CNN的体系结构模型,该模型使用的原始数据大小作为输入,这显示了学到的CNN模型的总体架构中原始数据建议CNN模型。图4 (b)说明了CNN的模型,该模型使用的数据大小后STFT作为输入,这显示了CNN的详细架构模型,了解STFT-applied数据。

(一)

(b)

4所示。绩效评估

4.1。实验设置

记录数据直接收集行为评价该方法的性能。数据收集,我们做了一个应用程序,该应用程序可以生成和记录单个nonaudible 20 kHz的频率。我们使用2智能手机这个实验。三星Galaxy S8模型作为一个演讲者产生nonaudible频率,和三星Galaxy Note 8模型用作录音麦克风的声音。应用程序是安装在每个智能手机来进行实验。实验是在一个废弃的实验室。两个智能手机放在一个表空间,和智能手机上的播放按钮是推动扬声器。然后,REC-START按钮推智能手机上是一个麦克风前特殊的手势。数据收集的重复这个过程。

数据收集完成后,记录数据保存在智能手机是STFT转移到个人电脑。我们使用MATLAB R2015数据转换。后使用MATLAB应用STFT,结果数据保存为一个文件。然后,两组的保存的数据传输到服务器申请CNN模型。

GPU服务器是用来实现和测试CNN模型。使用GPU服务器GTX 1080 Ti模型。TensorFlow,我们实现了2 CNN模型学习和评估应用STFT之前和之后的数据。

4.2。姿态数据集

本研究将8手势如下:(1)录音的时候什么都不做,什么都不做(2)从左至右:从左到右移动的手与展开手掌同时记录。此时,定位移交记录屏幕的智能手机(3)从上到下:将手从上到下的手掌同时记录。此时,定位移交记录屏幕的智能手机(4)圆图:顺时针画一个圆的食指在记录。此时,手指定位录制屏幕的智能手机(5)块麦克风:块智能手机的麦克风在底部用手掌而记录(6)从右到左移动:移动的手从右到左的手掌同时记录。此时,定位移交记录屏幕的智能手机(7)从下到上:将手从下到上的手掌同时记录。此时,定位移交记录屏幕的智能手机(8)三角形图:顺时针画一个三角形的食指在记录。此时,手指定位录制屏幕的智能手机

图5说明了实验收集的手势。每个手势都在3秒内完成。我们收集的数据通过重复8如图所示的手势。手没有智能手机屏幕上的触摸手势和定位时约1厘米离开屏幕。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

数据收集8种手势和用于实验。每个数据被记录为3秒,800年的数据,100次/手势,收集。执行数据收集在一个无噪声的实验室。

4.2.1。准备嘈杂的环境

相比之下,在嘈杂的环境中获得的数据。我们创建了一个环境与噪音在同一个实验室一台笔记本电脑。收集数据,音乐录音时使用笔记本的内置扬声器。数据与噪声记录为每3秒8手势使用相同的方法,和800数据,100次的姿态,收集。

因此,100年的数据在一个无噪声的环境和100年的数据收集在一个嘈杂的环境对于每一个手势。表1显示了使用记录数据。


手势	通用数据的数量	数量的数据与噪音

什么都不做	One hundred.	One hundred.
从左到右	One hundred.	One hundred.
从上到下	One hundred.	One hundred.
画圆	One hundred.	One hundred.
块麦克风	One hundred.	One hundred.
右到左	One hundred.	One hundred.
下到上	One hundred.	One hundred.
画三角形	One hundred.	One hundred.

在收集1600个数据样本,STFT使用MATLAB应用。19.8 - -20.2 kHz域,即nonaudible频带,割断。我们让每一个CNN模型学习数据,应用STFT和数据不适用STFT和评估性能。为每个组,进行了测试场景和没有噪声,分别。学习和评估数据被分成8:2。决定适当的重复计数的学习,400时代将检查的准确性。数量设置为20000时,获得的测试结果如图6。根据这个结果,我们学习的重复计数设置为37.5时代,进行评估。

4.3。姿态数据集

4.3.1。STFT的影响

STFT之前相比较而言,数据应用于CNN模型学习和评估性能。的 - - - - - -折交叉验证方法(14)是用于提高分类结果的可靠性。在这个实验中,将5进行学习和评估。评估的结果,最大和平均分类精度分别为81.25%和76.25%,分别。图7显示了平均5 - - - - - -折交叉验证结果混淆矩阵。

STFT后,数据被应用到CNN学习和评估性能。平均准确率为87.85%,高于10%以上结果STFT之前。最大的分类精度为92.5%。图8混淆矩阵显示了评价结果。

图9比较的结果与图2模型。准确性STFT-applied数据和数据之间的差异没有STFT最大和最小精度分别为11.25%和15%,分别。当平均精度比较,STFT-applied数据显示11.5%更高的分类精度。

4.3.2。噪声的影响

随后,我们添加了数据和噪声性能进行评估。之前比较噪声的影响,相同的过程进行验证是否STFT的应用是有效的。2的学习和评价模型进行使用 - - - - - -折交叉验证,结果比较。

当数据没有STFT,平均分类精度为74.18%。最大精度为78.13%,相对低于数据没有噪音。图10混淆矩阵显示了评价结果。

当STFT-applied数据被使用,平均分类精度为79.38%和88.48%的人获得的最大精度,分别。同样,它显示相对较低的精度比数据没有噪音。相比,数据不适用STFT,它显示更高的平均准确率5%以上。图11显示的结果添加数据噪声和STFT申请分类混淆矩阵。

数据与噪声STFT应用时也显示精度高。使用数据和噪声时,模型,应用STFT显示超过15%的平均精度高于STFT模型不适用。然后,我们比较了噪声的影响。当时STFT-applied数据中的噪声,它所显示的平均精度约5%低于数据没有噪音,和数据不适用STFT,但噪声数据显示,11.5%精度低于没有噪音。图12比较STFT-applied数据的分类精度与使用图表,没有噪音。

表2显示了整个实验结果。STFT-applied数据和使用的模型,该模型使用原始数据,手势分类精度比较的环境噪声和环境噪声。平均、最大、最小精度比较的结果 - - - - - -折交叉验证。


环境	输入数据	精度(%)
环境	输入数据	平均	最低	最大

w / o噪音	生	76.25	70.62	81.25
w / o噪音	STFT	87.75	85.62	92.5
w /噪音	生	74.18	69.37	78.12
w /噪音	STFT	79.37	72.18	84.37

4.3.3。与其他分类算法进行比较

此外,我们比较结果使用其他机器学习方法用于数据分类。输入数据,STFT-applied数据。机器学习方法用于决策树(DT)比较,支持向量机,随机森林(RF)。

DT (15)是一种评估方法,将观测值和目标值的一个特定的项目。分析数据和显示这些值之间的现有模式可预见规则的组合。DT的最大深度设置为4在这项研究。

支持向量机(16]发现2数据之间的边界,创造最大的利润。它可以处理复杂的数据有效地使用内核。我们设置了归一化参数( )1和10000之间的100年和γ参数( )作为汽车0.0001和1之间。

射频(17)是一个随机学习多个DTs的分类方法。它创建了一个决策树,由多数投票决定结果,预测结果。我们评估射频性能使用200棵树。

分类算法实现在服务器上进行评估。8行为结果,分类精度为49.63%,71.25%,79.63%,87.75%。结果,建议的方法表现出更好的性能比现有的分类算法。图13比较3机器学习算法的准确性和建议的CNN模型。

5。结论

本研究分类手势使用nonaudible频率的智能手机。在此,提出了一种方法寻找数据分类利用STFT的频率响应在时间,并把它们应用在CNN模型。记录为一维数据的信号转换为二维数据,和CNN模型与高精度图像分类是用来发现无法从一维数据获取特征,提高分类的准确性。建议的方法表现出更好的性能比现有的机器学习分类模型的准确性达87.75%精度对8手势。平均分类精度为79.38%时获得的数据收集与噪声。相比,分类使用CNN模型没有采用STFT,它显示超过10%更高的准确性没有噪音和精度高5%以上没有噪音。

在将来,一个额外的测试将由考虑其他手势和改变地点和环境。研究方法应用到处理的手势而不是提前设置手势将进行。如果一个系统是由补充和储存的学习模式,它预计将可以处理实时手势。

数据可用性

原始数据可以在“http://ncl.kookmin.ac.kr/data/sound2019.zip”或通讯作者。

信息披露

抽象的手稿提出会议2019年十一无处不在的和未来网络国际会议(ICUFN)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是由韩国国家研究基金会(NRF)授予由韩国政府(MSIP)(2016号r1a5a1012966)。作者欣然承认郑Jinwon先生帮助收集数据。

引用

j .留置权n .吉莉安·m·e·Karagozler et al .,”独唱:无处不在的姿态传感与毫米波雷达、”ACM交易图片,35卷,不。4 - 2016页。视图:出版商的网站|谷歌学术搜索
c . Zhang j .他泊,j·张,x张“扩展移动通过近场可见光遥感互动,”诉讼21年的移动计算和网络国际会议,页345 - 357年,巴黎,法国,2015年9月。视图:谷歌学术搜索
h·高,x, j . Yu et al .,“呃:疏忽驾驶的早期识别利用音频设备在智能手机上,“《IEEE计算机通讯大会上(信息通信)2017年5月,亚特兰大,乔治亚州,美国。视图:谷歌学术搜索
古普塔,d·莫里斯,s . n . Patel和d . Tan“声波:使用多普勒效应手势,”SIGCHI会议程序在计算系统人为因素(气),页1911 - 1914,奥斯汀,德克萨斯州,美国,2012年5月。视图:谷歌学术搜索
y LeCun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
Yun, y . c . Chen和l .秋,“把移动设备变成一只老鼠,”《第13届国际会议在移动系统中,应用程序和服务(经验)15 - 29页。佛罗伦萨,意大利,2015年5月。视图:谷歌学术搜索
“y . c .东和k . g . Shin EchoTag:准确infrastructure-free室内位置与智能手机标签,”诉讼21年的移动计算和网络国际会议(MobiCom),页525 - 536年,巴黎,法国,2015年9月。视图:谷歌学术搜索
谷歌迷你,2018年10月,http://www.store.google.com/product/google_home_mini。
2018年10月,英国迷你http://www.kakao.ai/product/kakaomini。
r . Nandakumar诉艾耶、d . Tan和s . Gollakota”FingerIO:使用主动声纳的细粒度的手指跟踪”会议的程序在计算系统人为因素(气)1525年,页1515 - 2016年5月美国加州圣何塞。视图:谷歌学术搜索
Yun,陈y . c, h .郑l .秋和w·毛”地层:细粒度acoustic-based device-free跟踪”美国第15届国际会议在移动系统中,应用程序和服务(经验)页,15-28尼亚加拉大瀑布,纽约,美国,2017年6月。视图:谷歌学术搜索
a . w . Wang x刘,k .太阳,“Device-free手势跟踪使用声波信号,”美国22日一年一度的移动计算和网络国际会议(MobiCom),页82 - 94,纽约,美国,2016年10月。视图:谷歌学术搜索
j·艾伦,”短期光谱分析,合成,通过离散傅里叶变换和修改,“IEEE声学,演讲,和信号处理,25卷,不。3、235 - 238年,1977页。视图:出版商的网站|谷歌学术搜索
t . Fushiki”,预测误差估计通过使用K-fold交叉验证,”统计和计算,21卷,不。2、137 - 146年,2011页。视图:出版商的网站|谷歌学术搜索
j·r·昆兰“决策树归纳”,机器学习,1卷,不。1,第106 - 81页,1986。视图:出版商的网站|谷歌学术搜索
即Steinwart和a . Christmann支持向量机施普林格科学与商业媒体,柏林,德国,2008年。
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索