你敲我的命令:二进制手势识别在智能手机加速计

文摘

动态的手势是一个重要的方案允许用户调用命令的眼睛自由地在他们的智能手机。然而,现有的计划正面临一些问题。一方面,一个手势的表达能力是有限的。因此,一套动作组成的多个手势通常用来代表不同的命令。用户必须记住所有手势为了使交互成功。另一方面,手势需要复杂的设计来表达不同的内涵。然而,复杂的手势是很难学习和记忆。此外,复杂的手势设置一个高智能应用程序识别障碍。这导致一个不平衡的问题。不同的手势有不同的识别精度水平,这可能导致不稳定的实际应用的识别精度。 To address these problems, this paper proposes a novel scheme using binary motion gestures. Only two simple gestures are required to express bit “0” and “1,” and rich information can be expressed through the permutation and combination of the two binary gestures. Firstly, four kinds of candidate binary gestures are evaluated for eyes-free interactions. Then, an online signal cutting and merging algorithm is designed to split accelerometer signals sequence into multiple separate gesture signal segments. Next, five algorithms, including Dynamic Time Warping (DTW), Naive Bayes, Decision Tree, Support Vector Machine (SVM), and Bidirectional Long Short-Term Memory (BLSTM) Network, are adopted to recognize these segments of knock gestures. The BLSTM achieves the top performance in terms of both recognition accuracy and recognition imbalance. Finally, an Android application is developed to illustrate the usability of the proposed binary gestures. As binary gestures are much simpler than traditional hand gestures, they are more efficient and user-friendly. Our scheme eliminates the imbalance problem and achieves high recognition accuracy.

1。介绍

眼睛自由交互的方法控制移动设备,而不必看设备(1]。已经开发出了多种方案,让用户以眼睛自由的方式进行交互。在[2数字计算器)用手指操作触摸屏。该方法利用龙头为数字输入和使用刷进行其他操作。十七个手指动作定义算术任务。在[3),一个非可视文本输入方法,使用6位盲文字符编码。输入一个信号用几个手指触摸屏幕,每个手指代表一点,触摸屏幕或不是。除了表面的手势,语音指令也提供了一个解决方案(4]。Siri是一种移动语音界面的最突出的例子。另一个重要的方法是使用一个动态的手势5]。指挥执行任务,智能手机用户需要执行一个手势,电话在手里。手势被认为通过分析数据样本的类型被运动传感器、加速度计、陀螺仪和方向传感器。

动态的手势享受几个优点。首先,用户不需要视觉关注智能手机的触摸屏,因为物理位置可以通过本体感觉(感知6]。其次,hand-motion-gesture交互提出几个对周围的环境的限制。例如,语音命令容易错误在嘈杂的环境中7),但运动手势可以只要执行用户的手中都是免费的。最后,可以设计在三维空间动态的手势。表面相比,手势,还有更大的设计空间各种互动的任务(8- - - - - -10]。

然而,该方案使用动态的手势命令智能手机面临三个问题。(1)为了代表不同的命令,一套动作组成的多个手势是必需的。例如,14个手势中指定文献[5];提出了11个手势在文献[11]。用户需要学习手势的集合所支持的智能手机。他们必须记住所有手势为了使交互成功。(2)为了区分这些不同的手势,手势的定义不仅运动的形状,而且基于运动学运动(12]。用户需要学习手势的特征,形状和运动学方面的运动。它可以是一个艰巨的障碍把握这些特性的细节。此外,手势和复杂特性建立一个障碍实现识别精度高。(3)设计多个手势原因识别精度水平的不均匀分布在不同的手势,这阻碍了这种设计的实际应用。例如,一个深提出了前馈神经网络识别手势在文献[1111]。他们达到一个最低动作1的命中率为70.35%,最高姿态的命中率为100% 10。因此,不同手势的识别精度水平有极大的不同。

上述问题的根源是,多种类型的手势交互都必须完成一个特定的任务和一个手机。为了解决这个问题,一本小说提出了使用二进制手势交互方案。只需要两种类型的手势来表达二进制位“0”和“1。“通过排列组合两个二进制手势,有点序列构造。应用程序安装在智能手机可以识别一些序列通过分析传感器的信号。比传统二进制手势更简单手势,它们很容易为用户学习和记忆。手势可以实现识别精度高。因此,不会有不平衡的问题。

以刷运动姿态为例,它规定,用户刷卡智能手机水平向左和向右的代表“0”和“1”。通过结合二进制的手势,可以表达复杂的含义。例如,如果用户刷手机左侧连续四次,这意味着该命令0000。“四个二进制手势的排列组合可以代表16命令。我们相信,更容易让用户记住数字比复杂的手势。

应该注意的是,我们不打算设计一套手势来满足各种需求的交互任务。我们只是提供一个替代的眼睛自由交互场景。其典型的应用场景包括视力残疾的用户(13],分心相互作用[14),和秘密行动15]。

总结了论文的主要工作和贡献如下。(1)小说user-smartphone眼睛自由地使用二进制手势交互方案。(2)在线信号切割和合并算法的目的是提取的独立姿态信号段二进制手势序列。这个在线算法的准确率与离线支持向量机算法。(3)5算法,包括DTW、朴素贝叶斯决策树、支持向量机、BLSTM,采用二进制手势识别,BLSTM已经达到98%的识别精度。(4)一个原型应用程序,使用二进制手势来发送SMS短信在Android平台上实现。

本文的其余部分组织如下。介绍了二进制手势的定义部分2。部分3详细描述了二进制的动作序列的分割过程。节45算法是利用识别一个分段敲门的姿势。部分5介绍了使用二进制手势交互原型应用程序。最后,本文得出结论的工作。

2。二进制手势的定义

我们利用四类的二进制表示根据一个标准硬件坐标系统。在标准的硬件坐标系中,<我>x设在水平和指向是正确的。如图1,<我>y设在垂直和分,<我>z设在指向屏幕外的脸(27]。

四个二进制手势的定义如表所示1。定义中,电话应该在用户画像取向的两只手。刷卡、音高和翻转动作执行<我>z设在,<我>x设在,<我>y分别设在。敲门的手势,用户在一次电话的手,水龙头在屏幕上用另一只手的食指。


手势类别	行动	意义

刷卡(沿<我>z设在)	单	0
	双	1

音高(沿<我>x设在)	单	0
	双	1

翻转(沿<我>y设在)	单	0
	双	1

敲(在屏幕上)	单	0
	双	1

定义的一组命令用二进制编码来表示用户的交互意图。转换为一个特定的命令手势序列组成的单个动作和双行动。定义在每个手势类别,点动代表“0”的含义和定义了双动来表示“1的意义。“双动动作包括两个连续点动动作。多个手势构成二进制手势交互的序列。以把手势为例;如果用户希望发出4比特命令“0101”的智能手机,他必须执行4把操作序列。换句话说,用户需要执行“双报警,single-knock single-knock,双击“在智能手机在指定的时间范围内。

智能手机的加速度计是很常见的。这是一个至关重要的传感器监测设备运动,如倾斜、摇晃,旋转和摇摆。此外,它使用少大约10倍力量比其他运动传感器(16]。由于上述原因,我们考虑收集加速度计数据来识别用户手势。应用程序安装在智能手机分析加速度传感器数据识别的二进制比特序列。

图2说明了收集使用硬件加速计数据,同时执行两个二进制连续手势在不同类别。连续两个手势代表“01序列。“<我>x,<我>y,<我>z曲线对应于使用硬件加速计的数据。从图可以看出2(一个),有很多噪音获得加速度计信号的滑动手势。很难区分这两个刷动作手势。相比之下,球场上,翻转,使动作更容易区分。这些手势的单引号和双行动主要是根据波峰或波谷的数量区分。从图2 (b)它可以清楚地看到,single-pitch手势有显著槽<我>z设在明显波峰<我>y设在,双坡手势有两个波谷和波峰在相应的轴。在图2 (c)翻转动作的波形是相似的手势,但波峰出现在<我>x设在。敲打姿势如图2 (d)single-knock行动有一个明显的波峰,而双报警行动有两个明显的峰值。总之,球场、翻转和敲手势被认为是在下面讨论。

(一)

(b)

(c)

(d)

在下一节中,我们将详细解释如何识别的二进制比特序列通过加速度计的用户信号。

3所示。信号分割

3.1。总体流程

整个处理流程如图3。

使用硬件加速计信号不断收购一个应用程序安装在智能手机上。每个交互开始前,电话保持静止一段时间(超过1秒)。这个静止的时期被视为一个开始一个手势序列的信号。它被称为最初的平静期。

首先,收集到的信号预处理的合成和筛选。然后,检测到最初的平静期。一旦开始信号出现时,一个在线钻头切削过程是用来切断独立姿态信号从一个连续信号流部分。接下来,断路器动作信号段识别的二进制的意思。在一个理想状态,组成的一个序列<我>N可分为二进制手势<我>N独立的手势信号段。最后的输出是一个<我>N位二进制序列,代表用户的命令消息。

3.2。信号采集与预处理

3.2.1之上。采样频率

在一个Android智能手机,各种传感器的采样频率是在系统中设置。有四个可用值(17]。①SENSOR_DELAY_NORMAL,采样频率大约是5赫兹。②SENSOR_DELAY_UI,采样频率约为16赫兹。③SENSOR_DELAY_GAME,采样频率大约是50赫兹。④SENSOR_DELAY_FASTEST,样品尽快。

在我们收集的样本,single-knock姿态的时间大约是0.2 - 0.5年代,相当于一个手势2赫兹∼5赫兹的频率。根据香农采样定理,采样频率的信号应不少于10赫兹。如果使用SENSOR_DELAY_FASTEST,采样频率远远大于10赫兹,和太多的样品收集。这对后续的计算带来了不必要的开销。的两个频率SENSOR_DELAY_UI和SENSOR_DELAY_GAME更合理。考虑到手势识别的准确性,我们选择50 Hz作为获得多个采样点的采样频率。

3.2.2。信号合成和筛选

为了避免传感器的漂移和重力的影响,我们对硬件进行矢量合成数据18]: 在哪里<我>G代表了重力加速度。 , ,和代表的加速度计采样值<我>X设在,<我>Y设在,<我>Z分别设在。

为了过滤掉异常点和噪声在收集到的数据,进行低通滤波器如下:

在这里,代表了<我>我^th合成加速度计样本代表获得滤波后的值。作为新采样点是更重要的特征提取和识别,建议选择一个较大的值<我>α保留大部分采样值。

3.3。钻头切削过程

钻头切削过程试图独立的独立姿态信号段不断收集的加速度计信号流。钻头切削过程在线模式下运行。而不是获得完全二叉的动作序列信号,切割和分析操作同时运行。图4显示了完整的钻头切削过程的流程图。

经典的滑动窗口(SW)和滑动窗口和自底向上(棍)算法(19)是用于执行在线信号分割。这些算法不能剪出一个完全二叉手势信号。相比之下,这种算法获得大量的短信号段。因此,合并算法的目的是把这些短信号段划分为完全二叉手势信号段。阐释了钻头切削过程的伪代码的算法1。

	输入:<我>α低通滤波器的系数
	β调整系数,波动特征
	E_马克斯,用户设置最大累积误差阈值
	E_bavg,最初的平静期的平均误差
	输出:一个完整的手势信号段
	/^∗初始化^∗/;
	我←0,<我>一个←[];
	k←0,<我>段←[],<我>P←[];
	而得到我th<我>使用硬件加速示例:Ax,是的,做
	/^∗信号合成和筛选^∗/;

	;
	;
	;
	/^∗西南或拭子^∗/;
	开始←段(<我>k−1)←结束<我>我−1;
	←线性回归适合一行<我>一个(<我>开始:<我>结束];
	j=开始⟶结束做
	E_暨←<我>E_暨+
	结束
	如果E_暨><我>E_马克斯然后
	/^∗新一段由西南或拭子^∗/;
	段(<我>k)←<我>我−1;
	E_avg←1 /_我E_暨;
	/^∗设置波动特征^∗/;
	如果Eavg<<我>βE_bavg然后
	P(<我>k)←0;
	其他的
	P(<我>k)←1;
	结束
	/^∗过程合并算法^∗/;
	段,P,<我>k←<我>合并(<我>段、磷、钾);
	/^∗检查一个完整段是否断开^∗/;
	如果(<我>P(0],<我>P(1],<我>P(2]]= [1,0,1]然后
	TS←<我>一个(0:<我>段(0]];
	输出<我>TS识别;
	结束
	k←<我>k+1;
	结束
	结束

3.3.1。切割算法

西南和拭子在网上两种信号切割算法用于提取时间序列信号的物理信号段。SW算法示例读入一个滑动窗口不断然后使用线性回归适合一行样本的窗口。在某个点,累积误差大于指定的阈值(表示 ),所以窗口的子序列转换成一段。然后,滑动窗口的大小减少到0,和过程迭代,直到整个时间序列转化为分段线性近似。拭子算法使小缓冲区获得“semiglobal”数据集的自底向上的视图。它与数据集的大小尺度线性,只需要恒定的空间,并产生高质量的近似的数据。这是有利于在移动设备中的应用。

累积误差线性近似的计算如下:

在这里,的拟合值吗<我>我^th信号合成和筛选后数据样本,<我>n是当前窗口大小。当窗口大小变化,累积误差是重新计算。

图5显示了一个预处理加速度计信号序列生成的两个连续敲手势,这是一个single-knock,之后双击。如图5,有一个相对平静的间隔两个相邻敲手势,如2.5 - 4.5年代的间隔。这种间隔叫做平静期。相比之下,相对强劲的信号周期波动称为波动时期,如1.5∼2.5年代的间隔,间隔4.5∼6.0年代。这些信号段对应于用户的手势。理想情况下,安静的周期和波动周期交替二进制信号序列的手势。

SW /拭子,处理后的信号序列切成多个短段。如图5,这些短段由蓝色垂直的虚线。在安静的时期,会有合适的错误由于小波动。一段时间后,累积误差最终会超过阈值。因此,静默期的信号将被切成多个稀疏的部分。在波动期间,由于加速度计信号的相对较大的波动,累积误差将超过阈值在很短的时间内。因此,信号波动时期将切成多个密集段。

为了提取完整的姿态,有必要设计一个合并算法结合多个信号段包括在波动时期。在图的信号5,两个完整的信号段对应两把手势应该提取后段合并。

3.3.2。合并算法

段,我们可以计算其平均误差如以下方程:

在这里,的价值吗<我>我^th样本信号合成和筛选后,的拟合值对应的样本,然后呢<我>n段是样本的数量。特别是,最初的平静期的平均误差表示。

此外,一个特征<我>p定义测量一段的波动水平。为<我>kSW / th段剪的拭子算法,其波动特征将根据以下方程:

0的波动特征表明,段的波动较低,属于一段平静的时期。相比之下,1的波动特征表明,高段的波动是属于一个波动周期。

<我>β是用来平衡系数和。一般来说,平均误差的部分包括在略大于一个平静期。因此,的价值<我>β应大于1。然而,如果<我>β设置为一个较大的值,段,属于一个波动周期将标记为段属于一个平静期不正确。

上述处理后,我们可以得到一个二进制数字序列的波动特征,也就是说, 。合并算法处理流程如图6。

当<我>k^th是剪段(<我>k≥3),执行合并操作根据最后三段的波动特征,也就是说, 。有三种情况下,一个可以执行合并操作:(1) = ,的和段合并成一个新领域,新段的波动特性保持不变。(2)序列<我>P匹配(0,1,0),和的大小(<我>k−1)段小于 ;这意味着这些三个部分可以合并成一个新的段波动特征的0。(3)序列<我>P匹配[1,0,1],和的大小段小于 ;这意味着这些三个部分可以合并成一个新市场波动的特点1。

如果满足上述情况,当前轮合并操作结束,然后等待一个新的段是由SW /拭子。

在合并过程中有两个重要的参数,例如,和。段的大小实际上是信号的持续时间。在例3中,显示的最大持续时间静默期允许在一个完整的手势信号。双击动作是连续两个single-knocks,通常有一个下降的信号。信号下降的持续时间大约是100 - 300 ms在我们的实验。因此,被设置为15的采样频率下50赫兹。

在例2中,表示允许的最大持续时间波动在一个安静的时期。<我>C_最小值受许多因素影响,如使用场景和传感器精度。因此,在我们的实验中被设置为3保守。

图7说明合并算法的执行一个独立的双报警信号。在图7(一)第三段是切断时,序列特征(1,1,0)。作为 ,第一和第二段合并成一个新市场波动的特点1。特征序列更新(1,0)。然后,第四部分是减少波动的特点0;因此,更新(1,0,0)如图7 (b)。这并不属于前面所提到的三种合并情况。接下来,第五段是1的波动特征。在现在,序列更改为[1,0,0,1]。最后三段的波动特性检查。作为 ,这两个部分合并成一个新的段波动特征的0。之后,P是顺序改为[1,0,1],如图7 (c)。假设新段的大小小于 ,满足合并案例2。三个部分合并成一个大市场的波动特征,如图17 (d)。通过连续在线切割和合并处理,可以提取出完整的敲段姿态。所示的合并算法算法的伪代码2。

(一)

(b)

(c)

(d)

	输入:<我>段,产生的信号段SW或棉签
	P,对应的段段的波动特征
	k的数段段
	输出:<我>段、磷、钾后合并过程
	/∗合并算法只运行有超过3段。∗/;
	如果k<我>>3然后
	如果P(<我>k−2]= =<我>P(<我>k−1]然后
	(0,0,0)/∗⟶[0],[0,0,1]⟶[0,1]∗/;
	/∗[1 1 0]⟶(1,0),(1,1,1)⟶[1]∗/;
	段(<我>k−2]←<我>段(<我>k−1);
	remove (<我>k−1)^th项<我>段;
	k←<我>k−1;
	其他的如果(<我>P(<我>k−2],<我>P(<我>k−1),<我>P(<我>k]]= = (0,1,0)然后
	(0,1,0)/∗⟶[0]∗/;
	如果数的(<我>k−1)^th段的段<我><<我>C最小值<我>然后
	段(<我>k−2]←<我>段(<我>k];
	remove (<我>k−1)^th项<我>段和<我>P;
	k←<我>k−2;
	结束
	其他的如果(<我>P(<我>k−2],<我>P(<我>k−1),<我>P(<我>k]]= = [1,0,1]然后
	/∗[1,0,1]⟶[1]∗/;
	如果数的(<我>k−1)^th段的段<我>><我>C_马克斯然后
	段(<我>k−2]←<我>段(<我>k];
	remove (<我>k−1)^th项<我>段和<我>P;
	k←<我>k−2;
	结束
	其他的
	什么都不做;
	结束
	结束
	返回<我>段、磷、钾

3.3.3。钻头切削实验

两个实验场景设计。在场景1中,智能手机是放在桌面;在场景2中,智能手机用户的手上。共有8个志愿者参加了实验。每个志愿者是需要执行4敲在交互手势。一轮实验包含16个交互,有些序列对应“0000”,“1111年。“十轮实验,和2560年的姿态为每个场景得到样品。

断路器率的指标用来评估钻头切削过程的影响。断路器率定义如下:

参数的设置如表所示2。


参数	价值

智能手机	华为荣耀8 x
	0.8
	5
	15
	3

实验主要分析断流器的二进制手势在不同累积误差阈值。阈值设置如下(19]:

在这里,<我>E是0.01,<我>米从0到12不等。实验结果如图所示7。

如图8断路器率降低增加整体。当大,有些手势爆震强度较低的会被认为是安静的时间错误。导致的情况少断路器,断路器率小于1。

(一)

(b)

在手持的场景中,我们可以看到的合理范围<我>米是鹿。然而,合理的范围<我>米是0 - 4的场景桌面。当一位志愿者举行了电话,一个小的手将导致加速度计信号连续小波动。区分波动引起的握手和那些由于敲手势,需要更大的。为了适应不同的场景,设置的研究了下一个小节。

3.3.4。设置

如果检测到最初的平静期,设置为在以下方程:

在这里,<我>k线性调整系数,<我>N是当前窗口大小SW /擦洗,然后呢是最初的平静期的平均误差。通过这种方式,设置的可以动态地调整根据和当前窗口大小。这个实现场景适应性的目的。

的影响<我>k值分析了钻头切削。<我>k不同(0.001,0.01,0.1,0.5,1,3,5,10]。实验结果如图所示9。

(一)

(b)

如图9,一个合理的范围<我>k往往是相同的在这两个场景。现场适应达到一定程度,自适应地调整。对于不同的场景,只有参数<我>k需要确定。当<我>k小,对断路器率几乎没有影响。当<我>k超过某一阈值时,断路器率迅速降低。一个更小的<我>k意味着一个小累积误差阈值。这导致更多的片段被削减,但一个好位断路器率也可以通过合并算法。相比之下,一个更大的<我>k意味着一个大的累积误差阈值。这将导致更少的断路器,断路器率小于1。从图9,我们可以知道断路器率时要好<我>k小于或等于1。

3.3.5。钻头切削的有效性

在本节中,我们评估的有效性提出了一些切割算法。在线钻头切削过程相比,使用支持向量机(SVM)离线流程(20.]。离线过程如下。

启发式算法是用来把手势信号序列切成多个安静和波动段。然后,正确的信号段剪将用于训练支持向量机模型。两个特征提取每个采样点的一个信号,即硬件合成加速度和合成加速度当前和前一采样点之间的区别。的标签样本点的类别,这是一个相当段或波动段。上述处理后,我们可以得到一个支持向量机模型预测每个采样点的范畴。最后,采样点是根据其分类标签合并成段。类似的合并过程如图6利用离线的过程。

支持向量机算法具有全局视图,简化了分类问题。所有数据样本标签和使用10倍交叉验证获得的平均位断路器率支持向量机算法。钻头的切削过程,设置基于方程(7),<我>k是0.5。实验结果如图所示10。在线钻头切削过程本文设计实现断路器的速度与离线支持向量机算法。这表明该钻头切削过程适用于在线二进制手势信号。

3.3.6。比较不同的手势

在本节中,提出了钻头切削算法应用于敲门,音高,翻转动作序列。断路器率和位完成时间比较这三个动作。除了<我>β参数设置是一样的,在桌子上2。作为讨论的部分3.3。2,系数<我>β应大于1。在这里,<我>β的变化从1到10。如图11钻头切削算法是有效的,所有这三个动作序列。当<我>β设置为3,4,5,断路器的三个姿态序列接近1。这意味着所有正确信号分段断路器。作为<我>β增加,一些部分在波动时期被标记为部分属于一个平静期不正确。导致断路器的翻转动作序列增加率约为1.2。

接下来,我们清点所有正确的长度切断信号段和获得的平均完成时间来表达“0”和“1。”如图12音高和翻转动作的完成时间长于敲门的姿势。single-knock行动大约需要0.3秒的平均表达一些“0”,而球场和翻转动作超过0.5秒。双击动作大约需要0.65秒的平均表达一些“1”,而球场和翻转动作超过1.0秒。向手机发出了相同的命令,使用敲门的动作所花费的时间是只有一半的音高和翻转动作。因此,把手势的交互效率优于其他两个。

由于该算法更好地减少爆震和俯仰姿态序列,如何认识到这两个动作的断路器信号段二进制意义研究的部分4。

4所示。二进制手势识别

钻头切削后,一个完整的信号段的动作序列。区分单引号和双手势动作,大田、传统机器学习,BLSTM方法是利用在这一节中。

4.1。DTW方法

动态时间规整(DTW)算法用于测量两个时间序列之间的相似度,而不同的长度(21]。签名将被表示为矩阵的时间序列 ,在哪里<我>P点的数量在断路器信号段和<我>Z从每一个点的数量特征提取。在这里,使用硬件使用原始加速度数据。结果,<我>我^th点是一个序列<我>3-维向量。为了验证是否一个示例( )匹配相应的模板( ),一个不同的分数<我>说基于DTW算法计算它们之间。<我>说是一个累积的距离两个手势信号段。

见表1、点动和双动在每个手势类别中定义。因此,点动信号段和双动信号段手动选择为每个志愿者作为参考模板。当切断信号段,两段之间的不同分数计算和两个参考模板。段划分为符合不同分数较小的模板。

4.2。支持向量机方法

支持向量机(svm)是广泛用于分类和回归的任务。手势识别是视为一个二元分类问题。SVM在高维空间中构造超平面分离两个类的姿态,点动,双动的手势。我们使用LIBSVM作为分类算法和使用RBF核函数作为核函数。三个功能是构建一个三维的特征向量提取每个手势信号段。他们动作的大小,姿态能量和信号的一阶组件后离散余弦变换(DCT)。

4.2.1。准备手势的大小

大小的一个手势是指动作的持续时间。它被定义为采样点的数量在一个断路器的姿态。显然,一个双动的姿态通常花费的时间超过一个点动动作。

4.2.2。手势能源

的能源消费对象的运动密切相关,其速度和加速度。Bouten近年来的研究证明,绝对的积分对象的运动的加速度和角速度与能源消耗(有一个线性关系23]。这提供了一种理论依据评估手势的运动加速度传感器。当输出信号是数字信号,可以使用以下公式计算一个手势的能量:

其中, , ,和加速度传感器的硬件值。因为我们有对硬件进行矢量合成数据基于方程(1),把能源定义如下:

4.2.3。DCT

一维DCT敲手势信号段上执行。DCT手势信号转换成一组频率。第一个频率设置是最有意义的。因此,信号的一阶组件后选择DCT的特性。

另外两种机器学习方法,包括朴素贝叶斯决策树,也被用来识别二进制进行比较的手势(22]。这些算法使用相同的特征向量作为分类的支持向量机。

4.3。BLSTM方法

BLSTM是传统LSTM可以提高模型的扩展表现序列分类问题(24]。3 - layer BLSTM架构用于模型姿态数据。敲打姿势如图的过程13。

自敲门的姿势的最大持续时间不超过1秒,和采样频率设置为50 Hz, 50一个断路器的姿态捕获到样品。而不是使用合成和筛选值,使用硬件使用原始加速度数据。因此,一个矩阵的3×50送入BLSTM模型。向前和向后的输出都集中在一起生成概率两个手势。更高的概率被选中的姿态预测的结果,即,single-knock 0和1双报警。

BLSTM模型的参数如表所示3。相同的模型也适用于识别俯仰姿态。因为距手势的完成时间长于敲手势,一个矩阵的3×100用作输入到模型中。


参数	价值

学习速率	0.001
批量大小	32
优化器	亚当
损失	分类交叉熵
时代	One hundred.
辍学	0.5

4.4。实验结果

中定义一个度量方程(11)是用来评估识别精度。

在这里,<我>P段的数量,属于一个动的姿态。<我>N段的数量,属于一个双动的姿态。<我>TP预测的数量是点动动作。和<我>TN是预计的数量是一个双动姿态。

一个度量定义在以下方程是用来评估两个动作手势识别的不平衡。

在这里,代表点动姿态的识别精度,代表双动姿态的识别精度。<我>米_落下帷幕预计将在1,这意味着两个二进制操作的识别精度是相似的。此外,微F1和回忆的指标也是评价。

实验结果如图所示14。所有的手势识别方法取得了超过90%的识别精度。BLSTM方法优于其他算法,取得了最高的识别精度为98%。微F1的指标也表明DTW, NB, SVM和BLSTM方法可以识别断路器信号段划分为高精度的二进制的意思。

(一)

(b)

(c)

(d)

从认知的角度不平衡,识别精度的DTW single-knock姿态高于双报警的姿态,使其<我>米_落下帷幕大于1。然而,DTW single-pitch和双坡姿态的识别精度接近。其他识别方法的不平衡是好的,和实验结果接近于1,其中BLSTM方法是最好的。

可以看到从图14,这些方法实现优越的性能在识别手势比手势。完成时间的一个重要原因是,球场的姿态长于敲门的姿势。而把手势,手势的不同特征时间single-pitch和双螺距更重要;也是一样的两种姿态之间的能量差。

实验结果显示,使用爆震和音高的手势进行交互的有效性。只需要两个简单的手势。可以实现识别精度高的手势,同时避免失衡问题。

5。原型应用程序和讨论

一般来说,敲门的姿势是简单明了,方便用户操作。把动作的完成时间是短的俯仰姿态。此外,把手势信号段可以识别在识别精度高。因此,选择把姿态来实现人类和移动应用程序之间的交互。

在这个原型应用程序中,用户利用single-knock并双击手势命令Android智能手机的应用程序来发送SMS消息。原型应用程序在某些情况下是有用的,私人互动是必需的;用户不能说或不能点亮屏幕,这可能会吸引别人的注意力。二进制敲手势是不显眼的,可以用来偷偷发短信。

BLSTM模型执行最好的两种识别的准确性和识别不平衡,这是选择来实现在我们的原型应用程序。TensorFlow Lite的框架(25)用于BLSTM集成到智能手机。原型应用程序的开发过程如图15。

与Keras [3 - layer BLSTM模型训练26在电脑。然后转换成使用TensorFlow Lite TensorFlow Lite模式转换器。TensorFlow Lite解释器执行模型基于输入加速度计数据的智能手机进行预测。如果预测二进制序列与预设命令,程序自动发送短消息到相应的电话号码。

原型应用程序测试有四个不同的场景在人们如何与智能手机的交互。在最后三个场景中,用户眼睛自由地交流。(1)正常:一个人坐在椅子上,拿着手机在书桌上。(2)眼睛自由:一个人坐在椅子上,拿着手机在书桌上。(3)秘密:一个人站着不动的手机在裤子的口袋里。(4)走:一个人走在一个恒定的速度与他的裤子口袋里的手机。

断流器的速度和准确性的指标评估。图16说明实验结果。正常的场景、眼睛自由和秘密,他们都取得了断路器率接近1。大部分的一些信号段分为成功从手势信号序列。与此同时,这些碎片是公认的高精度。然而,当人们移动时,它可以极大地影响断路器的效果。该方案更适合与智能手机交互当人们处于静止状态。

除了上述相互作用情况下,二进制手势可以用作补充输入模式对于许多场景。例如,它可以被用作一个盲目的交互方法辅助系统。在[13),盲人可以建立一个声音使用语音命令调用预定义的数量。然而,他们有一些错误作为声波影响噪声和湿度。在这样的环境中,盲人可以使用二进制的姿态,而不是声音。在[28),提出了一套手势来控制智能照明系统。这些手势建立更复杂和困难的认可。在这种情况下,智能手机可以改编为一个用户交互界面。通过这些任务编码成二进制命令集,用户可以通过基于运动二进制手势控制照明系统。

6。结论

小说user-smartphone提出了使用二进制手势交互方案。首先,四种二进制手势进行评估。翻转的手势,音高,敲选为候选交互手势。然后,手势提取过程详细调查。加速度计信号捕获和预处理。在线信号切割和合并算法的目的是提取的独立姿态信号段二进制手势序列。实验表明,该方法优于同行在削减和音高手势序列。接下来,五个算法,包括大田、朴素贝叶斯、决策树、支持向量机、和BLSTM利用识别翻转和敲门的姿势。最后,开发一个Android应用程序基于二进制命令通道使用手势。

该方案只需要两元的手势。和丰富的信息可以通过的排列组合来表达两个手势。比传统的二进制手势更简单手势,我们的方法实现了较高的识别精度,避免了不平衡问题。

该方案提供了一种替代方法的眼睛自由交互场景。它适用于视觉残疾user-smartphone交互,分心交互,秘密行动。

作为未来的工作,我们将加强表达能力更复杂human-smartphone交互命令。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的基础:中国国家自然科学基金(批准号31872847),陕西省自然科学基金,中国(批准号2019 jm - 244),工业大学合作教育项目获得中国教育部(201902323022和201902323022),潍坊科技发展计划(批准号2017 gx021),山东大学科研发展计划(批准号J17KB183)。

引用

k . Katsuragawa a Kamal,问:f . Liu“双层的阈值:分析重复错误的手势输入的影响,“<我>一个C米交易互动的智能系统,9卷,不。2 - 3,外墙面,2019页。视图:出版商的网站|谷歌学术搜索
b·乔杜里·l·波尔马特,j . Petelka”GestureCalc:触摸屏的眼睛自由计算器”<我>21国际ACM SIGACCESS会议的程序在电脑上和可访问性123年,页112 - 2019年10月美国宾夕法尼亚州匹兹堡。视图:谷歌学术搜索
s . Azenkot j . o . Wobbrock s Prasain和r·e·拉”输入手指检测其非触摸屏Perkinput文本输入,”<我>20.12年学报图形接口,页121 - 129年,多伦多,加拿大,2012年5月。视图:谷歌学术搜索
a . Vtyurina a Fourney, m·r·莫里斯“桥接屏幕阅读器和语音增强眼睛自由的网络搜索助手,”<我>学报万维网会议旧金山,页3590 - 3594年,CA,美国,2019年5月。视图:谷歌学术搜索
李y, j·鲁伊斯,和e .平直的“移动交互,用户定义的运动姿态”<我>国际会议的程序在计算系统的人为因素20.6年,页197 -温哥华,加拿大,2011年5月。视图:谷歌学术搜索
李y, m . Negulescu j·鲁伊斯,和大肠平直的,“水龙头、刷卡或移动:注意力分散智能手机输入要求,”<我>学报》国际先进的视觉工作会议接口,页173 - 180,罗马,意大利,2012年5月。视图:谷歌学术搜索
m . s . r . Tanveer m·m·a·哈西姆·m·k·侯赛因,“Android助理EyeMate盲人和盲目追踪,”<我>学报2015年18国际会议上计算机和信息技术,页266 - 271,伊斯坦布尔,土耳其,2015年9月。视图:谷歌学术搜索
s . j . Castellucci i s MacKenzie m . Misra l . Pandey, a . s . Arif”TiltWriter:设计和评估的出手tilt-based文本输入的手持设备的方法,”<我>18学报》国际会议上移动和无处不在的多媒体,页1 - 8、比萨、意大利、意大利2019年。视图:谷歌学术搜索
t . Vuletic a·达菲l .干草,c . McTeague g·坎贝尔和m .并“系统性文献回顾人机交互接口中使用的手势,“<我>国际人机研究杂志》上,卷129,不。9日,第94 - 74页,2019年。视图:出版商的网站|谷歌学术搜索
香港,m .魏,美国你,y,和z,“挥舞着身份验证:智能手机验证你运动姿态,”<我>第33届ACM研讨会论文集扩展抽象计算系统的人为因素,页263 - 266,首尔,韩国,2015年4月。视图:谷歌学术搜索
y Jhang y楚,t·泰”PairNet基于传感器的动态手势识别,”<我>苹果国际物联网大会(“i”系列元件)和IEEE绿色计算和通信(GreenCom)和IEEE网络、物理和社会计算(CPSCom)和IEEE智能数据(SmartData)IEEE,页994 - 1001年,成都,中国,2019年12月。视图:谷歌学术搜索
a·卡马尔y李,大肠平直的,“通过识别器反馈教学运动姿态,”<我>19国际会议的程序智能用户界面洛杉矶,页73 - 82,美国2014年3月。视图:谷歌学术搜索
崔j . k歌,李,“使一个基于手势的数字输入手机”<我>学报2011年IEEE国际会议消费电子产品拉斯维加斯,页151 - 152年,美国公司,2011年1月。视图:谷歌学术搜索
s . s . a .西蒙·s . Morrison-Smith n .约翰g . Fahimi和j·鲁伊斯,“探索为移动设备用户定义back-of-device手势,”<我>学报》第17届国际会议上与移动设备人机交互和服务丹麦哥本哈根,页227 - 232年,2015年8月。视图:谷歌学术搜索
p·米塔尔和n·辛格,”手机的语音基础命令和控制系统:问题和挑战,”<我>20.16年第二次国际会议上计算情报与通信技术加济阿巴德,页729 - 732年,印度,2016年2月。视图:谷歌学术搜索
运动传感器,https://developer.android.com/guide/topics/sensors/sensors_motion,2020年。
传感器的概述,http://developer.android.com/guide/topics/sensors/sensors_overview.html,2020年。
A . Hatori和h .小林iot-device控制通过手势识别的初步研究”<我>学报》第56年会的仪表和控制工程师学会日本金泽,页976 - 979年,日本,2017年9月。视图:谷歌学术搜索
e·基奥楚,d·哈特,m . Pazzani“在线对时间序列分割算法,”<我>学报2001年IEEE国际会议数据挖掘IEEE,页289 - 296年,2001年12月,美国圣何塞。视图:谷歌学术搜索
r·库马尔和p . Singhal审查由支持向量机离线签名验证,”<我>国际研究杂志》上。工程和技术,4卷,不。6,1771 - 1773年,2017页。视图:谷歌学术搜索
d Kajiwara和k . Murao”手势识别方法和加权加速度数据表,”<我>学报2019年ACM国际联合会议上普遍的和无处不在的计算和2019年ACM国际研讨会可穿戴计算机,页741 - 745,纽约,纽约,美国,2019年9月。视图:出版商的网站|谷歌学术搜索
f . Pedregosa、g . Varoquaux和a . Gramfort Scikit-learn:机器学习在Python中,“<我>机器学习研究杂志》上,12卷,不。10日,2825 - 2830年,2011页。视图:谷歌学术搜索
c . v . c . Bouten k . t . m . Koekkoek m . Verduin r . Kodde和j·d·詹森”一个三轴加速度计和便携式数据处理单元的评估日常身体活动,“<我>IEEE生物医学工程,44卷,不。3、136 - 147年,1997页。视图:出版商的网站|谷歌学术搜索
M.-C。李和S.-B。曹”,递归神经网络与non-gesture排斥模型识别手势智能手机传感器,”<我>在计算机科学的课堂讲稿卷。8251年,40-46,2013页。视图:出版商的网站|谷歌学术搜索
a . Campoverde和g . Barros”检测和分类的城市演员通过TensorFlow android设备,“<我>先进的智能系统和计算卷,1099年,第181 - 167页,2019年。视图:出版商的网站|谷歌学术搜索
n . Ketkar“keras概论”,<我>在Python的深度学习然后,伯克利、钙、美国,2017年。视图:谷歌学术搜索
运动和位置传感器,https://google-developer-training.github.io/android-developer-advanced-course-concepts/unit-1-expand-the-user-experience/lesson-3-sensors/3-2-c-motion-and-position-sensors/3-2-c-motion-and-position-sensors.html,2020年。
d .公园,y s·李,美国歌曲,“用户为中心的姿态发展智能照明,”<我>学报HCI韩,页146 - 150,首尔,韩国,2016年12月。视图:谷歌学术搜索

移动信息系统