文摘

机遇和需求增加输入日语句子手机因为手机的性能改善。应用程序(如电子邮件、网络搜索等现在广泛使用的手机。我们需要输入日语句子使用只有12个键在手机。我们提出一个方法来轻松快捷地输入日本手机的句子。我们称这种方法——数量汉字翻译方法。数量由用户输入转化为字符串Kanji-Kana复杂的句子在我们提出的方法。数字字符串假名字符串是一个一对多的映射。因此,很难大量字符串翻译成正确的句子由用户意图。提出了上下文感知映射方法能够消除歧义大量字符串通过人工神经网络(ANN)。系统能把号码段划分为目的的话,因为系统变得意识到对应的号码段与日本词通过学习安。系统不需要一本词典。我们还展示了该方法的有效性在实际使用Twitter数据的评价实验的结果。

1。介绍

日本普通句子表达的两种角色,也就是说,假名汉字假名是日本phonogramic字符和大约有50种。汉字汉字是表意和大约有几千种。因此,我们需要使用一些汉字输入方法,以日本的句子输入电脑。一个典型的方法是假名- - - - - -汉字nonsegmented日本句子的翻译方法。该方法将nonsegmented假名句子成汉字- - - - - -假名复杂的句子。因为一个假名性格通常是由一些字母组合输入,这个方法需要26字母键。

最近,移动计算设备的性能大大提高。我们考虑到设备分为两个质量。给予重视操作方便,另一个给重视良好的流动性。手机使用移动电脑,属于后者。他们的机动性很好因为他们典型的规模很小。然而,一般的手机只有12键,这是 0 , 1 , , 9 , ,#,因为有限的大小。例如,越来越多的智能手机iphone、黑莓、等等,有完整的QWERTY键盘。按下的键是不容易的,因为关键尺寸很小。此外,用户需要按下几个键/假名性格从一个假名角色通常由几个字母。因此,我们关注12键布局手机。

信中骑自行车的输入方法是最常用的输入手机的句子。在这个输入法,选择关键代表一个辅音,紧迫的数量代表了日本的元音。例如,选择关键“7”代表“m”,和三个按下的键代表“u”。然后,按键的数量是三个输入字符”(μ)”。因为这个输入法需要几个按键/假名性格,是麻烦的用户。机遇和需求迅速增加输入日语句子变成一个小型设备如手机因为手机的性能改善。应用程序(如电子邮件、网络搜索等现在广泛使用的手机。因此,方法是要求,使我们能够迅速和容易输入日本手机的句子。

一些输入的方法提出了手机(1,2),系统已经开发了:例如,T9(细微通信公司开发了T9。http://www.t9.com/)。T9使我们每输入一个字母键盘上的按键9键。因为三个或四个字母是分配给每个键9键,具体信通过一个按键是模棱两可的。该系统避免压键词的水平。然而,该系统主要是为英语。一些输入方法提出了对日本(3- - - - - -5]。的方法使我们能输入一个假名每个按键字符。自从大约5假名角色分配给每个键在手机,目的特定字符由一个按键是模棱两可的。词典的方法消除歧义。因此,他们不能够将数字字符串转化为字不包括字典。此外,花了很多的方法记忆随着输入数据的增加,因为词在一些收购和注册到字典的方法。提出了一些预测输入方法(6- - - - - -8]。输出字候选人的方法预测或完成。按键数量的增加来选择目标词因为有很多候选人。因此,我们关注的是- - - - - -汉字翻译没有预测方法。

——我们已经提出了一个号码汉字基于人工神经网络(ANN)的翻译方法(9]。系统变得意识到对应的段数与日本词通过学习安。然后,系统将输入的字符串数量安。系统不使用词典翻译。因此,系统可能翻译number-segments为生词没有字典。此外,系统只需要固定的内存由安的大小决定的。因为减少内存需求,我们认为该方法尤其适合手机。

本文显示了数量——的轮廓汉字翻译,我们建议的方法的过程,评价实验,其结果,为实际使用该方法的有效性。

2。轮廓的数量,汉字翻译

3展示了一个示例——数量汉字翻译。用户输入number-string“41210213139”汉字- - - - - -假名混合句子”大会を開催する(会议举行。)”。用户可以输入快速和容易因为一个击键对应一个假名的性格。number-string是翻译成日本句子很多汉字翻译方法。

一个用户输入一个字符串的数字对应一个预期日本句子的发音基于图1。的假名- - - - - -汉字翻译方法翻译假名句子,而数量-汉字翻译方法翻译一串数字。键盘上的键按下12键代表50-sound表的一行假名,这是日本的音节表。图2显示了50-sound表。它被设置在一个five-by-ten矩阵。矩阵十有五个元音和辅音。几乎所有的假名字符是由辅音+一个元音。用户可以输入一个假名每个按键字符。

1显示了对应的数量假名人物:例如,“4”代表”的关键(助教)”或“(“透明国际”)”或“()”或“(te)”或“()”,假名字符。括号中的人物代表的发音假名。然后,12的数字字符键通常对应于一个辅音。由于元音退化信息,数字的字符串有歧义:例如,number-string不仅“4121”对应假名字符”たいかい(taikai)“也”ていこう(teikou)”、“とうこう(toukou)”,等等。此外,一串假名个性意味着一些日本字:例如,假名字符”たいかい(taikai)”不仅意味着日本“大会(会议)”,但也“退会(退出)”、“大海(海洋)”,等等。我们建议的方法使用安消歧。

用户按下“*”键浊辅音和p-sound在我们提出的方法。例如,用户输入number-string”4 对日本“12”大工(一个木匠)”的发音是“だいく(助教*iku)”(“助教* iku通常表示为“daiku”在日本。然而,“”翻译成“4 *”,和“4 *”对应于“助教系统中*”。因此,“daiku”表示为“助教* iku”本文)。

3所示。流程

我们提出的方法具有学习阶段和翻译阶段。图4显示了程序在翻译阶段。过程包括细胞分裂过程、翻译过程,结合过程在这个秩序。

3.1。细胞分裂过程

我们建议的方法使用安,安的大小基本上需要修复。一个用户输入一个字符串的数字对应一个预期日本句子的发音。很难设计安因为自然语言句子的长度不定和日本的判决不分段。因此,该系统基于我们提出的方法将输入number-string划分为number-segments固定长度。

5显示了一个示例的过程。输入number-string分为11段,即从段1段11。每一部分的固定长度是4在图5

很容易设计安因为段的长度是固定的。然而,分割并不总是正确的。段可能包括不正确的单词。因此,系统需要选择正确的单词和把他们占日本句子组合过程中由用户。

3.2。翻译过程

对应的系统变得意识到number-segments与日本字安通过学习的学习过程。系统将每一段除以安。系统需要将正确的部分转化为正确的日语单词和决定不正确的部分。

6显示了翻译过程的一个例子。每段分为分裂过程由安翻译。第一段需要翻译成正确的词大会(会议)”,因为其分割是正确的。分段2需要决定是不正确的部分,因为它的市场细分是不正确的。然后,第二段是翻译成“飞行符”作为非字符代码如图6

3.3。结合过程

系统基于我们提出的方法使日本句子结合翻译结果因为翻译结果分为段。

7显示了一个示例的组合过程。第二段,段11,很快决定的不正确的单词。然后,系统构成日本句子”大会を開催する“结合段1、5、6段,段10图7

3.4。学习阶段

学习阶段执行独立的翻译阶段。对应的系统变得意识到number-segments通过学习安与日本字。

我们使用多层前馈神经网络训练误差反向传播。励磁的传播在一个方向,从输入层到输出层,通过多个中间层次,通常被称为隐藏层。模拟神经突触的连接权值,初始化的随机值,逐步训练任务使用梯度下降训练算法。最常见的一个被称为误差反向传播(10]。因此,网络的功能是存储在不同神经元的连接权值节点在一个分布式的方式。

安图所示的结构8。number-string输入到输入层为输入值。number-string有12种字符,也就是说, 0 , 1 , , 9 , ,#。因为每个输入值是一个二进制数字,输入层每字符需要4个节点。number-string由远期number-string number-segment。一个前锋number-stringl字符。一个number-segment字符。因此,输入层4×(l+)节点。一个日语单词是输出到输出层输出值。输出值是一个二进制数字。由于日本字符需要2个字节= 16个节点,输出层16×n节点n日本的角色。网络调整通过评估预测的差异和一个给定的字符作为节点(=二进制数字)在输出层。

例如,number-segment对应的“4121”与日本“大会“安是后天习得的。然后,系统能够翻译number-segment日本“4121”到“大会“没有一本字典。不仅一段,而且其向前number-string由安学习。例如,远期number-string“2131”的部分“39”是后天习得的。然后,向后段的“39”number-string“2131”能够转化为正确的词する”。因此,我们建议的方法使用一个上下文。

4所示。评价实验

系统基于我们提出的方法已经开发了一个实验。系统无法弥补日本正确的句子在组合过程中如果number-segments不翻译成正确的日本词翻译过程。因此,我们评估了翻译过程中翻译的准确性。

4.1。实验数据和程序

实验的数据文本在Twitter用户输入(一个在线社交网络服务http://twitter.com/)。细节如表所示1。字符代码段对应正确的单词。他们必须被翻译成日语单词。非字符代码段对应于不正确的单词。他们必须被翻译成“飞行符”的翻译过程。

安的参数如表所示2。的输入节点分裂number-segments number-string和前进。段的最大长度是6 (=在图8),向前字符串的长度是4 (=l在图8)。价值决定的初步实验。输入节点的数量是40因为数字字符需要4个节点的网络。字符编码的输出节点的日本字。的最大长度是9 (=n在图8),日本字符需要16个节点(2字节)网络。然后,输出节点的数目是144。隐藏节点的数量等于输出节点的数量。学习速率是0.01。

数据分为5组K-fold交叉验证。每个4套是用于训练网络,剩下的一套用于测试。

4.2。结果和注意事项

首先,我们评估了均方根误差(rmse)学习阶段学习时间的确认。图9显示了每一组的5个集RMSE K-fold交叉验证在学习阶段。在图9,减少错误的学习时间增加。RMSE值低于0.005,变化最终收敛。因此,结果表明,该系统能够正常学习的数据。000时代是充分的训练数据。

3显示了正确的翻译的平均速率网络中每个节点的日本字符代码,非字符代码,总在翻译过程。在表3,为非字符代码翻译的准确性高于日本字符代码。这是因为非字符代码的片段比日本的字符代码。通常,翻译的准确性往往是更高的大型数据时学习。

日本的翻译的准确性假名- - - - - -汉字翻译方法大约是95每字符[%]。因此,我们认为6[%]对日本字符代码并不总是翻译错误。的假名- - - - - -汉字翻译方法翻译假名句子,而我们的方法将一串数字。很难翻译number-string因为number-string是比一个模棱两可的假名句子。——数量的准确性汉字翻译方法是大约85[%]每个字符在我们以前的工作3]。因此,我们建议的方法的准确性是从来没有低即使准确性是每个节点。我们考虑到精度达到实用水平。

4显示错误的节点的平均数为日本字符代码,每段非字符代码,和总。非字符的代码意味着分割是错误的,和number-segment并不对应于一个日语单词。系统需要区分与日本字符代码段的非字符代码。从来都不容易,因为非字符代码段的区别可能对应于另一个日语单词。

在表3,翻译的准确性对于非字符代码98.8 [%]。在表4,错误的节点的平均数是1.97。然后,翻译准确性高段的非字符代码。日本字符代码的准确性是93.4 [%]。尽管率高,翻译结果错误。错误的节点的平均数是10.64表4。值相对较低,因为输出节点的大小是144。因此,我们认为可以将错误的节点转化为正确的单词通过增加学习或添加数据校正过程等等。

我们能够计算网络中链接的总数。被定义为链接的数量 n o o f l n k 年代 = ( n o o f n p u t n o d e 年代 + 1 ) × n o o f h d d e n n o d e 年代 + ( n o o f h d d e n n o d e 年代 + 1 ) × n o o f o u t p u t n o d e 年代 , ( 1 ) “+ 1”意味着一个额外的节点安的偏见。链接的总数计算系统的评价实验 ( 4 0 + 1 ) × 1 4 4 + ( 1 4 4 + 1 ) × 1 4 4 = 2 6 , 7 8 4 ( 2 )

如果重量的大小是4个字节/链接网络,内存的大小约为107 KB。规模小和固定。学习数据时不改变内存大小增加。因此,它很容易实现我们提出的方法在一个移动电话。

5。结论

在本文中,我们提出了一个上下文感知——数量汉字翻译方法使用安和显示方法的有效性通过实际实验在实际使用。

该算法允许输入一个假名每击键特征。然后,用户可以输入一个日本文本快速和容易。然而,一系列的数据由用户输入的是模棱两可的。我们建议的方法避免number-string句子,并把它转换成日本用户意图的使用安。对应的系统变得意识到number-segments与日本通过学习单词。因此,系统能够把number-string翻译成句子意向,安没有字典。系统需要固定内存由安的大小决定的。因为减少内存需求,我们建议的方法特别适用于手机。

在实验中,我们使用Twitter数据确认为实际使用该方法的有效性。翻译每个节点的准确性很高。错误的节点的平均数量是每段大约11日本字符代码。价值低的规模相比,网络中节点的输出。因此,我们认为可以将错误的部分转化为正确的单词。通过实际的实验,结果表明,我们提出的方法是实用有效的。

未来的工作之一是为恢复错误节点添加修正过程。然后,我们需要评估翻译的准确性在组合过程中,比较与当前流行的方法。