实验发现在俄罗斯自发的演讲中表示犹豫

文摘

voice-user接口的开发和普及了自然语言处理的一个重要研究领域。在这个领域的一个主要重点领域是自动语音识别(ASR),使口语的识别和翻译文本的计算机。然而,ASR系统通常少工作效率自然比读演讲,因为前者不同于任何其他类型的演讲在很多方面。解说语的存在是其突出特点。这些现象是人与人之间交流的一个重要特性,同时他们是一个具有挑战性的障碍语音处理的任务。在本文中,我们解决的问题表示犹豫(停顿和声音延长)检测在俄罗斯自发的演讲中通过利用不同的机器学习技术,从基于规则网格搜索和梯度下降方法等数据驱动的榆树和支持向量机的基础上自动提取声学特性。实验结果的混合和质量不同语料库自发俄罗斯演讲显示任务的技术效率的问题,与支持向量机优于其他方法。

1。介绍

语音技术通常是为不同类型的开发语音和很少自发的。然而,几乎所有的演讲我们生产和理解每一天都是自发的。这种类型的口头沟通可能是最困难的言语交际形式之一:在非常密集的时间间隔演讲者必须解决几个费力认知任务。人形成了话语,选择具体的语言形式通过选择的话,表情,语法形式,等等。这个过程会导致不同的缺陷生产自发的演讲中,所谓的解说语。这些都是自我纠错,重复,表示犹豫(停顿和延长通常被称为一起FPs),口误,和其他优惠或违规行为,否则发生在流动的流利的演讲。这些现象表明潜在的心理过程语言生成和被视为查词的标志问题[1]或概念化的困难主要论述边界(2]。有证据表明,他们可以影响到三分之一的话语3];例如,在美国英语会话演讲中,大约每100字是我们想当然3,4]。

在俄罗斯发表了停顿发生4次100字的速度和速度大约相同的条款和话语的边界(5]。尽管证据填充停顿跨越语言不同,类型,和扬声器,平均每100人有几种填充停顿音节(6]。他们也是最常见的解说语;填充停顿发生更多比任何其他解说语(重复,单词截断,等等。)6),信号不仅在语言产生的过程,但也说明这个过程(5]。根据(7)在会话交换机数据库(8),约39.7%的所有提升包含一个暂停。语料库的葡萄牙讲座LECTRA填充停顿对应于1.8%的单词和22.9%的不流利类型中最常见的类型的语料库(9]。

需要在自动应对解说语出现与自然语言处理的需要,带来了很多有趣的挑战讲话科学和工程。一度被视为错误,连同其他不流利犹豫,被承认为自然对话的一部分5,10]。他们可能会发挥重要作用,如帮助演讲者举行对话把扬声器或表达的思维过程制定即将到来的话语片段(10- - - - - -12]。口吃者的韵律模式的比较和nonstutterers不流利是在13),作者分析了自发的8人的故事:四口吃者和四个nonstutterers。结果,正如所料,表明比nonstutterers口吃者有更多的提升,提升影响邻色调上下文和措辞不同在这两个群体,口吃者的不流利是伴随着更多的韵律违规行为。细节可以发现在13]。因此,检测元音拉长,暂停可能是一个重要的一步定位我们想当然的地区和评估一个演讲者的流利口语技能。

检测犹豫的问题已经从不同的角度解决。在计算语言学的分析解说语有时纳入语法解析和语言理解系统(14和经常到自动语音识别系统15]。犹豫,以及其他解说语,总是一个障碍自动自发的语言以及它的音标的处理;众所周知,提升对ASR的结果产生影响;他们可以发生在任意点的自发的演讲;因此他们可以导致作品点出或不正确的分类相邻的单词(9,10,16,17]。

犹豫展览通用语言和类型特定的特性。停顿和延长表示主要是通过声音与罕见的长辅音(这被证实是一个亚美尼亚hesitational现象的特点18])。这些声音通常语音学上不同的词汇项目,因为它们明显以最小的发音器官由于发音经济的运动(19]。然而,它也表明,语言的语音系统的质量可能会影响FPs发声(20.]。甚至犹豫的普遍特征,如延长是伴随着叽叽嘎嘎的声音,也许会有不同的操作在不同的语言;例如,在芬兰是建议叽叽嘎嘎的声音可能表明turn-transitional位置(12对英语[],它并非如此21]。

虽然演讲技术特别是ASR系统必须考虑到所有类型的提升(停顿,延长,重复,删除,替换,片段,编辑表达式,插入,等等),在目前的研究中,我们关注的是最常见的检测我们想当然类别:表示犹豫(填充停顿和声音延长)在俄罗斯自发的演讲。

已经提出了各种方法解说语检测。所有的点都可以大致分为以下几点:(1)那些使用语言模型(LM)将解说语信息纳入ASR系统和(2)那些只考虑声学参数。第二组更受欢迎,因为不需要额外的大型语料库的音标LM训练,尽管可能的方式处理问题,包括填料作为一个普通的词在词汇和忽视它LM-probability计算(22]。虽然这包容听起来合理,但不一定会导致更高的精度;太多了暂停可能假设由于声学相似停顿和虚词或内容的单音节词23]。

它已经表明,随着时间,表示犹豫的突出特点是逐渐下降的基本频率(24];他们往往很低和显示一个渐进,大约线性的下降。在[25公平检测)结果表明,犹豫和距离暂停,这两个特征是足够了。

在[17),暂停检测到两个特征的基础上(小基本频率转换和小谱包络变形),估计通过识别中最主要的谐波结构的输入。实现的方法和测试在100年从日本口语语料库中提取的话语。每个话语包含至少一个暂停。实现结果精度91.5%和84.9%的回忆。然而,作者承认,这些数据可能是乐观的,因为在他们的语料库没有低声男性演讲者。

在[23]作者开发了一种检测系统为了提高语音识别器的性能。作为一个分类器的作者使用了多层感知器和一个输出。段时间特征,光谱稳定,稳定的间隔时间,之前和之后的沉默犹豫,光谱重心,和简单的暂停模型输出(训练的4-mixture GMM模型帧属于填充停顿)。荷兰三佛兰德地区口语语料库作者实现精度85%,召回率为70%。

在[9]作者关注基于声学检测填充停顿和韵律特征以及在一些词汇特征。实验进行的一次演讲中语料库的大学讲座在欧洲葡萄牙语,LECTRA。应用了几种机器学习方法,最好的结果是通过使用分类和回归树。我们想当然的性能检测单词内部的实现序列是精度约91%和37%的回忆,当填充停顿和碎片被用作功能;没有它的性能衰变精度和召回的66%降至20%。进一步实验了暂停检测在欧洲葡萄牙进行了使用韵律和获得ASR词法特征;最好的结果是通过使用J48,对应于61%左右F测量(26]。

2013年,INTERSPEECH副语言的挑战[27)提高兴趣填料提供一个标准化的语料库的自动检测和一个参考系统。获奖者的社会信号Sub-Challenge介绍了一个系统,建立在一个分类器补充款时间序列平滑和掩蔽(28]。在[29日填充停顿]的作者提出了一个方法检测使用一个支持向量机分类器,应用高斯滤波器来推断时间上下文信息和执行开放形态滤波器假警报。特性集的作者提出了一样用于(27),提取openSMILE工具包(30.]。实验进行最后一分钟的自然的多通道记录133说德语课程的一个所谓的绿野仙踪(沃兹)实验。结果被召回70%,精度55%,AUC为0.94。

3所示。材料

通常为研究解说语研究者使用语料库丰富转录(31日]。这类全集的一个例子是英语CTS树图资料库结构元数据与元数据注释[英语语料库的电话交谈32),其中包括,例如,停顿和话语标记。另一个例子是语料库捷克广播谈话身边的成绩单(33),由记录元数据的文件在捷克广播对话语音语料库[34]。其注释包含背景噪音等现象,停顿了一下,笑,味道,等等35]。

对于我们的目的,我们结合不同的材料不同的质量和录音的情况。因此,我们在这项研究中使用的材料由几部分组成。

第一部分是基于任务的对话的语料库收集在圣彼得堡SPIIRAS最终2012 - 2013年初(36]。因此,即兴演讲非正式和记录,也是直接对话沟通的结果,是什么让它自发的37]。例如,在爱丁堡和格拉斯哥HCRC语料库收集,由只映射任务对话的38),和其他一半的语料库,语料库的德国基尔的演讲中,包括任命任务(39]。这个语料库由18对话从1.5到5分钟,学生(6女人和6)从17到23年完成任务对地图和约会。录音被注释手动到不同类型的不流利,大多数表示犹豫,492现象(222填充停顿和270延长)。

第二部分的材料我们使用多语言的一部分音频数据库(40]。该数据库由大约30小时有时低质量,多变和嘈杂的演讲在三种语言,英语、汉语和俄语。对于每种语言有900录音来自开源公共网站,等http://youtube.com/。所有记录所有转录在句子或短语层面由人类听众。俄罗斯的一部分,该数据库包含300的录音158扬声器(约35小时)。偶然对话部分由91录音(10.3小时)的53个扬声器40]。从这个俄罗斯部分我们已经随机6随意谈话的录音(3女发言人和3男扬声器),手动带注释的犹豫。带注释的现象的数量是284(96年188填充停顿了一下,声音延长)。

第三部分从研讨会致力于科学报告的语料库分析会话演讲SPIIRAS举行的2011年。录音报道的6人(3女3男扬声器)手工注释解说语。由于扬声器没有他们的报告基于书面文本,这些记录包含大量的解说语。951犹豫手工注释:741填充停顿和210延长。

我们添加了让我们的语料库更另一部分质量和情况不同的记录附录排名第五的语音杂志“《语音基金”属于圣彼得堡大学的语音学的部门41]。12个记录报告有关不同的科学主题(语言学、逻辑学、心理学、等)。他们都记录在70年代- 80年代除了在莫斯科被记录在布拉格。扬声器(6男6女)都是本地俄语和记录而提出会议和研讨会。手工注释犹豫的数量是285(225填充停顿和60延长)。

总的来说,我们使用的数据集是大约3个小时,包括2012填充停顿。分布的犹豫时间语料库如图1。

分布的十大最频繁的犹豫不同部位的关节语料库如图2。

一个犹豫的时间隔6和2.3 s女士;的平均持续时间是388 ms。带注释的犹豫中最常见的暂停是[ə填补ː总905话语,最常见的延长是元音/ / - 197话语。

4所示。犹豫实验检测在俄罗斯与机器学习技术

开发好犹豫检测器一组适当的韵律和声学线索可能马克犹豫在语音信号是必要的。上面已经提到,在25),公平的检测结果表明,犹豫和距离暂停,这两个特征是足够了。因此,首先我们开始测试基于规则的方法对犹豫检测。

4.1。基于规则的方法对犹豫检测在俄罗斯

飞行员一步的实验尝试类似的简单(25)方法对俄罗斯的演讲中,我们的方法基于声学特性的表示犹豫特有的这些事件在俄罗斯。找到最常见的检查时间,,一分之三的共振峰、能源和光谱在语料库的稳定性。类似的方法已申请了暂停检测在其他语言和证明这些声学特性的相关性(16,17,42]。因此,我们使用的标准偏差,和能量参数,因为它们显示较小的方差在犹豫(最小的和能源(图3))。

(一)

(b)

我们获得了参数的最优值和为标准在哪里是的对数标准差- - - - - -和标准差是对数的能量吗E。最优值最大化F1-score 150 ms windows的任务选择犹豫的一部分(图4),的标准差对数-作为额外的阈值。

85%的实验语料库的15%作为测试集,获得的F1-score是0.41。

我们已经改变了标准和最大化的过程。我们获得了参数的最优值和为标准在哪里权重值:标准差和;和是一个最小意味着能级。的最大化F1-score犹豫检测是由梯度下降法(43]。这给了我们F1-score 0.46 (44]。

对于这些方法的阶段与注释是一样的。首先我们发现间隔与标记的相交。然后我们计算交叉长度和长度的nonmatching间隔的一部分在哪里间隔,是标签。如果和,标签和间隔是匹配的一对。处理整个信号的非匹配后间隔被认为是假阳性数和非匹配标签的数量被认为是假阴性。

对这两种方法失误主要是由疾病引起的谐波分量的沙哑声音,laryngealized停顿和延长。在某些情况下犹豫了一个不稳定的表达语调轮廓,这不是持平或降低,可以说他们是否犹豫或感叹词。几例想念小带注释的现象持续时间的结果。和噪音(特别是开源的部分多语言数据库)和重叠(在任务对话部分)造成假阴性。

因此,而不是占所有这些现象在基于规则的方法,我们决定采用数据驱动的方法。

4.2。数据驱动方法对犹豫检测在俄罗斯

在[45我们描述实验犹豫检测使用极端的学习机器(ELM),一种特殊的人工神经网络解决分类和回归问题。我们使用Python榆树描述的实现(46]。在我们的方法乙状结肠神经元的数量是600。这些实验中使用的特性集由21个标准差(和前三个共振峰、能源、表达概率和它的导数,14 MFCC系数)和3平均值(能源、表达概率,和它的导数)。共振峰的值来自Praat [47从openSMILE[]和其他参数30.]。在每个100 ms窗口我们计算标准偏差为每个参数特性集和平均值的能量。

建立训练集和测试集的数据我们选择随机测试集的数据的10%,剩下的被用作训练集。这个操作进行了10次生产10个不同的对训练集和测试集。将数据分为两类:FPs和其他,因为他们不平衡我们downsampled火车将避免偏向其他类(29日]。这导致创建子集包含随机选择8%的类的实例,所有的犹豫FPs数据。我们使用此downsampled训练集训练分类器。ELM方法产生一个实数的每个样本分为犹豫事件如果这个数字超过某个阈值。这个阈值是由一个网格搜索最大化F训练集1-score。结果我们实现F1-score 0.42。

我们最近的实验(48)是基于支持向量机(SVM)分类器,我们跟着[29日]。与榆树相比,支持向量机提供了更好的检测精度和更好的协调意味着精度和召回。用支持向量机的实验我们使用Scikit-Learn Python库(49)实现多项式的内核,使概率估计的支持向量机通过C-Support向量分类;的实现是建立在LibSVM [50]。

的特性是基于一组用于INTERSPEECH Sub-Challenge[2013年社会信号27]。特征提取与openSMILE工具包(30.]在框架级别基础上(25 ms窗口,10 ms的转变)。这组来自54个低级描述符(lld): 14 mel-frequency cepstral系数(MFCCs)对数能量以及他们的一线和二阶三角洲,和加速度系数;也有表达概率,讨论二阶导数过零率,连同他们的增量。为每个frame-wise LLD算术平均值和标准偏差在相邻帧的帧本身和八之前和后四(4)作为实际的功能。因此,我们有162个值每帧。

在[45我们再把数据分成两类:“帧”和“其他”,但改变了分离的过程。每个10号文件被选中为训练集,然后再每个10日,发展集,剩下的是用作测试集。这个操作进行10次生产10个不同的三胞胎火车,开发和测试集。

训练SVM分类器后,作为后处理步骤,我们应用高斯滤波器和形态学开29日,51),证明是合理有效提高精度和召回率由于上下文信息的使用。这些技术应用于信号和图像处理任务噪声去除。高斯滤波器用于平滑峰值和删除离群值的概率估计,而形态开放有助于使犹豫更平衡的检测过滤假警报和改善F1-score [29日]。高斯参数和形态,以及决定阈值,确定使用网格搜索发展集。

高斯滤波器允许我们实现12%的改善F1-score(精确率提高17%,召回率为5%)。形态学开给我们只有2%的改善F1-score、精度和召回,减少误警率。依赖的例子从不同的结果决定阈值SVM输出如图5。

作为一个结果,我们实现F1-score =,精度和召回和分别为(45]。措施报告测试集的平均值和标准偏差在十个评估使用分类器训练十训练子集。

正在进行的实验是关心扩展的功能集对支持向量机分类器通过添加4 2衍生品为每一个共振峰,其标准差均值和标准差以及上下文,这给了我们额外的36个特性。

5。结论和未来的工作

检测评估的解说语非常重要,原因有很多的流利口语技能提高ASR系统的性能。在本文中,我们提出了不同的方法对犹豫在联合检测和质量不同语料库的俄罗斯自发的演讲。我们讨论了基于规则和数据驱动方法的应用为俄罗斯犹豫检测。我们实现了不同的技术在基于规则网格搜索和梯度下降方法等数据驱动的榆树和支持向量机的基础上自动提取声学特性。实验结果的混合和质量不同语料库自发俄罗斯演讲显示任务的技术效率,与支持向量机优于其他方法,目前给我们F1-score =,精度和召回和,分别。未来工作将旨在解决的问题分析假阳性和假阴性的优化支持向量机,通过专家分析和利用附加上下文的水平。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项研究支持俄罗斯基础研究基金会的资助(项目号15-06-04465)和由国家研究。0073-2014-0005。

引用

f·g·艾斯勒心理语言学:实验在自发的演讲、学术出版社,1968年。
w . l .摩擦Ed。梨的故事:认知、文化和语言方面的叙述生产,Ablex出版公司,诺伍德,质量,美国,1980年。
e . Shriberg预赛的理论解说语[博士。论文),加州大学伯克利分校,1994年。
j . e . f .树”,错误的开始,重复的影响后续处理的单词在自发的演讲中,“杂志的记忆和语言,34卷,不。6,709 - 738年,1995页。视图:出版商的网站|谷歌学术搜索
a . Kibrik和诉Podlesskaya Eds,夜梦故事:语料库研究俄罗斯的话语,2014年升。
d . c .奥康奈尔和s . Kowal”的历史研究了暂停在语言学作为书面语言偏见的证据(王晓路,1982),“心理语言学研究期刊》的研究,33卷,不。6,459 - 474年,2004页。视图:出版商的网站|谷歌学术搜索
a . Stolcke e . Shriberg r·a·贝茨et al .,“自动检测基于公认的句子边界和不流利的话,”程序的国际会议上口头语言处理(ICSLP 98)。视图:谷歌学术搜索
j·j·戈弗雷·e·c·霍利曼,j . McDaniel”开关板:电话语音corpusfor研发、”国际会议声学学报》,演讲,和信号处理(ICASSP ' 92),1卷,第520 - 517页,1992年3月旧金山,加州,美国。视图:谷歌学术搜索
h . Medeiros h . Moniz f·巴蒂斯塔Trancoso,和l . Nunes”不流利检测基于韵律特征的大学讲座”第14届年会学报》国际言语交际协会(INTERSPEECH的13),页2629 - 2633,法国里昂,2013年8月。视图:谷歌学术搜索
e . Shriberg“自发的演讲:人们如何谈话,而为什么工程师们应该关心,”学报》第九届欧洲语音通信和技术会议(INTERSPEECH 05)ISCA,页1781 - 1784年,里斯本,葡萄牙,2005年9月。视图:谷歌学术搜索
h·克拉克,使用语言英国剑桥,剑桥大学出版社,1996年。
r·奥格登”Turn-holding turn-yielding和芬兰talkin-interaction喉活动”国际语音协会杂志》上没有,卷。31日。1,第152 - 139页,2001。视图:谷歌学术搜索
t . Arbisi-Kelm s A君,“比较不流利模式在正常andstuttered演讲,”不流利的自发的演讲中,2005年。视图:谷歌学术搜索
f·费雷拉、e . f .刘和k·g·d·贝利”不流利,语言理解和毗邻的语法树,”认知科学,28卷,不。5,721 - 749年,2004页。视图:出版商的网站|谷歌学术搜索
e . y . Liu Shriberg, a . Stolcke d·希拉德m . Ostendorf和m·哈珀“丰富语音识别与自动检测的句子边界和不流利,”IEEE音频、语音和语言处理,14卷,不。5,1526 - 1539年,2006页。视图:出版商的网站|谷歌学术搜索
k . Audhkhasi k . Kandhway o·d·德斯穆克和a . Verma”Formant-based自动filled-pause检测技术在自发的英语口语,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 09)2009年4月,页4857 - 4860。视图:出版商的网站|谷歌学术搜索
m . Goto k Itou, s . Hayamizu“实时暂停检测系统forspontaneous语音识别,”学报第六届欧洲语音通信和技术会议(Eurospeech’99)ISCA,页227 - 230年,布达佩斯,匈牙利,1999。视图:谷歌学术搜索
诉Khurshudian”,犹豫的类型不同的语言:一个experimentalstudy,”《计算语言学国际会议上对话,第501 - 497页,2005年。视图:谷歌学术搜索
美国斯,”充满了犹豫停顿在自发的俄罗斯的一些特性,”第十六次国际代表语音科学学报》上》16卷,第1328 - 1325页,萨尔布吕肯,德国,2007年。视图:谷歌学术搜索
a . Giannini“犹豫现象在自发的意大利,”语音科学学报》第15届国际大会西班牙巴塞罗那,页2653 - 2656,,2003。视图:谷歌学术搜索
e . Shriberg”“呃”是人类:生态和声学解说语,“国际语音协会杂志》上没有,卷。31日。1,第169 - 153页,2001。视图:出版商的网站|谷歌学术搜索
j·彼得斯,“LM研究填充停顿在自然医学听写,”北美章会议的程序计算语言学协会的人类语言技术,卷2,页82 - 84,计算语言学协会,埃德蒙顿,加拿大,2003年5月。视图:出版商的网站|谷歌学术搜索
f .变得坚定和j.p. Martens”提出了暂停检测系统对荷兰,”车间的程序自动语音识别和理解(ASRU ' 03)IEEE,页309 - 314年,2003年。视图:谷歌学术搜索
d O ' shaughnessy“自发的演讲中承认犹豫,”国际会议声学学报》,演讲,和信号处理(ICASSP ' 92),1卷,第524 - 521页,IEEE 1992。视图:谷歌学术搜索
e . Shriberg r·A·贝茨和A . Stolcke“韵律只有fordisfluency检测决策树模型,”第五届欧洲会议程序语音通信和技术(Eurospeech ' 97)罗兹,页2383 - 2386年,希腊,1997。视图:谷歌学术搜索
h . Medeiros f·巴蒂斯塔,h . Moniz Trancoso,和h . Meinedo”onautomatic实验检测了暂停使用韵律特征,“找de Inforum,第345 - 335页,2013年。视图:谷歌学术搜索
INTERSPEECH:计算副语言的挑战,2013年,http://emotion-research.net/sigs/speech-sig/is13-compare。
r·古普塔k . Audhkhasi s·李,美国时称,“副语言的使用概率事件检测从演讲时间序列平滑和掩蔽,”第14届年会学报》国际言语交际协会(INTERSPEECH的13),页173 - 177,法国里昂,2013年8月。视图:谷歌学术搜索
d . Prylipko o . Egorow i Siegert, a . Wendemuth“应用图像处理方法来填充停顿从自发的演讲中,检测”15学报》国际言语交际协会的年会:庆祝口头语言的多样性(INTERSPEECH 14)新加坡,页1816 - 1820年,2014年9月。视图:谷歌学术搜索
f . Eyben m . Wollmer b .舒乐问,“OpenSMILE:慕尼黑多才多艺的和快速的开源音频特征提取器,”学报18 ACM国际多媒体ACM多媒体会议10(毫米)ACM,页1459 - 1462年,佛罗伦萨,意大利,2010年10月。视图:出版商的网站|谷歌学术搜索
y . Liu结构丰富事件检测转录(博士的演讲。论文),普渡大学,2004。
LDC:英语CTS树图资料库结构元数据,http://catalog.ldc.upenn.edu/LDC2009T01。
LDC:捷克广播谈话身边的成绩单,http://catalog.ldc.upenn.edu/LDC2009T20。
LDC,”捷克广播对话演讲》http://catalog.ldc.upenn.edu/LDC2009S02。视图:谷歌学术搜索
Kolar j .:, s . Strassel j .司威克如是说。沃克,d . Kozlikova和j . Psutka“捷克自发语音语料库和结构的元数据,”学报》第九届欧洲语音通信和技术会议(INTERSPEECH 05)2005年9月,里斯本,葡萄牙,。视图:谷歌学术搜索
诉Verkhodanova诉Shapranov,“自动检测自然的停顿和延长俄罗斯演讲”学报》第七届国际会议上演讲韵律(SP的14),页1110 - 1114,都柏林,爱尔兰,2014年5月。视图:谷歌学术搜索
e . Zemskaya俄罗斯口语演讲:语言分析和学习的问题。莫斯科,1979年。
a·安德森,m·巴德·e·巴德et al .,“语料库HCRC映射任务,”语言和言语,34卷,不。4、351 - 366年,1991页。视图:谷歌学术搜索
k·j·科勒,”标签数据银行口语标准德国基尔的读/自发的演讲,”诉讼的第四届国际会议上口头语言处理(ICSLP 96),3卷,第1941 - 1938页,IEEE, 1996年10月。视图:谷歌学术搜索
m . s . a . Zahorian j . Wu Karnjanadecha et al .,“开源多语言音频数据库语言处理应用程序”第12届年会学报》国际言语交际协会(INTERSPEECH的11)1496年,页1493 -佛罗伦萨,意大利,2011年8月。视图:谷歌学术搜索
圣彼得堡大学的语音学、http://phonetics.spbu.ru/。
g·加戈和n .病房”检测了暂停在教程中对话框,“2006。视图:谷歌学术搜索
j . Snyman实用数学优化:介绍基本的优化理论和基于古典和新梯度算法卷。97年,施普林格科学与商业媒体,2005年。
诉Verkhodanova诉Shapranov,“多因素方法检测filledpauses和延长在俄罗斯自发的演讲中,”演讲和计算机:17国际会议,SPECOM 2015年,雅典,希腊,至9月,2015年,诉讼卷,9319在计算机科学的课堂讲稿施普林格,页285 - 292年,柏林,德国,2015年。视图:出版商的网站|谷歌学术搜索
诉Verkhodanova、诉Shapranov和a·卡尔波夫”填充停顿和延长检测使用机器学习技术,”《7日教程和研究实验语言学ExLing研讨会,页175 - 178,圣彼得堡,俄罗斯,2016年7月。视图:谷歌学术搜索
a . Akusok K.-M。比约克,y发牢骚,a . Lendasse“高性能极端的学习机器:一个完整的工具箱对于大数据的应用程序,“IEEE访问,3卷,第1025 - 1011页,2015年。视图:出版商的网站|谷歌学术搜索
p . Boersma和d . Weenink Praat:做语音由计算机(计算机程序),6.0.11版本,http://www.praat.org/。
诉Verkhodanova和诉Shapranov检测停顿和延长俄罗斯自发的演讲中使用支持向量机,”演讲和计算机:18国际会议,2016年SPECOM,布达佩斯,匈牙利,8月汽车2016年,诉讼卷,9811在计算机科学的课堂讲稿施普林格,页224 - 231年,柏林,德国,2016年。视图:出版商的网站|谷歌学术搜索
Scikit-Learn:机器学习在Python中,http://scikit-learn.org。
c . c . Chang和c·j·林,”LIBSVM:支持向量机的库,”ACM智能交易系统和技术(TIST),卷2,页1 - 127,2011。视图:谷歌学术搜索
h . j .他“数学形态学:现代方法在图像处理基于代数和几何,”暹罗审查,37卷,不。1,1-36,1995页。视图:出版商的网站|谷歌学术搜索|MathSciNet

电气和计算机工程杂志》上