文摘
现在英语是世界上广泛使用的国际语言。象征着人类文明的发展,英文字符为人类提供了一种重要的媒介和工具。在当前信息时代,英语单词的词汇更量化,这几乎是无处不在。multiquantification的背景下英语单词和单词之间的量化关系,相似性测量分析和计算的英语单词和词汇的分类进行测量计算通过整合语言的特点。实验结果如下:(1)分析了英语词汇的发展现状,确定实验的研究方向,英语字符特征的概念,提出了选择和相似性计算方法根据不同的特性,为了简化复杂而难以理解的英语单词词义之间的关系;(2)文本功能是通过语言的相似性特征选择和提取文本。的提取特性间接影响分类的有效性。相似字嵌入向量用于英语词汇映射到向量进行分析和比较,计算相似性之间的距离数值变量之间的英语单词和他们的相似系数,测量它们之间的距离,并评价它们之间的相似性,包括的夹角余弦法和相关系数法计算相似系数的两种主要方法。
1。介绍
窃窃私语是一种自然的方式说话。尽管它的知觉能力降低,它还包含信息(即预期。可理解性)和演讲者的身份和性别。然而,考虑到声学差异低声讲话和正常表达了演讲,演讲给后者但测试应用程序训练前显示不可接受的性能水平。在扬声器自动验证任务中,以前的研究已经表明我)传统的特性(例如,梅尔频率倒谱系数、MFCC)不能传输足够议长歧视线索在两个话语努力和II) multiconditional培训往往降低了性能正常语音的同时提高耳语性能。在本文中,我们的目标是解决这两个缺点,提出三个创新功能,可提供可靠的结果正常讲话,低声讲话时融合在分数级别。总的来说,相对提高利率的低语组和正常组分别为66%和63%,分别为(1]。尽管特性测量的正确性主要将它归咎于外部环境变化到目前为止,很少有人注意到这一事实的后果在模式识别任务。在这篇文章中,我们明确地考虑特性测量的不确定性和多样化的分类规则,并说明如何提高研究方法来弥补不确定性的影响。本实验方法可有效地用于各种multistyle场景,和特征向量是从不同怎么样合并。发展的这种操作,如果我们能估计每个向量特征流所产生的噪声的不确定性,这种发展将达到效率高、适应各种模式融合规则。研究进一步表明,在某些假定下,多通道融合方法取决于流重量可以自然生成的从我们的方案;这种关系可以帮助我们提供一个有用的视野不确定性补偿方法的使用。这揭示了如何应用这些视图来视听智能感应。在这种类似的事件,一个新兴的技术开发和提出,可以在使用该框架在人类感知的特征提取和变异性评价以及研究如何有效地计算增强音频特性及其不确定性估计。我们的多模式集成方法的有效性在视听数据库证明(2]。这是一个很难识别和分类复杂的和有意义的挑战人们的行动和行为从动画视频。本文使用印度手语(ISL)视频探索这类问题。离散化的特点通过规模和翻译的基本小波,提出了新的分割算法,。融合功能形成一个二维点云在连续动画回放显示一些特点。最完美的符号在动画播放的特征提取是进行每一个分类器来检查的可行性设计特征提取框架。在实验中,我们可以看到一些二进制模式的比例特性可以更好的代表符号识别数据的价值比其他最先进的功能。具体原因是设计特征模型结合了整体功能和一些功能。获取和分类特点被传输到远程网络数据库,和他们对应自己的名义。识别标记的准确性和正确性测试。 Through the largest training example, an artificial neural network classifier with a recognition rate of 92.79% is obtained, which is much higher than the existing artificial neural network classifiers on sign language and ISL data sets with other features [3]。本文主要研究活动视频通过句子的时态检索查询。考虑到句子查询描述活动,时间瞬间检索目标定位时间能够最好的描述文本查询视频。这是一种常见的和具有挑战性的任务,因为它需要理解视频和语言。现有研究主要使用粗框架级别特征可视化表示,模糊视频中具体细节(例如,所需的对象“女孩”“杯”和行动“倾销”,)这可能提供所需的时间定位的关键线索。在本文中,我们提出一个新的空间和语言时间张量融合(SLTF)方法来解决这些问题4]。本研究主要探讨英语元音的生成和知觉韩国英语学习者在两个相隔一年学习英语会话。初步实验表明,韩国成年人使用两个不同的韩国元音分类一些比较英语元音,而其他人则显示分类重叠,这意味着韩国英语学习者很难区分这些元音。在两次实验中,NK成人和儿童生活在北美不同的时间(3年和5年;4组,每组18年)而与以英语为母语。在实验2中,NK儿童英语元音识别更准确地比NK成人比孩子。但更准确在实验3中,图片命名任务是用于提取图像包含/,即,εД/英语单词。一些元音由NK的孩子更容易听到比由NK的成年人。声的元音的对比分析表明,儿童明显高于NK成人NK (5]。大小和颜色不变的字符识别系统的基础上,提出了前馈神经网络。我们的前馈网络有两层。一个是输入层,另一种是输出层。整个识别过程分为四个基本步骤:预处理、标准化、网络建立和识别。预处理包括数字化、噪声去除和边界检测。边界检测后,输入字符矩阵归一化到12×8矩阵大小不变的识别和输入到网络由96和36个输出神经元。然后,我们使用该训练算法训练网络监督的方式,建立网络通过调节体重。最后,我们测试我们的网络平均每字符超过20个样品。通过考虑类之间的相似性度量方法,我们给99.99%的准确率对数字(0∼9),字母(∼z)精度为98%,超过94%的准确率为字母数字字符(6]。最好使用感知同化模型(PAM)(1995),我们研究粤语腔调的听写和观察能力,以及触觉、嗅觉、听觉、视觉感知,包括泰国和英语(7]。本文确定了六个社会科学研究方法,有助于描述纳米技术的社会和文化意义:基于网络的问卷调查,集实验中,网络链接分析、推荐系统、定量内容分析和定性文本分析。数据来源广泛用于说明这些方法描述的知识内容和制度结构的新兴纳米技术文化。这些方法将有可能在未来测试假说。例如,纳米技术有两个相互竞争的定义,即科学和技术和科幻小说,影响公众认知通过不同的方式和方向8]。在生物医学领域的研究,识别和标准化的医疗情况下生物医学文本提取的文献是一个重要的一步。此外,基因符号识别系统也描述了从生物医学材料获得特殊的文本内容和规范其内容。这个基因符号识别系统的构成包括基因符号识别,基因文本内容映射,基因文本标准化和文本内容过滤。基因符号识别是一个过程基于基金符号匹配和监控。它使用大量的标记方法来实现基因的识别符号。基因的文本内容映射阶段,数据集建立连接的系统上下文准确匹配的原则和优先级匹配(9]。如果我们缺乏相关问题特定的知识,我们可以用交叉验证方法选择分类方法经验。我们测试这个想法来说明交叉验证的意义来解决,而不是解决选择问题。经验表明,交叉验证可能会带来更高的平均性能比任何单一的应用分类策略,也可以减少对表现不佳的风险。另一方面,与简单的策略相比,交叉验证或多或少是一种偏见。交叉验证的正确应用最终取决于以前的知识。事实上,交叉验证可能被视为一种应用一些信息的适用性选择分类策略(10]。一个新的智能旋转机械故障诊断方法,基于小波包变换(WPT),经验模态分解(EMD),无量纲参数,距离估计技术,提出了径向基函数(RBF)网络。实验结果表明,该方法结合WPT, EMD距离评估技术和RBF网络能准确提取故障信息,并选择敏感的特性,正确诊断不同故障类型的轴承。该方法应用于故障诊断的轻微摩擦影响重油催化裂化单元。实际结果表明,该方法可以有效地应用于旋转机械的故障诊断11]。决策树分类提供了一套快速、有效的数据分类方法。有许多算法优化决策树的结构,尽管这些方法容易训练数据集的变化。该方法测试了两种不同的数据集,并且结果相当于或优于其他分类方法。最后讨论了决策树相对于算法的效用或其他替代方法(如神经网络),尤其是当考虑大量的变量(12]。天气形势的客观分类方法在欧洲和大西洋东北部。每个冬天mser40的平均空气压力和平均每个冬天mser40计算的空气压力,分别。然后,根据赫斯和Brezovsky最初的概念,通过使用这些组合的模式相关字段,每日目录构造长城航空的目标,和一些过滤方法用于分离瞬时特征向量,可以帮助保持长城航空任务至少超过四天。长城航空的本质区别事实和原始系统发现。原因是原系统主要集中在中欧和有一定的主观性,而现实系统对待权力更多的空间标准。大多数空气流的数据转换波动在中欧通常是来自长城航空系列,用于计算反气旋的法律变化,再分析反气旋的变化波动在中欧在此期间,发展现状和预测。(13]。在本文中,基于神经网络的故障分类方法和正交最小二乘(OLS)学习过程采用识别各种相关的电压和电流模式。本文还比较了RBF神经网络与BP神经网络。结果表明,RBF方法可以快速而准确的计算出各种各样的故障。仿真结果也表明,该方法可以作为一种有效的工具高速继电保护(14]。提出了一种全自动多尺度模糊c均值分类方法。我们使用扩散过滤器处理图像和先生构建多尺度图像序列。从粗到细,采用多尺度模糊c均值分类方法。旧的隐式求平均值法的最终功能基本上是修改及其分类是多样化的,粗尺度的监督下小尺度的分类。由于其多尺度扩散滤波方案,这意味着有很高的稳定性对噪声和弱对比动画图像。通过比较和改进新的设计方法与旧的方法,合成图像具有不同对比和麦吉尔脑部磁共振图像数据库验证。我们的MsFCM方法总是优于传统的FCM和MFCM方法。实际的地面验证表明,MsFCM方法达到一个重叠率超过90%。证明了该方法的可用性在实际的动画形象。 It is proved that the diversified average classification methods are correct and stable for all kinds of animation images. It can become a tool for animated images and other application scenes [15]。
2。基于语言特性的相似性度量的英文字符
语言领域的学习和识别,特征是重要的研究对象。语言相似性计算和分类的过程中,根据分析,识别,和文本检查不同的研究对象,从本质上讲,他们可以被视为提取和分类研究对象的特点和计算两个特征向量之间的相似度的度量标准。因此,选择的特性有一个深远的影响计算相似度的结果。
2.1。特性
目前,特征提取是在地平线知觉的初级阶段。在学习领域的科学的过程中,最重要的是分析理论。这个理论的重要观点之一就是地平线认知是一个过程从本地特性的全球扩展功能,这使得它清楚当地的特性是在第一时间感知。然而,随着全球优先为原则理论,全球功能被认为是第一个感知对象,紧随其后的是当地的特色。特征提取是什么?所谓的特征提取方法将原始空间转换为空间计算通过一定的映射关系。最初的功能是提取对象的第一个特征。如果对象的维数高,计算将产生的计算时间复杂度太高。因此,在一般情况下,试图将高维空间矢量映射到低维空间。这种方法有助于完成分析和提取研究对象的特点,与不同的功能可以是相辅相成的。 Therefore, in theory, the accuracy of multiobject combined feature extraction is higher than that of single-object feature extraction. Therefore, in the feature extraction of similarity measurement, it is best to extract and measure the features of multiobject combinations and then select some obvious features for linear or nonlinear combinations.
2.1.1。的统计特征
(1)转换系数法。的想法转换系数法来计算整个全局特征变量的数量。进行不同的转换模型,采取不同的转换特性的结果。转换系数方法常用于统计特性包括KL变换的过程中,傅里叶变换,脚腕转换,等等。转换系数法将图像中的每个像素为单位。因此,当使用转换系数的方法,它也会产生困难的计算和资源消耗的问题。因此,在实际应用中,采取一些特殊的校正方法,以减少计算的难度。
(2)轮廓特征。边缘轮廓的英语文本形式丰富的特性。虽然不能显示在文本功能和不明显,其边缘轮廓仍然可以反映一些丰富的特性。因为这个特性从边缘开始,它可以用作通用的分类特性在一定程度上。
(3)像素密度特征。由于各种各样的英文字符,像素分布由不同种类的英文字母是非常不同的。粗像素密度特征可以获得除以文本图像横向或纵向和计算有效的每个区域的像素数量。对于一些英语文本图片,自身结构的差异不是很明显。虽然得到的像素密度不同的划分方法是不同的,他们实际上代表了非常相似的角色。因此,可以使用像素密度特性对英语字符特征进行分类。像素密度特性的优点是,它可以防止外部因素的影响,和少量的信息将不会严重影响实际的结果。然而,由于文本类型的多样性,形成的特性不同的英语单词需要很长时间。因此,对于不同的英语文本类型,特征提取方法需要改进。
2.2。相似性度量
相似程度反映了不同的对象或不同特性之间的关系。相似度是一个重要的指数表明是否模型样本是相似的。它通常是由一个值在0和1之间。向量相似度可以分为向量相似度和系统相似。不同的研究对象对应于不同的相似之处。相似性度量的计算方法主要包括距离计算方法和函数法。两种方法都有自己的不同之处。结果的准确性的距离计算方法比较小,而函数法的计算结果更准确,特别是当研究向量之间的相似之处。
3所示。英语文本相似性度量算法基于语言特性
3.1。相似性特征选择
在英语文本相似性度量和分类的过程中,特征提取是最重要的内容。特征选择的质量直接影响相似分类的效率,因此本文使用卡方检验来提取特征。卡方检验是什么?卡方测验分数和排序研究对象特征提取后的特征,选择顶部特征作为提取结果集。
卡方检验公式
3.2。相似字嵌入向量
嵌入向量映射的过程是一个词变成一个度量空间。电脑本身不能直接提取英语文本的特点,所以有必要将英语文本转换成一个空间向量。现在,最重要的文本向量空间模型是skip-gram模型和CBOW模型。本文选择前者作为训练文本词汇向量。
skip-gram模型获得权重模型从输入层到输出层通过模拟训练在一定规模的语料库的特征的概率n单词之前和之后的文本中心词汇量的预测。的概率最大化模型获得的文本
支持向量机算法本质上是一种监督分类算法。它可以分为线性可分,线性不可分的。它在分类训练的过程中取得了良好的结果。
支持向量机可以将研究对象数据从低维空间映射到高维空间,选择核函数为一个解决方案。的数学表达式
在公式(3), 代表内核函数,最终的分类函数
根据贝叶斯公式
它可以得出结论
(当x条件是独立的)
在公式(6)
计算在集合C
最终的分类结果
随机森林的组成是由各种各样的决策树。相比之下的构成一个决策树,它避免了一致的假设,假设过于严格。提高的方法和测试样本集的数据量通常是用来评估分类器的性能。解决分类问题时,每一个决策树在森林里法官反过来,模拟训练样本选择的大部分决策树作为最终结果。
随机森林的边际函数
3.3。距离相似度数值变量
如果属性的决策变量是连续或不连续,如何衡量变量之间的相似性和距离吗?
3.3.1。欧洲的距离
指的是整体n维空间上的距离,也就是不同。更大的意味着距离越远,越明显不同。相反,小意味着整个之间的相似性越明显。意味着我维坐标的第一点意味着第二第二点的二维坐标。
3.3.2。曼哈顿距离
3.4。相似系数
订单 所有数值仿真研究对象集的设置 。每个模拟研究的范围值被设置为 ,在哪里相似性系数和 ;具体条件如下:(1) (2) (3)
以下方法是常用的测量和计算相似系数:
3.4.1。量产品的方法
在哪里米是一个正数,满意吗 。
3.4.2。夹角余弦
一个向量是一个多维空间中的有向线段。如果两个向量具有相同的方向,他们的夹角是0。因此,余弦值可以用来表达两个向量的相似性。当两个向量正交的,= 0表示向量是完全不同的。
3.4.3。相关系数法
其中, , ,的数值范围(−1,1)。结果是0时,表明没有整个之间的相关性;当结果是1,这表明整个呈正相关;结果是−1时,表明存在负相关。
3.4.4。算术平均值最低的方法
3.4.5。指数相似的方法
3.4.6。粘贴的进展
如果的特点和是统一的,和属于[0,1](k= 1,2,…米),的相似性和被定义为他们粘贴的进步。距离粘贴进展 C和一个选择适当的参数,其值可以是任何值,但他们的选择值应满足0≤≤1不平等,代表它们之间的距离。
一定距离,可以作为Minkovsky距离
4所示。英文字符的相似性测量的实验分析和分类基于语言特性
4.1。相似度算法的效率进行比较分析
余弦相似度算法,关键字相似性算法,词义相似度算法,公共子序列相似性算法,实验算法用于分析和计算模拟研究样本数据的相似性度量。
Method1:余弦相似度算法,method2:关键词相似度算法,method3:词义相似度算法,method4:公共子序列相似性算法,和方法5:实验摘要算法。
如表所示1代表的平均相似度值五个方法1的状态下不同数量的数据。自相似性数据对词汇测试,如果词汇对之间的相似性状态是1,也就是说,词汇对之间的相似度值也很高。
摘要相似度的平均值高于其他算法和仍然约0.84,和最大值和最小值之差不超过0.01,表明该算法具有良好的计算结果的相似性和稳定性的算法。其中,余弦相似度的平均相似度算法,关键字相似性算法,和公共子序列相似性算法也很高,而词义相似度算法的平均相似度仍然很低。
如图1,它显示的准确性和效率的比较分析的五个算法条件下anonuniform相似性阈值。
如图2,召回率的5个算法进行比较和分析的情况不一致的相似度阈值。
如图3,它显示了比较和分析F5算法的结果值条件下的非均匀相似性阈值。调和平均数计算每个算法基本上是一样的召回率计算。因为每个算法的增长率P低于还原速度的R的,结果R具有明显的影响的结果吗F值,的变化曲线F值是接近R。
4.2。实验分析的相似度计算
通过收集和分析英语词汇的使用资源参与系统比较,一些英语词汇对英语词汇的选择不能计算数据集测试,和最后的十对单词进行测试。
如表所示2英语词汇相似度的计算结果。它的计算结果可以看出年代1列是低于其他列。这一现象的原因是,英语词汇选择的高相似性的系统设计方法和笔记的共同特征,大量的英语词汇,其中可能包括外部干扰因素的影响,导致英语词汇向量的相似度较低。的跳年代2列值太高了。这一现象的原因可能是高度相似的英语单词的选择和设计在百度文库的人工的想法不一致。
英语单词相似性的计算结果年代1通常是低价值,这主要是由于设计方法的高相似性英语单词自主选择系统数据库的基础上,考虑到许多英语单词功能和其他一些干扰因素的影响,导致英语词汇特征的高维向量的相似度较低。
如图4,它显示了选择效率相应的类似的英语词汇选择系统设计时数据选择英语词汇的数量是200,400和600。如果α对应于1,类似的英语词汇的选择效率选择系统设计是30%,32%,和45%,分别。如果α对应3类似的英语词汇的选择效率选择系统设计是40%,44%,和60%,分别。如果α对应5,类似的英语词汇的选择效率选择系统设计是55%,63%,和80%,分别。通过比较分析,识别率和体重稳定的英语词汇特征可以获得α。在区间[1,5],选择效率最高。
4.3。CD_Sim测试和分析的方法
的计算结果来验证CD_ SIM方法在实际应用显示精度和时间效率。四种类型的数据是随机选择从英语词汇研究模拟样品。通过关键字提取实验结果,相似度测量结果通过聚类分析和分类方法进行测试。
4.3.1。聚类分析
相似度测量的结果计算间接影响英语词汇聚类算法的准确性。此外,在仿真示例中,聚类算法的准确性可以依次测试相似结果的质量。常用的聚类算法包括基于矩阵聚类算法的距离,AP聚类算法,并逐步开发了谱聚类算法。基于距离的聚类算法和谱聚类算法适用于一个给定数量的数据,高时间复杂度和聚类准确性。如果给定的数据是未知的,两种算法的计算结果会有一定的偏差。聚类分析是根据相似性测量分析形成的。具体实验结果如表所示3。
如表所示3,四种相似性度量方法进行了比较和分析,得到的聚类结果仿真方法是最好的,但只有四个文件数据的模拟样本,而sim聚类方法已达到18,这显然是不合理的。通过实验数据聚类分析,模拟的实验结果比CL_ SIM ZWS_ SIM,熵聚类是最小的,纯洁是最大的。
4.3.2。时间复杂度分析
根据实验数据表4,在四个文本相似度测量方法,FCM聚类相似度测量方法基于统计数据具有较高的时间效率,而SOM聚类相似度测量方法的时间效率低于均值聚类。
4.4。分类方法的实验结果和分析
在传统的分类实验中,词类型通常分为模拟训练,只有名词、动词和动词nominality作为特征选择对象选择。
当阈值特性的数字是110,550,1100,1600,2100,3300,4100,5000,5500,6800,和8300年,分别总体分类精度。
如表所示5总体分类精度表代表了许多不同的特点。
如图5,当特征的数量从小型到大型排序,分类准确率和特性线性增加。当特征的数量达到大约5000,分类准确率基本上是稳定的。
如图6,当特征的数量排序从小型到大型,测试时间和时间基本上呈线性增加。
5。结论
首先,定义了特征的概念和介绍英文字符统计特性的方法和研究方向和背景的主题。然后,分析了语言发展的现状。单词之间的词义关系的多元化已成为语言词义研究的首要任务,也就是说,如何选择正确的方法和模型来表达语言词汇之间的关系,这是本文的目的。然后,它引入了相似度测量的意义和相似性度量的计算算法,主要包括特征选择的相似性,相似性的嵌入量的话,相似度数值变量之间的距离,和相似系数的计算。最后,相似度算法的效率和分析相比,融合语言特征的相似性度量计算和分析,和CD tested_根据分类方法,实验进行计算与分析,实验结果进行了分析。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。
确认
这项工作的部分赞助由(1)课程体系研究分级模式下的大学英语教学模式招收学生在大类别:一个案例研究河南中医药大学教育教学改革研究项目河南中医药大学(2021 jx97)。(2)研究培养翻译能力的MTI候选人从“翻译河南”的角度(2020 zdb91);(3)对翻译人才的培养模式研究与实践的中原文化驱动的项目“河南省翻译”(2021 zzujglx020);(4)研究MTI翻译理论课程的转型的背景下,“翻译河南”(2020 yb0004)。