文摘
针对数据质量差和应用率低的问题现有媒体语料库的建设,提出了媒体语料库的建设与应用研究基于大数据。媒体语料库数据收集,数据分为四类,介绍了启发式排序算法数据项列排序所有收集流程,数据项的最小值确定收集率,在此基础上,确定数量的最大值媒体语料库,并实现数据收集媒体通过滑动窗口语料库数据。的状态特征和概率分布特性数据是由动态贝叶斯网络,状态变量之间的关系确定和媒体语料库数据的维度,和媒体语料库数据处理状态组件完成媒体语料库数据的预处理;最后,通过应用研究通过大数据存储和设计数据库的加密技术,数据存储结构和加密密钥是为了实现媒体语料库的建设和应用。实验结果表明,媒体的数据质量语料库由该方法高,及其应用在一定程度上已得到改进。
1。介绍
随着互联网技术的迅速发展,数据库越来越重要在人们的脑海中。数据库为核心的未来技术的发展,吸引了大量关注。不同的软件公司开发了不同的数据库软件,和相同的软件的数据模型也不同。因为数据模型不统一,很难数据库软件之间传输数据。异构数据库之间的数据转换是目前所需的一种重要手段。异构数据之间的转换可以有效地提高工作效率和降低成本1]。语言的及时性数据库是一个重要的属性数据。在数据挖掘、数据分析和数据增值应用,准确的数据及时性的影响决定了一系列时间序列分析等算法,协会,和建议。有关学者研究数据质量的问题通过直接观察、社会调查和理论推导。产生巨大影响的属性数据可用性的准确性,完整性、一致性、及时性、和实体的身份。领域的业务数据,由于客户信息的变化,每个月2%的业务数据都是过时的。大量的不精确的数据填充数据集。如果你不能确定哪个是最新的,数据查询可能返回错误的结果,和数据分析可能产生相反的结论,紧随其后的是数据质量和数据值的下降。在大数据的时代,人们的各种数据分布在不同的平台和系统,形成数据岛。不准确的数据及时性和过时的数据造成的问题变得越来越严重。在大数据和人工智能的时代,个人的大数据包含不可估量的社会和经济价值。 The personal data banking model is a new model that can effectively sort and integrate personal data, improve the quality and value of personal data, enhance the controllability and availability of personal data, and effectively protect personal data privacy [2]。数据聚合的过程中,由于高分散的同时,个人资料个人资料是典型的动态数据,各种数据反映出个人属性和状态是不断变化的。这个功能也是最大的挑战的过程中个人数据清洗。在数据模式,为了确保数据质量和提高数据值,有必要从许多来源收集数据,和时间属性往往是不准确的3]。对于一些属性的数据,不同时期对应于不同的值或状态,如一个人的教育背景和婚姻状况的变化而变化。如果时间戳是不完整或不准确的,它是不可能确定的顺序记录,这将带来巨大的困难,数据增值应用程序。因此,如何提高媒体语料库的建设效果,广泛应用已经成为当前研究的焦点(4]。因此,相关研究人员进行研究媒体语料库的建设,取得了一些效果。
文献[5)设计一个数据库选择基于犹豫语言信息聚合算法和研究媒体语料库的建设和应用。为了提高数据库选择的效率,数据库选择方法基于犹豫语言多属性群决策算法对多属性群决策。首先,数据库选择模型基于广义犹豫语言Heronian平均(GHLHM)算子构造;其次,阿基米德规范引入犹豫语言环境,和一个新的犹豫语言定义的算法;第三,基于新算法和Heronian平均GHLHM算子,提出了GHLHM算子的一些基本性质进行了讨论,几种常见算子形式的GHLHM算子进行了研究,和广义犹豫语言加权Heronian平均(GHLWHM)运营商提出了;最后,一种新的犹豫语言构造基于GHLWHM算子的多属性群决策方法,并应用于数据库的选择。实验表明,该方法可以实现数据库性能的优化和综合排名和在其他领域有广泛的应用前景。然而,这种方法仍然需要一些改进为了考虑太多的数据安全性和存储占用。文献[6)设计了一个方法,数据库的异构数据自动转换语言。这种方法提供了重要的方法和手段来操作数据库的数据库管理系统。针对长时间数据转换的问题,信息利用率低,和转换精度数据转换后在传统的数据转换方法,提出了一种新的异构数据转换方法,它是基于语言数据库中自动异构数据转换方法。语言相同的数据收集周期放置在相应的数据列,介绍了启发式算法的数据列进行排序,并且每个数据项调整根据安排完成自动语言数据库中的异构数据收集。实验结果表明,该方法可以有效地减少数据转换的耗时,提高利用率和数据转换精度。然而,的数据量和安全性能建设这个方法没有被有效控制,有一些缺陷。通过33阿拉伯语语料的调查,文献[7)发现,尽管阿拉伯语语料库已经取得了很大的进步,沙特阿拉伯方言语料库仍然需要进一步扩大。本文对SD语料库的文学贡献了一份力量通过创建沙特语料库(KSUSC)沙特国王大学,在沙特阿拉伯最大的语料库。单词的总数在这个语料库是+ 1 B, SD词+ 119。KSUSC不仅是最新和最大SD语料库在中国也是一个语料库丰富多样的内容,门类26 5种不同来源。文献[7)提出了一个半自动地构造一个语料库方法,包括日本青年俚语叫做Wakamono Kotoba。半自动语料库建设的过程的第一步是由自动收集的例句,第二步是收集的句子标记注释,最后一步是手动修改标签和降噪。
因此,本文提出了一个媒体语料库建设和应用基于大数据的研究方法。首先,媒体语料库数据收集,数据分为四类,介绍了启发式排序算法数据项列排序整个收集过程,和集合的最小值确定数据项。在此基础上,在媒体数量的最大值确定语料库,以及数据收集媒体语料库数据是通过交互实现窗口;的状态特征和概率分布特性数据是由动态贝叶斯网络,状态变量之间的关系确定和媒体语料库数据的维度,和媒体语料库数据处理状态组件完成媒体语料库数据的预处理;最后,设计数据库是通过大数据技术有效地应用。本文的技术路线如下:(我)第一步:收集媒体语料库数据,将数据划分为四类,引入启发式排序算法排序所有数据项列集合流程,确定数据项集合的最小值率,在此基础上,确定数量的最大值在媒体语料库,通过互动,实现数据收集媒体语料库数据窗口。(2)步骤2:确定状态特征和数据通过动态贝叶斯网络的概率分布特性,确定媒体语料库数据状态变量之间的关系和维度,由组件处理媒体语料库数据状态,完成媒体语料库数据的预处理。(3)第三步:通过大数据技术有效地应用设计数据库。(iv)步骤4:实验过程的分析。(v)步骤5:实验结论和未来前景。
我们的贡献包括以下三点:(1)针对数据质量差和应用率低的问题现有媒体语料库的建设,提出了媒体语料库的建设与应用研究基于大数据。(2)媒体语料库数据收集,数据分为四类,介绍了启发式排序算法数据项列排序所有收集流程,数据项的最小值确定收集率,并在此基础上,确定数量的最大值媒体语料库。(3)国家特征和特征数据的概率分布是由动态贝叶斯网络,状态变量之间的关系确定和媒体语料库数据的维度,和媒体语料库数据处理状态组件完成媒体语料库数据的预处理。
2。媒体研究语料库建设
2.1。媒体语料库数据收集
数据收集的媒体语料库建设过程中是最关键的缓解。只有完整的和大量的数据支持才能让媒体语言数据库的建设更加完整。只有充分确保收集的数据的实时性和有效性才能完全理解整个媒体语料库的操作状态和更好的应用它8]。
数据项在媒体上语料库是由不同的单独的细胞,每个都有自己的属性特征。因此,在建设的过程中媒体的语料库,设置收集的数据包括四类。表达它的属性数据,根据不同的语言 。其中,年代代表媒体语料库中的数据,T代表了采样周期,代表了异构数据采集时间延迟D代表了媒体语料库的数据项的集合。介绍了启发式数据项的列排序算法排序所有的收集过程,然后共同关系不同的数据项进行排序。在分类的过程中,“重用”数据项的收集率是最低的,即:
在获得最有效的媒体数据采集频率语料库数据,有必要确定媒体语料库[所需的数据项的数量9,媒体获得的语料库的最大数量如下:
后的数量确定数据媒体语料库数据,反映了数据的关系数据库和反映数据中存在的关系通过矩阵获得以下的关系:
根据确定的数据关系矩阵在媒体上语料库数据,完成数据收集媒体语料库数据通过滑动窗口,即:
媒体语料库建设的过程中,首先收集媒体语料库的数据,将数据划分为四类,引入启发式排序算法排序所有的数据项列收集流程,确定数据项集合的最小值率,在此基础上,确定数量的最大值在媒体语料库,通过互动,实现数据收集媒体语料库数据窗口。
2.2。媒体语料库数据预处理
根据上面的媒体获得语料库数据中,有许多媒体语料库数据在数据收集,还有伟大的数据之间的差异,从而影响媒体语料库的建设。因此,有必要进行预处理媒体语料库数据。获得媒体语料库数据、媒体语料库数据的特征不能成为关键数据由于媒体语料库数据的快速变化10]。因此,本文进行预处理媒体语料库数据的差异。摘要动态贝叶斯网络用于数据预处理功能。
假设p维媒体语料库数据中的隐含状态变量可以表示如下:
在这里,概率分布表示如下:
媒体语料库数据状态变量之间的关系和尺寸可以表示如下:
在公式,代表了状态转换概率分布,代表实际信息媒体的语料库数据量,和代表媒体语料库数据的初始状态。
基于此基础上,状态是处理媒体语料库数据,数据的预处理完成媒体语料库的特点。
在公式,代表了媒体语料库数据。
媒体语料库数据预处理过程如图1。
媒体语料库数据预处理、特征数据状态特征和概率分布确定通过动态贝叶斯网络,媒体语料库数据状态变量之间的关系,确定维度,媒体语料库数据状态为组件进行处理,完成媒体语料库数据的预处理(11]。
3所示。基于大数据应用研究媒体的语料库
3.1。媒体语料库存储应用程序
基于上述媒体的建设语料库数据,数据库的存储和应用程序进行了研究。通过构建媒体语料库的数据信息流模型,数据存储媒体的语料库研究利用非线性时间序列分析(12]。在媒体上语料库数据存储、媒体语料库数据存储的时间模型和调度信息流程如下:
在公式,代表媒体语料库数据存储空间包络振幅。
为了提高媒体语料库数据存储应用程序的效率和满足媒体语料库数据结构,构建媒体语料库数据存储点的适应度函数与多元回归回归模型如下:
在公式,代表存储和访问的安排时间,代表存储的时间成本,代表存储媒体语料库数据的质量代表了数据库安全性能。
基于此基础上,利用相空间重建模型中,重组媒体的存储子集语料库数据空间特征和确定的概率分布(13媒体)的适应度函数满足的语料库数据存储节点,即:
在公式,代表的数量的阶段媒体语料库数据存储结构。数据信息流动特性在媒体上语料库数据分为noninteger倍一个。根据这个计算,信息流量时间序列重建(11)在数据库中存储系统是由非线性时间序列重构的系统分析方法,和重建表达如下:
根据上面的时间序列重建数据流,完成媒体语料库数据存储应用程序如下
在公式,代表了光谱分析数据存储的特点,代表分布式结构扩展属性,方程(13)代表的正交奇函数部分转换。
3.2。媒体语料库数据加密的应用程序
在媒体的应用语料库数据,其加密也是一个关键环节。因此,在本文的应用程序中,媒体语料库数据的加密进行了研究。媒体语料库信息安全加密的设计进行了高级加密标准协议。采用随机线性编码方案构建媒体语料库数据存储的加密密钥模型信息。密文建设和数据库存储信息的关键设计下进行物流混沌映射,实现和数据库存储的最佳加密信息的分段线性组合模型(15]。
媒体的加密和解密密钥将语料库数据存储信息H用于编码,随机相位重组方法和设计媒体语料库的关键数据信息,密文协议是构建物流混沌映射,屏蔽加密方法被用于编码符号的媒体语料库数据,和媒体的纠缠状态模型建立语料库数据。
媒体的累积概率分布区间语料库统计区间内的数据加密符合下列条件:
安全关键媒体建立语料库数据加密,自适应功能分类和矢量量化编码与算术编码设计方案进行设计,结合分段物流加密公钥(16媒体语料库的数据,和媒体语料库数据加密。根据哈希密文分布,加密编码协议是用来设计媒体语料库数据在有限领域,提高加密过程的稳定性,实现加密的研究应用。
4所示。实验分析
4.1。实验设计
为了验证该方法的有效性在媒体的建设和应用语料库数据,进行仿真实验。假设媒体语料库数据块长度是100,时间序列样本的取样长度的媒体语料库的数据是1200,带宽序列分布的一组媒体语料库的统计特性是14 dB,媒体语料库数据加密的层数,和30岁,50岁,60岁,70年和75年作为分割样本集的大小信息编码存储在媒体语料库。媒体语料库数据攻击的强度是20分贝。样本的波形形状媒体语料库数据如图2。
4.2。实验指标设计
基于上述设计的实验方案,实验的索引设置为空间占领媒体语料库数据存储和媒体语料库数据加密的安全性。为了促进实验的有效性,实验的形式进行了比较。本文的方法,文献[5]和文献[6)进行比较,分别。比较过程中进行多次迭代来提高实验的准确性。
4.3。实验结果分析
为了验证本文设计方法的有效性,实验比较了方法,该方法在文献[5在文献[],和方法6)和比较样本的空间占领媒体语料库数据存储。结果如图所示3。
通过分析数据在图3,可以看出有一些差异在空间占领样本媒体语料库数据存储的方法,文献[5)方法,文献[6)方法在相同的数据量。其中,空间占领样本媒体语料库数据存储在这个方法总是小于20 GB,而样本的空间占领媒体语料库数据存储在其他两个方法总是高于这个方法。这是因为这种方法处理数据建设的数据来验证该方法的有效性。
为了进一步验证该方法的有效性,实验比较了方法,该方法在文献[5在文献[],和方法6)分析样品的安全数据加密媒体语料库。以加密的安全系数为测量标准,安全系数的值范围是[0,1]。安全系数越接近于1,安全性越好。安全加密后的结果图所示的三个方法4。
通过分析曲线趋势图4,可以看出,在相同的实验条件下,样品的安全数据加密媒体语料库分析通过使用本文的方法,文献[5]和文献[6),可以看出有一些差异在安全系数的三种方法。其中,样本媒体语料库数据加密的安全系数高于0.9,此方法在样本媒体语料库数据加密的安全系数低于其他两个方法,通过这种方法。这是因为这种方法使用大数据技术来设计加密密钥媒体语料库的基础上,提高了安全的媒体语料库数据和有一定的可靠性。从图可以看出4,我们的方法更稳定和实现预期的假设。此外,图中的结果也反映出大数据存储和加密技术的有效改进我们的模型。
5。结论
本文提出了媒体语料库的建设和应用基于大数据。媒体语料库数据收集,数据分为四类,介绍了启发式排序算法数据项列排序所有收集流程,数据项的最小值确定收集率,在此基础上,确定数量的最大值媒体语料库,通过滑动窗口和数据收集媒体语料库数据确定;的状态特征和概率分布特性数据是由动态贝叶斯网络,状态变量之间的关系确定和媒体语料库数据的维度,和媒体语料库数据处理状态组件完成媒体语料库数据的预处理;最后,通过应用研究通过大数据存储和设计数据库的加密技术,数据存储结构和加密密钥是为了实现媒体语料库的建设和应用。实验结果表明,媒体的数据质量语料库由该方法高,及其应用在一定程度上已得到改进。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有利益冲突或者人际关系可能出现影响工作报告。