文摘

这项工作的目的是研究应用神经网络图(GNN)跨境语言规划(CBLP)。因此,回顾GNN的内涵后,提出了研究方法基于物联网的CBLP(物联网)本地数据和研究语言文本的分类利用不同类型的卫星系统,进行首先,图同构label-embedded卷积网络(GCN)提出。然后,它提出了一个scalability-enhanced异构之下。随后,两个政府通讯模型融合,研究model-heterogeneous InducGCN提出。最后,模型的性能比较分析。实验结果表明,该分类的准确性label-embedded GNN高于其他方法,识别精度最高的97.37%数据集R8。拟议中的异构InducGCN融合模型的分类精度提高了0.09%,超过了label-embedded GNN,达到了97.46%。

1。介绍

机器学习(毫升)和深度学习(DL)已经取得了巨大的突破自然语言,演讲,和图像处理。然而,语音、图像和文本是非常简单的序列,网格数据,或者结构化数据。DL借处理结构化数据。同时,神经网络图(卫星系统)进行研究已成为一个热点DL (1- - - - - -3]。GNN出色的能力来处理非结构化数据在网络数据分析方面取得了突破,推荐系统、物理建模、自然语言处理(NLP)和图形组合优化4- - - - - -6]。并不是所有的东西在现实世界中可以表示为一个序列或一个网格,如社交网络、知识地图,和复杂的文件系统。这些非结构化数据使得有必要研究卫星系统(进行7- - - - - -9]。物联网的出现(物联网)加速和丰富的数据生成和挑战现有的云技术架构和数据处理方法。不可避免的是,它将促进理性的理解“所有的数据都是有价值的”、“有价值的数据提取。“数据值在计算机领域是一个非常受人尊敬的概念。作为中国的语言生态系统不可或缺的一部分,跨国跨境民族语言浓缩和多元文化。然而,目前,中国跨境语言核心地区,缺乏合理的规划和一些濒危物种,需要特别注意10- - - - - -12]。

许多专家和学者研究的应用卫星系统,进行公园等。13)提出了一个基于GNN学习框架,强化学习(RL)安排车间的问题。他们表达了调度过程作为一个连续的决策(DM)问题状态图表示。他们得到最优调度策略映射的特点,嵌入式节点最优调度操作。赵et al。14)建造了一个蜘蛛网GNN解决多视图步态识别问题。单一视图步态数据与其他视图的步态数据同时建立一个活跃的图卷积网络(GCN)。Curdt克里斯琴森和高12)观察之间的互动家庭、学校、社区和工作场所,以追踪语言的社会语言学和政治环境发生变化。Sanden [15)回顾了多语种语言政策组织作用,指出十大重点语言在国际商务和管理政策挑战。

必应(16)回顾了广西的外语政策的实施。他们分析了多语种机遇和语言挑战由广西共享的多语言和多民族和多语言社区的周边国家。外国语言政策的研究揭示了社会学意义超越了语言的意义。结果,英语+多语种政策指南提出了东南亚国家联盟(东盟)的国家。Chang et al。17)认为,移民的父母认识到英语在语言市场的价值,有很高的期望和愿望对孩子的英语教育。然而,语言意识形态他们历史上构造有限参与儿童英语学习和阻碍他们的家庭语言DM。唱(18]调查一群国际学生的语言意识形态多语种香港的大学英语教学。结果表明,参与者的信念对英语超越他们的角色作为教学媒介,包括使用通用语言和社会包容的一种手段。参与者也有复杂的但有时相互矛盾的意识形态对英语使用或接受的类型和单语和多语种的上下文中使用英语大学英语教学。博尔赫斯et al。19想识别和分析利益相关者的意见促进跨境合作。通过积极主动的参与合作,有针对性的政策,协调的体制结构,社会文化距离可以通知决定旨在增加利益相关者参与跨境地区的参与式方法。

因此,有很多种研究GNN和跨境语言。的研究工作可以为这一领域提供了新思路。通过文献综述和问卷调查(QS),这项工作研究物联网的数据分类,GNN的构成和图像卷积网络(GCN)。创新在于建立跨境语言规划(CBLP)研究理论。一个同构label-embedded GCN模型和一个异构GCN enhanced-scalability模型提出了。验证,提出GNN模型的文本分类性能很好。这项工作分为五部分。首先,部分1介绍了研究背景、动机和在相关领域的研究成果。部分2讨论了使用的主要研究方法。节3,提出了研究模型。然后,部分4进行实验设计和性能评价,研究结论是总结部分5

2。材料和方法

2.1。GNN在物联网数据

一切,有形的或无形的,是连接,节点的图像表示+关系足以弥补一切。例如,个人作为人类社会网络节点,和各种人之间的关系作为边缘。在现实生活中大量的业务数据可以表示为图形。在电子商务业务,用户和商品也可以建立一个映射网络。物联网、电网和生物分子自然节点+关系结构。甚至物理对象可以抽象成3 d节点云和图的形式表示数据。因此,图形数据表达最适合业务。物联网数据可以分为静态和动态数据。

静态数据指的是测试设备的地址信息,如位置、资产属性相关设备名称和数量、设备相关标签类,和设备规范。静态数据是存储在结构化和关系数据库。相比之下,动态数据时间序列数据,诊断信号数据,如温度、湿度、和压力状态,设备状态数据,如电池供电。每一个数据都有相应的关系随着时间的推移和通常存储在一个时间序列数据库。动态数据包括非结构化数据,如图片、文本、声音和视频。物联网组成的图形数据表示如图1

物联网系统包括四个基本部分组成:传感器/设备、数据处理、连接和用户界面。传感器设备收集数据并传输到云在一个互联网连接。之后,该软件将处理数据和执行操作,如发送警报并自动调整设备。最后,调整或所需的操作是通过用户界面。大数据存储是一个数据存储库和一个数据源。添加越来越多的IoT-native设备将复杂的人工智能(AI)模型和数据采集。大数据处理能力和执行操作取决于硬件的能力帮助提取必要的和有用的数据的见解。因此,投资效率优化硬件和基础设施设计是至关重要的。物联网的主要数据来源之一是IoT-native设备。这些设备内置传感器,收集环境信息。 The valuable data collected are transmitted to the cloud through the Internet, and AI and ML generate useful insights. Remarkably, the neural network is commonly used in image feature extraction, and GNN is mainly used to address graphs. GNN calculates directly on the graph. The whole calculation process is carried out along the graph structure. The advantage of such processing is that it can well retain the structure information of the graph. The ability to learn structural information is one prominent feature of GNN. Figure2草图GNN的结构。

GNN概括传统DL图结构数据的技术,所以这是一个深图结构表示模型设计。GNN主要遵循消息传播框架。首先,它从邻居节点收集信息,然后使用神经网络来更新节点表示,邻居节点信息的聚合过程。根据不同的领域,卫星系统一般分为进行spectral-domain GNN和空间域GNN。Spectral-domain GNN建模从传统图形的角度信号处理。相比之下,空间域GNN主要从图形结构:图形节点及其邻居节点,它直接聚合学习节点的图结构表示。除了图卷积层节点代表学习,池层在传统的视觉也扩展到图像数据。各种图池操作提出了简化的图形和学习表示整个图通过一个可微的压缩模型。

2.2。跨境语言规划(CBLP)

语言规划language-ecological密切相关的问题,如语言资源、多样性、和社会功能。这是一个重要的国家意味着社会治理和促进社会和谐20.- - - - - -22]。在少数民族语言规划方面,中国已经制定了一系列的新疆少数民族语言政策在不同的历史阶段。这些政策起到了不可估量的作用在保护少数民族语言的权利,协调语言关系,维护国家统一。一些核心地区跨境语言濒危(23]。语言的多样性是一个稳定的坚实的基础和强大的语言生态系统与人类文明的可持续发展。语言规划是规划的实践语言,包括语言文字工作由每个规划主体在宏观、中观和微观层次和语言文字工作的科学研究或实践活动。在现实中,特定的形式的语言规划将改变根据不同的规划主题。规划主题包括机构、团体、政府和个人代表和语言规划部门。更一般的意义上,一系列活动的制定、实施和执行语言政策是最重要的,语言规划的直接表现。语言规划过程通常包括五个阶段,如图3

根据不同的观点,语言规划可以分为状态、采办、声誉,和功能。一般来说,语言规划涉及的二分法,三分、四分法的方法。基于二分法的不同特点和内容,语言规划分为“语言地位规划”和“语言本体规划。“在此基础上,三分法将收购计划的概念。然后,基于之前的研究,四分法方法集成语言规划分为四个基本类型:语言地位规划、语言本体规划、语言教育规划、计划和语言的声誉。图4他们的关系的细节。

所有语言规划的制定和实施不是意外,而是语言规划的结果动机、语言意识形态和语言规划的目标。这三个构成driven-process语言规划理论和结构组件如图5

跨境之间存在语言和相连的国家和在中国不同地区在中国,一种特殊的语言现象。仅在中国,南方和北方的跨境语言不同的特点。一些北方的主要语言,如维吾尔、蒙古,和韩国,是一个庞大的人口使用。他们有着悠久的历史传统少数民族人物小方言差异和少数民族中广泛使用。因此,基本上是没有相同的跨境语言沟通障碍。然而,在南方大部分跨境语言缺乏书面字符。汉人与其他民族共同生活在南方,所以这些跨境语言演变对可怜的功能。跨境语言可以打破国界,含有丰富的双边甚至多边历史积累的社会功能。同时,它可以承载多元文化,浓缩特定的民族,呈现出独特的语言形式和重要的经济价值。从本质上讲,CBLP是保护、利用和开发跨境语言资源的服务功能,即使用工具函数,人文建筑功能、经济支持功能,安全维护的功能。 The social function of cross-border language is classified according to the region of use, as in Figure6

跨境语言体现了其在政府事务发挥社会功能,学校教学、大众媒体以及其他方面。其使用在学校课程,学术研究,和其他领域可以反映其人性化的功能。它的经济功能可以反映在经济、科学和技术领域。它的安全功能主要体现在科学,技术和国防。核心地区跨境语言具有明显的国际工具价值和维护国家安全的安全功能在科学、技术和国防。在中国他们是关键语言。因此,它们的功能,作为一个地区性国际语言应该强调和发展结合国家战略。

2.3。基于GNN语言文本分类

政府通讯主要分为spectrum-domain-based GCN和spatial-domain-based之下。前引入了一个过滤器图定义图卷积信号处理操作,而后者定义了图卷积操作通过信息传播。GNN有一些成果文本分类(TC)。然而,大多数的研究只考虑文本信息和不考虑标签信息。这项工作提出了添加标签节点的文本节点和文本中的词节点图形成text-label-text的信息传输路径。然后,监督标签信息可以传播更直接在整个沿着路径图。因此,它实现标签嵌入和文本嵌入在相同的语义空间图卷积操作。这样,一个同构label-embedded GNN模型实现文本分类。

政府通讯是一个多层神经网络图结构的数据。它学习的特点,基于节点的邻居节点。假设 代表了一个图, 表示一组节点,和 表示一组边缘。在一个同构GNN, 包含三种类型的节点:词节点 ,文本节点 ,和标签节点 代表邻接矩阵,然后(1)获得

在(1), 意味着没有边缘节点之间的联系 和节点 ;否则,节点之间的连接有一个优势 和节点 特性矩阵图表示为节点

在(2),的尺寸特性是由 ,和规范化的对称邻接矩阵表示为

在(3), 是对角矩阵,那么传播的表达之下证明了吗

在接下来的方程,我们得到

H(l)代表的叠加 - - - - - -维隐层向量的所有节点 - - - - - -层。 表示可训练的参数矩阵。 标志着纠正线性单元(ReLU)激活函数(AF)。现在,建立一个文本图,这项工作考虑三种类型的节点:词节点,节点文本节点和标签。这个词节点代表所有非重复性的单词在字典里。文本节点代表的所有文本在文本集,包括训练集和测试集。最后,标签节点中的所有标签标签对应的文本集合。接下来,编码不同的节点和边,这项工作结构四子图结合起来就形成了文本图像输入到之下。word-word子图是图中概述7

这个词的备忘录绘制在图子图表示8

标注的是描绘在图的子图9

字子图绘制在图10

word-word子图获得本地文本级别词同现。与此同时,word-word子图可以获得全球房地产通过高阶邻居图卷积操作信息。词的备忘录的子图获得文本级别词同现。在这项工作中,标签子图是一种引入到一个文本标签图网络。这是一个两偶图网络。这意味着没有标签或在文本之间的联系,只有标签和文本连接。激发子图连接文本标签传播算法和相应的标签。这种方式,标签信息可以传播更直接在文本网络,有利于学习的特征表示文本节点。

3所示。研究模型

TextGraph可以建立网络模型的基础上,结合上述四子图。基于标签的同构GNN模型嵌入(如图11)。

按图11模型的节点集字组成的子图之间共享。然后,构造TextGraph模型包含标签信息发送到两层之下和分类模型学习节点表示。第二层的尺寸大小的政府通讯设置的类别,即标签的数量对应于这个文本集。之后,一个标准化的指数函数,将SoftMax层,添加分类。送到后,终于学会了特性将SoftMax层,该指数对应特征向量中最大的特点是最后预测标签。

4所示。实验设计和性能评价

4.1。研究资料和收集

一个实验的目的是验证同构之下。流行的文本分类方法的选择比较基于文本分类的数据集。特别是,选择独特的热向量来表示初始化节点,和手套是一词向量。然后,之下的第一层尺寸设置为200,和第二层维度的数量相应的数据集。例如,如果R8有八个类别,第二个维度是设置为8。最初的学习速率设置为0.02。与此同时,辍学一层一层设置在第一图像卷积,值为0.5。数据集在实验中选择的经典文本分类数据集:OHSUMED, R8, R52。

同构GCN模型建立了一个包含文本,网络,和标签节点。图同构卷积过程。政府通讯学习嵌入式的节点表示。没有区别在聚合过程中每个节点的邻居。所有节点被认为是相同的类型。这种形式的构成缺乏灵活性,难以应对新添加的文本节点。因此,这项工作提出了一个可扩展的和异构GNN模型:InductGCN。InductGCN首先对单词学习使用不同的子图。然后,它融合了输出的词表示不同的子图。最后,分类学习单词是由嵌入到嵌入式学习文本的表示。 It splits the word-text subgraph in TextGCN into three parts: word-word subgraph, text-word subgraph, and word-text subgraph. The structure of the word-word subgraph is shown in Figure12

Word-word子图是一个单词组成的子图词在文本集。每个节点是不重复一个词在字典里,和边缘的重量是词对之间的重量。这个子图的嵌入表示单词通过之下,和输入词功能没有先验知识的独特热向量。词的备忘录的子图的子图是基于词和文本之间的关系。其结构如图13

最后GNN结构如图14

嵌入这个词代表了在上述两个阶段作为输入,作为文本的特征向量的子图。然后,最后的文本嵌入是通过图像卷积操作,执行和分类。在这个模型中,两个部分的字嵌入融合得到最终字嵌入,然后发送到分类之下。最后,实验进行验证InductGCN模型。

4.2。实验环境

这个实验的硬件和软件环境设置如下:英特尔(R)的核心(TM) 19 - 9900 k(电子邮件保护);8 g随机存取存储器(RAM);Windows 10操作系统;Python开发语言;和Matlab实验环境。

4.3。基于标签的同构GNN嵌入性能比较

本节比较了不同的文本分类方法。具体地说,CNN使用卷积来提取句子功能和一个完全连接层分类。CNN-non-static代表pretrained词向量模型,CNN-rand随机初始化模型是基于这个词向量。多任务长期短期记忆(LSTM),一个多任务框架,使用的最后状态LSTM整个句子进行向量化。然后,向量是通过完全连接层分类。伯特的全称是双向的编码器表示从变形金刚,pretrained语言表征模型。这些模型的性能和标签embedding-based同构GNN模型报道在不同的数据集比较图15

根据图15的分类精度label-embedded GNN高于其他方法,识别精度最高的97.37% R8数据集。pretraining词向量的神经网络模型可以大大提高模型的预测性能。因为短信分享相同的标签的语义空间紧密疏远,这是合理的文本节点交换信息通过中央标签节点。换句话说,text-label-text路径上的信息传输是合理的。相比之下,word-label-word连接路径可以捕获category-level词共存的特性。然而,分类精度不如主label-embedded GNN模型。因此,直接连接文本和相应的标签可以学习better-embedded表示。

的复杂性分析结果label-embedded GNN模型显示在图16

如图16,可以大大提高分类精度边标签和文本节点之间的权重。然而,当重量超过1,准确性开始下降。这表明重量太小,允许完整的文本对之间的信息交换共享相同的标签,和过度的体重会导致过度拟合。

4.4。性能比较的Scalability-Enhanced GCN模型

鉴于之前的文本分类效果label-embedded GNN模型是合适的,人物17比较不同模型的分类和识别。

如图17,InducGCN的分类精度提高了0.09%以上label-embedded GNN,达到了97.46%。因此,InducGCN充分利用异构图形信息。不同政府通讯节点用来表示词的三个子图改善模型性能。

InducGCN模型的复杂性分析结果呈现在图18

如图18,InducGCN模型大型异构图形分为小图形网络,以减少计算复杂度。分类模型的可扩展性分析了图19

如图19建议,提出异构InducGCN模型不需要重新培训整个网络时针对新添加的文本。简单地说,网络模型不需要重新训练得到一个新的文本输入;只有网络结构需要训练的一部分。因此,InducGCN具有良好的可伸缩性。

5。结论

由于跨境语言进入学术领域,本体论的研究在国内,跨境语言high-pursued主题。针对各种跨境语言,世界各地的学者积极研究语言结构涉及词汇、语法、和发音。另一方面,个人的关系,比如友谊,在社交网络可以通过图形建模。因此在城市交通系统之间的关系。推动或建议通过互联网或移动终端通常是基于精确定位用户感兴趣的主题。GNN更类似于一个图像处理的神经网络。例如,图论将一幅图结构形成的每个像素和相邻点的互连。每个像素之间的关系和周围像素的图像是相对固定的,可以表达的相对位置,下,左,右。相比之下,点的位置和距离正则图相对灵活。IoT-native数据的深入研究,应用GNN跨境语言研究可以提高语言文本分类的准确性。 Consequently, this work proposes a CBLP model and studies language text classification by fusing isomorphic and heterogeneous GCNs. Finally, the proposed heterogeneous InducGCN-based CBLP model is verified through comparative analysis. The numerical results corroborate that the heterogeneous InducGCN beats other GCN models. However, there are also some deficiencies in the research. The research on cross-border language in China is relatively short and still in its infancy. The theoretical system of language ecology is not yet fully mature. Further analysis and research are needed in the future. Additionally, there is a potential pitfall in the GNN-based text classification, such as excessive smoothness. The model training process is not stable enough. It is hoped to develop a model with better robustness in the future.

数据可用性

原始数据支持了本文的结论可以从作者要求。

知情同意是获得所有个体参与者包括在这项研究中。

的利益冲突

作者宣称没有利益冲突。

确认

作者承认大学的同事们的帮助。这项工作是支持的项目的湖南社会科学成果评价委员会(2021年,文档没有。3,项目没有。XSP22YBC531,加强沟通能力的策略研究湖南文化从语言的角度服务)。