文摘
语义匹配研究的基础研究领域的自然语言相似度测量和传感器本体匹配(OM)。在中国现有的语义匹配方法,有一些缺点,比如单维度的语义表达式,表达式上下文语义关系的不足,不足不同句子之间交互的语义信息。提出了一种语义匹配算法基于中国RoBERTa-wwm-ext与暹罗(RSIFR)交互和微调表示。RSIFR模型初始化模型与RoBERTa-wwm-ext文本的向量。首先,暹罗结构嵌入软对齐注意力机制和BiLSTM构造两个句子之间实现信息互动。其次,LSTM-BiLSTM构造网络结构来增强前后的语义逻辑的表达句子。然后,建立一个培训模型与调整机制。调整文本的特征向量参数通过标签监管。句子的最后,融合向量对插入MLP网络层,导致语义匹配结果。RSIFR模型从不同的维度,加强表达能力向量的文本语义关系,深入矿山不同的句子之间的语义异同,和中国普遍提高了语义匹配性能。 Experiments on the public dataset LCQMC show that our model outperforms existing Chinese semantic matching models.
1。介绍
中国语义匹配来判断两种不同文本之间的语义匹配。中国的核心语义匹配的任务在于挖掘文本的深层语义信息和探索不同文本之间的语义关系。文本语义匹配的研究可以应用于应用领域,如智能问答,机器翻译(1自然语言推理(),2),网络传感器本体匹配(OM)和实体语义相似度测量(3]。
文本特征向量提取利用深层神经网络技术可以提高向量描述文本语义的能力,但它也缺乏两个句子之间的语义关系的表示在中国语义匹配的任务。妞妞等人结合暹罗与深度学习技术,如BiLSTM网络结构,有效地提取深度特征的文本(4]。杨和张注意机制应用在中国语义匹配任务提高文本表示的特征向量(5]。文本的特征向量提取中国预处理模型相关伯特(6)具有较强的语义表达能力,有效地提高了汉语语义匹配模型的性能,但缺乏不同文本之间的语义信息交互。
为了提高语义信息的交互性和改善的能力向量来表示文本语义的匹配关系,提出了一种语义匹配算法基于RoBERTa-wwm-ext(中国7)与暹罗(RSIFR)交互和调整表示。RoBERTa-wwm-ext基线模型用于中国的预处理。预处理的向量,暹罗交互结构嵌入软对齐注意力机制和BiLSTM LSTM-BiLSTM构建网络结构,进一步提高向量的表示能力。然后,一对句子模型分类调整构建和基于RoBERTa-wwm-ext pretrained,用于提取精确表示向量的句子配对。延时结构构建最后生成的向量。
本文的主要贡献如下:(1)独立的两个文本输入RoBERTa-wwm-ext模型和提取Pooler_out层模型的矢量。这个向量,暹罗交互结构嵌入soft-aligned注意机制和BiLSTM构建提高语义两个文本之间的相互作用。(2)连接两个文本变成一个栏目文本和输入到RoBERTa-wwm-ext模型和提取Pooler_out层模型的矢量。LSTM-BiLSTM网络层是建立这个向量,这提高了向量表达的文本上下文语义信息。(3)培训模式,可以微调的初始矢量RoBERTa-wwm-ext构造,构造和标签的文本向量调整监督,进一步提高了文本的向量表示的语义关系。
1.1。相关工作
语义分析是一项基本的任务在不同研究领域如文本匹配和本体对齐(OA) [8]。深度学习技术的创新提供了新的技术支持语义分析的任务。技术,如RNN [9],CNN [10],LSTM [11)是用于提取文本的特点,从而大大提高了特征向量的描述句子的语义信息。伯特系列模型的迭代更新导致了突破向量表达文本语义的能力,提供中国语义匹配领域的研究价值。
深层神经网络模型是一个重要的研究方向在中国领域语义匹配。格勒乌Ranasinghe等人使用各种组合,Bi-LSTM,等等,在暹罗网络结构比较具象的力量结构用于文本语义的不同变体(12]。张等人结合TF-IDF和Jaccard系数与CNN改进的向量表示句子特征,但缺乏语义之间的联系不同的单词(13]。郭等人分析了文本的多个语义成分的框架结构并结合self-attention机制增强为多个语义向量的表示句子,但缺乏语义关系的表示不同的文本(14]。赵等人考虑了两种粒度的单词和字符在文本和建立了一个包含BiLSTM暹罗网络结构,软对齐注意力机制来提高语义文本之间的相互作用对(15]。
文本特征向量提取伯特模型具有良好的语义表征(6,各种变体模型将伯特的研究领域出现了文本语义匹配。Peinelt等人进一步提高通过合并句子主题特征向量表示基于伯特模型的角度分析一个句子的主题元素的信息(16]。Viji和Revathy结合伯特BiLSTM-based暹罗结构,他们生成的向量伯特输入双网络进一步分层培训提高语义表示的向量(17]。Srinarasi等人使用WordNet和伯特模型的组合来表示文本的语义特征,进一步加强上下文语义信息特征向量的表示文本(9]。崔等人提出了一个整词屏蔽中国语义训练方法基于伯特家族的模型结构属性的中国(7]。他们建造了一系列中国pretraining模型基于伯特,阿尔伯特(18),罗伯塔(19)等,并应用模型对中国语义匹配任务相对优秀的性能。
总之,该方法基于神经网络技术的特点是能有效地提取文本的上下文信息的语义,但是能够捕捉语义不同文本之间的相互作用是不够的。的方法基于pretrained模型特性有效表示文本的内部语义关系,但它缺乏语义不同文本之间的互动。在这方面,本文结合中国RoBERTa-wwm-ext LSTM和BiLSTM pretraining模型,包含了SA-Attention(软对齐注意力机制),构造暹罗交互结构,并结合RoBERTa-wwm-ext调整句子对分类模型来提高中国语义匹配精度的任务。
2。方法
2.1。模型框架
在本文中,我们提出一个基于RSIFR中国语义匹配算法。该模型结构如图1。
在网络通道1 (NC1),两个文本独立连接到RoBERTa-wwm-ext获得文本的初始矢量模型。这时,一个嵌入式SA-Attention_BiLSTM建立暹罗交互结构。两个初始向量进入两个暹罗频道和融合产生暹罗交互类型的特征向量 。
在网络通道2 (NC2),我们将两个文本和饲料RoBERTa-wwm-ext模型提取文本的初始矢量。初始向量LSTM-BiLSTM网络层生成的输入向量 。
在网络通道3 (NC3),一个句子对基于RoBERTa-wwm-ext微调是建立分类模型,和一双pretraining模型天车句子分类生成的数据集训练、和分对数层向量天车提取。
在延时结构层,向量和连接,输入第一个中长期规划的两个完全连接层。然后,我们将输出向量与向量和饲料中长期规划结果的最后一层,使用乙状结肠作为激活函数生成句子的最终的匹配结果。
2.2。RoBERTa-wwm-ext向量化
RoBERTa-wwm-ext是中国pretraining模型,它将整词屏蔽(wwm)技术添加到罗伯塔模型和执行增量训练中国大规模的数据(7]。我们使用RoBERTa-wwm-ext作为基准模型,这个模型最初提取中国文本的语义特征为模型的下游任务提供支持。
这两个句子S1和S2的输入RoBERTaWE独立(RoBERTa-wwm-ext)模型,然后Pooler_out模型的输出层向量分别提取。公式如下: 在哪里和是文本S1和S2的初始特征向量,分别。
2.3。暹罗交互结构
中国语义匹配的任务是确定两个不同的中国句子表达的含义是一致的。暹罗网络是中国两个匹配的文本输入两个暹罗独立子信道,和两个独立的子信道共享的训练重量。暹罗结构不仅实现独立训练两文本,但也不忽视这两个文本之间的信息交互。在暹罗两个子信道,BiLSTM模型用于训练文本的上下文语义关系,和注意力机制用于提高文本语义信息的交互。暹罗网络结构基于SA-Attention BiLSTM不仅认为学习两个句子之间的相似的特征,还有效地利用两个句子之间的异构信息,提高中国语义匹配任务的性能。
暹罗交互结构NC1通道如图所示1。NC1通道,两个句子的特征向量输入到两个暹罗子信道,分别。同时,句子的特征向量处理后每一层的网络结构,它是与向量处理之前,以保留原文本的语义特征,避免信息的损失。最后,由两个子信道向量计算融合生成最终的判决对向量表示。网络处理过程如图2。
向量和暹罗是交叉输入交互结构,首先由SA-Attention处理。关注得分向量的函数和如下: 在哪里 是关注得分函数,然后注意分配使用将softmax函数计算。公式如下: 在哪里是注意力分布函数。我们把与向量和计算相应的加权分布。为了避免信息丢失,初始向量和被添加到计算结果。与此同时,除了连接的结果和 ,分别。公式如下:
向量和BiLSTM的输入,输出向量与向量生成连接在前面的步骤,分别。公式如下:
向量和融合生成最终的向量表示吗句子的一对。公式如下: 在哪里代表相应的向量的乘法和 。向量保留原文本的语义信息,提高了语义两个句子之间的交互。
2.4。LSTM-BiLSTM网络结构
LSTM模型捕获长途单词在文本之间的语义关系很好,和它关注远期编码关系在文本的句子。BiLSTM模型集中在这两个文本的积极和消极的方向,有效地表达文本的上下文语义关系。中文文本语义有很强的积极的逻辑关系。在此基础上,我们首先用LSTM模型提高转发文本语义的逻辑语义表示。然后,通过BiLSTM模型,我们更加注重文本的语义逻辑,但也学习相反的语义逻辑关系的文本。LSTM-BiLSTM融合模型更有效地增强了文本向量的上下文语义。
模型如图1NC2通道。首先,两个句子S1和S2是连接到一个句子的文字。文本是输入RoBERTaWE (RoBERTa-wwm-ext)和输出Pooler_out层提取文本的初始矢量表示。公式如下:
然后,向量输入LSTM层,表示吗 。为了避免丢失信息,第一个连接与 ,然后进入BiLSTM层获得最终的向量 。公式如下: 在哪里基于RoBERTa-wwm-ext,进一步提高了语义交互在单一文本和两个文本之间和丰富了句子的表征信息对嵌入式向量中。
2.5。文本特征表示基于RoBERTa-wwm-ext微调
直接从RoBERTa-wwm-ext特征向量提取模型的影响忽略标签表示的文本特征向量。RoBERTa-wwm-ext训练模型微调机制构建,通过标签和文本特征向量的参数调整监督。特征向量提取的结构包括文本对之间的语义关联,提高了中国语义匹配性能。
模型如图1NC3通道。首先,输出向量RoBERTa-wwm-ext Pooler_out层的线性变换的输入层。公式如下: 在哪里的权重矩阵向量进行线性变换和偏见是函数的偏差。
然后,向量通过将softmax活化层,导致最后的文本对匹配的结果 。公式如下:
监督培训执行数据生成句子两天车pretraining分类模型,提取和分对数输出层作为调整类型的文本特征向量对。公式如下:
调整向量 ,它直接包含句子之间的语义关系匹配对,在随后的审判中扮演着重要角色的匹配程度的文本对。
2.6。中长期规划结构
在前面的小节分析后,向量包含句子的语义匹配信息配对,所以向量没有参与培训的中长期规划的第一个两个完全连接层匹配的信息层,以避免损失。
首先,向量和连接和参加培训的中长期规划的第一个两个完全连接层,然后呢是完全连接的输出层。公式如下:
然后,向量和连接参与培训完全连接层的MLP第三层。最后,最终的匹配结果是输出的乙状结肠激活函数。公式如下: 在哪里是匹配的结果。
2.7。RSIFR算法实现
模型的算法实现中国RSIFR主要分为预处理和语义匹配分类培训。整个算法框架包括整个处理过程从最初的句子输入最后一个语义匹配结果,更清楚地显示了算法RSIFR组成。算法流程如表所示1。
3所示。实验
3.1。数据集
中文文本包含在公共数据集LCQMC [20.)涵盖了广泛的领域和语义matching-related广泛用于中国的研究任务。因此,在本文的实验中,我们使用LCQMC作为该模型的实验数据集。数据集的大小如表所示2。
LCQMC数据集是两个中国文本的格式对应于一个0/1的标签,用0表示语义不匹配两个文本和1表明匹配。数据集的例子如表所示3。
3.2。烧蚀实验
模型RSIFR本文设计与三个核心结构NC1, NC2 NC3,如图1。证明每个结构模型的有效性和必要性,这三个模块NC1, NC2,和NC3 RSIFR模型的基础上,消除RSIFR和评价指标的变化, , ,和模型实验比较。模型的评价指标运用ACC和F1值,实验结果如表所示4。
在表4的评价指标ACC和F1 RSIFR大于每个去除模型的评价指标。这证明了同时存在的必要性RSIFR模型中的三个模块,和所有三个模块有助于RSIFR模型的性能改进。
3.3。基于不同的基线模型的性能比较
最初与RoBERTa-wwm-ext RSIFR模型是向量表示,提取文本。崔等人发表了一系列中国预处理模型如BERT-wwm同时[7]。我们使用不同的中国预处理模型作为中国的基准模型预处理本文模型比较和验证中国预处理模型和最佳的性能。实验数据如表所示5。
实验结果表明,RoBERTa-wwm-ext基线模型用于中国预处理和ACC的两个评价指标和F1 LCQMC数据集达到最大值,和性能是最好的。
3.4。对现有的模型进行比较
我们比较RSIFR的性能与现有的模型和使用ACC和F1作为模型的评价指标。数据比较如表所示6。
中国现有BERT-related语义匹配模型是一个基于伯特模型来源于一种改进的模型。BERT-wwm添加完整词屏蔽的方法基于伯特。BERT-wwm-ext一直训练的基础上,逐步在中国BERT-wwm [7]。罗伯塔和MacBERT7伯特的)是另外两个改进模型。两个模型分别训练不断,导致中国语义pretraining模型如RoBERTa-wwm-ext RoBERTa-wwm-ext-large, MacBERT-base, MacBERT-large [7]。他们被应用到中国语义匹配任务和显示性能相对较好。
其他现有的模型,Lattice-CNN用于提取文本语义信息从multigranularity文本的角度(21];BiMPM共同用于捕获文本的上下文语义从正面和负面的方向22];ESIM用于使用注意力机制在文本序列来实现推理之间的文本序列(23];CATsNET用于捕获非局部特征的文本通过构建一个暹罗crossattention网络机制(24];GMN用于建立一个有效的图结构表示多个文本意义并结合伯特(25];StyleBERT用于结合汉语拼音,中风,和其他维度丰富中国代表26];硬币是用于不同文本的语义一致性序列通过建立上下文感知crossattention机制(27];PERT用于建立一个训练方法用于文本位置替换结合语法和整词屏蔽方法(28];ABOEN是一种引起语义增强模型,用于提取细粒度语义信息(29日]。
ACC的两个评价指标和F1 RSIFR算法模型的比较模型达到了最大值,和数据如表所示6。实验数据表明,RSIFR算法模型的性能数据LCQMC比中国现有的语义匹配模型。
RSIFR模型工作之前,我们在本地预存储的初始向量的文本。后续文本语义分析和文本匹配模型的任务是基于本地存储的文本初始向量。在模型训练的过程中,初始文本特征向量的初始化保存的时间成本,模型的训练效率和运行性能改善,和模型的训练成本降低。
4所示。结论
在本文中,我们提出一个中国语义匹配算法基于RoBERTa-wwm-ext暹罗交互和精确表示。我们研究和设计了暹罗的互动结构,LSTM-BiLSTM网络结构和基于RoBERTa-wwm-ext文本特征表示的结构调整。这三个结构生成双互动向量,完全连接向量,并调整表示向量的句子配对,分别和特定MLP网络结构设计为三个向量表示获得最终的语义匹配结果。RSIFR汉语语义匹配算法提出了从多个维度的中国文本,不仅考虑上下文语义关系在单一文本也认为语义异构的不同文本之间的关系,有效地加强不同的句子之间的语义交互提高文本上下文语义向量的表示能力。我们通过实验表明,本文提出的模型优于现有的中国在公共数据集LCQMC语义匹配算法。
数据可用性
数据支持这项研究的结果是公共数据集。使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这部分工作是支持下的广西自然科学基金拨款2019 gxnsfda185006;部分的发展基金会下的中国电子科技集团公司第54研究所授予SKX212010053;河北发展基金项目的部分重点实验室智能格兰特SXX22138X002下信息感知与处理;部分由桂林科技发展计划资助20190211 - 17,20210104 - 1;和部分学校的创新项目制度下研究生教育资助2022 ycxs061。