文摘

针对传统的全文检索模型的缺陷处理的数学表达式,这是特殊对象不同于普通文本,多通道检索和排序方法科学文档基于犹豫模糊集(HFS)和XLNet提出。该方法集成了多通道信息,比如数学表达式和上下文的文本图像,实现科学文献的检索关键字。图像模态,数学表达式识别的图像,犹豫模糊集合理论介绍计算犹豫模糊相似性数学查询表达式和候选人科学文档的数学表达式。与此同时,在文本模式下,XLNet用于生成词向量的数学表达式上下文获取查询文本之间的相似度和候选人的数学表达式上下文科学文档。最后,多模式评价集成,构造犹豫模糊集在文档级获得的最终成绩排名科学文件和相应的输出。实验结果表明,该方法的查全率和查准率是0.774和0.663 NTCIR数据集,分别归一化平均折扣累积获得(NDCG)价值的中国科学十大排名的结果是0.880文档(CSD)的数据集。

1。介绍

科学文献检索和排名是一种很重要的方式,工人获得科学技术信息。科学文献的重要组成部分,数学表达式与数学语义和上下文文本的主要基础科学文档检索和排名。然而,传统的全文检索模型一维不是面临特殊的二维模式检索时有效的数学表达式。目前,研究在数学表达式检索和排序进行了一些进展,和方法和原型系统(1- - - - - -6)提出了数学检索功能。

在数学表达式检索方面,WikiMirs3.0 [7)组成的混合指数公式构造索引和上下文索引启用更全面使用的数学信息。此外,公式的重要性为distinguishment计算文档中。张先生和优素福8]提出了一种多维相似性指数基于向量模型来确定和评估五个因素:系统距离,数据类型,匹配深度、查询范围,是否这是一个公式。根据这五个因素之间的相似性查询表达式和匹配表达式解析MATHML可计算。

研究的数学表达式检索和排序,与文本信息融合数学表达式,米娅(9)使用了LRO(离开右边的)方法将原始查询生成的关键字和数学表达式的组合成子查询和结果使用适当的加权合并,获得更多相关的结果原来的话题。哉,田10)利用FDS (11,12)来解析公式和检索相关文件使用运营商获得的。输入词向量之间的余弦距离和关键字向量这个词后的文档嵌入模型计算获得两者之间的相似性,使更合理和全面的检索和排名。一个数学表达式的文本信息通常是包含在表达式的上下文。几场(13]提出数学表达式依赖的概念,利用丰富的语义信息来获得更好的准确性和提高数学搜索系统的检索结果。

多峰性是指两个或两个以上的模式的任意组合。Piergiovanni和Ryoo14)提出了一个联合多通道表示空间方法,使用敌对的公式无与伦比的文本和视频数据,提高联合嵌入空间。弗罗姆et al。15)提出了一个深刻的视觉语义嵌入模型基于语义信息的标记图像数据和标记文本识别的视觉对象。金等。16)提出了一个广义深多通道散列可伸缩的图像文字和视频文字检索框架,探索学习特征表示,通道间相似性保留,intramodality语义标签保存,和哈希函数同时学习不同类型的损失函数。沈et al。17)提出了一个新颖的无监督哈希方法(多视图离散哈希)从多视图数据学习紧凑的哈希码。该方法共同学习哈希码和集群标签通过分解技术和光谱分析。他们开发了一个高效的交替算法来优化该模型。生成的哈希码不仅可以从多个视图反映了潜在语义也享有很高的歧视。陆et al。18)提出了一个在线多通道散列与动态Query-adaption小说的方式(OMHDQ)方法,设计自适应保护多通道特性信息的哈希码。此外,在线模块parameter-free。它可以避免耗时和不准确的参数调整在无监督查询散列过程。

图像识别的数学表达式,数学文档INFTY系统(19)利用光学字符识别技术来分析数学表达式的结构和公认的印刷体数学公式为乳胶和XML标记格式。邓et al。20.]探索图像文字一代技术,应用数学表达式识别,利用卷积神经网络(CNN)提取图像特征,并采用递归神经网络(RNN)的编码和解码。

上述数学表达式识别和检索的研究取得了一定成果。然而,single-modal检索模型有很大的局限性,因为数学表达式在科学文档通常存在多种形式,如嵌入描述和图片。在此基础上,本研究提出了一种多通道检索方法科学文档基于HFS中(21,22]和XLNet [23]。该方法集成了数学表达式的函数图像和上下文文本来提高检索结果的准确性。在这项研究中,数学表达式的输入表单不再是有限的,和信息的数学表达式可以输入图像和文本格式,从而增加检索的灵活性和实用性。此外,数学表达式的上下文是密切相关的数学表达式本身在科学文档,以及数学表达式和上下文之间的组合使科学文档的检索和排序更合理。

本研究的贡献可以概括如下:(1)多通道检索引入科学的检索任务的文档,以及图像之间的互补模式和文本模式是利用检索科学文档。(2)数学表达式及其上下文结合检索和排名,和XLNet用于生成词向量,这样可以获得更丰富的数学表达式上下文的语义表示。(3)犹豫模糊集用于计算科学的犹豫模糊测量文件。犹豫模糊集考虑的属性文件。此外,中国科学文档(CSD)被添加到数据集检索。

2。模型框架

科学的多通道检索和排序过程文档基于HFS和XLNet图所示1

首先,在查询模块、数学表达式输入图像和文本的关键词。

图像处理模块的模型是用来计算数学表达式之间的相似图像和候选人技术文档。乳胶的输入形式获得的数学表达式识别的图像输入数学表达式和FDS用于分析识别结果。然后,介绍了犹豫模糊集合理论来计算数学表达式之间的相似性,结果返回到文档处理模块。

文本模式的处理模块是用来计算数学表达式上下文之间的相似性。数学表达式的上下文中的文本数据集提取并用于pretrain XLNet。XLNet用于计算相似性查询文本和候选人的数学表达式上下文科学文档。

文档处理模块用于输出文档。设计文档属性,文档的得分犹豫模糊集,计算和排名结果输出在相似的降序排列。

3所示。相似性度量的多通道数学表达式

3.1。数学表达式图像模型的相似性度量
3.1.1。数学表达式图像识别

维特和变压器模型提出了文献[24- - - - - -26)处理问题和图像任务序列图所示2

模型由维特(24编码器与深残余网络(ResNet) (25]骨干和一个变压器26译码器。编码器用于特征提取和解码器用于图像中的数学表达式信息转换成乳胶形式。实验结果表明,双语的准确性评价替补(蓝色)是0.88。

3.1.2。数学表达式的图片相似

提出的犹豫模糊集(给了21,22)是用来衡量查询表达式和候选人表达式之间的相似性。加入犹豫模糊集的值是一个包含几个可能的隶属度值集。因此,可以从多个方面被评估的结果。这种方法避免了由于一个错误的现象。犹豫的人的程度在事务处理的过程中可以更客观的反映。

定义1。(犹豫模糊集)。让 是一个非空的,犹豫模糊集的定义 在哪里 代表一组可能的隶属度 ,这是一个子集的区间[0,1][21,22]。其中, 意味着评价属性,这可能是一个或多个。每组的评价属性包含多个评价指标。
FDS的相似性分析的数学表达式11,12]犹豫模糊集的计算。评价数学表达式的属性被定义为一个三 (27), 表达式的结构属性, 是操作符表达式的属性, 是表达式的操作数属性。计算表达式的结构和操作特点,分别。每个评价属性包含几个评价指标。通过设置各指标隶属函数查询表达式 和每个结果犹豫隶属度的表达式 每个属性的评估。
总之,犹豫模糊集评价属性 和犹豫模糊集的元素 构建基于上述属性。 , , 是相应的犹豫模糊隶属度函数的评价属性。
(1)结构属性

定义2。子公式权重分配方法(28)在传统的树索引结构被称为,国旗,长度,和运营商级的子表达式是用来取代结构的复杂性、长度、深度和传统方法中的节点。 在哪里 在这里, 是最低的形式标记位的当前的子表达式, 表达式的子表达式的旗帜, 子表达式的长度, 是整个表达式的长度, 子表达式是运营商的水平。当查询结果的子表达式出现几次,平均作为它的 属性值。
(2)操作符属性 在这里,BM25算法的隶属函数引用操作符指数: 这个公式可以分解成三个部分。第一个组件 表示数据库中的表达式的总数, 代表表情的总数,其中包含 第二个组件是在数据库中查询词的重量, 表示数据库中的操作符的频率,和 是经验参数。第三个组件是查询操作符本身的重量 代表查询的词频运营商在用户的查询,通常设置为1,缩短查询。 是一个经验参数。
操作数属性的评价 类似于操作符属性 ,所以不会重复描述。
(3)相似度计算 在哪里 评估价值和数量吗 代表j元素 ,分别。
,和一些检索结果和相应的犹豫模糊集如表所示1

定义3。让数学表达式对应的文档集
数学表达式相似度计算算法如下:

输入:一种乳胶的公认的数学表达式
输出:一组类似的数学表达式
(1) / /初始化特征向量数据库
(2) / /通过FDS解析
(3)
(4) ( )
(5) :
(6) / /结构属性成员值
(7) / /运算符和操作数属性成员值
(8) / /犹豫模糊集的
(9) / /表达式之间的相似性 转换成犹豫模糊集之间的相似之处吗
(10) 添加到表simexp
(11) 结束了
(12) 结束时
(13) 返回simexp
(14) 结束

3.2。数学表达式上下文相似性度量

XLNet [23)是一个广义自回归pretraining模型。文本文件中提取,三分之一的训练XLNet注释,以便更丰富的数学表达式的语义表示文本可以获得。主要结构如图3(假定分解订单3⟶2⟶4⟶1)。

相同的关键字在不同的上下文中可能有不同的含义,和文本信息,解释了数学表达式常常出现在表达式。文档中的例子是“寄生capacitance.html。“这个文档的表达 ,及其上下文“当两个导体在不同电位接近彼此,他们受到彼此的影响电场和储存电荷相反像一个电容器”和”C是导线之间的电容。”的含义“势”、“电荷,”和“电容”在其他情况下可能有不同的含义,和构造向量也不同。

本研究介绍了XLNet [23语言模型来生成词向量是丰富的语义。XLNet解决问题伯特不考虑屏蔽的单词和单词之间的关系,不是在培训过程中屏蔽;单词之间的独立性是不考虑。XLNet模型实现了一种新的基于自回归(AR)双向编码语言模型。当计算文本相似度,XLNet将充分考虑词的语义信息向量,因此,提高文本相似度计算的准确性。

TF-IDF算法用于提取关键词及其权重的数学表达式。通过分析大量的科学文献研究中,数学表达式的上下文是用于分析数学表达式并解释符号。可以看出,表达式的上下文密切相关的数学表达式,所以它是非常重要的提取数学表达式的上下文检索的数学表达式。上下文选择和关键词对应两个数学表达式如表所示2

4所示。计算科学文档的相似度

科学和技术文档的检索和排名是一个全面的测量与多个属性包括数学表达式和关键词。不同的科学文档有不同的含义,即使它们包含相同的公式。因此,犹豫模糊集是用来评估科学文档全面方式来达到最终的排序在这个研究。

定义属性的科学文档作为five-tuple ,在哪里 数学表达式的相似属性, 是关键词相似属性, 的相对位置属性表达式, 的频率属性表达式, 关键字的频率属性。科学的数学表达式和关键词文档评估。

定义4。 相对应的关键词设置吗 ; , 是这个词向量对应 和查询关键字

定义5。这个函数 用于计算相似性查询表达式,表达式的候选文档。 在哪里 代表数学表达式之间的相似性 查询的数学表达式 在候选人科学文档。

定义6。这个函数 是用来表达之间的相似性查询关键字 和关键字 在上下文。 在哪里 代表候选人科学中的关键词在文档中检索文档。

定义7。这个函数 是用来表达表达的位置 在文档中 在哪里 查询表达式的位置吗 首次出现在文档中 , 表示文档中包含的字符总数

定义8。这个函数 是用来表达查询表达式的频率 在文档中 在哪里 特征权重系数的数学表达式在文档的数量,通过计算表达式的数量在数据库中的所有文档。 代表的数量表达式在文档中 相匹配的查询表达式 , 代表总数的表达式中包含的文档

定义9。这个函数 是用来表达查询关键字的频率 在文档中 在哪里 特征权重系数的关键词在文档的数量,通过计算关键词的数量在数据库中的所有文档。 代表关键词在文档的数量 相匹配的查询关键字 , 表示文档中包含的关键字的总数

定义10。这个函数 用于计算科学文档检索结果的得分。 在哪里 结果文档的得分函数吗 当查询输入表达式和关键词 是五个评价文档的属性。 j最大的元素吗 ,分别。 是评估值包含在评估的数量属性 文档的属性如表所示3
检索结果的排序算法文档如下:

输入:科学的检索结果文档的文档集合
输出的排名顺序文件
(1) (结果):
(2) / /数学表达式相似性隶属程度的价值
(3)
(4) 位置( )/ /文档中的数学表达式的位置
(5)
(6) ,
(7) / /犹豫模糊集的
(8) / /文档之间的相似度转换成犹豫模糊集之间的相似度
(9) 返回
(10) 结束时
(11) 返回 DESC / /按照降序排序,返回结果
(12) 结束

5。实验过程和结果分析

5.1。实验数据

图像识别的数学表达式的一部分,我们使用im2latex - 100 k的数据集进行训练和测试。im2latex - 100 k数据集包含103556个图像不同的数学表达式。标签数据由数学表达式的乳胶格式。

科学文献检索和排名情况下,公共数据集Ntcir-MathIR-Wikipedia-Corpus (NTCIR),提取和31742个文档,其中包含518929个数学表达式。此外,中国科学文档(CSD)被添加到扩展数据集,其中包含10372个文档和121495数学表达式。

5.2。系统的实验
5.2.1。图像识别的数学表达式

图像识别算法模型(24- - - - - -26)是用于数学表达式识别图像并进行大量的实验不同类型的数学表达式图像在这个研究。根据蓝色的评价标准,模型结果达到0.88。

识别算法,选择五种不同类型的数学表达式图像识别和显示在这项研究中,和识别结果如表所示4(这里的形象表达的内容文本)。

5.2.2。烧蚀研究

十组公式和选择关键字表5作为检索查询。该方法包括三个主要部分,性能不断提高逐渐增加每个部分的功能。基线实验图像检索表达式。最后重新排序的最佳性能。本研究的平均召回率分别是77.4%和77.8%。精度,平均利率是66.3%和69.2%。所有人都如表所示6

5.2.3。表现NTCIR数据集

在本节中,与一些传统的方法相比,本文方法和目前现有使用NTCIR数据集的方法。FDS +字嵌入(10)结合FDS和字嵌入检索科学文档:FDS用于解析表达式,和字嵌入用于生成关键词的词向量在科学文档,以下简称方法1。和SearchOnMath29日)是一种数学公式检索工具,旨在准确匹配的数学表达式,然而,SearchOnMath实现纯粹的数学表达式检索和不考虑科学文档本身的重要信息,以下简称方法2。mia (4)是基于全文搜索引擎Apache Lucene。米娅和数学分别来处理文本。文本标记并阻止统一变形词形式,以下简称方法3。

在这项研究中,NDCG用于评估排名结果,这是常规心电图正常化后的搜索结果(折扣累积获得)。计算方法如下: 在哪里 在哪里 是搜索结果的数量, 相关性得分, 是最理想的 价值, 显示搜索结果都是相关的查询表达式。

表的查询公式和关键词5作为查询,本研究的方法和其他方法十大专家排名结果如图4。方法2开始于一个更高的价值比的方法在这篇文章中,但作为表达式检索数量的增加,该方法在本文中都是高于方法2。该方法的平均NDCG高于其他三种方法。和NDCG的平均值(n= 10)是0.865 NTCIR数据集在这项研究。排序性能的实验结果表明,该方法是更好的检索结果更为合理。

5.2.4。CSD性能数据集

在这一节中,本文中的方法是使用NTCIR数据集与方法1。中国科学文献(CSD)被添加到扩展数据集,其中包含10372个文档和121495数学表达式。实验结果如图所示5

可以看出,该方法的NDCG高于比较法研究。NDCG的平均值(n= 10)是0.88 CSD数据集在这项研究。这样的方法研究的结果更合理,检索和排序性能得到了改进。

5.2.5。检索系统

大量的实验进行不同的表情。第十选择搜索结果显示在这项研究。当输入公式的图像” ”,关键字是“泊松”,一些搜索结果如表所示7

首先,该方法在本研究中确定的乳胶形式公式P \离开({X =k}\右)= \压裂{{{\λ^ k}}} {{k !}}{e ^{- \λ}},“发现一个文档集合的公式,和XLNet模型用于获取矢量”这个词泊松”和文档关键字表达式上下文,以及它们之间的相似度计算。最后,根据关键字和配方信息,再次执行文档的相似度计算使用犹豫模糊集排序和输出。文件名是文档的名字表达所在地,分数是文档得分表7

6。结论

基于检索和排序的数学表达式结合图像和文本模式,本研究提出了一种多通道检索和排序方法基于HFS和XLNet科学文档。这种方法得到的乳胶结构信息通过图像识别算法和数学表达式可以解决single-modal问题科学文档检索。数学表达式之间的相似性是犹豫模糊集的评价,获得解决问题的统一评价传统的数学表达式。结合数学表达式的背景下,这句话具有类似查询关键词获得根据XLNet,丰富了数学表达式检索的单身问题。最后,属性之间的相似度的数学表达式和计算关键词的文档通过犹豫模糊集,使得检索结果的排序更合理科学的文档。

这种实验方法也有一些缺点。在未来,将考虑以下几点改进:(1)只有乳胶形式的数学表达式识别的结果进行了分析,以及不同形式的数学表达式(比如MathML)将进行分析(2)评价属性的文档将进一步改善,和评价属性的文档相似度会增加(3)只有图片和文本分析,试图将扩大多峰性更广泛和应用语音或视频检索

数据可用性

我们的数据仍需在下一阶段的学习,所以不方便直接提供它。这些数据可以通过电子邮件要求提供相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是在河北省自然科学基金的支持下,中国(没有。F2019201329),河北教育部门的科技项目(没有。QN2018214)。