研究文章|开放获取
Xingsi Xue,Haolin Wang,杰张,yikun黄,静音李,海朱, "用Word2Vec和对准提取算法匹配运输本体",高级运输杂志, 卷。2021., 文章的ID4439861, 9 页面, 2021.. https://doi.org/10.1155/2021/4439861
用Word2Vec和对准提取算法匹配运输本体
抽象的
智能交通系统(ITS)的发展面临集成多个无关源的数据的挑战。作为其知识集成的核心技术之一,本体通常提供可用作信息集成参考的运输领域的规范性定义。然而,由于领域专家的主观性,可以以多种方式表示概念,产生本体异质性问题。本体匹配(OM)是一种解决它的有效方法,这有助于进一步实现基于本体的互联的相互通信。在这项工作中,我们首先建议使用Word2VEC来模拟矢量空间中的实体并计算它们的相似性值。然后,提出了一种稳定的基于婚姻的对准提取算法以确定高质量的对准。在实验中,通过使用OAEI和实际运输本体的基准跟踪来测试提案的性能。实验结果表明,我们的方法能够获得比OAEI的参与者和其他最先进的本体匹配技术更高质量的对准结果。
1.介绍
运输领域的数据复杂,变化[1- - - - - -3.]。这些数据来自各种数据收集方法,如交通传感器,调查和设备[4]。因此,智能交通系统(ITS)的发展面临集成来自多个无关源的数据的挑战[5- - - - - -7]。这些数据在语义上是不精确的,概念性地模糊和信息。作为其知识集成的核心技术之一,本体通常提供域知识的正式和规范的定义[8- - - - - -10]。它们通过在域中定义相关概念以及概念之间的关系来实现基于本体的合作[4]。但是,由于领域专家的主观性,概念的概念可能以多种方式表达[11,12]。为了实现基于本体的基于本体的相互通信,重要的是确定异构本体之间的逻辑关系[13]。本体匹配(OM)是解决语义异质性问题的重要技术[14,15],它致力于在不同的本体中发现相关实体(例如,类和属性)之间的对应关系[16]。因此,使用本体匹配技术来解决运输本体的现有语义异质性是有效的。
近年来,研究者们提出了大量的本体对齐策略,并开发了各种半自动或自动化的本体匹配系统[17- - - - - -19]。但是,现有的本体匹配方案具有许多缺点:匹配的本体本体性相似性计算,本体提取效率低下,映射结果等。为了解决这些缺点,我们首先建议使用Word2VEC [20.]为了模拟矢量空间中的实体,计算它们的相似性值,并使用维基百科培训数据来提高模型的普遍性和对准的质量。此外,提出了一种稳定的基于婚姻的本体提取算法以提高对准质量。
本文剩下的内容如下。节2,我们简要描述了本体匹配与运输数据的应用。部分3.详细介绍了本体和本体匹配。节4,我们使用Word2Vec模型开发了一个本体匹配系统。我们提出了基于Word2Vec的相似度测量和稳定的婚姻基于本体提取算法5和6.节7描述了实验结果和分析。最后,在一节中提供了结论和未来工作8.
2.相关工作
本体匹配非常适合解决从交通数据中的语义模糊性和大数据量引起的问题[21- - - - - -23]。Benvenuti等。[24]集成的嬗变本体和KPIONTO,以促进公共道路监控系统的研究。Transmodel是关于欧洲公共交通信息系统的参考数据模型,代表交通本体及其关系。Bermejo等。[25],为了避免在交通网络中使用中心决策点,提出将每一辆车视为一个本体,并赋予其推理能力。在应急交通控制中,系统中的每一辆车都是一个决策点,考虑相邻车辆的状态和位置,并与相邻车辆实时协作以达成一致。总的来说,本体为运输领域的知识开发提供了一种说明性的方法,可以以多种方式支持集成信息。本体工程方法可以极大地帮助运输中的标准化工作。
最近,通过Word Embedding的Word2Vec模型计算单词“相似性和相关性的技术已成为研究热点,并且逐渐应用于本体匹配的领域。薛和潘[26]建模了矢量空间中的本体,然后使用实体的语言信息来减少维度,这提高了相似性计算和实体匹配的效率。张等人。[27介绍了本体论匹配领域的单词嵌入技术,并提出了一种混合方法,该方法将单词嵌入到元素之间的语义相似性中。纹身和萨培斯[28]提出了一个基于Word2VEC矢量的语言模型,用于本体映射问题。该模型在特定本体关系的基础上延伸。语言的语义用于匹配本体,而不考虑单词或特定术语的形式。可以看出,使用Word2Vec模型计算语义相似性是可行的。至于对准结果提取,提出了大量匹配方法,研究人员通常需要整合多种策略来提高对准的质量。为了更好地提取匹配结果,在这项工作中提出了一种稳定的婚姻的本体提取算法,这进一步提高了匹配的性能。
3.本体和本体论匹配
本体是关于域知识的概念化规范性描述[29- - - - - -31]。具体地,本体规范地定义了域中的类,属性,其他实体[32,33]以及它们之间的关系。数字1显示道路事故中的本体[34]。矩形框中的单词是类,例如“Ting”,“车辆”和“保险公司”。空心箭头表示两个类之间的结构关系,例如“官方机构”是“保险公司”的子类,“道路事故”是“事件”的子类。黑色箭头表示描述两个类之间关系的属性。然而,可以在不同的本体中以多种方式构建相同的实体,从而产生本体之间的语义异质性问题。
为了说明匹配问题,在两个简单的本体之间匹配的结果O和o'如图所示2.图中的两个本体有类、属性和实例的描述。类以矩形显示。基于结构的关系显示为折线箭头。在O,“董事长”是“人”的专业化(Subclass)。对应关系显示为连接类的蓝色双箭头O类的o'并描绘他们的关系。有符号: , (或 ),和 ,这分别意味着脱节、更具体(或更不具体)和等价关系。例如,一个本体中的“Subject Area”与另一个本体中的“Topic”是等价的,而“Regular Author”与“Reviewer”是不相关的关系。
4. W2V-OM的框架
本文构建了本体匹配器(W2V-OM),使用Word2Vec模型计算两个实体的相似度值,如图所示3..训练Word2Vec模型的数据集是维基百科数据库中的英文维基百科文章[35]。语料库是普遍的,可以应对许多域中的语言处理问题。这些文本数据是非结构化的,并且需要预处理到结构化数据。培训模型后,解析了源传输本体和目标本体。从本体中提取的实体被馈送到Word2VEC模型中以计算余弦相似度并集成基于语言的相似度测量以产生相似性矩阵。然后,使用稳定的基于婚姻的本体提取算法获得本体映射结果。最后,基于参考对齐来评估本体匹配质量。
5.基于Word2VEC的相似度量
相似度测量是一个函数,其中两个本体实体的信息用作输入,输出[0,1]之间的实数以表示它们的相似度[36]。具体而言,结果越近1,它们越相似;结果越近0,它们越少。相似度措施是本体匹配过程的重要组成部分。利用不同的相似度测量会影响本体对齐的结果。在这项工作中,我们使用两类相似性措施来计算两个实体的相似性值,即使用Word2Vec模型来计算两个实体的相似性值和基于语言的度量和余弦相似度测量。
Word2VEC是一种语言模型自然语言处理(NLP),其中单词或短语表示为实数向量。类似的单词通常具有载体的附近,并且被映射到相同的区域,如图所示4.关于矢量空间中的本体论表示,这意味着本体的类或属性可以用矢量空间的尺寸表示。具体地,不同的类或属性在矢量空间中唯一地表示。矢量空间涵盖了两个本体中的所有类和属性。在这项工作中,矢量空间的尺寸由两个本体中的所有类和属性确定。Word2Vec模型使用维基百科英语语料库进行培训。每个实体表示为矢量空间中的向量,然后,使用余弦相似公式计算两个实体的相似性。该公式定义如下: 在哪里和分别是两个单词的向量和和和 ,分别表示它们的范数。
(一)
(b)
(c)
两个词之间的语言相似性是通过语义关系(同义词和反义词)计算的,这通常是通过字典和同义词列表来完成的。WordNet [37],一种基于单词语义信息构建语义网络的词汇数据库,用于计算相似性。两个词的语言相似性和是1。当和是Wordnet中的同义词;相似性是0.5何时和是WordNet中的上义词;在其他情况下,相似度为0。
这两个相似度度量产生两个相似矩阵,需要使用聚合策略将不同的矩阵集合成一个矩阵。在本工作中,我们采用了最大化策略来整合相似度度量,即选择两个相似度值中较大的一个作为最终的相似度值,这有助于保证对齐的完整性。
6.稳定的基于婚姻的对齐抽取
将相似性度量的计算结果整合到一个相似矩阵中。的我行和j此矩阵的列代表实体e如果和eTj在源本体中O年代目标本体OT,分别。矩阵中的值表示了两个实体的相似性。相似度越大表示两个实体等价的置信度越高,反之表示置信度越低。本文提出了一种稳定的基于婚姻的本体提取算法,该算法结合阈值策略获得更好的映射结果。具体步骤如下:(1)将矩阵中所有相似度值按降序排列,(2)记录位置 矩阵中最大相似度的,其中是最大相似性,(3)在同一行和列中设置值如为0,(4)重复上述三步,直到矩阵中所有相似值均为0。
数字5介绍使用该方法提取本体映射的结果。如图所示,最终提取六个实体对应关系,这是(eS,1,eT,1,0.95),(eS,2,eT,2,0.88),(eS,3,eT,3,0.6),(eS,5,eT,5,0.6),(eS,6,eT,5,0.6),和(eS,4,eT,40.1)。该算法在矩阵中所有相似度值为零时终止,可能会提取出一些相似度较低的实体对应。对于映射结果,这些低相似性是噪声。因此,这项工作包含了一个阈值策略。设置一个阈值参数,当相似度矩阵中的所有值都小于阈值时终止算法。假设阈值为0.5,即小于0.5的相似度是不可靠的。然后,相似矩阵提取结果为(eS,1,eT,1,0.95),(eS,2,eT,2,0.88),(eS,3,eT,3,0.6),(eS,5,eT,5,0.6),和(eS,6,eT,5,0.6)。
7.实验
7.1。实验配置
在实验中,使用运输领域的真实传感器本体以及本体对准评估计划(OAEI)提供的基准跟踪来测试我们的提案的性能。基准测试库由不同域中的参考本体构建。基准轨道中的每个测试用例包含要匹配的两个本体(目标本体和源本体)以及用于评估本体匹配的有效性的参考对齐。使用的真实传感器本体是OSSN,SN,SOSA和SSN。桌子1给出了基准测试用例的详细描述,并在表中简要介绍了传感器本体2.为了评估本体论匹配的质量,以下是本体对齐度量的传统定义: 在哪里和表示分别对准结果的准确性和完整性,以及是谐波的意思和去平衡它们。
|
||||||||||||||||
|
||||||||||||||||||||||||
7.2。与OAEI参与者的比较
数字6- - - - - -8在召回,精度和F测量方面,分别介绍了W2V-OM和OAEI的参与者的比较。在图中,横轴表示测试箱ID,纵轴表示对准的评估度量,并且图例表示不同的匹配系统。如图所示,W2V-OM在召回和F测量方面高于其他OAEI的参与者。关于精确度,我们的方法在大多数情况下,我们的方法优于其他参与者。总之,在这项工作中提出的W2V-OM的性能优于OAEI的参与者,并可以确定高质量的本体对齐。
7.3。与最先进的本体匹配器的比较
在传感器本体对齐方面,采用了四种流行的基于WordNet相似度的本体匹配器作为比较组[37],相似性洪水(SF)[38],Jaro-Winkler距离[39Hevenshtein距离[40]。桌子3.显示传感器本体对齐的实验结果。从实验结果可以看出,W2V-OM在四个真实传感器本体匹配任务中优于其他方法,这表明了我们方法的有效性。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
由于我们的方法使用Word2VEC将本体映射到向量空间中,因此通过计算两个实体的向量余弦角来导出相似度。该模型完全考虑基于字符串的相似度测量并获得高相似性。在映射结果提取过程中,匹配实体的相似性值应该是同一行和列中的最大值,这意味着这两个实体是最佳的对齐。通过使用稳定的婚姻策略将具有来自相似性矩阵的较大相似性值的实体对应关系来提供匹配器的性能。总而言之,与其他匹配者的比较展示了所提出的方法的有效性。
8.结论和未来的工作
匹配传输本体的目的是确定所有异构实体对。为此,本文首先利用Word2vec对向量空间中的实体进行建模,并使用余弦相似度度量来计算两个实体的相似度值。然后,利用稳定的基于婚姻的对齐提取算法来确定高质量的对齐。实验结果表明,与先进的本体匹配器和OAEI参与者相比,该方法可以获得更高质量的对齐结果。
在未来,我们将采用更先进的相似度度量来改进本体相似度结果。我们还希望将本体扩展到交通领域,如道路交通管理本体和道路事故本体。由于交通本体匹配需要特定的对齐和知识背景,需要提出特定的技术和策略来提高匹配质量。
数据可用性
支持本研究结果的数据可根据要求从通讯作者处获得。
利益冲突
作者声明他们没有利益冲突。
致谢
福建省自然科学基金资助项目(no。国家自然科学基金资助项目(no. 61801527, no. 61103143);福建省“十三五”教学改革专项(no. 2020J01875);福建省第三批终身教育重点项目(FBJG20190156);ZS20033)、福建师范大学协和学院2020年科研创新团队2018年度福建省大学优秀青年科研人员奖励计划(no. ZS20033);2020- td -001);福建师范大学协和学院2020年科研项目;KY20200203)。
参考
- Y. Liu,X. Weng,J.Wan,X. Yue,H.歌曲和A. V.Vasilakos,探索智能城市运输系统的数据有效性,“IEEE通讯杂志,卷。55,不。5,pp。26-33,2017。查看在:出版商的网站|谷歌学术
- F. Ali,D.Kwak,P.Khan等人,“使用Word嵌入和基于本体的主题建模的运输情绪分析”以知识为基础的系统,卷。174,pp。27-42,2019。查看在:出版商的网站|谷歌学术
- L.朱,F. R. Yu,Y. Wang等,智能交通系统的大数据分析:调查,“IEEE智能交通系统汇刊第20卷,没有。1, 383-398页,2018。查看在:谷歌学术
- M. Katsumi和M. Fox,“运输研究的本体论:调查”运输研究部分C:新兴技术,卷。89,pp。53-82,2018。查看在:出版商的网站|谷歌学术
- 学术界。陈,F.-J。黄,H.-Y。龚,“基于数据聚类的垃圾收集车辆出行时间预测系统”,Ieice交易信息和系统,卷。e102.d,没有。7,pp。1374-1383,2019。查看在:出版商的网站|谷歌学术
- 学术界。陈,“公交系统到达时间预测方法”,IEEE物联网杂志,第5卷,第4卷。5, pp. 4231-4232, 2018。查看在:出版商的网站|谷歌学术
- C. H. Chen,F. Song,F. J. Hwang和L. Wu,“基于神经网络的概率密度函数发生器”Physica A:统计力学及其应用,第541卷,1-10页,2020年。查看在:出版商的网站|谷歌学术
- 学术界。陈,“一种基于细胞探针的车速估计方法,”电子,通信和计算机科学基础上的Ieice交易,卷。e103.a,没有。1,pp。265-267,2020。查看在:出版商的网站|谷歌学术
- C.江和Xue,“一种统一的匹配书目本体论遗传遗传算法,”应用智力,第1-16页,2021年。查看在:谷歌学术
- X. Xue和Y. Wang,“基于NSGA-II的本体对齐,”信息科学学报第41卷,第2期。1, pp. 58-70, 2015。查看在:出版商的网站|谷歌学术
- 潘建生,宋鹏程,朱顺昌,彭永杰,“改进的紧密型布谷鸟搜索算法在无人机物流中心选址中的应用,”数学第8卷第2期。3, 1-19页,2020年。查看在:出版商的网站|谷歌学术
- X. Xue和J. Zhang,“匹配基于中央概念的分区算法和自适应紧凑型进化算法的大规模生物医学本体,”应用软计算,卷。106,pp.1-11,2021。查看在:出版商的网站|谷歌学术
- H.刘,Y.王和N.Fan,“一种大规模全球优化的混合深度分组算法”IEEE进化计算汇刊,卷。24,不。6,pp。1112-1124,2020。查看在:出版商的网站|谷歌学术
- X. Xue,X. Wu,C.江,G. Mao和H.朱,“与全球和局部对准提取集成传感器本体,”无线通信和移动计算,卷。2021,物品ID 6625184,10页,2021。查看在:出版商的网站|谷歌学术
- X. Xue,“一种用于匹配生物医学本体的紧凑型萤火虫算法”知识和信息系统,卷。62,pp.1-17,2020。查看在:出版商的网站|谷歌学术
- 薛晓,杨超,蒋超等,“基于实体关联学习的本体对齐优化,”复杂性,卷。2021,物品ID 5574732,12页,2021。查看在:出版商的网站|谷歌学术
- X. Xue和Y. Wang,“使用Memetic算法例如Coreference分辨率”IEEE关于知识和数据工程的交易第28卷,第2期。2, pp. 580-591, 2015。查看在:谷歌学术
- X. Xue和Y. Wang,“通过MemetFeaule和一致的改善率通过迭代算法优化本体对齐,”人工智能,卷。223,pp。65-81,2015。查看在:出版商的网站|谷歌学术
- X. Xue,H. Yang,J. Zhang,J. Zhang和D. Chen,“一种自动生物医学本体荟萃匹配技术”网络智能,第4卷,第4期。3,pp。109-113,2019。查看在:谷歌学术
- K. W.教堂,“Word2Vec”,自然语言工程,卷。23,不。1,pp。155-162,2017。查看在:出版商的网站|谷歌学术
- X. Xue,J.Lu和J. Chen,“使用NSGA-III来优化生物医学本体对齐”,“CAI智能技术交易,第4卷,第4期。3, pp. 135-141, 2019。查看在:出版商的网站|谷歌学术
- S. FAN,Z. Hua,V.C. Storey和J. L. Zhao,“基于过程本体论的过程,在商业过程建模中缓解语义模糊”,“数据与知识工程第57-77页,2016年。查看在:出版商的网站|谷歌学术
- J. C. -W.林,Y. Shao,Y. djenouri和U. Yun,“Asrnn:一种经常性的神经网络,具有序列标记的注意模型”以知识为基础的系统,卷。212,p。106548,2021。查看在:出版商的网站|谷歌学术
- F. Benvenuti,C. Diamantini,D. Potena和E. Storti,“基于本体的框架,支持在公共交通系统中进行性能监测”,“运输研究部分C:新兴技术,卷。81,pp.188-208,2017年。查看在:出版商的网站|谷歌学术
- A. J. Bermejo,J.Villadangos,J.J.J. Astrain,A.Córdoba,“基于本体的道路交通管理”,智能分布式计算vi,卷。446,pp。103-108,2013。查看在:出版商的网站|谷歌学术
- X. Xue和J. S. Pan,“概述了基于进化算法的本体匹配,”信息隐藏与多媒体信号处理杂志,卷。9,不。1,pp。75-88,2018。查看在:谷歌学术
- Y. Zhang,X. Wang,S.Lai等,“与Word Embeddings匹配的本体论,”计算机科学讲义,施普林格,柏林,德国,2014。查看在:出版商的网站|谷歌学术
- N.Teslya和S. Savosin,“与基于Word2Vec的神经网络相匹配的本体,”计算科学及其应用 - 2019年ICCSA,斯普林斯,柏林,德国,2019年。查看在:出版商的网站|谷歌学术
- T. R. Gruber,“朝着用于知识共享的本体设计的原则,”国际人计算机研究杂志,卷。43,不。5-6,pp。907-928,1995。查看在:出版商的网站|谷歌学术
- G. Bella,F.Gichongia和F.McNeill,“语言和域名意识轻量级本体匹配”网络语义学杂志,第43卷,第1-17页,2017。查看在:出版商的网站|谷歌学术
- P. Ochieng和S. Kyanda,“大规模本体匹配”,ACM计算调查,卷。51,不。4,pp。1-35,2018。查看在:出版商的网站|谷歌学术
- L.OTEO-Cerdeira,F.J.Rodríguez-Martínez,A.Gómez-Rodríguez,“本体论匹配:文献综述,”具有应用的专家系统,卷。42,不。2,pp。949-971,2015。查看在:出版商的网站|谷歌学术
- P. Shvaiko和J. Euzenat,“本体论匹配:最先进的艺术和未来挑战”IEEE关于知识和数据工程的交易,卷。25,不。1,PP。158-176,2011。查看在:谷歌学术
- J.Barachina,P.Garrido,M. Fogue等,“Veagon:旨在提高道路安全安全的车辆事故本体,”网络与计算机应用第35卷,没有。6,页1891-1900,2012。查看在:出版商的网站|谷歌学术
- L. Denoyer和P. Gallinari,“维基百科XML语料库,”XML检索评估倡议的国际研讨会,施普林格,柏林,德国,2006。查看在:谷歌学术
- W. Gao,M. R. Farahani,A. Aslam和S. Hosamani,“本体相似性测量和本体测绘的远程学习技术”,集群计算第20卷,没有。2,pp。959-968,2017。查看在:出版商的网站|谷歌学术
- c .编辑“WordNet”,本体理论与应用:计算机应用,春天,柏林,德国,2010年。查看在:出版商的网站|谷歌学术
- S. Melnik,H.Garcia-Molina和E.Rahm,“相似性洪水:一种多功能图形匹配算法及其在架构匹配中的应用”第18届国际数据工程国际会议的诉讼程序, 117-128页,美国加州圣何塞,2002年2月。查看在:谷歌学术
- W. W. Cohen, P. Ravikumar和S. E. Fienberg,“名称匹配任务的字符串距离度量的比较”,IIWeb,卷。3,pp。73-78,2013。查看在:谷歌学术
- V. I. Levenshtein,“能够纠正删除,插入和逆转的二进制代码”,Soviet物理Doklady,第10卷,不。8,第707-710页,1966。查看在:谷歌学术
版权
版权所有©2021 xingsi xue等。这是分布下的开放式访问文章知识共享署名许可如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。