智能学习对知识对地质资料图

文摘

知识图(公斤)作为一个受欢迎的语义网络得到了广泛的应用。它提供了一个有效的方法来描述语义实体和它们之间的关系通过扩展本体实体中的水平。本文主要关注公斤传统地质领域的应用,提出了一种新颖的方法来构造公斤。基于自然语言处理(NLP)和数据挖掘(DM)算法,我们分析这些关键技术设计一个公斤对地质资料,包括地质知识提取和语义关联。通过这个典型地质本体抽取大量的地质资料和开放的关联数据,语义实现互连,公斤地质资料的框架设计,应用系统的公斤向构造地质资料,并相应地完成地质信息的动态更新。具体地说,无人监督的智能学习方法使用相关公开数据纳入地质文件预处理,最终生成一个地质领域的词汇。此外,一些公斤系统中的应用情况,提供显示的有效性和效率提出了公斤智能学习方法。

1。介绍

地质数据的各种数据和信息积累的地质研究工作和实践活动。一般来说,地质资料的类型多种多样,包括地质资料、地质书籍、地质信息和期刊,物理标本,电子文件数据(1- - - - - -3]。由于技术原因,传统的存储模式可能导致低效的操作在查询,统计,和更新;然后他们不是有利于应用程序的检查,查询和采矿,这意味着较低的数据服务能力。

随着经济和社会领域的地质调查、地质数据共享服务已经成为一个重要的工具来衡量社会和企业管理的水平,这是重要的在确保地质工作的可持续发展。地质资料的特点包括增加体积,复杂类型,长的响应时间。针对地质应用程序问题、地质数据的智能分析和深度挖掘可以减少重复工作和地质调查的风险4,5]。

近年来,知识服务基于知识图(公斤)技术和语义网的搜索技术已经成为信息服务的一个研究热点。在这种情况下,公斤应运而生(6- - - - - -10]。画公斤并进行智能搜索基于公斤已经形成了一个成熟的方法。例如,在中国,搜狗知识多维数据集是第一公斤引入国内搜索引擎(11),这使得搜索结果通过集成的以大规模互联网支离破碎的信息,并提出了对用户信息的核心。百度正式开始新一代的百度搜索引擎技术基于其公斤(12]。有四个步骤的过程中构建公斤,包括命名实体采矿、属性-值对(avon)开采,采矿、上下关系和相关实体挖掘。虽然有一些成功的应用,但它仍然有发展的空间公斤,和应用程序还应进一步加强,特别是地质资料。

在这篇文章中,公斤施工技术应用于地质实现地质数据的智能分析和深度挖掘。知识通过无监督学习方法开放数据源,我们不仅实现自学习过程一组文件,但也形成一个地质学术语表并完成建设公斤。通过研究这一主题,促进地质资料信息和社会服务具有重要价值的实现智能地质调查。

本文的贡献如下:(1)的基础上开放数据和本体学习策略有关,我们实现无监督学习和地质知识提取地质文档。通过分词的处理步骤,网络爬虫,关键词提取,提取和关系,地质的处理文件,实现深部开采的地质信息。(2)通过使用地质数据样本,地质本体库,包括实体、地质字典,和语义联系。首先,我们分析地质数据的特点和获取地质本体基于地质知识提取。与此同时,考虑到地质资料的特异性,我们设计了相应的实体结合地质字典和其他特定的文件。其次,通过文档和网络爬虫的处理使用的在线百科全书,扩大字典的地质和完整的语义关系提出了互连。(3)公斤对地质数据和应用系统提出了浏览器/服务器(B / S)模式也实现了。通过语义关系的优化和知识库的存储,我们开发一个框架为应用程序的公斤对地质资料的基础上self-processing对地质和self-expanding技术文档。结合HTML5、JSP、Servlet、JDBC和其他先进技术、B / s模式应用系统公斤旨在实现文件的导入和处理,中间结果呈现,和专家干预。

本文的其余部分组织如下。部分2提供了一个分析背景有关地质资料的特点和公斤。公斤的智能学习计划的细节,包括框架、关键技术和算法,提出了部分3。此外,评价对我们开发公斤是在两个应用程序上进行实验部分4。最后,结论部分提供5。

2。背景

2.1。地质资料的特性

近年来,随着需求的增加地质数据生产单位和社会大众,地质资料服务正面临“数字化”和“社会化的双重要求。“有必要提高地质资料服务的内容和方法,促进政府部门适应形势的发展,实现档案的转换结果服务产品(13]。由于可重用性的特点,再加工,长期服务,在采矿业的数据信息,已积累多年来,可以称为“大数据。“一般情况下,地质资料主要由结构化和非结构化数据生成地质行为多样性。其特点概括为“5 v”,也就是说,体积,品种,价值,速度和准确性。

要求维护地质资料的类型和数量的增长与长期积累的数据。它包括各种类型的电子文件数据,例如文件、地图、数据库(地图数据库、空间数据库和属性数据库)、图片、图表、视频、音频,这可能是结构化、半结构式,和非结构化。由于技术原因,这种存储方式使得数据查询、统计、更新,和其他操作的数据不仅效率低下,而且也不利于应用程序,如检查、查询、和采矿,导致低能力的数据服务。因此,它是重要的,探索如何应用大数据的概念和技术组织大规模的地质资料在地质领域的有效,实现相应的服务14]。

一般来说,复杂地质非结构化数据的多样化的碎片是最显著的特征之一。主要有三个内容,反映到数据分析和挖掘处理,内容包括建立索引库,搜索和聚类推荐(15]。尽管它在这方面取得了一些成果16,17),随着智能地质调查所的发展,multicategory内容扩展的组织和搜索应用程序是基于地质领域本体将地质数据仓库建设的一个重要方向在未来18]。针对这方面,我们可以尝试使用基于公斤的语义链接技术消除歧义的搜索,可以利用搜索引擎搜索基于实体而不是字符串。此外,互联网也可以用来为公斤,提供丰富的资源,以实现大数据的语义联系,智能分析,采矿地质大数据的准确和有效。

2.2。知识图(公斤)

公斤也被称为科学知识图,知识域可视化和知识领域的地图。它是一系列的各种图形显示科学知识的发展进程与结构关系(19]。它可以描述知识资源及其支持者,挖掘、分析和建设并绘制和显示的知识以及它们之间的相互连接使用可视化技术(6,20.,21]。公斤是一个研究方法应用数学的理论和方法,结合图形,信息可视化技术,信息科学,和其他学科计量引文分析,同现分析,和其他方法来显示核心框架,发展的历史,前沿领域和学科的整体知识结构通过视觉图。它显示了动态发展的知识和复杂的领域知识通过数据挖掘,信息处理、知识测量和图形渲染。

大多数作品关于公斤源自谷歌公斤。它本质上是一个语义网络。节点表示实体或概念和边缘表示实体之间的各种语义关系和概念。此外,公斤的动机是由一系列的实际应用,包括语义搜索、机器回答,信息检索,电子阅读,在线学习。现在,一些公司,比如百度,搜狗,发起了自己的公斤。

我们的研究人员已经开发出许多应用程序公斤左右,说明不同的观点在他们的过程。例如,在视觉中国科学文献的分析的过程中,它显示了时间序列分布、期刊分布、作者分布的科学文献在过去30年里(22]。根据cocitation分析作者的报价在24种情报学核心期刊、信息科学的公斤是(23]。基于中国教育的例子,公斤是评估优秀科研机构通过词频分析、高频作者统计、高产作者合作网络,和其他方法24]。

除了上面的应用程序中,许多学者也开展了一些工作在公斤。钩表明公斤(即有四个目的。,discovery, understanding, communication, and education) and six aspects of application (i.e., microcosmic display of specific areas, macroscopic visualization of subject, assisting in the education course teaching, saving document knowledge in coordination, facilitating the use of digital library, and displaying knowledge dissemination) [25]。它表明公斤可用于显示领域知识的整体结构,分析检索结果可视化,把握学科的整体知识和演化情况的可视化知识,和把握知识的快速变化26]。与此同时,信息融合作为一个关键的问题在发展中扮演着重要的角色一公斤。为了处理这个问题,提出了一种新颖的方法通过结构化稀疏,范例提取不仅考虑重建能力和稀疏,而且多样性和鲁棒性27]。根据以往的工作,此外,联合内核稀疏编码模型被开发来解决多点触觉序列分类问题,在所有的编码向量被鼓励共享相同的稀疏支持模式(28]。

公斤应用近年来迅速增加,涵盖自然科学和社会科学的一些领域,并显示出其他学科渗透的倾向。画公斤和矿业公斤已经形成了一个高成熟的方法。然而,公斤的功能没有得到充分应用,和应用程序仍然需要进一步加强。到目前为止,只有很少有人注意到地质数据字段。因此,它是必要的和重要的考虑这些特定对象。

3所示。智能学习对知识图

3.1。该系统框架

公斤的建设对地质资料包含两个逻辑组件:知识提取和知识管理。前者主要通过无监督学习相应的地质知识处理和包括5个步骤,分词的频率统计,网络爬虫,提取关键字提取和关系。后者基本上是由两部分组成:知识图的存储和检索。具体流程如图1。

3.2。知识提取

知识提取的一个关键步骤的建设知识图,以及地质处理的文档。知识知识提取在本文中,通过一个无监督学习方法基于开放源码,和地质领域词汇和知识图将通过自动学习形成的大量的地质资料。流动的知识提取如图2。

知识提取有三个主要步骤,包括数据源分析、实体/概念提取,提取的关系。

3.2.1之上。的分析提供数据源

(1)文本。文本是最丰富的数据源。很难从文本由于他们学习知识类型的属性。在本文中,我们从图书馆获取大量的地质专业文献。

(2)网络百科全书。网络百科全书(例如,维基百科,百度百科,和Baike.com)是大规模允许用户编辑的自由百科全书几乎任何文章。通过网络爬虫等技术工具,我们不断从互联网获得知识百科全书,可以自动进行更新和扩展。

尽管百科全书的内容与网页的形式存在,仍有大量的结构化信息。因为所有的百科全书有自己的分类系统,分类标签用于组织大量的条目。一般来说,每个条目类别标签,标签可以用于自己的类型。另外,大多数的条目有多个标签。例如,“史蒂夫·乔布斯”的分类标签可能是“20世纪的美国商人,”“美国亿万富翁”,“美国计算机行业的人,”和其他维基百科。

本文主要关注中国信息网络百科全书。维基百科被认为是互联网最大的和最受欢迎的参考书。然而,中国在维基百科的内容并不完美。一方面,条目的总数是不够的。在维基百科上,文章的内容也相对较短,其中部分是直接从其他语言翻译,这是缺乏确切地表达在中国。因此,我们使用Baike.com而不是维基百科作为网络爬虫的数据源。

3.2.2。实体/概念提取

实体/概念提取主要从这两个数据源。我们可以过滤掉实体或直接通过结合地质信息的概念与分类标签文本处理后的Baike.com。因此,实体/概念提取包括四个自下而上的步骤:分词,频率统计信息,网络爬虫,关键字提取。

HanLP技术可用于分词,停止词过滤,和频率统计信息。出于TextRank算法,本文中使用分词如下。首先,我们使用标准HanLP记号赋予器来处理文件,分为不同词性的单词。其次,自定义数据字典设计和扩展阻止列表。最后,我们过滤掉这个词与检索内容基本无关,只保留指定的词性TextRank算法的方法。与此同时,我们也过滤掉停止词,从而达到关键字提取的影响。

在网络爬虫方面,我们主要考虑爬在互联网百科全书条目的分类标签自动化工具硒,可以打开HtmlUnit浏览器,搜索条目,并通过编程访问类标签信息定制。具体来说,在线百科全书爬虫的方法如下。当我们想要得到的信息“:“我们应该先打开我们的浏览器。然后,我们搜索和开放接口的“百科全书”。我们可以通过XPath终于找到并保存类别标签元素。

关键字提取,根据地质字典分类标签,我们可以完全确定分割结果中的词属于地质关键词。通过维基百科分类标签的统计特征,我们提取一些关键词,包括地理、采矿、海洋、摇滚、水文、环境、自然灾害、生物学、城市,空气、油、道路、植物、能源、冶金、和公民。我们把所有爬分类标签映射集合。通过调用containsKey地图的方法,我们可以确定收集到的对象是否包含关键词,如果答案是肯定的,这个对象被定义为一个地质实体。

3.2.3。关系抽取

关系提取的目的是提取nontaxonomic关系数据挖掘和关联规则分析的网络百科全书。两个地质术语之间的相关性是通过关联规则分析。和术语的类别关系是通过爬行网络百科全书。

关联规则的基本原理是,如果两个概念或实体经常出现在相同的单位(例如,文档、一个段落或句子),我们可以确保它们之间存在某种关系。我们不关心具体的两个概念之间的语义关系,但它们之间的相关程度。因此,判断两个概念之间的关联程度通过同现分析文档中是更重要的。与处理文档的数量的增加,将会有更高的相关程度如果这两个概念经常出现在一起。这种方法也是出于人类阅读和学习的过程。然而,这种方法只适合用于处理大量的文件;当文档的数量很小,这种方法将是低效的。

同时,爬行的互联网百科全书的目的是获取概念和实体之间的关系,利用开放数据源的在线百科全书。正如上面提到的,这里我们主要考虑范畴的关系。

使用上面的两个方法,我们关系提取的规则如下。相关程度而言,我们关系的程度为每一个概念,初始值的是。在处理一个文档之后,所有的单词出现在文档之间的相关性是增长了1。的价值更新一次,每次处理文档的过程。此外,每个概念都有分类标签作为他们的财产。

3.3。知识管理

知识管理考虑如何展示了知识可视化的方式通过上面的步骤。主要技术方法是数据库存储和检索。

3.3.1。数据库存储

考虑到地质领域的实际需要,系统使用MySQL数据库作为后台数据库。MySQL数据库是一个最好的在web应用程序中,关系数据库管理系统具有体积小、存储和检索速度快,成本低。

在我们的系统中,实体和关系被处理地质文档存储在一个特殊的数据库。通过JDBC技术,后台数据库操作,如CRUD,是允许的。有五个表在我们的数据库中。表“文章”存储文档处理的信息,包括标识、名称、添加时间、本地存储路径的文件。表“单词”存储的信息过滤掉的话从分割的结果,包括标识、内容、频率,和单词的分类标签。表“re_words_words”商店两个地质条件之间的关联信息。

这些在我们的后台数据库表的属性表1。


表名	属性1	属性2	属性3	属性4	属性5

“文章”	ID	内容	日期	路径	- - - - - -
“单词”	ID	内容	频率	标签	- - - - - -
“re_words_articles”	ID	ID1	ID2下	频率	- - - - - -
“re_words_words”	ID	ID1	ID2下	ID3	数
“字典”	的名字	标签	- - - - - -	- - - - - -	- - - - - -

3.3.2。知识图检索

检索后只能由用户将从文档中提取的知识存储在我们的数据库中。基于B / S模式工作,浏览器发出post请求用户输入搜索词后的后端服务器。与此同时,后端服务器响应请求,提交的话,需要渲染节点的数目(默认值设置为20)。检索词将检索的关键节点和在我们的数据库中。然后,它将结果返回给浏览器。返回的内容包括ID、内容和分类标签的节点和相关文档的ID。

3.3.3。公斤的后台管理系统

公斤的后台管理系统旨在促进的过程文档和数据库对用户的操作,主要包括登录页面、地质资料处理页面,页面和专家干预。

两种登录模式可以选择当用户进入登录页面在浏览器中输入URL。用户可以进入地质文档处理页面如果以管理员身份登录。用户也可以输入专家干预如果登录的页面作为一个专家。浏览器提交表单,包括名称,密码和登录模式。随后,用户授权将检查服务器,用户可以输入相关的页面后验证。

在地质资料处理的页面,用户可以输入文档名称和存储路径。和背景模块得到用户提交的表单数据时,点击“提交”按钮。后台模块进入阶段的文档处理和结果存储在后台数据库如果所有这些输入数据是有效的。在页面上的专家干预,专家们有权添加和删除两个词之间的相关性。例如,当添加一个相关性,专家们在输入框中输入这两个词并点击按钮“提交。“浏览器提交这两个词后台模块,和后台模块法官它们之间是否有关联。如果协会不存在,后台模块添加一个相关性,定义为“expert-defined。”

3.4。关键算法

公斤的原型系统向地质大数据设计和相应的使用B / S架构和实现HTTP协议,其中包括自然语言处理(NLP),数据挖掘,web应用程序开发和其他相关的技术。涉及的关键技术和解决方案在系统开发的过程描述如下。

3.4.1。中国自动分割技术:HanLP

HanLP Java工具包由一系列的模型和算法,其目标是促进NLP的应用程序在生产环境中。HanLP支持中文分词。它的功能包括CRF最短路径分词,分词、索引分词和用户定义的字典。具体地说,它们是命名实体识别,关键字提取,提取,拼音转换,简化之间的转换和复杂,依赖解析(即。MaxEnt依赖解析,CRF依赖解析)。HanLP的特点是完美的功能,高效性能,清晰的架构,新的语料库,是可定制的。

(1)TextRank算法。使得中文分词使用TextRank主要包括分词、删除停用词,和迭代投票。TextRank中文分词的基本思想如下:将原始文本分成句子,每个句子过滤撤军,只保留指定的词性的词。从中,我们可以得到一组句子和一组单词。然后将每个单词中的一个节点TextRank通过矩阵迭代收敛的方法(29日]。设置窗口大小,我们假设一个句子是由下列单词: 在哪里都在一个窗口。有一个无向和未加权的边缘之间的任何两个词对应节点在一个窗口。

使用上面的组合图,我们可以计算出每个单词的重量节点。然后,TextRank算法的迭代公式如下: 在哪里是一个阻尼因子,一个给定的节点,节点的集合点(前辈),节点的节点集吗点(继承人),节点的重量吗。

(2)用户定义的字典。HanLP分词支持自定义词典的功能,我们的自定义词典设计如图3。

我们添加了大量的单词,可以帮助地质文件自定义的分词词典有效。这里,“CustomDictionary”包括21742年地质,31926年“OrganizationDictionary”包括机构名词,“ChinesePlaceDictionary”包括90558地名,“PeopleNameDictionary”包括50192个人的名字,和“ModernChineseDictionary”包括207964现代中国更多的单词。其中,“CustomDictionary”是一个字典定义为全球用户可以添加,删除和影响所有分词。

3.4.2。基于硒的互联网百科全书履带

我们的分析的基础上,上面提到的,它是有效和高效的在线百科全书爬虫技术整合到地质资料的处理流程,这需要单词的分类标签通过分词在维基百科。履带的主流方法是使用URL地址实现网可以通过深度或广度优先搜索策略。这里的网站,我们需要爬是固定的(例如,http://www.baike.com/),我们已经有了目标词(即。分词的结果)。然后,它可以自动爬虫技术介绍。在这里,我们使用硒自动爬虫。

硒浏览器自动化测试主要用于web应用程序的自动化测试,同时支持所有基于web管理任务自动化。通过将Selenium IDE插件嵌入到浏览器,一个简单的浏览器操作的录制和回放功能可以实现。

应该注意的是,硒提供了一个高度快速和方便的方式来固定网络爬虫。在这里,我们使用硒控制HtmlUnit, Java有虚拟浏览器,自动爬虫的目的。具体过程主要包括打开HtmlUnit浏览器,阅读一个搜索词”,通过打开的百科全书接口检索检索词,“分类标签根据XPath的类别标签元素,最后关闭浏览器。

实现细节的互联网百科全书履带如下:(1)打开HtmlUnit浏览器:静态最终WebDriver司机= new HtmlUnitDriver ()(2)打开界面的搜索词”:driver.get (" http://www.baike.com/wiki/ " + n)(3)定位标签元素:

列表 WebElement 元素= driver.findElements (By.xpath (“/ / dL [@ id = ' show_tag '] / dd / "))

3.4.3。Java Web开发基于Servlet和Java服务器页面(JSP)

Java Servlet是一种Java程序,扩展服务器的功能。尽管servlet可以应对任何类型的请求,他们通常实现应用程序驻留在web服务器。这些Web servlet Java与其他动态Web内容的技术,如PHP和ASP.NET。

Servlet通常用于处理和存储一个Java类在Java EE符合Java Servlet API,一个标准的Java类实现响应请求。servlet可以通过任何clientCserver协议进行通信,但是他们常常使用HTTP协议。所以,“Servlet”通常是用作“HTTP Servlet速记。“因此,软件开发人员应该使用一个Servlet将动态内容添加到web服务器通过使用Java平台。生成的HTML内容,但是这可能是其他数据,如XML。servlet可以维护状态会话变量在许多服务器事务通过使用HTTP cookie或url重写。

servlet可以从由JavaServer pages JSP编译器自动生成的。在架构上,JSP可以被视为一个Java servlet的高级抽象。它允许Java代码和某些预定义的行为与静态web标记内容交叉,如HTML,结果页面是在服务器上编译和执行交付文档。在运行时JSP转换为Servlet,每个JSP Servlet缓存直到修改原来的JSP和重用。

servlet可以完成以下任务:(1)web容器初始化Servlet实例;然后Servlet实例可以读取数据,提供了HTTP请求。(2)Servlet实例可以创建并返回一个页面动态响应给客户端。(3)Servlet实例可以访问服务器的资源,如文件和数据库。(4)Servlet实例可以准备JSP动态数据并创建一个响应与JSP页面。

在这篇文章中,servlet及其主要功能,我们设计在com。servlet包如表所示2。


Servlet名称	关键功能

“Myservlet.java”	用于检索公斤,它让用户提交的表单数据和检索它们。
“Myservlet2.java”	用于第二次检索。当点击一些词的页面,用户可以得到这个词的图。
“LoginServlet.java”	它是用于登录后台管理系统的函数公斤,它得到了用户提交的表单数据并输入响应页面。
“AddServlet.java”	使用它在页面添加一个关系专家干预。
“DelServlet.java”	使用时删除关系专家干预页面。
“CoreServlet.java”	它同时显示中间处理用于地质文件。

总之,我们的系统的软件平台和开发环境如下。操作系统Windows 7。编程语言是Java。编程环境是MyEclipse 10。Tomcat + Severlet + JSP Web开发环境。网络爬虫环境硒+ HtmlUnit。

4所示。实验和评价

4.1。处理一个文档

处理一个单一的地质记录如图4。我们可以看到,作为管理员进入用户日志文档处理页面。然后,用户输入的名称和存储路径文档并单击submit按钮。后台模块被管理员提交的表单数据并确定是否存在这个文件在当地的道路。后台模块进入阶段的文档处理当所有的输入数据都是有效的。文档将被转换成一个长字符串。后台模块会减少HanLP的分词,过滤掉停止词,并选择出地质术语。中级处理后的结果显示在文档处理页面。

文档处理使用类似的方法在30.]。

以下4.4.1。分割的结果分析

(1)一些细分的结果在我们公斤系统如图5。后翻译从中文到英文,图的更新版本5如图6。(2)一些细分的结果由NLPIR系统北京理工学院(31日),这是一个流行的NLP系统,如图所示7。后翻译从中文到英文,图的更新版本7如图8。

根据过程(30.),一些细分的结果在我们公斤系统显示在图5。与此同时,图6显示了一些NLPIR系统分割的结果。通过比较这两个数据,我们可以发现,结果在我们的系统更有价值和满意的处理。例如,这些地质术语,如“华北陆块(华北克拉通)”、“高于庄组(Gaoyuzhuang形成)”、“下马岭组(Xiamaling形成)”、“铁岭组(铁岭)形成”和“吕梁运动(吕梁运动),“我们公斤系统可以准确地将分词。然而,在NLPIR系统中,许多地质术语不准确。

4.1.2。词频统计

词频统计结果如图9。后翻译从中文到英文,图的更新版本9如图10。我们可以看到,我们的系统可以统计词频正确分割的结果集,如“杨庄组(杨庄组)/ 13”、“下马岭组(Xiamaling形成)/ 8”、“长石石英砂岩(长石石英砂岩)/ 1”和“同位素年龄(同位素年龄)/ 1”。

4.1.3。关键字提取

图11显示关键字提取的结果。我们通常认为术语中包含标题和字幕基本上是文档的关键字。因此,关键词提取的结果图11包括关键位置”华北陆块(华北克拉通),“三个关键地层单位”高于庄组(Gaoyuzhuang形成),”“杨庄组(杨庄组)”和“下马岭组(Xiamaling形成),“关键地层单位”元古界(元古代界),“主要地层关系”不整合面(顶)。“总之,我们的关键字提取有令人满意的结果。

4.1.4。网络百科全书履带

结果分类标签爬的互联网百科全书(http://www.baike.com/)如图12分割结果集,包括地质术语和类别标签。后翻译从中文到英文,图的更新版本12如图13。

4.2。搜索在公斤

具体检索过程的公斤如图14。从这个图我们可以看到,第一步需要做的是用户输入检索词并点击“搜索”按钮。背景模块得到用户提交的表单数据并集的关键节点。此外,背景模块检索数据库过滤的术语关系程度与前20名的关键节点(默认),显示在图。

4.2.1。准备比较不同的检索处理阶段

(1)处理一个地质文档后,检索的结果”变质岩(变质岩)”是在图15。(2)处理100年地质文档后,检索的结果”变质岩(变质岩)”是在图16。

数据15和16显示公斤检索的结果。橙色节点代表了检索词变质岩(变质岩)”。The blue nodes represent the terminologies, which have a top-20 relational degree with the orange node, such as “同位素年龄(同位素年龄)”和“砂岩(砂岩)。“当鼠标放在一些节点,我们可以获得它的ID和分类标签。

从两个检索处理阶段的比较,我们可以看到的结果公斤日益完善,越来越多的文件处理。当处理文档的数量是1,检索结果与检索词几乎没有相关性。然而,当号码是100,我们可以得到实体有非常密切的关系”变质岩(变质岩)”,如“花岗岩(花岗岩)”、“岩浆(岩浆)”和“火山岩(火山岩)。”

此外,我们可以从上面的结果得到以下信息。(1)前20名地质术语与“变质岩(变质岩)”。(2)每一个地质术语的分类标签。(3)这两个单词出现的ID文件。

4.2.2。搜索更多的单词

此外,一些复杂的短语和句子也可以正确处理。例如,当输入“侵入岩和沉积岩(侵入岩和沉积岩),“后台模块可以减少分割成两个字”侵入岩(侵入岩)”和“沉积岩(沉积岩),“检索,得到的术语关系程度与前20名的关键节点。结果如图17。

类似地,我们可以从上面的结果得到以下信息。(1)我们可以得到前20名地质术语与“侵入岩(侵入岩)”和“沉积岩(沉积岩)。”(2)我们可以得到每个地质术语的分类标签公斤。(3)我们可以得到这两个单词的文档ID出现。(4)检索两个字的时候,我们可以得到这两个单词的文档出现,达到挖掘隐含的相关文件。(5)此外,我们可以看到以下几点:(我)的“侵入岩(侵入岩),“存在”之间的连接线侵入岩(侵入岩)”和“花岗岩(花岗岩)”,这意味着它们之间存在着高度的相关性。然而,之间没有连接线”侵入岩(侵入岩)”和“泥岩(泥岩)”,这意味着它们之间存在一个低相关。(2)的“沉积岩(沉积岩),“存在”之间的连接线沉积岩(沉积岩)”和“泥岩(泥岩)。“然而,之间没有连接线”沉积岩(沉积岩)”和“花岗岩(花岗岩)。”

地质专业人员知道”泥岩(泥岩)”是一种“沉积岩(沉积岩)”和“花岗岩(花岗岩)”是一种“侵入岩(侵入岩)。“因此,”之间有高度的相关性侵入岩(侵入岩)”和“花岗岩(花岗岩)”以及“沉积岩(沉积岩)”和“泥岩(泥岩)。“所有的结果我们可以看到从100公斤是我们获得学习信息处理后的文档。通过这个例子,我们可以表明我们的公斤系统在大多数情况下可以提供有价值的和准确的信息。更多的文件过程中,我们可以得到更精确的相关性从公斤系统。

4.2.3。地质领域词典的形成

当处理地质文档,新的地质术语和分类标签来自网络爬虫。他们被添加在我们扩大地质领域词典。

在我们的实验中,原始地质领域的单词字典是11062。处理100个文档后,地质字典的单词数量是13227。一些地质领域词典的结果在图18,包括地质术语及其相应的分类标签。

5。结论

本文提出了一种新颖的方法来构建公斤对地质资料。该方法使用非监督学习方法与相关公开数据处理地质文件和直接提取知识。因此通过这种方法,我们实现一个有效的自主学习过程文档,形成地质术语表,并完成建设公斤基于文档的技术处理和字典扩大。此外,我们设计一个应用系统的公斤基于B / S模式工作。最后,测试大量的地质资料,取得了一些令人满意的结果。在未来的工作中,针对地质数据的特点,公斤的知识提取方法进一步改进,以得到更准确的实体和关系。

相互竞争的利益

作者宣称没有利益冲突有关的出版这篇文章。

确认

这项工作是支持的部分为公益性行业科研专项资金项目从中国的国土资源部授予201511079和中国国家关键技术研发项目拨款2015 bak38b01。

引用

t·张,y Du, t·黄和李x”随机模拟的地质数据使用等距映射和多点地质统计学和数据整合,“应用地球物理学杂志卷。125年,14-25,2016页。视图:出版商的网站|谷歌学术搜索
m·g .龙格m . s . Bebbington j·克罗宁,j·m·林赛和m . r . Moufti”集成地质和地球物理数据改善概率风险预测的阿拉伯盾火山活动,“火山和地热研究杂志》上卷。311年,41-59,2016页。视图:出版商的网站|谷歌学术搜索
l .张“k - means算法的改进及其应用在地质勘探地震资料分析,“岩土工程的电子杂志,20卷,不。12日,第4434 - 4423页,2015年。视图:谷歌学术搜索
朱y, y, r·李和x罗,“Cyber-physical-social-thinking建模和计算服务系统的地质信息,”诉讼的第四届国际会议上识别、信息和知识在物联网(IIKI 15)2015年10月,北京,中国。视图:出版商的网站|谷歌学术搜索
x罗,d, l·t·杨,j . Liu x Chang和h .宁,”一个内核基于机器的安全数据传感和融合方案cyber-physical在无线传感器网络系统中,“未来一代计算机系统卷,61年,第96 - 85页,2016年。视图:出版商的网站|谷歌学术搜索
d . Le-Phuoc h . Nguyen茂Quoc h .非政府组织Quoc t . Tran一和m . Hauswirth认为“事物的图:一步生活知识图连接的东西,“网络杂志的语义卷,37-38 25 - 35,2016页。视图:出版商的网站|谷歌学术搜索
d . Danciulescu和m . Colhon”系统的基于分层图知识表示。应用自然语言的一代。”喀尔巴阡山脉的数学杂志,32卷,不。1,49 - 62年,2016页。视图:谷歌学术搜索|MathSciNet
A . Ballatore m . Bertolotto, d . c .威尔逊“structural-lexical衡量geo-knowledge图形的语义相似度,”ISPRS国际信息杂志》上,4卷,不。2、471 - 492年,2015页。视图:出版商的网站|谷歌学术搜索
李c, n ., a .汗,x,和r . Elmasri“实体元组查询知识图例子,”IEEE工程知识和数据,27卷,不。10日,2797 - 2811年,2015页。视图:出版商的网站|谷歌学术搜索
b . Kamsu-Foguem d·诺伊斯,“基于推理在工业维护、协同知识管理”计算机在工业领域,卷64,不。8,998 - 1013年,2013页。视图:出版商的网站|谷歌学术搜索
ZhiLiFang,http://baike.sogou.com/v66616234.htm。
BaiduZhiXin,http://yingxiao.baidu.com/product/site/zhixin/。
m·m·歌,z,周b, c·l·李,“大地质数据处理,云计算模型”应用力学和材料卷,475 - 476,306 - 311年,2014页。视图:出版商的网站|谷歌学术搜索
曹m和l .陆”,非参数检验的地质模型基于大数据混合的父母,“ICIC表达字母,9卷,不。9日,第2498 - 2491页,2015年。视图:谷歌学术搜索
h . j . c . Li Li, a .锣和d,“大数据应用程序体系结构和关键技术的智能地质调查,“中国地质通报,34卷,不。7,1288 - 1299年,2015页。视图:谷歌学术搜索
p . Vermeesch和大肠Garzanti”,使得地质沉积的“大数据”的来源分析,“化学地质学卷。409年,日相较2015页。视图:出版商的网站|谷歌学术搜索
g .严雪,k .小j . Chen j .苗族和h . Yu,”一个地质调查局大数据分析的主要问题,“中国地质通报,34卷,不。7,1273 - 1279年,2015页。视图:谷歌学术搜索
x l·c·l·吴g . Liu, z . w .他和z . t .张,“讨论地质科学大数据及其应用,”科学通报,卷61,不。16,1797 - 1807年,2016页。视图:谷歌学术搜索
问:刘、李y h .段y . Liu和z秦,“图施工技术知识,”Jisuanji yu Fazhan /计算机研究与发展,53卷,不。3、582 - 600年,2016页。视图:出版商的网站|谷歌学术搜索
f . h . Liu, b方,x张“机器人room-level本地化使用多套声纳测量,”IEEE仪表和测量,卷66,不。1、13、2017页。视图:出版商的网站|谷歌学术搜索
f . y . h . Liu Yu太阳,j .顾“视觉和触觉融合目标识别,”IEEE自动化科学与工程,没有。99年,1-13,2016页。视图:出版商的网站|谷歌学术搜索
z . y .刘b和c。张,“回顾30年的研究方法在中国科技期刊文章的文献计量分析,“在科学技术哲学的研究没有,卷。31日。4、82 - 89年,2014页。视图:谷歌学术搜索
赵y、y z沙”,信息科学知识映射分析研究:基于ACA,”图书馆论坛,28卷,不。6,63 - 69年,2008页。视图:谷歌学术搜索
j·m·唐“描述性研究优秀的科学组织基于bibliometric-setting国民教育课程为例,“情报杂志卷,29号4,5 - 9,2010页。视图:谷歌学术搜索
p . a .钩”域地图:目的、历史与制图,和应用程序,”第11届国际会议信息可视化学报》(IV ' 07)2007年7月,瑞士苏黎世。视图:出版商的网站|谷歌学术搜索
y, p . j . h, s . a .布朗和h·陈,“知识映射为快速发展的领域:设计科学的方法,”决策支持系统,50卷,不。2、415 - 427年,2011页。视图:出版商的网站|谷歌学术搜索
h·刘,刘y和f .太阳,“健壮的范例使用结构化稀疏编码,提取”IEEE神经网络和学习系统,26卷,不。8,1816 - 1821年,2015页。视图:出版商的网站|谷歌学术搜索|MathSciNet
郭d·h . Liu, f .太阳,“使用触觉测量对象识别:内核稀疏编码方法,”IEEE仪表和测量,卷65,不。3、656 - 665年,2016页。视图:出版商的网站|谷歌学术搜索
a·奥尔特曼和m . Tennenholtz“排名系统:PageRank公理,”电子商务诉讼ACM的会议,1 - 8,2005页。视图:谷歌学术搜索
y .问:什么,孟r, s . x Ma l·李和g·l·吴“地质特征的顶在元古代滇池流域北部的华北块及其构造意义,”地球科学前沿,17卷,不。4、112 - 127年,2010页。视图:谷歌学术搜索
自然语言处理和信息检索(NLPIR)共享平台,http://www.nlpir.org/。

科学的规划

科学编程实现一个智能的世界

文摘