首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。  相似文献   

2.
邱芹军  田苗  马凯  谢忠  金相国  段雨希  陶留锋 《地质论评》2023,69(1):2023010005-2023010005
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。本文在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

3.
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

4.
陈忠良  袁峰  李晓晖  张明明 《地质论评》2022,68(1):2022010001-2022010001
地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。  相似文献   

5.
基于深度信念网络的地质实体识别方法   总被引:1,自引:1,他引:1  
张雪英  叶鹏  王曙  杜咪 《岩石学报》2018,34(2):343-351
地质实体作为地质信息表达的核心要素,对其准确识别是地质文本数据挖掘和应用的重要基础。本文通过分析各种类型文本数据中地质实体信息的描述特点,构建了地质实体信息的标注规范和语料库,设计了基于深度信念网络(Deep Belief Networks)的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题。以矿产资源地质调查报告为实验数据,对本文的地质实体识别方法性能进行了评估分析。结果表明,深度学习模型能够在较小规模语料库的基础上,达到较好的地质实体识别性能。  相似文献   

6.
实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。  相似文献   

7.
储德平  万波  李红  方芳  王润 《地球科学》2021,46(8):3039-3048
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNN-BiLSTM-CRF模型,基于预训练字向量构建深层BiLSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比BiLSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.   相似文献   

8.
落叶松毛虫害的大规模爆发导致了森林生态系统和经济的严重损失,快速、准确地对落叶松毛虫害发生区域进行识别具有重要的意义。本研究采用知识图谱技术,对与森林虫害相关的敏感特征进行筛选,并综合利用多源数据,分别构建3种不同数据组合的随机森林模型,对研究区内落叶松毛虫害发生区进行遥感识别。结果表明:1)依据图谱构建流程可以实现知识图谱构建及筛选,本研究实现了构建森林虫害遥感识别特征图谱,并筛选了中国东北地区落叶松毛虫害的遥感识别特征;2)知识图谱与遥感技术手段相结合,能够为构建虫害识别模型提供有效特征;3)与单一数据源相比,基于多源数据的落叶松毛虫害识别效果更好,本研究综合使用Sentinel-1A、Sentinel-2A和地形数据的总精度和Kappa系数分别为92.78%,0.876 6。  相似文献   

9.
知识图谱使用人与机器能共同理解的语言,以"图"的方式来描述真实世界,是人工智能研究的重要方向之一.本研究是构建单体矿床、成矿系列和重要成矿区(带)的知识图谱实验的一部分,收集了钦杭成矿带6个较为典型的斑岩铜矿、斑岩-夕卡岩型铜矿的原始文本数据,参照斑岩铜矿床概念模型进行知识获取,标注、抽提文本中的实体、关系、属性,构建...  相似文献   

10.
将具有多元异构性和复杂语义的矿床数据转化为结构化数据,是目前矿产资源勘查大数据领域面临的关键问题。传统的机器学习方法无法精确描述实体概念、属性及其属性值的语义信息,导致多源异构数据的可解释性较差。因此,可解释性的知识图谱已成为当前研究的热点。然而,当前矿床领域本体构建研究仍相对匮乏,这阻碍了矿床知识图谱的研究。本文聚焦于矿床领域的概念、关系、属性描述,结合知识工程、叙词表、复用前人本体及专家知识,采用基于知识工程和基于顶层本体相结合的本体构建方法,使用本体开发工具Protégé构建了以时空矿床文本为基础的矿床领域本体库,实现了矿床知识概念、关系的系统化、规范化、形式化表达。然后运用Neo4j构建本体库知识图谱,并以庞西垌多金属矿床为案例,将矿床本体与矿床数据进行了知识图谱连接,展示了矿床本体作为知识图谱骨架的重要性。本文研究对下一步矿床知识图谱推理分析具有一定的指导意义。  相似文献   

11.
以中国寒区旱区特有的自然背景为研究基础,将40多年针对寒区旱区自然资源、生态环境、工程建设、经济建设等研究中积累的大量的特色数据进行分类。从方便数据采集和数据应用出发,将专业特色数据以关系数据、空间数据、二进制数据和文本数据的形式分三级数据库群结构组建成寒区旱区资源环境研究特色数据集。从共享机制和共享技术两方面对数据共享的几个主要因素进行了说明。同时就如何在以高性能计算和网络为核心开展深层次的数据服务方面,从数据平台建设、基于Web的远程计算和数据网格3个方面进行了尝试。  相似文献   

12.
RGMAP系统数据管理与质量监控   总被引:1,自引:0,他引:1  
介绍了RGMAP系统的数据流程、管理、再现及质量控制与评价体系指标.该系统与传统区域地质调查模式有较大区别.RGMAP通过采用GIS数据可视化及数据库技术使得对地学数据的管理与编辑更加方便、高效.数据质量的定量检查与人工检查相结合的质量控制与评价体系,对区调数据质量的监控变得更加有力.  相似文献   

13.
"973"计划资源环境领域数据汇交进展与数据分析   总被引:3,自引:0,他引:3  
国家科技计划项目数据汇交对于促进科学数据的整合集成,增强国家科技投入的效益,提高我国科技计划项目管理水平具有重要意义。经过充分研究,科技部基础司选择国家重点基础研究发展计划(973计划)资源环境领域作为试点,于2008年启动数据汇交工作,并专门成立数据汇交中心。2008年,按照数据汇交计划制定、数据汇交准备、数据实体汇交、数据共享服务4个阶段的工作流程,分"已结题"、"即将于2008年结题"和"在研"3种类型开展汇交工作,完成了24个结题项目的数据汇交,汇交数据总量超过620 GB。为了保证数据汇交的可操作性和规范化,数据汇交中心制定了包括核心元数据规范、数据文档格式等7项标准规范;研制了数据汇交软件工具;建立了海量数据存储环境;设计开发了数据汇交共享服务网络平台。面向数据服务进一步的需要,分析了已汇交数据情况,具体分为5种类型,即定点长期监测和野外定点调查类、区域调查和统计分析类、模型计算类、试验化验分析类、客观或主观描述类,并提出了相应的数据展示策略。  相似文献   

14.
RGMAP的多源数据应用模式研究   总被引:1,自引:0,他引:1  
RGMAP数字地质调查系统在区域地质填图中,为实现物、化、遥等多源数据间的综合分析提供了基础平台.在分析当前数据融合于地学中的应用基础上,结合RGMAP的功能特点,介绍了该系统的应用方式和应用前景.  相似文献   

15.
目前的地震安全性评价数据管理方法过于陈旧,不利于数据的查询和再利用。通过对这一问题的深入分析,针对安评数据的多元性特点,结合GIS的优势,提出了利用GIS技术对地震安全性评价数据进行管理的方法,并设计出了数据库管理系统的基本框架。该系统的建立,将为地震安全性评价数据管理、查询和再利用提供便利。  相似文献   

16.
对东川区汤丹铜矿矿业权实地核查中,单矿业权成果数据容易出现的问题进行分析研究,总结出矿业权实地核查单矿权数据检查的方法与重点。  相似文献   

17.
地球观测数据卫星分发系统(GEONETCast)借助通信卫星,把从地面站点、航空和航天平台获取的观测数据、产品传送给广大的用户。GEONETCast当前由CMACast,EUMETCast和GEONETCast Americas 3个区域系统组成,作为地球观测组织(GEO)提出的全球综合地球观测系统(GEOSS)的全球地球观测数据和信息卫星分发系统,旨在满足9个社会受益领域的用户需求。GEONETCast建立在现有区域系统之上,利用GEO的协调机制,共同确定GEONETCast系统的整体计划和要求。各区域系统在科研项目和业务建设的支持下,不断发展完善。未来要保障GEONET-Cast健康、良性和可持续的业务运行,还需要加强4个方面的工作:①区域系统之间的互相通信;②保持GEONETCast的开放性和动态性,发展更多的数据提供者提供地球观测数据;③发展更多的数据使用者;④数据政策。  相似文献   

18.
The advent of the Virtual Observatory has begun an evolution in the space physics data environment. A number of nascent and discipline specific Virtual Observatories have started to emerge with an emphasis on data search and retrieval. As this new data environment takes shape an emphasis will be placed on interdisciplinary communication in attempts to address large scale and global problems. To this end we formulate the development of a query language to facilitate Virtual Observatory to Virtual Observatory communication. Furthermore, we outline the goals of such a language, how it would work and how existing community efforts can be leveraged to speed the development of this query language.
T.W. NarockEmail:
  相似文献   

19.
福建省数字地震台网是我局“九五”期间的重大项目。它是利用了中国地震局“八五”攻关项目所研制的地震计、数采以及系列软件建设起来的。现有 2 9个子台、3个中继站以及台网中心组成。在信道传输上充分利用了DDN专线与无线扩频微波相结合的传输方式 ,在台网运行过程中 ,各种线路或仪器故障时有发生 ,下面就故障现像与个人维修经验做个总结。  相似文献   

20.
Scientific data are strategic resources, and the aggregation of scientific data is an important method to seize the upstream and competitive highlands of scientific data. Notably, it is challenging to grasp the international situation and the scientific laws concerning the mode of scientific data aggregation; exploring the modes and methods of scientific data aggregation that are suitable for China's national conditions is also difficult. This paper investigated and analyzed the modes of scientific data aggregation both at home and abroad from the viewpoints of international organizations, international scientific programs, government agencies, and professional data centers. Five modes of scientific data aggregation were summarized, including scientific research projects converging to designated data centers/repositories, scientific research projects dispersing to data centers/repositories, individual scientists submitting datasets to data centers/repositories with published papers, scientific research projects/individual scientists sharing directories/networks, big data computing/processing platform, and citizen science models of open and public convergence. This paper analyzed each mode and the corresponding cases. On this basis, the paper put forward six suggestions for the reasonable aggregation of scientific data in China, including the implementation of the “Measurement of Scientific Data Management”, certification of data aggregation centers, scientific data collection and publishing in journals, construction of data aggregation networks, aggregation of international resources, and construction of the whole data aggregation chain.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号