首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
章文琦  刘远刚  李少华  于金彪  史敬华  张昌民 《地质论评》2024,70(3):2024030034-2024030034
地质命名实体识别是识别地质文本中的地质实体并分类到准确的地质概念中的一项地质知识智能抽取任务,也是构建地质领域知识图谱的关键技术之一。本研究针对地质命名实体识别领域中复杂实体识别精度不足和样本标注成本较高这两大挑战,构建了一种地质实体识别模型BERTwwm-BiLSTM-Attention-CRF,该模型通过改进的预训练层BERTwwm并在模型中加入Self-Attention模块,显著提升了复杂地质实体的识别精度,对地质实体识别的精度达到92.67%的精确率,94.21%的召回率,以及93.29%的F1值。同时,为降低标注成本,提升小规模数据集的识别精度,本研究优化了模型构建流程,采用模型辅助标注方法,加快数据集的标注速度;改进简单数据增强方法,并利用地质字典有效扩充数据集,降低了人工标注的难度。经过实验证明,本研究提出的改进方法提高了地质实体识别效果,为地质文本分析提供了一种高效且经济的解决方案,有助于推动地质领域知识图谱的构建和地质信息的智能化处理。  相似文献   

2.
基于深度信念网络的地质实体识别方法   总被引:1,自引:1,他引:1  
张雪英  叶鹏  王曙  杜咪 《岩石学报》2018,34(2):343-351
地质实体作为地质信息表达的核心要素,对其准确识别是地质文本数据挖掘和应用的重要基础。本文通过分析各种类型文本数据中地质实体信息的描述特点,构建了地质实体信息的标注规范和语料库,设计了基于深度信念网络(Deep Belief Networks)的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题。以矿产资源地质调查报告为实验数据,对本文的地质实体识别方法性能进行了评估分析。结果表明,深度学习模型能够在较小规模语料库的基础上,达到较好的地质实体识别性能。  相似文献   

3.
实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。  相似文献   

4.
金矿实体关系的智能识别是提高金矿文献分析挖掘和知识提取的重要方法和途径.此次研究针对目前金矿实体关系抽取涉及到的核心问题,如金矿实体关系复杂、 人工标注信息少等特点,提出了基于BERT(Bidirectional Encoder Representations from Transformer)的远程监督关系抽取模型....  相似文献   

5.
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

6.
邱芹军  田苗  马凯  谢忠  金相国  段雨希  陶留锋 《地质论评》2023,69(1):2023010005-2023010005
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。本文在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

7.
储德平  万波  李红  方芳  王润 《地球科学》2021,46(8):3039-3048
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNN-BiLSTM-CRF模型,基于预训练字向量构建深层BiLSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比BiLSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.   相似文献   

8.
对来源不同的地质对象进行关联匹配,并通过模型对其结构、属性及语义关系进行表示是后期语义查询及聚类等任务的重要支撑。文章针对地质调查空间实体与外部文本描述语义异构、表达差异等问题,提出了一种基于注意力机制的孪生网络地质调查空间实体与文本描述信息关联匹配模型。首先,将地质调查空间实体的属性信息转换成为文本段落,以句向量基本粒度对地质空间实体进行文本语义编码;接着将两类文本对象映射到统一向量空间中,并输入到孪生网络中进行特征学习,最后在构建真实数据集上进行模型性能的实验测评。结果显示,该模型能够较好表示地质调查空间实体句子语义信息,其识别F1值相比基准实验提高了8.4个百分点,优于选取的对比方法。  相似文献   

9.
时间信息贯穿于地质现象和事件产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程.特别是,地质时间表达通常与成矿内在机制和时空演化规律有关.设计并实现了基于深度学习的通用时间和地质时间信息抽取方法.结合地质矿产文本中时间信息的描述特点,将时间信息划分为通用时间信息与地质时间信息两种类型,并对两种时间信息类型进行细分;基于自主研发的“交互式矿产信息标注软件”,采用交叉验证及意见反馈模式构建了地质时间信息语料库;实现了基于双向长短期记忆神经网络—条件随机场(BiLSTM-CRF)的时间信息抽取方法;并与主流的卷积神经网络(CNN)和条件随机场(CRF)模型的抽取结果进行了比较.实验结果表明,基于双向长短期记忆神经网络—条件随机场的时间信息抽取效果最好,对总体时间抽取的F1值达到95.49%,较好地解决了地质文本中时间信息的规范化表达和结构化抽取问题.  相似文献   

10.
陈忠良  袁峰  李晓晖  张明明 《地质论评》2022,68(1):2022010001-2022010001
地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。  相似文献   

11.
地质调查正在从"数字化"走向"智能化",需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取.地学命名实体和关系联合提取是当前研究的难点和核心.本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取.首先,通过收集数字地质填图工作中的剖面测量...  相似文献   

12.
邱芹军  段雨希  田苗  吴麒瑞  马凯  陶留锋  谢忠 《地质论评》2024,70(2):2024020022-2024020022
地质图件及其附属资源(如描述文本)作为地质知识的重要存储媒介,蕴含着大量的地学知识及专家经验知识及隐式知识。快速精准地对多模态地质数据进行知识规范化定义、形式化表达、语义化关联和精准化推理是目前地学知识抽取及挖掘的前沿。当前,海量的地学数据中图件及附属描述信息知识分布零散,图件中的信息无法有效地与描述信息进行关联并提供知识服务。本文以多模态地质数据为数据源,建立了多源数据驱动下的地质图知识表达模型,通过地质基础知识、规则知识及决策知识来表达图件中蕴含的显隐式地质知识,从语义、空间、属性三个维度表示地质对象间的关系;并基于领域知识针对地质图件及描述信息开展了地质实体及关系的精准抽取及存储研究,最后以江西省于都县银坑幅G50E011007图幅150000矿产地质调查矢量数据为例进行了验证与分析,实验结果验证了本文所提出的知识表达模型及知识抽取方法, 能够较好地解决地质知识建模中图文关联弱、知识挖掘不充分等问题。  相似文献   

13.
何紫兰 《地质与勘探》2020,56(1):190-197
依托常规GIS技术的建模手段不能满足复杂地质体三维实体建模的需求,其建模效果在真三维建模、实体模型应用等方面受限。本文根据复杂地质体的特征,将复杂地质体分为层状的连续型非倒转地质体、非连续型(断裂)地质体、倒转褶皱地质体和非层状地质体。从三维实体建模的角度,提出数据拆分、数据控制、数据简化三种建模数据处理方法,并借助三维GIS的可视化技术与GOCAD真三维建模能力,研究基于GOCAD软件的复杂地质体三维实体建模方法,详细阐述了四类复杂地质体的具体实现方法,并构建三维实体模型。  相似文献   

14.
基于地质剖面构建三维地质模型的方法研究   总被引:5,自引:0,他引:5  
吴志春 《地质与勘探》2016,52(2):363-375
地质剖面是三维地质建模的重要数据源,运用地质剖面构建三维地质模型的方法应用较为广泛。在模型构建之前,统一确定模数据的坐标系和比例足,建立原始资料数据库。构建三维地质模型的关键是不同地质界面。本文详细介绍了模型边界面、断层面、地层界面、岩体界面等4种主要地质界面的构建流程与方法,尤其对褶皱构造、地层界面的断层效应、复杂岩体界面等的构建进行了重点阐述按模型边界面(模型的底界面和四周边界面)、DEM面、断层面、其他地质界面的顺序依次构建地质界面,构建断层面和其他地质界面时严格按先新后老的顺序。运用已构建好的地质界面按先新后老的顺序逐个、依次建立单个地质体,再将所有地质体的面模型组合成整个模型的面模型。通过对面模型进行网格(实体)填充和对网格赋予相应的属性值,最终构建三维地质模型。  相似文献   

15.
针对储层岩性种类繁多、交替频繁、组成复杂,传统方法识别精度低、效率慢的问题,本文提出一种多尺度时频空三域特征联合下的储层岩性识别方法。该方法在原始测井特征的基础上引入了互补集合经验模态分解(CEEMD)的多尺度频域分量,从而提高测井曲线的纵向分辨率。此外,构建了注意力机制优化的多尺度卷积双向门控循环神经网络(CNN-BiGRU-AT)模型,对加入了多尺度频域分量的测井数据进行时空特征提取,从而实现了对测井数据时、频、空三域特征的联合学习,最后以注意力机制优化了模型输出,减少了错误信息的传播。为了验证方法可靠性,本文选取了资料较为完整的5口井数据进行实验分析。结果表明,在不同数据组合的对比实验中,加入多尺度频域分量在训练集和验证集识别准确率分别提高了9.50%和8.66%。在与不同模型对比实验中,本文方法在样本识别准确率达到了94.11%,与支持向量机(SVM)、BP神经网络、卷积神经网络(CNN)、双向门控循环神经网络(BiGRU)和CNN-BiGRU融合模型相比,本文方法识别准确率分别提高了16.21%、14.54%、11.69%、5.05%、3.38%。  相似文献   

16.
基于改进三棱柱模型的复杂地质体3D建模方法   总被引:8,自引:0,他引:8  
建模方法是三维地质模型及其可视化研究的核心内容。针对连续体终止、错断位移等复杂地质体3D地质建摸的需要,本文对现有的三棱柱数据模型进行了改进,构建了完整的数据结构及其初步的拓扑关系,提出了基于改进三棱柱模型的连续体和不连续体的建摸算法,使其在处理地层尖灭、断层等复杂地质问题时更为灵活、适应面更广。  相似文献   

17.
知识图谱使用人与机器能共同理解的语言,以"图"的方式来描述真实世界,是人工智能研究的重要方向之一.本研究是构建单体矿床、成矿系列和重要成矿区(带)的知识图谱实验的一部分,收集了钦杭成矿带6个较为典型的斑岩铜矿、斑岩-夕卡岩型铜矿的原始文本数据,参照斑岩铜矿床概念模型进行知识获取,标注、抽提文本中的实体、关系、属性,构建...  相似文献   

18.
三维地质模型构建方法的研究及应用   总被引:25,自引:3,他引:22  
地质体三维建模是地学信息系统的核心问题之一.对三维GIS及地学领域的空间构模方法的现状进行分析,结合地质体工程特点,提出一种三维地学空间构模方法--似三棱柱(STP)法.该方法以似三棱柱体作为三维地质体建模的基本体元,并采用5类基本元素和6组拓扑关系对似三棱柱体的数据结构进行描述.它能有效地表达各种三维地质现象,也可以更好地与传统的多层TIN模型结合,维护好空间实体的拓扑关系.基于本文的建模方法开发了一个适合地质领域的三维GIS初步原型,并用实际钻孔数据进行了验证.  相似文献   

19.
顾及拓扑面向实体的三维矢量数据模型   总被引:7,自引:1,他引:6  
拓扑关系数据模型和面向实体的数据模型是两种典型的三维矢量数据模型。拓扑关系数据模型在表达复杂的地理实体的局部更新等方面存在一定的困难,而面向实体的数据模型存在拓扑关系处理复杂,存贮量大等缺点。针对这两个模型的优缺点,设计一个顾及拓扑面向实体的三维矢量数据模型,这是一种综合面向实体和拓扑关系的混合数据模型。这种模型具备了面向对象以及拓扑关系模型的优点,解决了地上三维景观、TIN和城市三维地质等应用对数据模型的要求。  相似文献   

20.
杨辰  毕奔腾  周立新 《中国岩溶》2021,40(3):548-554
岩溶领域通过地质调查和科学研究积累了大量的成果资源,资源之间的关联关系更加复杂,传统的关键词检索模式已不满足用户获取知识的需求。为实现知识层面的数据检索,利用数据挖掘技术进行岩溶实体抽取与关系计算,以岩溶术语为核心,基于知识图谱构建岩溶知识发现系统,实现岩溶地质成果、期刊、论文、图书、标准、项目、专家等实体的智能语义搜索和关联导航,最大化的挖掘数据的潜在价值,为用户提供精准知识服务,提升了用户体验。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号