首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
地质调查正在从"数字化"走向"智能化",需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取.地学命名实体和关系联合提取是当前研究的难点和核心.本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取.首先,通过收集数字地质填图工作中的剖面测量...  相似文献   

2.
邱芹军  田苗  马凯  谢忠  金相国  段雨希  陶留锋 《地质论评》2023,69(1):2023010005-2023010005
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。本文在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

3.
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

4.
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。  相似文献   

5.
金矿实体关系的智能识别是提高金矿文献分析挖掘和知识提取的重要方法和途径。此次研究针对目前金矿实体关系抽取涉及到的核心问题,如金矿实体关系复杂、人工标注信息少等特点,提出了基于BERT(Bidirectional Encoder Representations from Transformer)的远程监督关系抽取模型。并通过金矿地质数据编码、金矿分类和金矿地质实体过滤等模块的优化改进,提高了金矿地质实体关系抽取的准确率。最后通过对金矿文献数据的实体关系抽取实验,验证了该方法的有效性。   相似文献   

6.
储德平  万波  李红  方芳  王润 《地球科学》2021,46(8):3039-3048
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNN-BiLSTM-CRF模型,基于预训练字向量构建深层BiLSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比BiLSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.   相似文献   

7.
实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。  相似文献   

8.
邱芹军  段雨希  田苗  吴麒瑞  马凯  陶留锋  谢忠 《地质论评》2024,70(2):2024020022-2024020022
地质图件及其附属资源(如描述文本)作为地质知识的重要存储媒介,蕴含着大量的地学知识及专家经验知识及隐式知识。快速精准地对多模态地质数据进行知识规范化定义、形式化表达、语义化关联和精准化推理是目前地学知识抽取及挖掘的前沿。当前,海量的地学数据中图件及附属描述信息知识分布零散,图件中的信息无法有效地与描述信息进行关联并提供知识服务。本文以多模态地质数据为数据源,建立了多源数据驱动下的地质图知识表达模型,通过地质基础知识、规则知识及决策知识来表达图件中蕴含的显隐式地质知识,从语义、空间、属性三个维度表示地质对象间的关系;并基于领域知识针对地质图件及描述信息开展了地质实体及关系的精准抽取及存储研究,最后以江西省于都县银坑幅G50E011007图幅150000矿产地质调查矢量数据为例进行了验证与分析,实验结果验证了本文所提出的知识表达模型及知识抽取方法, 能够较好地解决地质知识建模中图文关联弱、知识挖掘不充分等问题。  相似文献   

9.
陈忠良  袁峰  李晓晖  郑超杰 《地质论评》2023,69(3):2023030017-2023030017
岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这一现象?深成侵入岩为显晶质,自形—半自形粒状结构,块状构造,其分类的依据是其矿物成分及相对含量。大别山地区岩浆活动广泛,中生代深成侵入岩广泛出露。岩石类型包括超镁铁质岩类、辉长岩类、闪长岩类、正长岩类、二长岩类和花岗岩类,基本覆盖IUGS推荐的深成侵入岩分类方案中的岩石类型。选取大别山地区中生代深成岩图像开展不同网络结构预训练模型迁移学习对比试验,能够专注于深度学习对矿物成分特征的学习解释,降低构造因素的影响。借助局部可理解的模型解释技术和特征图可视化技术,分别从全连接层分类决策区域可视化和卷积隐层可视化两方面对深度学习模型开展可解释性研究。结果表明简单网络结构的卷积神经网络能够提取不同矿物所表现出的颜色特征以及不同矿物组合所表现出的纹理特征。AlexNet模型的削减试验进一步证明:对于岩石图像深度学习,网络结构并不总是越深越好。  相似文献   

10.
众源数据本质是指网络世界中存在大量、复杂、有潜力的“垃圾”数据,采用有效方法与技术将这类感兴趣数据进行收集并利用,是文章的研究中心。文章引入互联网前沿技术,运用知识图谱对众源数据的知识进行抽取。在知识图谱中,知识描述措施旨在利用一种低维稀疏的向量表示方法来高效地发现特殊实体、关系之间内在语义关系,这在知识问答、信息检索等应用场景有着重要实用意义。但是,现有为数不少的知识描述措施忽视了铀资源场景要素,如缺失随场景变更的铀矿知识。针对该领域的矛盾,文章创建了基于离散向量的众源数据建模方法。该方法将核电站场景信息以差异的水平融入到不同类型的实体向量中,而后挖掘每个实体相关的众源数据知识语义联系。文章描述了知识体现的原理知识,然后提出了利用传统的人工智能方法构建众源数据,接着采用了当前受到认可的语义网及开放知识建模方法来进一步论证众源数据的知识表达的可行性。最后利用全球铀矿地质知识建模案例测试显示,这种基于实体离散向量的表示措施可以显著满足知识图谱的铀资源场景补全和铀矿地质预测研究的需求。  相似文献   

11.
陈忠良  袁峰  李晓晖  郑超杰 《地质论评》2023,69(6):2263-2273
岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这一现象?深成侵入岩为显晶质,自形—半自形粒状结构,块状构造,其分类的依据是其矿物成分及相对含量。大别山地区岩浆活动广泛,中生代深成侵入岩广泛出露。岩石类型包括超镁铁质岩类、辉长岩类、闪长岩类、正长岩类、二长岩类和花岗岩类,基本覆盖IUGS推荐的深成侵入岩分类方案中的岩石类型。选取大别山地区中生代深成岩图像开展不同网络结构预训练模型迁移学习对比试验,能够专注于深度学习对矿物成分特征的学习解释,降低构造因素的影响。借助局部可理解的模型解释技术和特征图可视化技术,分别从全连接层分类决策区域可视化和卷积隐层可视化两方面对深度学习模型开展可解释性研究。结果表明简单网络结构的卷积神经网络能够提取不同矿物所表现出的颜色特征以及不同矿物组合所表现出的纹理特征。AlexNet模型的削减试验进一步证明:对于岩石图像深度学习,网络结构并不总是越深越好。  相似文献   

12.
河北省古冶幅(J50E002018)、唐山幅(J50E003017)、范各庄煤矿幅(J50E003018)1∶50 000地质图空间数据库是在充分收集以往地质资料的基础上,在唐山市区及周边开展古冶幅、唐山幅、范各庄煤矿幅1∶50 000区域地质调查工作,编制相应图幅的1∶50 000地质图,并依据《数字地质图空间数据库标准》(DD 2006–06)建立而成。通过遥感解译、野外数字填图、第四系钻探、人工浅钻及浅层地震剖面等手段采集数据。数据库包括基本要素类、综合要素类、对象类及独立要素类。其中基本要素类共包括651个地质体面实体(第四系、沉积岩、变质岩、侵入岩等面实体)数据、1428个地质界线数据、194个产状数据、562个照片数据、70个年龄(锆石U–Pb测年、14C、OSL测年)数据、5个第四系钻孔数据;综合要素类数据主要为标准图框(内图框);对象类包括57个沉积岩岩石地层单位(包括第四系)数据、2个侵入岩岩石年代单位数据、断层、脉岩、面状水域、图幅基本信息数据;独立要素类主要为角图,未添加属性。本数据库建立过程始终坚持完善的质量控制体系,确保了数据的真实性、可靠性和准确性,为相应区域的经济可持续发展、城市规划建设、生态环境保护和重大工程施工等提供基础地质支撑。  相似文献   

13.
描述岩石粘弹性固体性质的开尔文模型   总被引:1,自引:0,他引:1  
刘瑞珣  张秉良  张臣 《地学前缘》2008,15(3):221-225
大多数固体材料都具有弹性,但真实的固体却极少严格遵从弹性的虎克定律。这些固体材料的变形往往有对时间的依赖性,这种性质是流变学研究的内容。岩石是自然界最普遍的固体,它的力学性质在通常条件下可用虎克定律作精确的描述,而在漫长的地质过程中,岩石的流变特征就逐渐显现出来。地质作用越缓慢,岩石对变形时间的依赖性越明显。为精确描述岩石在地质过程的力学性质,流变学方法被引入地质学。笔者已经介绍过描述"牛顿流体"的马克斯威尔流变模型,文中介绍描述粘弹性固体的开尔文流变模型。和马克斯威尔模型一样,开尔文模型也是流变学的基本模型,它是由一个弹性元件和一个阻尼元件并联而成。文中给出开尔文模型的本构关系和地质应用的简介。  相似文献   

14.
土壤由岩石风化而来,岩石—土壤是一个密切联系的体系,是地球系统科学中与人类关系最为密切的一部分。为调查研究地质建造单元岩石—土壤体系(简称:岩土体系)中的物质组成演化特征,我们必须选择原地风化的残积物出露区域来完成土壤垂向剖面采样。本文以海南岛区域生态地质背景调查项目的资料数据为基础,科学阐述了残积物剖面的确定方法,并依据琼北玄武岩垂向剖面地球化学数据,总结出如下结论:垂向剖面SiO2含量呈现出土壤表层A层和岩石的高,土壤B、C层含量低的“凹”字型特征,与Al2O3含量变化趋势相反(“凸”字型),两个代表性组分存在明显的负相关性,其他组分根据其亲和性,与该两种组分协同变化,部分受表层活动影响较大的元素,例如有机质、I等部分微量元素,则不具有该规律,土壤表层(A、B层)与深层(C层)、岩石中差别通常较大。  相似文献   

15.
在地质研究中,针对岩石薄片图像分类算法可移植性不高、分类速度较慢等问题,提出将轻量级卷积神经网络结构SqueezeNet应用于岩石薄片图像分类.实验的数据集为鄂尔多斯某油田区域的10026张长石砂岩图像,图像大小均为224×224像素,通过SqueezeNet网络模型进行训练,在较短时间内实现了岩石薄片图像的分类,并取得了较好分类效果,验证集分类准确率最高可达到90.88%.实验结果表明,所提模型在保证准确率的同时,大大减少了模型参数,模型大小仅为4.78 MB,提升了岩石分类速度、增强了模型的可移植性.  相似文献   

16.
陈刚  陈兴杰  张彦丽 《冰川冻土》2023,(3):1155-1167
积雪消融是气候变化和水资源管理的重要影响因素。本文联合Sentinel-1与Sentinel-2时序数据,提出了一种联合SAR与光学遥感数据的积雪消融识别方法。以祁连山区八宝河流域为研究区,利用ESTARFM时空数据融合模型得到与Sentinel-1同时相的Sentinel-2模拟数据,提取流域积雪覆盖范围;基于SAR多时相多极化变化检测算法提取湿雪;结合光学遥感与DEM数据对SAR提取的湿雪进行校正,最终获得八宝河流域消融期内18个时相干湿雪分布。利用GF-2影像和消融期的Sentinel-2影像分别对积雪和湿雪面积进行精度验证,结果表明该方法能够快速识别积雪消融时空变化,总体分类精度OA高达99%,Kappa系数高达0.86。同时,利用同一天早晚过境相差约12小时的升、降轨SAR数据对比分析了积雪消融变化特征。根据实验数据集分析表明,八宝河流域内干湿雪分布随时间剧烈变化,消融初期湿雪主要集中在河谷低海拔区域且消融速度快,随着气温的升高积雪消融至高海拔区域,而干雪主要分布在四周高海拔山区。且由于过境时间的差异,在整个消融期,降轨数据提取的湿雪面积小于升轨数据提取的湿雪面积。  相似文献   

17.
本文以表格形式列举了1993年1月至1993年12月经《国际矿物学协会(IMA)新矿行与矿物命名委员会(CNMMN)》批准瘩在各国矿物学杂志上发表的42个新矿物的中文英文名称,化学式及其他数据,数据依次为:矿物的晶系,空间群,晶胞参数,主要粉晶数据(I,hkl),物理性质,光学性质,产状,共生矿物等。  相似文献   

18.
华北克拉通南缘中—新元古代地层广泛发育、出露较好。以华北克拉通南缘熊耳裂陷槽中—新元古代地层为研究对象,在总结对比前人研究成果的基础上,以4条典型基干剖面实测、3条重点辅助剖面观察与描述,从岩石颜色、岩石组合类型、岩石结构、沉积构造等众多方面,对华北克拉通南缘中—新元古界的沉积相类型、特征、展布规律以及沉积充填序列进行了深入分析。结果表明:1)研究区中—新元古界发育障壁型海岸相、无障壁型海岸相、浅海陆棚相、碳酸盐岩台地相、扇三角洲相及冰川相6种沉积相、10种亚相及15种微相;并详细阐述了各种相、亚相以及微相的沉积特征;2)明确了研究区中—新元古代在不同地质时期发育的主要沉积相类型及特征;3)深入探讨了研究区中—新元古界的沉积充填特征,并将其划分出大陆裂谷早期沉积(熊耳群)、大陆裂谷晚期沉积(小沟背组—云梦山组)、中元古代被动大陆边缘沉积(白草坪组—黄连垛组)和新元古代被动大陆边缘沉积(董家组—东坡组)等4个沉积充填序列。  相似文献   

19.
海底地形地貌分类是海洋地质学研究的重要内容之一,分类方法需要结合多学科知识完成。海底地形地貌中典型地理实体类型的界定也是海底地名命名研究的重要内容之一,直接关系到海底地名的准确性。国际海底地名命名分委会(SCUFN)在此领域已进行了多年的研究和探索,总结出了包含54类海底地理实体类型的海底地名通名列表。但由于命名方法的限制,目前SCUFN有关地名通名的界定原则多局限于对地理实体外表形态的判别,较少考虑其地质成因和构造性质,这也造成了许多地名提案出现了审议—通过—推翻—重新审议的情况。在分析海底地形地貌类型的基础上,总结现有的海底地理实体分类方法,并针对海底地名命名出现的地理实体类型界定争议,说明SCUFN分类方法存在的缺陷,力求寻找更加科学准确的海底地理实体界定方法。  相似文献   

20.
基于岩石图像深度学习的岩性自动识别与分类方法   总被引:8,自引:3,他引:5  
张野  李明超  韩帅 《岩石学报》2018,34(2):333-342
岩石岩性的识别与分类对于地质分析极为重要,采用机器学习的方法建立识别模型进行自动分类是一条新的途径。基于Inception-v3深度卷积神经网络模型,建立了岩石图像集分析的深度学习迁移模型,运用迁移学习方法实现了岩石岩性的自动识别与分类。采用此方法对所采集的173张花岗岩图像、152张千枚岩图像和246张角砾岩图像进行了学习和识别分类研究,通过训练学习建立岩石图像深度学习迁移模型,并分别采用训练集和测试集中的岩石图像对模型进行了检验分析。对于训练集中的岩石图像,每组岩石分别用3张图像测试,三种岩石的岩性分类均正确,且分类概率值均达到90%以上,显示了模型良好的鲁棒性;对于测试集中的岩石图像,每组岩石分别采用9张图像进行识别分析,三种岩石的岩性分类均正确,并且千枚岩组图像分类概率均高于90%,但是花岗岩组2张图像和角砾岩组的1张图像分类概率值不足70%,概率值较其他岩石图像低,推测其原因是训练集中相同模式的岩石图像较少,导致模型的泛化能力减小。为了提高识别精确度,对准确率较低的岩石图像进行截取,分别取其中的3张图像加入训练集进行再训练,增加与测试图像具有相同模式的训练样本;在新的模型中,对3张图像进行二次检验,测试概率值均达到85%以上,说明在数据足够的状况下模型具有良好的学习能力。与传统的机器学习方法相比,所提出的岩石图像深度学习方法具有以下优点:第一,模型通过搜索图像像素点提取物体特征,不需要手动提取待分类物体特征;第二,对于图像像素大小,成像距离及光照要求低;第三,采用适当的训练集可获得较好的识别分类效果,并具有良好鲁棒性和泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号