首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
储德平  万波  李红  方芳  王润 《地球科学》2021,46(8):3039-3048
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNN-BiLSTM-CRF模型,基于预训练字向量构建深层BiLSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征...  相似文献   

2.
3.
王刘坤  李功权 《地质科学》2023,58(3):1164-1177

构建地质知识图谱对深化现有地质数据分析和推进地质大数据的构建至关重要。地质命名实体识别作为构建地质知识图谱的核心技术,仍然面临着地质命名实体不断被引入、符号分隔的命名实体、同一实体表达形式不同等挑战。针对上述问题,本文提出了GeoERNIE-BiLSTM-Attention-CRF的地质领域命名实体识别模型,其中预训练模型GeoERNIE学习了地质领域的先验语义知识,并结合自定义地质领域主体词表对复杂命名实体进行准确分词,能够提升模型整体性能和地质命名实体未登录词以及复杂实体的识别效果。然后通过BiLSTM充分学习地质实体上下文语义信息来帮助对命名形式多样的地质命名实体进行识别,接着引入Attention机制对地质实体相关语义增加特征权重,最后由CRF层输出最佳实体标注结果。本文以测试集数据对模型性能进行了评估,模型的准确率、精确率、召回率和F1值分别达到了96.35%、96.90%、96.87%和96.95%。实验表明相比其他模型,本文模型在地质命名实体识别方面效果更优,能有效识别符号分隔和同一实体表达形式不同等复杂地质命名实体。

  相似文献   

4.
从地质文本中提取地质命名实体, 对地质大数据的深度挖掘与应用具有重要意义。定义了地质命名实体的概念并制订了标注规范, 设计了地质实体对象化表达模型。地质文本存在大量长实体、复杂嵌套实体, 增加了地质命名实体识别的挑战性。针对上述问题, ①引入BERT模型生成顾及上下文信息的高质量词向量表征; ②采用双向门控循环单元-注意力机制-条件随机场(BiGRU-Attention-CRF)对前一层输出的语义编码进行序列标注与解码。通过与主流深度学习模型进行对比, 该模型的F1值为84.02%, 均比其他模型表现出更优异的性能, 能在小规模地质语料库上有较好的识别效果。  相似文献   

5.
基于深度信念网络的地质实体识别方法   总被引:1,自引:1,他引:1  
张雪英  叶鹏  王曙  杜咪 《岩石学报》2018,34(2):343-351
地质实体作为地质信息表达的核心要素,对其准确识别是地质文本数据挖掘和应用的重要基础。本文通过分析各种类型文本数据中地质实体信息的描述特点,构建了地质实体信息的标注规范和语料库,设计了基于深度信念网络(Deep Belief Networks)的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题。以矿产资源地质调查报告为实验数据,对本文的地质实体识别方法性能进行了评估分析。结果表明,深度学习模型能够在较小规模语料库的基础上,达到较好的地质实体识别性能。  相似文献   

6.
近些年来,随着大数据、深度学习等技术的飞速发展,大数据的开发与利用为众多行业带来了显著经济与社会效益。借助大数据手段,开展地质文本、图像和序列数据挖掘与应用研究,具有极其重要的理论与社会意义。本文在归纳总结前人工作的基础上,重点针对地质大数据中的图像数据,基于深度学习理论,构建网络学习模型,通过基于网络搜索的数据采集、数据预处理、网络搭建、网络训练及结果/评价等步骤,实现基于地质图像的大数据岩性识别。结果表明,图像识别岩性的测试准确率约为90%;有限的图像数据数,可能是产生识别误差的一个原因;机器对岩石图片所呈现的某些特征相似性,如宏观的形状、颜色等,也会给出正相关评分,从而产生误判。理论上,采用BCNN(Bilinear Convolutional Neural Network)等能够捕捉更精细细节的网络模型,解决计算机视觉中的细粒度识别问题,从而从根本上提升图像识别效率,应该是今后一个研究方向。  相似文献   

7.
地质调查正在从"数字化"走向"智能化",需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取.地学命名实体和关系联合提取是当前研究的难点和核心.本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取.首先,通过收集数字地质填图工作中的剖面测量...  相似文献   

8.
陈忠良  袁峰  李晓晖  张明明 《地质论评》2022,68(1):2022010001-2022010001
地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。  相似文献   

9.
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

10.
邱芹军  田苗  马凯  谢忠  金相国  段雨希  陶留锋 《地质论评》2023,69(1):2023010005-2023010005
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。本文在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

11.
Predicting the performance of a tunneling boring machine is vitally important to avoid any possible accidents during tunneling boring.The prediction is not straightforward due to the uncertain geological conditions and the complex rock-machine interactions.Based on the big data obtained from the 72.1 km long tunnel in the Yin-Song Diversion Project in China,this study developed a machine learning model to predict the TBM performance in a real-time manner.The total thrust and the cutterhead torque during a stable period in a boring cycle was predicted in advance by using the machine-returned parameters in the rising period.A long short-term memory model was developed and its accuracy was evaluated.The results show that the variation in the total thrust and cutterhead torque with various geological conditions can be well reflected by the proposed model.This real-time predication shows superior performance than the classical theoretical model in which only a single value can be obtained based on the single measurement of the rock properties.To improve the accuracy of the model a filtering process was proposed.Results indicate that filtering the unnecessary parameters can enhance both the accuracy and the computational efficiency.Finally,the data deficiency was discussed by assuming a parameter was missing.It is found that the missing of a key parameter can significantly reduce the accuracy of the model,while the supplement of a parameter that highly-correlated with the missing one can improve the prediction.  相似文献   

12.
大数据与数学地球科学的核心应用技术包括高维数据降维、图像数据处理、无限数据流挖掘、机器学习、关联规则算法与推荐系统算法等。人工智能地质学,包括大数据-智能矿床成因模型与找矿模型的构建,是具有重要价值的研究方向。高维数据降维旨在从初始高维特征集合中选出低维特征集合,有效地消除无关和冗余特征,增强学习结果的易理解性。哈希算法、聚类分析、主成分分析等是较常用的数学降维工具。机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习与人工智能各种基础问题的统一性观点正在形成。深度学习的训练模型往往需要海量数据作为支撑,因此迁移学习方法日益受到重视。图像模式识别是大数据挖掘的重要技术。网络中的社区结构识别对理解整个网络的结构和功能有重要价值,可帮助分析、预测网络各元素间的交互关系。沉浸式虚拟现实技术是实现大数据可视化的重要方向,对具有多元、异构、时空性、非线性、多尺度地质矿产勘查数据的展示要求有特别的价值。引入VR技术进行矿产地质大数据的可视化,可实现大数据时代矿产勘查数据的新认知。无限数据流在地质、地球化学、地球物理监测中大量存在,甚至可以持续自动产生。对数据流数据的计算包括对点查询、范围查询、内积查询、分位数计算、频繁项计算等。关联规则和推荐系统算法是大数据挖掘中的重要算法,其应用范围越来越广泛。贝叶斯原理在大数据时代有独特的价值,贝叶斯网络是成因建模的一个革命性工具。智能地质学研究刚刚起步,构建大数据-智能矿床成因模型与找矿模型是智能地质学研究的重要内容。矿床模型研究方式的变革,将出现于互联网、云计算技术环境下全球各地的矿床研究团队的共同参与。  相似文献   

13.
韩帅  李明超  任秋兵  刘承照 《岩石学报》2018,34(11):3207-3216
通过玄武岩判别图推断其所形成的大地构造环境的方法由来已久,自1971年Pearce提出了构造-岩浆判别图解法之后,已涌现出了几十种不同的判别图。然而,判别图的制作过程中使用的元素的信息量少,数据样本量少,缺乏代表性,以至于其适用范围有限,且准确率不够。为提高构造环境判别过程的效率和准确性,本文提出以大数据智能挖掘方法建立判别模型,通过玄武岩的化学成分,迅速准确地对其大地构造环境进行判别。所用到的玄武岩包括三类:洋中脊玄武岩(MORB)、洋岛玄武岩(OIB)和岛弧玄武岩(IAB),样品总量为755个。首先,本文分别利用主量元素判别图和微量元素判别图对三类数据的大地构造环境进行判别,包括Ti O_2-MnO-P_2O_5、Fe O~T-MgO-Al_2O_3、Ti-Zr-Y、Zr/Y-Zr和Ti-Zr判别图。由于判别图法针对的是特定的元素或化合物,而有些样品的成份记录不完善或没有测量到有指定物质,导致无法对该样品在判别图中绘制,因此在绘制不同的判别图之前,需要筛选掉一部分数据。判别结果表明,在不考虑无效数据的情况下,Zr/Y-Zr判别图的准确率最高,可达90%以上。但如果考虑到已筛选掉的数据,上述五种图对三种岩石的判别准确率均低于75%。在利用数据挖掘算法进行判别的过程中,本文分别试验了朴素贝叶斯(NB)、K邻近(KNN)、支持向量机(SVM)和随机森林(RF)四种算法。为达到较好的识别效果,本文将所有的化合物和微量元素组成51维的参数组用于训练模型,并且不会进行任何的数据筛选,即全部被视作有效数据。训练结果表明,NB的分类结果最差,但也超过了75%,而RF训练准确率高达100%。在算法的进阶分析中,测得RF算法验证准确率可达88.46%;为提升智能算法的实用性,本文利用贝叶斯定理对算法的判别结果求逆概率,以实现"由果及因"的合理推断;同时,本文通过人为模拟数据缺失,进一步验证不同的算法的鲁棒性,并认为RF和NB是应该被优先考虑的两种算法;最后,通过提取RF中的决策树,本文对样本中元素的重要性进行了分析,并找到了对判别效果影响最大的几个主量元素和微量元素。综上所述,利用数据挖掘算法判别大地构造环境要比判别图法更为准确、迅速且功能多样,可在该领域做进一步推广应用。  相似文献   

14.
Semi-hierarchical correspondence cluster analysis (SHCCA), firstly developed in this paper, extracts the main advantages of correspondence analysis, hierarchical and non-hierarchical cluster analysis, and unifies the R- and Q-mode cluster analysis of large data set. A systemic program to recognize the regional geochemical patterns is built up based on this method. With this program, the complex tasks for data interpretation can be achieved by simple processes, and important geochemical information can be displayed by a single diagram, i.e. the multivariate regional geochemical image. As one of the applied examples of this program, the regional geochemical pattern recognition for a shallow covered area around Tahe in Heilongjiang Province is introduced. The results show that many hidden geochemical patterns related to the lithologies, structures, ore-forming conditions and prospecting targets etc are revealed by the geochemical image, and that the main geochemical patterns are related with certain geological and gravitational patterns. By finding contrasts between geochemical patterns and geological or gravitational patterns, the SHCCA results assist the geological mapping in this area. Geochemical data obtained in Chinese regional geochemical exploration provides useful information regarding geology and minerals, and the method described in this paper provides a new way to examine this type of resource.  相似文献   

15.
传统机器学习算法已广泛应用于矿产预测,但面对地质大数据的高维稀疏、不平衡小样本等特性仍缺乏有效处理和分析的方法,设计适合地质大数据特点的机器学习算法是智能矿产预测亟需解决的新问题。本文以内蒙古浩布高地区的铅锌多金属矿产预测为例,提出了一种面向地质大数据的半监督协同训练矿产预测模型。首先对研究区地质找矿信息和地球化学异常信息进行定量分析,提取断裂构造、二叠系地层、燕山期侵入岩、地层与岩体接触带、围岩蚀变及Pb、Zn、Sn、Cu地球化学异常共9种找矿因子。然后利用递归特征消除法优选找矿因子组合,不包括Sn异常在内的8个找矿因子组合被选为最优组合。最后,利用支持向量机和随机森林算法作为基分类器进行半监督协同训练矿产预测,绘制成矿概率分布图。ROC曲线和预测度曲线分析结果表明,半监督协同训练模型的AUC值和预测效率都高于随机森林和支持向量机模型。研究结果也为大数据环境下的智能矿产预测提供了一种新的思路。  相似文献   

16.
为了客观地确定数据点投图后分布的主要区域,本文提出了一种基于数据密度确定数据主要分布区域的方法。利用该方法可以更加直观地了解数据分布,并可以作为数据清洗的预处理手段。本文基于GEOROC大数据,以全碱对硅(TAS)图解为例,进行了分析和验证。通过提取GEOROC 数据库中与TAS 图解相关的岩石样本中SiO2、Na2O、K2O 和烧失量含量数据,通过数据常规清洗和归算,最终获得24 个种类合计13.3 万条有效数据。通过数据投点、分区统计和提取80% 数据的分布区域,验证了24种岩石样品与TAS图解的吻合程度。通过综合研究分析发现,有6类岩石的数据分布与TAS图解定义区域基本一致,18类岩石的数据分布与TAS图解定义区域有系统性偏差。大数据研究证明了TAS图解的不足之处,利用全碱和SiO2作为指标,难以实现提升总体分类的准确性。  相似文献   

17.
前人研究认为,火山岩中部分地球化学指标与岩浆弧地壳厚度之间存在一定的相关性,并通过统计主量元素K2O、Ca O和Na2O指标及微量元素Ce/Y、Sm/Yb、Dy/Yb、Sr/Y、La/Yb指标与地壳厚度之间关系,约束地质史上某些区域的地壳厚度发展和变化。本文基于GEOROC数据库,以Si O2含量57%和火山岩年龄23Ma为界,将全球火山岩数据分成年轻-壳源( 57%,23Ma)、年轻-幔源(57%,23Ma)、古老-壳源( 57%, 23Ma)和古老-幔源(57%, 23Ma)四个数据集,并通过核函数估计方法获得了各个地球化学指标与地壳厚度的归一化联合概率密度分布图。本文统计结果表明,年轻-幔源火山岩中的K2O含量分布与壳源火山岩呈现指数正相关关系、Ca O含量分布于地壳厚度呈现线性负相关关系,年轻-壳源火山岩中Ce/Y、La/Yb和Sm/Yb与现今地壳厚度有指数正相关关系。由以上5种地化指标建立的回归方程确定系数R2均大于0. 7,可以认为相关关系显著。本文认为幔源岩浆在穿透地壳到达地表过程中,地壳厚度控制了富K壳源物质进入地幔熔体和富Ca矿物结晶分异过程,导致了火山岩中K2O和Ca O含量的相关变化;而下地壳部分熔融形成的壳源岩浆,不同深度压力控制了残留相矿物比例,导致Ce/Y、La/Yb和Sm/Yb体现出与地壳厚度的相关性。本文建立的回归函数是基于大量数据概率密度分布的统计分析得出的,由于离群数据普遍存在,回溯历史地壳厚度变化需要大量数据统计支撑,否则难以获得可靠的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号