首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于BERT—BiLSTM—CRF模型的中文岩石描述文本命名实体与关系联合提取
引用本文:陈忠良,袁峰,李晓晖,张明明.基于BERT—BiLSTM—CRF模型的中文岩石描述文本命名实体与关系联合提取[J].地质论评,2022,68(2):742-750.
作者姓名:陈忠良  袁峰  李晓晖  张明明
作者单位:合肥工业大学资源与环境工程学院,合肥, 230009;安徽省地质调查院,合肥, 230001,合肥工业大学资源与环境工程学院,合肥, 230009
基金项目:本文为国家自然科学基金资助项目(编号:41820104007,42072321,41872247)的成果。
摘    要:地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。

关 键 词:大数据思维  深度学习  预训练中文语言模型  命名实体识别  关系提取
收稿时间:2021/7/7 0:00:00
修稿时间:2022/1/5 0:00:00
本文献已被 万方数据 等数据库收录!
点击此处可从《地质论评》浏览原始摘要信息
点击此处可从《地质论评》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号