基于BERT—BiLSTM—CRF模型的中文岩石描述文本命名实体与关系联合提取 |
| |
引用本文: | 陈忠良,袁峰,李晓晖,张明明.基于BERT—BiLSTM—CRF模型的中文岩石描述文本命名实体与关系联合提取[J].地质论评,2022,68(2):742-750. |
| |
作者姓名: | 陈忠良 袁峰 李晓晖 张明明 |
| |
作者单位: | 合肥工业大学资源与环境工程学院,合肥, 230009;安徽省地质调查院,合肥, 230001,合肥工业大学资源与环境工程学院,合肥, 230009 |
| |
基金项目: | 本文为国家自然科学基金资助项目(编号:41820104007,42072321,41872247)的成果。 |
| |
摘 要: | 地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。
|
关 键 词: | 大数据思维 深度学习 预训练中文语言模型 命名实体识别 关系提取 |
收稿时间: | 2021/7/7 0:00:00 |
修稿时间: | 2022/1/5 0:00:00 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《地质论评》浏览原始摘要信息 |
| 点击此处可从《地质论评》下载免费的PDF全文 |
|