区域地质调查文本中文命名实体识别 |
| |
作者姓名: | 邱芹军 田苗 马凯 谢忠 金相国 段雨希 陶留锋 |
| |
作者单位: | 中国地质大学(武汉)计算机学院,武汉,430074;中国地质大学(武汉)地理信息系统国家地方联合工程实验室,武汉,430074;湖北省水电工程智能视觉监测重点实验室,湖北宜昌,443002;三峡大学计算机与信息学院,湖北宜昌,443002;中国地质大学(武汉)国家地理信息系统工程技术研究中心,武汉,430074 |
| |
基金项目: | 本文为国家重点研发计划(编号:2022YFF0711601)、国家自然科学基金资助项目(编号:42050101)和中国博士后科学基金资助项目(编号:2021M702991)的成果 |
| |
摘 要: | 作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。
|
关 键 词: | 地质命名实体识别 轻量级预训练模型 ALBERT 知识图谱 地质报告 |
收稿时间: | 2022-11-23 |
修稿时间: | 2023-01-10 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《地质论评》浏览原始摘要信息 |
|
点击此处可从《地质论评》下载免费的PDF全文 |
|