基于BERTwwm与数据增强的地质实体识别研究 |
| |
作者姓名: | 章文琦 刘远刚 李少华 于金彪 史敬华 张昌民 |
| |
作者单位: | 1)长江大学地球科学学院,武汉,430100;1)长江大学地球科学学院,武汉,430100; 3) 油气资源与勘探技术教育部重点实验室(长江大学),武汉,430100;2) 中国石化胜利油田分公司,山东东营, 257000 |
| |
基金项目: | 本文为国家自然科学基金资助项目(编号:42172172,42130813); 油气资源与勘探技术教育部重点实验室(长江大学)开放基金资助项目(编号:PI2023- 04)的成果 |
| |
摘 要: | 地质命名实体识别是识别地质文本中的地质实体并分类到准确的地质概念中的一项地质知识智能抽取任务,也是构建地质领域知识图谱的关键技术之一。本研究针对地质命名实体识别领域中复杂实体识别精度不足和样本标注成本较高这两大挑战,构建了一种地质实体识别模型BERTwwm—BiLSTM—Attention—CRF,该模型通过改进的预训练层BERTwwm并在模型中加入Self- Attention模块,显著提升了复杂地质实体的识别精度,对地质实体识别的精度达到92. 67%的精确率,94. 21%的召回率,以及93. 29%的F1值。同时,为降低标注成本,提升小规模数据集的识别精度,本研究优化了模型构建流程,采用模型辅助标注方法,加快数据集的标注速度;改进简单数据增强方法,并利用地质字典有效扩充数据集,降低了人工标注的难度。经过实验证明,本研究提出的改进方法提高了地质实体识别效果,为地质文本分析提供了一种高效且经济的解决方案,有助于推动地质领域知识图谱的构建和地质信息的智能化处理。
|
关 键 词: | 命名实体识别 数据增强 地质大数据 深度学习 |
收稿时间: | 2023-12-26 |
修稿时间: | 2024-05-14 |
|
| 点击此处可从《地质论评》浏览原始摘要信息 |
|
点击此处可从《地质论评》下载全文 |
|