首页 | 本学科首页   官方微博 | 高级检索  
     

融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法
引用本文:董家慧子, 谢忠, 邱芹军, 马凯, 田苗, 陶留锋. 2023. 融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法. 地质科学, 58(3): 1147-1163. doi: 10.12017/dzkx.2023.062
作者姓名:董家慧子  谢忠  邱芹军  马凯  田苗  陶留锋
作者单位:1. 中国地质大学(武汉)计算机与信息学院 武汉 430074;; 2. 自然资源部城市国土资源监测与仿真重点实验室广东深圳 518034;; 3. 三峡大学计算机与信息学院 湖北宜昌 443002;; 4. 三峡大学基于智能视觉的水电工程监测湖北省重点实验室 湖北宜昌 443002
基金项目:国家重点研发计划项目(编号:2022YFF0711601)、国家自然科学基金原创探索计划项目(编号:42050101)、湖北省自然科学基金项目(编号:2022CFB640)和自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题项目(编号:KF-2022-07-014)资助
摘    要:

地质表格信息提取是地质报告从信息转换到知识阶段的重要任务之一,对将非结构化的数据转化为结构化的地学知识具有重要意义,同时还为文本与表格的知识关联提供了技术支撑。然而现有的表格解析方法在地学领域存在局限性,在单元格提取中,地质表格中大量的合并单元格造成了不同单元格间大小差异大,大量小面积单元格无法被提取;在表格解析方面地质表格包含了大量的被斜线分割的特殊表头,难以自动化解析。为解决上述问题,本文提出了一种基于注意力机制的Mask RCNN单元格提取模型及基于OpenCV框架的表格结构解析方法。
主要包括两个步骤:1)上下文注意模块(CAM)学习上下文特征以识别不同大小单元格;2)一种标准容错机制的复杂表头解析方法,解析含斜线分割的复杂表头单元格。在构建的地质表格数据集上进行模型性能评估,该方法对于多数地质表格的解析准确率达到95% 以上;相比其他单元格识别和表格结构解析方法,该方法解析效果更优。




关 键 词:地质报告   地质表格结构解析   Mask RCNN   容错机制   注意力机制
收稿时间:2022-12-01
修稿时间:2023-02-08
本文献已被 万方数据 等数据库收录!
点击此处可从《地质科学》浏览原始摘要信息
点击此处可从《地质科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号