基于正则表达式的地学科学数据名称提取方法 |
| |
引用本文: | 曹乔卓然,王丝丝,陈祖刚,李国庆,李静.基于正则表达式的地学科学数据名称提取方法[J].地球信息科学,2023(8):1601-1610. |
| |
作者姓名: | 曹乔卓然 王丝丝 陈祖刚 李国庆 李静 |
| |
作者单位: | 1. 郑州大学地球科学与技术学院;2. 国家遥感中心;3. 中国科学院空天信息创新研究院 |
| |
基金项目: | 国家重点研发计划项目(2020YFE0200700)~~; |
| |
摘 要: | 地学科学数据是地学科技文献重要的支撑材料,大量地学科技文献中包含着研究数据信息,而数据名称一般体现着数据的基本内容,是其中的核心信息。从地学科技文献中自动提取研究数据名称,对于促进优质地学数据共享、复现文献实验与结果以及实现科学数据与科技文献之间的关联具有重大意义,可在一定程度上解决当前地学文献中数据信息利用不充分的问题。本研究通过大量阅读地学文献,分析地学科技文献中描述数据来源信息段落的行文、结构特点以及数据名称的表述特征,在总结地学数据名称描述规律的基础上,提出了从地学科技文献中自动抽取地学数据名称的方法。该方法以数据类别特征词为规则触发词,利用正则表达式编写抽取规则,构建正则抽取规则库,从而完成对地学文献中数据名称信息的抽取。最后使用Java语言编写地学数据名称提取程序,以地学文献文本为实验数据材料,开展地学数据名称信息提取实验。实验结果表明,该方法可以有效地提取地学科技文献中的研究数据名称信息,准确率达到62%。
|
关 键 词: | 地学科技文献 地学科学数据 数据名称 正则表达式 规则匹配 信息抽取 |
|
| 点击此处可从《地球信息科学》浏览原始摘要信息 |
| 点击此处可从《地球信息科学》下载免费的PDF全文 |
|