首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于正则推断的数据格式规则生成方法
作者姓名:李旭  田源  邓红梅  赵淑颖  高俊涛
作者单位:1. 中国石油冀东油田分公司勘察设计与信息化研究院;2. 东北石油大学计算机与信息技术学院
摘    要:为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性,分析公共子序列对格式规则质量的影响;基于编码成本构造目标函数,利用整数规划方法对候选规则的组合优化问题建模,推荐较优数据质量规则给数据治理者。真实数据集和模拟数据集实验结果表明:该方法生成的规则质量比同类方法平均提高70%,验证算法的可行性和有效性。该方法可以提升制定和管理数据格式规则的效率。

关 键 词:数据质量规则  数据格式规则  正则表达式  正则推断
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号