摘 要: | 受大量射频干扰信号影响,快速从海量观测数据中准确识别出单脉冲信号已成为天文数据处理的一项重要任务,而设计和提取有效数据特征,是利用机器学习进行单脉冲信号高效识别的决定因素.针对如何选择最优特征,进而提升单脉冲信号的分类精度这一关键问题,设计了面向单脉冲信号分类的集成特征选择方法.方法首先混合单脉冲信号的参数特征、统计特征和抽象特征,然后分别利用5种单一特征选择方法选出各自的最优特征集,最后利用贪心策略对5种单一方法获取的最优特征集进行集成筛选,获取最优集成特征集.实验表明,最优特征集合既包含统计特征也包含抽象特征.在相同特征数量下,利用集成特征选择比单一特征选择能获得更高的模型精度,可使F1值最高提升1.8%.在海量数据背景下,集成特征选择对减少特征数量、提升分类性能和加快数据处理速度具有重要作用.
|