首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Co-Training的海洋文献分类方法
引用本文:徐建良,姜亦宏,张巍,王秋红. 一种基于Co-Training的海洋文献分类方法[J]. 中国海洋大学学报(自然科学版), 2010, 40(2)
作者姓名:徐建良  姜亦宏  张巍  王秋红
作者单位:中国海洋大学计算机科学与技术系,山东,青岛,266100
基金项目:国家自然科学基金,教育部新世纪优秀人才支持计划,山东省优秀青年科学家科研奖励基金 
摘    要:使用有监督机器学习方法进行海洋文献的分类往往存在人工标注量太大的缺点,针对这个问题,提出利用半监督机器学习中的协同训练(Co-training)方法来实现减小人工标注量的目标。该方法从2个View分别训练不同的分类器,在此基础上,根据少量有标注文档从大量无标注文档中获取有用信息,通过协同训练来提升2个分类器的性能,并训练出最终分类模型。实验结果表明,在人工标注仅2篇文献的条件下,该方法最终的分类性能十分接近需人工标注1 500多篇文献的有监督分类器。这说明将Co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能。

关 键 词:海洋文献  文本分类  机器学习  半监督学习  协同训练

A Marine Literature Classification Method Based on Co-training
XU Jian-Liang,JIANG Yi-Hong,ZHANG Wei,WANG Qiu-Hong. A Marine Literature Classification Method Based on Co-training[J]. Periodical of Ocean University of China, 2010, 40(2)
Authors:XU Jian-Liang  JIANG Yi-Hong  ZHANG Wei  WANG Qiu-Hong
Affiliation:XU+Jian-Liang,JIANG+Yi-Hong,ZHANG+Wei,WANG+Qiu-Hong(Department+of+Computer+Science,Ocean+University+of+China,Qingdao+266100,China)
Abstract:It always takes a large number of manual work to label marine papers when using supervised machine learning method.To address this issue,we take advantage of Co-training,which is a kind of semi-supervised learning method,for building the marine paper classification.We train two different classifiers from two views.One view is made up of the feature set of abstract,and the other is made up of the feature sets of title,subject,major and class code.On this basis,we use a small initial labeled set to obtain use...
Keywords:marine literature  text categorization  machine learning  semi-supervised learning  Co-training
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号