关系挖掘驱动的视频描述自动生成 |
| |
引用本文: | 黄毅,鲍秉坤,徐常胜.关系挖掘驱动的视频描述自动生成[J].南京气象学院学报,2017,9(6):642-649. |
| |
作者姓名: | 黄毅 鲍秉坤 徐常胜 |
| |
作者单位: | 中国科学院自动化研究所 模式识别国家重点实验室, 北京, 100190;中国科学院大学, 北京, 100049,中国科学院自动化研究所 模式识别国家重点实验室, 北京, 100190;中国科学院大学, 北京, 100049,中国科学院自动化研究所 模式识别国家重点实验室, 北京, 100190;中国科学院大学, 北京, 100049 |
| |
基金项目: | 国家自然科学基金(61572503,61432019);北京市自然科学基金(4152053) |
| |
摘 要: | 视频的自动描述任务是计算机视觉领域的一个热点问题.视频描述语句的生成过程需要自然语言处理的知识,并且能够满足输入(视频帧序列)和输出(文本词序列)的长度可变.为此本文结合了最近机器翻译领域取得的进展,设计了基于编码-解码框架的双层LSTM模型.在实验过程中,本文基于构建深度学习框架时重要的表示学习思想,利用卷积神经网络(CNN)提取视频帧的特征向量作为序列转换模型的输入,并比较了不同特征提取方法下对双层LSTM视频描述模型的影响.实验结果表明,本文的模型具有学习序列知识并转化为文本表示的能力.
|
关 键 词: | 视频描述 LSTM模型 表示学习 特征嵌入 |
收稿时间: | 2017/8/28 0:00:00 |
|
| 点击此处可从《南京气象学院学报》浏览原始摘要信息 |
| 点击此处可从《南京气象学院学报》下载免费的PDF全文 |
|