DNA序列新特征的提取方法及其在重组位点识别中的应用 |
| |
作者姓名: | 程丽荣 赵熙强 |
| |
作者单位: | 中国海洋大学数学科学学院 |
| |
基金项目: | 国家自然科学基金项目(11271341)资助~~; |
| |
摘 要: | 为提升重组位点识别的预测性能,本文提出了一种新的特征提取方法来识别重组位点。分别利用Word2Vec模型编码的3-gram向量和DNA特性获得两组表示DNA序列的新特征,与已有的特征(FastText模型获取)进行组合来表示DNA序列,使用支持向量机为分类算法,在基准数据集上进行5倍交叉验证。研究表明,本文提出的方法在识别重组位点方面获得了93.88%的敏感性、95.08%的特异性、94.54%的准确率和0.890 2的马修斯相关系数,以上指标均优于现有的方法,本文所提出的方法为解决生物学的序列信息提取问题提供了一种新思路。
|
关 键 词: | DNA序列 重组位点 Word2Vec模型 词向量 3-gram 二核苷酸属性 支持向量机 |
|