[发明专利]基于双向长短期记忆网络与特征融合的抗癌肽预测方法在审
申请号: | 202210686266.0 | 申请日: | 2022-06-17 |
公开(公告)号: | CN114863997A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 杨森;叶晨阳;朱轮;封红旗 | 申请(专利权)人: | 常州大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 常州市英诺创信专利代理事务所(普通合伙) 32258 | 代理人: | 张秋月 |
地址: | 213164 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 短期 记忆 网络 特征 融合 抗癌 预测 方法 | ||
本发明涉及抗癌肽预测技术领域,尤其涉及基于双向长短期记忆网络与特征融合的抗癌肽预测方法,包括:读取四个基准肽序列数据集,对数据集进行氨基酸组成分析;通过Bi‑LSTM对数据集进行特征提取,生成Bi‑LSTM特征向量;通过全连接神经网络对五个氨基酸特征向量进行特征提取;将特征向量通过Concatenate算法进行特征融合,通过具有1单元和Sigmoid激活函数的全连接层,得到概率分数,通过分数区分为抗癌肽和非抗癌肽。本发明实现高准确率、高马修斯相关系数、高灵敏度、高特异度和高ROC曲线下面积的抗癌肽预测。
技术领域
本发明涉及抗癌肽预测技术领域,尤其涉及基于双向长短期记忆网络与特征融合的抗癌肽预测方法。
背景技术
抗癌肽(ACP)的发现,拓宽了人们对抗癌道路的视野,其特异性和肿瘤无法对它产生耐药性,解决了一些传统抗癌治疗带来的副作用,有希望成为一种癌症的替代治疗方法;抗癌肽通常由5-40个氨基酸组成;为了进一步了解抗癌肽的作用机制,已有很多对抗癌肽鉴定的生物实验方法。例如,Vidal等人通过酵母双杂交系统确定了针对细胞内肿瘤蛋白的肽合剂,Peelle等人通过哺乳动物细胞筛选发现了非细胞类型特异的新型定位肽;然而这些鉴别方法耗时严重,价格昂贵,十分复杂,难以以高通量方式实现,因此快速有效的抗癌肽鉴别显得尤为重要。
Wu等人提出PTPD模型,采用k-mer和Word2vec(词向量)提取的特征向量,输入卷积神经网络(CNN)以预测肽;Rao等人则将图卷积网络(GCN)应用到抗癌肽的预测中来,提出了ACP-GCN模型;然而这些深度学习方法只考虑到了氨基酸的原始序列信息和物理化学性质,忽略了时间层次上抗癌肽的长期相关信息,无法低成本、快速高效地识别抗癌肽。
发明内容
针对现有算法的不足,本发明实现高准确率、高马修斯相关系数、高灵敏度、高特异度和高ROC曲线下面积的抗癌肽预测。
本发明所采用的技术方案是:基于双向长短期记忆网络与特征融合的抗癌肽预测方法包括以下步骤:
步骤1、读取四个基准肽序列数据集,对数据集进行氨基酸组成分析;
步骤2、通过双向长短期记忆网络(Bi-LSTM)对数据集进行特征提取,生成Bi-LSTM特征向量;
进一步的,步骤2包括:
步骤2.1、为了将肽序列输入Bi-LSTM,首先按照氨基酸字母表对肽的初级字母序列进行数字编码,即为20个基本氨基酸分配数字1-20,长度不够的肽序列填充0,以保证所有肽序列长度一致;
步骤2.2、通过Bi-LSTM的嵌入层(Embedding)将输入的数字编码转化为64维向量表示;
步骤2.3、Bi-LSTM对输入64维向量进行特征提取,Bi-LSTM具体组成为:t时刻的输入xt,细胞状态Ct,临时细胞状态隐层状态ht,遗忘门ft,记忆门it,输出门Ot;
Bi-LSTM由前向和后向长短期记忆网络层组成,每层由一个记忆单元和64维隐藏单元组成;
遗忘门(选择要遗忘的信息):
ft=σ(Wf·[ht-1,xt]+bf) (1)
记忆门(选择要记住的信息):
it=σ(Wi·[ht-1,xt]+bi) (2)
当前时刻细胞状态:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210686266.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏系统及其优化器组网方法
- 下一篇:一种测量设备整体同轴度的方法