[发明专利]一种alpha跨膜蛋白二级与拓扑结构预测方法及系统在审
申请号: | 202110332960.8 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113012752A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 林关宁;刘喆;王晗 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B30/10;G16B40/00;G16B50/00 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 卫素丹;胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 alpha 膜蛋白 二级 拓扑 结构 预测 方法 系统 | ||
1.一种alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,包括以下步骤:
S1:构建用于二维结构和拓扑结构预测的深度学习模型,具体包括:
S11:从跨膜蛋白数据库中获取大量的alpha跨膜蛋白序列作为搭建用于预测二级结构和拓扑结构的深度学习模型的数据集,并制作二级结构标签和拓扑结构标签;
S12:采用独热编码和HHblits属性作为输入模型的特征进行特征编码,并对所述独热编码和所述HHblits属性的末尾添加列进行补齐,以适应长度一固定长度的滑窗;
S13:针对于所述alpha跨膜蛋白序列中的每一个残基,经过滑窗之后,得到一张特征图,每个特征图对应包括所述二级结构标签和所述拓扑结构标签在内的两个标签;
S2:搭建并训练深度学习模型,其架构从输入至输出依次为:预处理层、分组卷积层、双向长短期记忆网络层、注意力层以及归一化输出层;
S3:将新的所述alpha跨膜蛋白序列输入所述深度学习模型,执行数据预处理、特征编码和预测输出,并将预测输出保存于对应文件中。
2.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,在步骤S11中,从跨膜蛋白数据库中获取大量的alpha跨膜蛋白序列作为搭建用于预测二级结构和拓扑结构的深度学习模型的数据集,具体包括:
针对于从所述跨膜蛋白数据库中获取到的所述alpha跨膜蛋白序列,去掉包含未知氨基酸的序列,以及长度小于30个残基的序列;
使用CD-HIT软件,一一固定阀值对所述alpha跨膜蛋白序列进行去荣誉操作。
3.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,还包括:对所述数据集进行划分,分别形成训练集、验证集合独立测试集。
4.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,在步骤S11中,制作所述二级结构标签和所述拓扑结构标签,具体为:
将用于存储所述alpha跨膜蛋白序列的所述数据集的PDB文件输入DSSP软件得到DSSP文件,并从中提取出所述二级结构标签;
直接从所述跨膜蛋白数据库中的XML文件中提取所述拓扑结构标签。
5.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,在步骤S12中,还包括:
所述独热编码为将分类变量转换为可提供给机器学习算法进行预测的形式的过程;并具体包括一种稀疏向量,其中一个元素设为1,所有其他元素均设为0,所述独热编码的长度为20,代表某个特定氨基酸的位置被标记为1。
6.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,在步骤S12中,还包括:
所述HHblits属性为由HHblits工具输出的长度为30维的向量,并使用对比库进行比对,HHblits向量表示当前序列和所述对比库中序列的相似程度和保守性。
7.根据权利要求1所述的alpha跨膜蛋白二级与拓扑结构预测方法,其特征在于,还包括:所述深度学习模型包括分组卷积层、双向长短期记忆网络层、注意力机制及随机失活层、以及归一化输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110332960.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于新楼盘用电信息的企业逃税稽查方法及系统
- 下一篇:一种取纱及搬运小车