[发明专利]基因组序列中潜在BGC的预测方法、装置、设备及介质有效
申请号: | 202110888145.X | 申请日: | 2021-08-03 |
公开(公告)号: | CN113764034B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 杨子翊;廖奔犇;张胜誉;梁恒宇;幸志伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;河南省健康元生物医药研究院有限公司 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B15/30;G16B30/10;G16B40/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 序列 潜在 bgc 预测 方法 装置 设备 介质 | ||
1.一种基因组序列中潜在BGC的预测方法,其特征在于,所述方法包括:
对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库Pfam结构域;
获取所述Pfam结构域的生物学信息,所述生物学信息包括结构域信息、家族描述信息以及家族标识;
通过Pfam评分模型的嵌入层、编码层以及连接层对所述生物学信息进行处理,得到所述Pfam结构域的目标向量,所述嵌入层用于对所述生物学信息进行嵌入处理,得到嵌入向量,所述编码层用于对所述嵌入向量进行编码,得到编码向量,所述连接层用于连接所述编码向量,得到所述目标向量;
通过所述Pfam评分模型的特征提取层对所述目标向量进行特征提取,得到所述Pfam结构域的结构域特征;
通过所述Pfam评分模型的池化层和全连接层对所述结构域特征进行池化和全连接处理,得到各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于生物合成基因簇BGC的概率;
基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
2.根据权利要求1所述的方法,其特征在于,所述特征提取层由双向长短期记忆递归神经网络Bi-LSTM和单向长短期记忆递归网络LSTM构成,所述池化层用于对所述结构域特征进行时序平均池化。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建样本基因组序列,所述样本基因组合序列由正样本和负样本拼接得到,所述正样本属于BGC数据集,所述负样本属于非BGC数据集;
通过所述Pfam评分模型对所述样本基因组序列中各个Pfam结构域进行评分,得到样本Pfam得分;
基于所述样本Pfam得分,确定所述样本基因组序列中的样本预测BGC;
将所述正样本和所述负样本作为所述样本预测BGC的监督,训练所述Pfam评分模型。
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
基于目标数量以及目标步长,采用滑动窗口对所述基因组序列进行划分,得到至少两个序列片段,所述序列片段中包含所述目标数量的所述Pfam结构域,且相邻序列片段之间的偏移为所述目标步长;
以所述序列片段为单位,确定所述序列片段中各个所述Pfam结构域的所述Pfam得分;
响应于存在Pfam结构域属于至少两个所述序列片段,对至少两个所述序列片段中所述Pfam结构域的Pfam得分进行平均计算,将平均计算结果确定为所述Pfam结构域的目标Pfam得分。
5.根据权利要求1至3任一所述的方法,其特征在于,所述基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,包括:
将同一基因中各个所述Pfam结构域的Pfam得分的均值确定为所述基因的基因得分;
基于合并规则对所述基因得分高于得分阈值的基因进行合并,得到合并基因;
响应于所述合并基因中核苷酸的数量大于数量阈值,且所述合并基因中不包含过滤结构域,将所述合并基因确定为所述候选BGC,所述过滤结构域为已知的不包含BGC的区域。
6.根据权利要求1至3任一所述的方法,其特征在于,所述对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC,包括:
通过随机森林分类器对所述候选BGC进行BGC类别预测,得到所述类别预测结果,所述随机森林分类器的分类器类别包括BGC类别以及非BGC类别;
响应于所述类别预测结果中包含BGC类别标识,确定所述候选BGC为所述潜在BGC;
所述方法还包括:
响应于所述类别预测结果中包含非BGC类别标识,过滤所述候选BGC。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;河南省健康元生物医药研究院有限公司,未经腾讯科技(深圳)有限公司;河南省健康元生物医药研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110888145.X/1.html,转载请声明来源钻瓜专利网。