[发明专利]转录组序列分类方法、装置、电子设备及可读存储介质在审

专利信息
申请号: 202210074550.2 申请日: 2022-01-21
公开(公告)号: CN114496070A 公开(公告)日: 2022-05-13
发明(设计)人: 朱怀球;李墨;尹衡闯 申请(专利权)人: 北京大学
主分类号: G16B20/00 分类号: G16B20/00
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苟冬梅
地址: 100871 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 转录 序列 分类 方法 装置 电子设备 可读 存储 介质
【权利要求书】:

1.一种转录组序列分类方法,其特征在于,所述方法包括:

获取宏转录组中的待分类转录组序列;

将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;

在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别;

在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;

其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。

2.根据权利要求1所述的方法,其特征在于,在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前,所述方法还包括:

提取所述待分类转录组序列的六个可能的读码框的相位序列;

对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;

通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;

将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;

根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。

3.根据权利要求2所述的方法,其特征在于,通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列,包括:

根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;

对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;

将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;

提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;

将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;

针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;

利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测,包括:

根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;

利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。

6.一种转录组序列分类装置,其特征在于,所述装置包括:

获取模块,用于获取宏转录组中的待分类转录组序列;

比对模块,用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;

第一确定模块,用于在比对成功的情况下,利用LCA算法确定所述待分类转录组序列所属类别;

预测模块,用于在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;

其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210074550.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top