[发明专利]转录组序列分类方法、装置、电子设备及可读存储介质在审
申请号: | 202210074550.2 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114496070A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 朱怀球;李墨;尹衡闯 | 申请(专利权)人: | 北京大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苟冬梅 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转录 序列 分类 方法 装置 电子设备 可读 存储 介质 | ||
1.一种转录组序列分类方法,其特征在于,所述方法包括:
获取宏转录组中的待分类转录组序列;
将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别;
在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
2.根据权利要求1所述的方法,其特征在于,在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前,所述方法还包括:
提取所述待分类转录组序列的六个可能的读码框的相位序列;
对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
3.根据权利要求2所述的方法,其特征在于,通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列,包括:
根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;
提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;
将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;
利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测,包括:
根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;
利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
6.一种转录组序列分类装置,其特征在于,所述装置包括:
获取模块,用于获取宏转录组中的待分类转录组序列;
比对模块,用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
第一确定模块,用于在比对成功的情况下,利用LCA算法确定所述待分类转录组序列所属类别;
预测模块,用于在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210074550.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷粉体高频介电性能的评价方法
- 下一篇:车对车通讯方法及车辆通讯系统