[发明专利]一种生物标志物的筛选方法及其相关应用在审
申请号: | 202210770641.X | 申请日: | 2022-06-30 |
公开(公告)号: | CN114974432A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 张陈陈;梁雅俊;朱瑞娟;兰周;常曌;张东亚;蒋先芝 | 申请(专利权)人: | 慕恩(广州)生物科技有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/30;G16B30/10 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 颜欢 |
地址: | 510000 广东省广州市高新技*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物 标志 筛选 方法 及其 相关 应用 | ||
1.一种生物标志物的筛选方法,其特征在于,其包括以下步骤:
S1:建立代表菌株基因组序列库:对获得的基因组序列库中的序列按照设定阈值进行聚类,获得不同株水平和/或种水平的菌株簇;筛选获得每个菌株簇的代表菌株序列以建立代表菌株基因组序列库;
S2:建立代谢产物基因簇序列库:对获得的基因组序列库的序列进行基因注释并预测每个菌株和/或每个菌种的代谢产物基因簇,通过对代谢产物基因簇进行相似度聚类以获得基因簇家族,将基因簇家族合并获得代谢产物基因簇序列库;步骤S1和步骤S2的操作顺序可以互换或步骤S1和步骤S2可以同时进行;
S3:获取样本的宏基因组测序数据,将宏基因组测序数据分别与步骤S1所述的代表菌株基因组序列库、步骤S2所述的代谢产物基因簇序列库进行比对,获得每个菌株和/或每个菌种的相对丰度以及代谢产物的相对丰度;
S4:筛选显著差异菌株和/或菌种以及显著差异代谢产物;
S5:将菌株或菌种、及其代谢产物均具有显著差异的候选菌株或候选菌种(菌株)作为生物标志物;
优选地,将筛选获得的生物标志物作为构建预测模型的指标,利用交叉验证的方法筛选出能够有效预测的菌株或菌种作为最终的生物标志物。
2.根据权利要求1所述的生物标志物的筛选方法,其特征在于,在所述步骤S1中,所述设定阈值≥95%;优选地,所述设定阈值≥99%;
优选地,在所述S1步骤中,按照设定阈值≥99%获得不同株水平的菌株簇,按照设定阈值≥95%获得不同种水平的菌株簇时,并获得菌株簇的代表菌株;
优选地,所述筛选获得每个菌株簇的代表菌株序列以建立代表菌株基因组序列库的步骤包括:对于每一菌株簇里的菌株,挑选基因序列长度最长的基因序列作为同一菌株簇的代表菌株序列;
优选地,在所述S1和/或S2步骤中,获得的基因组序列库包括基因组数据库和/或菌株数据库;
优选地,所述基因组数据库包括UHGG数据库、人肠道微生物基因组序列数据库中的至少一种。
3.根据权利要求1所述的生物标志物的筛选方法,其特征在于,步骤S2中,进行基因注释后,还包括对并对注释的基因进行分析,以预测每个菌株和/或每个菌种的代谢产物基因簇;
优选地,步骤S2中,所述通过对代谢产物基因簇进行相似度聚类以获得基因簇家族的步骤包括(a)~(c)中任一项:
(a)提取代谢产物基因簇的蛋白序列,根据蛋白序列之间的序列相似性对预测的代谢产物基因簇进行冗余过滤,得到一个非冗余基因簇集合,根据设定的相似度阈值对非冗余基因簇集合中的代谢产物基因簇进行聚类,以获得所述基因簇家族;
(b)将相同代谢产物的基因簇合并为一个基因簇集合,选择基因簇集合的代表基因簇;根据设定的相似度阈值对代表基因簇进行聚类,以获得所述基因簇家族;
(c)提取代谢产物基因簇的蛋白序列,根据蛋白序列之间的序列相似性对预测的代谢产物基因簇进行冗余过滤,得到一个非冗余基因簇集合,对每个非冗余基因簇集合中的基因簇计算两两之间的距离,选择距离值最小的基因簇作为此基因簇集合的代表基因簇,用于合并获得所述代谢产物基因簇序列库;
优选地,在(b)项中,所述选择基因簇集合的代表基因簇的步骤包括:对每个基因簇集合中的基因簇计算两两之间的距离,选择距离值最小的基因簇作为此基因簇集合的代表基因簇,用于合并获得所述代谢产物基因簇序列库;
优选地,所述相似度阈值≥0.3;
优选地,进行所述基因注释的工具包括prokka;
优选地,用于预测每个菌株或每个菌种的代谢产物基因簇的工具包括:gutsmash和/或antismash;
优选地,所述S4步骤中,所述筛选显著差异菌株及显著差异代谢产物的步骤包括:针对每个队列的数据,将菌株和/或菌种的种类或其丰度具有显著差异的作为显著差异菌株,将代谢产物的种类及其丰度具有显著差异的作为差异显著代谢产物;
优选地,在所述S5步骤中,当存在多个队列的数据时,还包括计算菌株和/或菌种在不同队列之间的异质性,保留异质性较小的候选菌株或菌种作为生物标志物;
优选地,所述异质性较小的标准包括:I2<40%且P>0.1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慕恩(广州)生物科技有限公司,未经慕恩(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210770641.X/1.html,转载请声明来源钻瓜专利网。