[发明专利]一种微生物的检测识别方法和系统在审
申请号: | 201611213197.2 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106650311A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 刘恩浩 | 申请(专利权)人: | 基努里(天津)生物科技有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06F19/22;C12Q1/68 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 天津市南开区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 微生物 检测 识别 方法 系统 | ||
1.一种环境微生物检测方法,其特征在于,所述方法包括下述步骤:
输入从环境样本中提取的DNA数据,采用高通量的测序方法对从环境样本中提取的DNA进行测序,得到DNA标签序列;
去除所述DNA标签序列中存在的载体污染;
将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。
2.如权利要求1所述的方法,其特征在于,将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类的步骤还包括:
采用短串序列的映射方法将所述DNA标签序列与已知数据库中的已知序列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配序列所属的分类确定为所述DNA标签序列的所属分类,所述DNA标签序列与已知序列之间的最佳匹配序列为所述DNA标签序列比对到已知序列上具有最少喊基错配的序列。
3.如权利要求2所述的方法,其特征在于,当所述DNA标签序列与已知序列之间的最佳匹配序列有多个时,将该多个最佳匹配序列的最近的共同所属分类确定为所述DNA标签序列的所述分类。
4.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;
计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度。
5.如权利要求4所述的方法,其特征在于,所述对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段的步骤包括:
根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为模拟标签序列;
将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;
查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两部分各去掉模拟标签序列长度1个位点后的连续区域内的序列作为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一个物种DNA序列片段的特有序列。
6.如权利要求4所述的方法,其特征在于,根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的步骤具体为:
可信度,当p接近1时,可信度最高;当p接近0时,可信度最低,其中c为特有序列的覆盖度,d为特有序列的平均测序深度,c’为整条序列的覆盖度。θ为测序的校正因子。
7.如权利要求4所述的方法,其特征在于,所述计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度还包括下述步骤:
根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。
8.如权利要求1-7任意一项所述的方法,其特征在于,所述采用高通量的测序技术对从环境样本中提取的DNA进行测序过程为对环境样本中提取的全部DNA进行测序。
9.一种环境微生物检测系统,其特征在于,所述系统包括:DNA测序单元,用于采用高通量的测序技术对输入的从环境样本中提取的DNA进行测序,得到DNA标签序列;
载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;
所属分类确定单元,用于将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。
10.如权利要求9所述的系统,其特征在于,所述系统还包括:
已知序列预处理单元,用于对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
可信度判断单元,用于根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于基努里(天津)生物科技有限公司,未经基努里(天津)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611213197.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用