[发明专利]一种分析微生物群落结构所需测序量的预测方法有效
申请号: | 201610058255.2 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105631246B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 倪加加;许玫英;李筱婧 | 申请(专利权)人: | 广东省微生物研究所 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 广州科粤专利商标代理有限公司 44001 | 代理人: | 刘明星 |
地址: | 510070 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种分析微生物群落结构所需测序量的预测方法。通过拟合因测序量不足引起的群落间距离与测序量之间的回归关系,获得两者之间的回归方程,并通过预测误差与测序量之间的回归关系对该回归方程进行校正。随着测序量的增加,因测序量不足引起的群落间距离会逐渐变小;当该距离接近0时,多次重复采样获得的群落结构的相似性就接近100%,该群落结构就能够代表环境中的微生物群落组成。因此,通过设定所获得的线性方程中的群落间距离为0,根据校正后的回归方程可以较为准确地预测出能够反映环境微生物群落组成所需要的测序量。 | ||
搜索关键词: | 测序 群落结构 回归方程 分析微生物 校正 预测 微生物群落组成 环境微生物 多次重复 距离接近 群落组成 线性方程 预测误差 逐渐变小 采样 回归 拟合 | ||
【主权项】:
1.一种分析微生物群落结构所需测序量的预测方法,其特征在于,包括以下步骤:一、校正函数PSb/AS=a'·log10(PSb)+b'中a'和b'的获得a、选择不少于10个已有16S rRNA基因测序信息且与拟分析的微生物群落结构生境接近的微生物群落,命名为微生物群落M1、M2、M3、……、Mn,n≥10,每个微生物群落含有的16S rRNA序列数为AS;对于上述M1、M2、M3、……、Mn微生物群落,确定不少于5个随机抽样深度进行抽样获得16S rRNA基因序列组,分别命名为D1、D2、D3、……、Dn序列数目的16S rRNA基因序列组,n≥5,这些16S rRNA基因序列组满足以下特点:(1)这n组序列数目的16S rRNA基因序列组的序列数量各不相同但最多的序列数量不超过所选择的微生物群落中AS最少的16S rRNA基因序列数,即D1≠D2≠D3≠……≠Dn,且max{D1,D2,D3,……,Dn}≤min{AS};(2)D1、D2、D3、……、Dn序列数目的16S rRNA基因序列组,每个微生物群落每个序列数目的16S rRNA基因序列组具有3个以上的重复样,即D1序列数目的16S rRNA基因序列组具有3个以上的重复样,D2序列数目的16S rRNA基因序列组具有3个以上的重复样,依此类推;(3)分别从M1、M2、M3、……、Mn微生物群落抽取的D1、D2、D3、……、Dn序列数目的16S rRNA基因序列组,它们的D1、D2、D3、……、Dn序列数目是一致的,即所有微生物群落抽取的3个D1序列数目的16S rRNA基因序列组的序列数目是相同的,都是D1;所有微生物群落抽取的3个D2序列数目的16S rRNA基因序列组的序列数目是相同的,都是D2;依此类推;b、在相同的抽样深度条件下,分别计算每个微生物群落中D1、D2、D3、……、Dn序列数目的16S rRNA基因序列组中抽取的3个重复样的群落间距离d,然后对每个微生物群落单独拟合序列数目D1、D2、D3……Dn的10为底的对数函数值与群落间距离d之间的相关方程d=a·log10D+b,上述所述D为序列数目,获得式中的a值和b值;c、令d=0,计算每个微生物群落预测的测序深度PSb,即方程d=a·log10D+b中d=0时的D值;d、计算每个微生物群落预测的测序深度PSb与AS之间的比值,得到PSb/AS值,并通过拟合方程PSb/AS=a'·log10(PSb)+b'获得a'和b'的值;二、预测群落所需最少测序量对拟分析的微生物群落中的16S rRNA基因进行若干次重复的随机PCR扩增,并进行测序,得到若干个数据集,分别从每个测序的数据集中抽取a1、a2、a3、……、an序列数的序列,由各个数据集中抽取的a1组成{a1}数据集,a2组成{a2}数据集,以此类推,分别计算相同序列数D的数据集之间的群落间距离d,所述的若干次指3次以上,所述的a1、a2、a3、……、an序列数,满足a1≠a2≠a3≠……≠an,所述的n≥5;根据得到的D和相对应的d拟合方程d=a·log10D+b,并获得式中的a值和b值;根据公式PSa=PSb/(PSb/PSa)≈PSb/(PSb/AS)=(10‑b/a)/(b'‑a'·b/a),代入a'、b'、a和b值,计算获得分析微生物群落结构所需测序量PSa。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省微生物研究所,未经广东省微生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610058255.2/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用