[发明专利]通过计算机程序模拟产生简化DNA甲基化测序数据的方法有效
申请号: | 201710576797.3 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107451419B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 陆燕;孙喜伟;刘鹏渊;周莉媛 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B5/00 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,可以用来评估不同简化基因组甲基化(RRBS)测序数据比对软件的效率以及相应数据分析平台的可靠性,以此来确定最优的比对方法及相应的最优参数。本发明通过计算机程序模拟RRBS文库构建和测序过程,根据CpGs甲基化水平的分布,产生与真实RRBS测序数据非常相近的仿真数据。该仿真数据除了模拟单个碱基水平的甲基化水平外,还模拟了真实数据的插入、缺失、单核苷酸变异和结构变异等其他特性以增加真实性。此外,本发明在模拟RRBS测序过程中,通过引入经验误差模型来模拟测序过程中出现的误差,进一步增加了仿真数据的真实性。 | ||
搜索关键词: | 一种 通过 计算机 程序 模拟 产生 简化 dna 甲基化 序数 方法 | ||
【主权项】:
1.一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于,具体包括以下四个步骤:/n(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性的参考基因组序列,变异参数由用户设定;/n(2)在步骤(1)得到的参考基因组序列上模拟CpG二核苷酸位点上的甲基化水平:使用Beta统计模型来产生CpG位点的甲基化数值;考虑到真实数据中邻近CpG位点的强相关性,对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正;/n(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程,记录相应的切割位置得到切割片段fragments,然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长reads;通过内部选择过程,得到定向或者非定向文库的测序片段;/n(4)模拟产生测序数据的质量文件:在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关,越靠后质量越低,使用大量真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710576797.3/,转载请声明来源钻瓜专利网。