[发明专利]通过计算机程序模拟产生简化DNA甲基化测序数据的方法有效

专利信息
申请号: 201710576797.3 申请日: 2017-07-14
公开(公告)号: CN107451419B 公开(公告)日: 2020-01-24
发明(设计)人: 陆燕;孙喜伟;刘鹏渊;周莉媛 申请(专利权)人: 浙江大学
主分类号: G16B30/00 分类号: G16B30/00;G16B5/00
代理公司: 33200 杭州求是专利事务所有限公司 代理人: 刘静;邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,可以用来评估不同简化基因组甲基化(RRBS)测序数据比对软件的效率以及相应数据分析平台的可靠性,以此来确定最优的比对方法及相应的最优参数。本发明通过计算机程序模拟RRBS文库构建和测序过程,根据CpGs甲基化水平的分布,产生与真实RRBS测序数据非常相近的仿真数据。该仿真数据除了模拟单个碱基水平的甲基化水平外,还模拟了真实数据的插入、缺失、单核苷酸变异和结构变异等其他特性以增加真实性。此外,本发明在模拟RRBS测序过程中,通过引入经验误差模型来模拟测序过程中出现的误差,进一步增加了仿真数据的真实性。
搜索关键词: 一种 通过 计算机 程序 模拟 产生 简化 dna 甲基化 序数 方法
【主权项】:
1.一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于,具体包括以下四个步骤:/n(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性的参考基因组序列,变异参数由用户设定;/n(2)在步骤(1)得到的参考基因组序列上模拟CpG二核苷酸位点上的甲基化水平:使用Beta统计模型来产生CpG位点的甲基化数值;考虑到真实数据中邻近CpG位点的强相关性,对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正;/n(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程,记录相应的切割位置得到切割片段fragments,然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长reads;通过内部选择过程,得到定向或者非定向文库的测序片段;/n(4)模拟产生测序数据的质量文件:在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关,越靠后质量越低,使用大量真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710576797.3/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top