[发明专利]通过计算机程序模拟产生简化DNA甲基化测序数据的方法有效

申请号：	201710576797.3	申请日：	2017-07-14
公开（公告）号：	CN107451419B	公开（公告）日：	2020-01-24
发明（设计）人：	陆燕;孙喜伟;刘鹏渊;周莉媛	申请（专利权）人：	浙江大学
主分类号：	G16B30/00	分类号：	G16B30/00;G16B5/00
代理公司：	33200 杭州求是专利事务所有限公司	代理人：	刘静;邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法，可以用来评估不同简化基因组甲基化(RRBS)测序数据比对软件的效率以及相应数据分析平台的可靠性，以此来确定最优的比对方法及相应的最优参数。本发明通过计算机程序模拟RRBS文库构建和测序过程，根据CpGs甲基化水平的分布，产生与真实RRBS测序数据非常相近的仿真数据。该仿真数据除了模拟单个碱基水平的甲基化水平外，还模拟了真实数据的插入、缺失、单核苷酸变异和结构变异等其他特性以增加真实性。此外，本发明在模拟RRBS测序过程中，通过引入经验误差模型来模拟测序过程中出现的误差，进一步增加了仿真数据的真实性。
搜索关键词：	一种通过计算机程序模拟产生简化 dna 甲基化序数方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法，其特征在于，具体包括以下四个步骤：/n(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性的参考基因组序列，变异参数由用户设定；/n(2)在步骤(1)得到的参考基因组序列上模拟CpG二核苷酸位点上的甲基化水平：使用Beta统计模型来产生CpG位点的甲基化数值；考虑到真实数据中邻近CpG位点的强相关性，对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正；/n(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程，记录相应的切割位置得到切割片段fragments，然后根据服从泊松分布的覆盖度参数，模拟产生单端或者双端的测序读长reads；通过内部选择过程，得到定向或者非定向文库的测序片段；/n(4)模拟产生测序数据的质量文件：在Illumina测序中，碱基的测序质量值和它在读长中所处位置有关，越靠后质量越低，使用大量真实数据训练集来拟合Illumina测序的碱基质量分布，得到碱基的经验误差分布，并且用于产生数据的质量值情况。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710576797.3/，转载请声明来源钻瓜专利网。

上一篇：一种触点铆接机
下一篇：基于DNA甲基化数据考虑纯度效应的差异甲基化分析算法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过计算机程序模拟产生简化DNA甲基化测序数据的方法有效

专利文献下载