[发明专利]第三代测序比对算法在审
申请号: | 201780010771.0 | 申请日: | 2017-02-10 |
公开(公告)号: | CN108699601A | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | W·H·王;P·T·阿夫沙尔 | 申请(专利权)人: | 斯坦福大学托管董事会 |
主分类号: | C12Q1/6874 | 分类号: | C12Q1/6874;G06F19/28;G06F19/22 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 张小勇 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 读取 参考序列 比对算法 第三代 映射 比对 测序 聚体 | ||
1.一种用于将读取序列与参考序列片段比对的方法,所述方法包括:
a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口,其中所述窗口具有相同长度;
b.计算在每个窗口内独特k-聚体出现的数量,
c.基于在每个窗口内独特k-聚体出现的所述数量,计算k-聚体计数相似性值;
d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,
其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;
e.通过求所述多个k-聚体计数相似性值的平均值,计算相似性评分;和
f.当所述相似性评分高于阈值时,将所述读取序列与所述参考序列片段比对,
其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。
2.根据权利要求1所述的方法,其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。
3.根据权利要求1或2中任一项所述的方法,其中所述参考序列片段为从基因组数据库获得的参考序列的区域。
4.根据权利要求1或2中任一项所述的方法,其中所述参考序列为读取序列。
5.根据权利要求4所述的方法,其中为读取序列的所述参考序列是根据测序同一样品而获得,根据权利要求1所述的读取序列的所述序列是从所述同一样品获得。
6.根据权利要求1到5中任一项所述的方法,其中所述窗口中的每一个的所述长度为至少50个碱基。
7.根据权利要求1到5中任一项所述的方法,其中所述窗口中的每一个的所述长度能够为在1-10,000个碱基范围内的任何整数值,其中所述长度保持恒定。
8.根据权利要求1到7中任一项所述的方法,其中所述距离d为至少10个碱基长。
9.根据权利要求1到7中任一项所述的方法,其中所述距离d的长度能够在1-500个碱基范围内,其中d保持恒定。
10.根据权利要求1到9中任一项所述的方法,其中所述k-聚体的长度为2-10个碱基。
11.根据权利要求10所述的方法,其中所述k-聚体的长度为3个碱基。
12.根据权利要求10所述的方法,其中所述k-聚体的长度为4个碱基。
13.一种可实行软件产品,其存储在含有用于将读取序列与参考序列片段比对的方法的程序指令的计算机可读媒体上,所述方法包括:
a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口,其中所述窗口具有相同长度;
b.计算在每个窗口内独特k-聚体出现的数量,
c.基于在每个窗口内独特k-聚体出现的所述数量,计算k-聚体计数相似性值;
d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,
其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;
e.通过求所述多个k-聚体计数相似性值的平均值,计算相似性评分;和
f.当所述相似性评分高于阈值时,将所述读取序列与所述参考序列片段比对,
其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。
14.根据权利要求13所述的可实行软件产品,其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯坦福大学托管董事会,未经斯坦福大学托管董事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780010771.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的新一代测序
- 下一篇:鉴定男性能育性状态和胚胎质量的方法