[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

申请号：	201611033051.X	申请日：	2016-11-22
公开（公告）号：	CN106778079B	公开（公告）日：	2019-07-19
发明（设计）人：	谭军;孟光伟	申请（专利权）人：	重庆邮电大学
主分类号：	G16B40/00	分类号：	G16B40/00
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种基于MapReduce的DNA序列k‑mer频次统计方法。该方法在运行MapReduce计算模型的分布式集群环境中对要处理的序列文件进行预处理，去除错误序列；将处理后的序列文件进行哈希处理后作为Map函数的输入，Map函数使用定义的算法计算出k变化范围内的所有k‑mer频次并作为Combine函数的输入；Combine函数对得到的中间结果进行本地合并并将结果作为Reduce函数的输入；Reduce对各Combine节点传送来的key相同的键值对进行合并输出最终结果。本方法能够有效的处理大规模序列数据集，降低处理设备性能要求；同时解决现有方法中I/O开销占总处理时间过大问题，显著提升处理速度。
搜索关键词：	一种基于 mapreduce dna 序列 mer 频次统计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于MapReduce的DNA序列k‑mer频次统计方法，其特征在于，包括以下步骤：1)输入待处理的DNA序列文件和k‑mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤：2)将预处理后的序列文件进行哈希处理后作为Map函数输入；3)将Map阶段的结果作为Combine函数输入，Combine函数对中间结果进行合并，本地合并即Map处理的节点上得到中间结果，继续在这个节点上进行Combine阶段处理，Combine表示进行中间结果合并，并将合并中间结果作为Reduce函数的输入；4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理，即将主键key相同的键值对分到同一个Reduce节点，将合并中间结果传递到Reduce节点后，运行Reduce函数对所有的键值对进行归约处理，得到最终结果并输出，即为所处理DNA序列文件中的所有k‑mer的频数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611033051.X/，转载请声明来源钻瓜专利网。

上一篇：基于kendall相关系数的DNA序列相似性比对方法
下一篇：一种中药方剂分析方法及实现该方法的系统

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效

专利文献下载