[发明专利]一种基于MapReduce的DNA序列k-mer频次统计方法有效
申请号: | 201611033051.X | 申请日: | 2016-11-22 |
公开(公告)号: | CN106778079B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 谭军;孟光伟 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于MapReduce的DNA序列k‑mer频次统计方法。该方法在运行MapReduce计算模型的分布式集群环境中对要处理的序列文件进行预处理,去除错误序列;将处理后的序列文件进行哈希处理后作为Map函数的输入,Map函数使用定义的算法计算出k变化范围内的所有k‑mer频次并作为Combine函数的输入;Combine函数对得到的中间结果进行本地合并并将结果作为Reduce函数的输入;Reduce对各Combine节点传送来的key相同的键值对进行合并输出最终结果。本方法能够有效的处理大规模序列数据集,降低处理设备性能要求;同时解决现有方法中I/O开销占总处理时间过大问题,显著提升处理速度。 | ||
搜索关键词: | 一种 基于 mapreduce dna 序列 mer 频次 统计 方法 | ||
【主权项】:
1.一种基于MapReduce的DNA序列k‑mer频次统计方法,其特征在于,包括以下步骤:1)输入待处理的DNA序列文件和k‑mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤:2)将预处理后的序列文件进行哈希处理后作为Map函数输入;3)将Map阶段的结果作为Combine函数输入,Combine函数对中间结果进行合并,本地合并即Map处理的节点上得到中间结果,继续在这个节点上进行Combine阶段处理,Combine表示进行中间结果合并,并将合并中间结果作为Reduce函数的输入;4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理,即将主键key相同的键值对分到同一个Reduce节点,将合并中间结果传递到Reduce节点后,运行Reduce函数对所有的键值对进行归约处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k‑mer的频数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611033051.X/,转载请声明来源钻瓜专利网。