[发明专利]基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法有效
申请号: | 201610534138.9 | 申请日: | 2016-07-07 |
公开(公告)号: | CN106228035B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 陈宁;陈挺;蒋林浩 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王文君 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法。本发明方法可以有效地处理海量序列数据,包括16s rRNA和18s rRNA数据。由于使用了高效的分块迭代方法,避免了大量不相似序列的比对,针对大规模数据集的聚类问题,本方法可以快速给出聚类结果,是目前生物信息领域处理大规模聚类问题最高效的方法。同时,由于DP‑means算法中对聚类中心的估计更加准确,本发明方法得出的聚类结果可以保证很高的准确性。 | ||
搜索关键词: | 基于 局部 敏感 参数 化贝叶斯 方法 高效 | ||
【主权项】:
1.一种基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法,其特征在于,包括以下步骤:S1.去除基因序列数据集中所有重复序列,并将所述基因序列转换为维度是4K的k‑mer计数向量;S2.利用针对二范数距离的LSH算法对所述k‑mer计数向量进行分组,使得相似的序列被分到同一组;S3.利用DP‑means算法对各分组进行聚类,并利用MPI和多线程技术实现并行处理;S4.将步骤S3中每个分组产生的聚类结果合并,并迭代运行步骤S2和S3使得整体聚类结果收敛;S5.最后根据长度较大的k‑mer对所有剩下的基因序列做哈希,将拥有相同k‑mer的序列再做一次聚类,得出最终聚类结果;所述长度较大的k‑mer是指数据集中基因序列长度均值的25%的k‑mer。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610534138.9/,转载请声明来源钻瓜专利网。