[发明专利]一种基于图的存储模式挖掘方法无效
申请号: | 201110040963.0 | 申请日: | 2011-02-18 |
公开(公告)号: | CN102096719A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 张敬亮;梁爽 | 申请(专利权)人: | 中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于图的存储模式挖掘方法,通过一次遍历将原始序列信息累积并压缩保存于频繁模式图中,再利用模式生长条件通过对频繁模式图中频繁子图的游历产生优化有效的模糊频繁子模式。通过图中拓扑对原始序列信息的保存避免了对序列的多次扫描;同时其利用频度模式简化挖掘目标,降低了挖掘开销,适合大规模数据密集应用的存储模式挖掘并支持在线流式挖掘。 | ||
搜索关键词: | 一种 基于 存储 模式 挖掘 方法 | ||
【主权项】:
一种基于图的存储模式挖掘方法,其特征在于包括下列步骤:(a)基于原始序列来构建频繁模式图,其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素分别为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司,未经中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110040963.0/,转载请声明来源钻瓜专利网。