[发明专利]数据流中带权值频繁项挖掘方法和系统有效
申请号: | 200910092805.2 | 申请日: | 2009-09-08 |
公开(公告)号: | CN101650730A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | 张玉;张永铮 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王 勇 |
地址: | 100190北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种数据流中带权值频繁项挖掘方法,数据流中的带权值频繁项动态存储在部分排序的流概要数据结构中;部分排序的流概要数据结构包括多个按开始值顺序排列的桶,桶还包括有由条目通过双向循环链表所构成的组;桶中的条目包括数据项名称、计数器值以及计数器的最大可能误差,条目的计数器值大于所在桶的开始值而小于或等于所在桶的开始值与桶范围系数之和;包括:从所接收到的数据流中依次取出数据项;根据所取出的数据项的名称和权值在部分排序的流概要数据结构中找出合适的桶以及合适的条目,并为所述条目赋值;根据用户的命令按序遍历所述的部分排序的流概要数据结构,所得到的计数器值大于一阈值的条目为所要挖掘的带权值频繁项。 | ||
搜索关键词: | 数据流 中带权值 频繁 挖掘 方法 系统 | ||
【主权项】:
1、一种数据流中带权值频繁项挖掘方法,数据流中的带权值频繁项动态存储在部分排序的流概要数据结构中;所述部分排序的流概要数据结构包括多个按开始值顺序排列的桶,所述桶还包括有由条目通过双向循环链表所构成的组;所述桶中的条目包括数据项名称、计数器值以及计数器的最大可能误差,所述条目的计数器值大于所在桶的开始值而小于或等于所在桶的开始值与桶范围系数之和;该方法包括:步骤1)、从所接收到的数据流中依次取出数据项,所述数据项包括数据项名称和数据项权值;步骤2)、根据所取出的数据项的数据项名称和数据项权值在所述的部分排序的流概要数据结构中找出合适的桶以及合适的条目,并为所述条目中的数据项名称、计数器值以及计数器的最大可能误差赋值;步骤3)、根据用户的命令按序遍历所述的部分排序的流概要数据结构,所得到的计数器值大于一阈值的条目为所要挖掘的带权值频繁项。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910092805.2/,转载请声明来源钻瓜专利网。