[发明专利]一种基于非易失性存储器的频繁模式挖掘方法有效
申请号: | 201710027657.0 | 申请日: | 2017-01-16 |
公开(公告)号: | CN106874396B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 刘铎;林怡;黄铂钧;朱潇;李阳 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 非易失性存储器 频繁 模式 挖掘 方法 | ||
本发明提供了一种基于非易失性存储器的频繁模式挖掘方法,它包括以下步骤:步骤1、利用多核系统对频繁模式树进行并行构建:先将数据库中的多条数据项大致均匀地分配到每个核中,利用CN106250549A记载的方法,在每一个核上构建一棵本地频繁模式树;步骤2、对步骤1所构建的频繁模式树进行合并:将本地频繁模式树的信息搜集起来,合并成一棵大的全局频繁模式树。由于本发明采用并行构建频繁模式树,大幅度缩短了构建的时间,提高了构建频繁模式树的效率,解决了挖掘大数据集时构建树的速度慢的问题。
技术领域
本发明属于存储器技术领域,具体涉及一种用于NVM的频繁模式挖掘方法。
背景技术
中国专利文献CN106250549A于2016年12月21日公开了一种基于内存的频繁模式挖掘方法,它包括以下步骤:步骤1,构建频繁模式初始树,创建频繁模式树的根结点T,以“null”标记;再次扫描数据库,将读取的每条事务中的频繁项选出并按L中的次序排序;排序后以null为根结点构建一条频繁模式树的路径,只对路径上位于最末的结点的计数加1,路径上的其他结点的计数保持不变;依次扫描完整个数据库中所有事务后获得频繁模式初始树;步骤2,用深度优先搜索算法对频繁模式初始树依次进行遍历,遍历结点的计数器值为该结点本身的值加上其所有孩子结点的值。该专利能减少对NVM的写操作,能快速的构建频繁模式树;且能减少对靠近根结点的结点计数域大量密集的写操作,延长了NVM寿命。
但是,当待挖掘的数据集非常大,用该专利的方法构建树的效率很低,有必要探索一种快速构建频繁模式树的方法。
发明内容
针对现有技术中存在的技术问题,本发明所要解决的技术问题就是提供一种基于非易失性存储器的频繁模式挖掘方法,它在挖掘大数据集时,能够快速构建频繁模式树。
本发明所要解决的技术问题是通过这样的技术方案实现的,它包括以下步骤:
步骤1、利用多核系统对频繁模式树进行并行构建
先将数据库中的多条交易记录大致均匀地分配到每个核中,在每一个核上构建一棵本地频繁模式树;
步骤2、对步骤1所构建的频繁模式树进行合并
将本地频繁模式树的信息搜集起来,合并成一棵大的全局频繁模式树。
由于本发明采用并行构建频繁模式树,大幅度缩短了构建的时间,提高了构建频繁模式树的效率,解决了挖掘大数据集时构建树的速度慢的问题。
附图说明
本发明的附图说明如下:
图1为本发明构建频繁模式树的示意图;
图2为brute-force合并树的流程图;
图3为本发明合并树的流程图;
图4为实验中读操作的测试效果图;
图5为实验中写操作的测试效果图;
图6为实验中构建全局树时间的测试效果图;
图7为本发明与现有并行构建树时间的对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
本发明应用于多核系统中,硬件包含有CPU、存储器管理单元MMU、作为内存的NVM等,NVM直接连接在内存总线上。发明应用的上下文环境为:上层是应用层,下层具体的硬件,存储器包括NVM以及SSD等。应用层发出操作请求,对作为内存的NVM进行操作。
如图1所示,对本发明包括以下步骤:
步骤1、利用多核系统对频繁模式树进行并行构建
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710027657.0/2.html,转载请声明来源钻瓜专利网。