[发明专利]一种基于GPU-CUDA平台以及遗传算法的数据流并行处理方法无效
申请号: | 201310229098.3 | 申请日: | 2013-06-09 |
公开(公告)号: | CN103279332A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 卢晓伟;周勇;韩君;张清 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06N3/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于GPU-CUDA平台以及遗传算法的数据流并行处理方法,包括以下内容:利用遗传算法动态挖掘出最新数据的频繁项集,从一组初始种群开始搜索过程,种群中的每个个体是一个可能的频繁模式;根据数据流的特点采取滑动窗口模式,进行流数据的挖掘,而且针对频繁项集挖掘的特点,采用基于滑动窗口之上的嵌套子窗口模型;根据数据流数据量大,需要实时处理的特点,采用GPU-CUDA并行处理技术来进行频繁项集挖掘;综合处理滑动窗口内各嵌套子窗口中频繁项集,最终获得当前滑动窗口内数据的频繁项集,与现有技术相比,本发明技术方案通过GPU强大的浮点计算能力和在GPU上进行编程的CUDA加速技术,处理流数据的频繁项集,可以采用遗传算法的并行形式进行建模,提升了用户操作体验。 | ||
搜索关键词: | 一种 基于 gpu cuda 平台 以及 遗传 算法 数据流 并行 处理 方法 | ||
【主权项】:
一种基于GPU‑CUDA平台以及遗传算法的数据流并行处理方法, 其特征在于,包括以下内容:利用遗传算法动态挖掘出最新数据的频繁项集,从一组初始种群开始搜索过程,种群中的每个个体是一个可能的频繁模式;根据数据流的特点采取滑动窗口模式,进行流数据的挖掘,而且针对频繁项集挖掘的特点,采用基于滑动窗口之上的嵌套子窗口模型;根据数据流数据量大,需要实时处理的特点,采用GPU‑CUDA并行处理技术来进行频繁项集挖掘;综合处理滑动窗口内各嵌套子窗口中频繁项集,最终获得当前滑动窗口内数据的频繁项集; 具体步骤如下:一、利用遗传算法的并行性搜索嵌套子窗口内最新数据的频繁项集;步骤S110:设定滑动窗口SW及子窗口S_SW大小,分别为w1、w2输入各类参数之后,根据数据流属性来确定窗口大小,SW内容是根据当前多少条事务的频繁项集的兴趣度来决定的,子窗口是根据数据的处理能力以及被抛弃的旧数据条数来确定,也决定了需求所要求统计的频率;给定支持度阈值S,若某个个体i, 其适应度为Fi ,当Fi> = S,事务i即为滑动窗口内数据集的频繁项集模式;事务的属性种数、各属性的取值范围以及生成原始种群大小来确定最大迭代次数T,本处理方法是采用子窗口模型,避免在旧数据被淘汰之后,对滑动窗口SW内存在的数据进行多次重复处理;设定交叉概率P,个体变异概率Q,子窗口内的数据分成Z 段并行计算,该处的函数采用GPU CUDA 并行技术,将每个子窗口内的数据交给一个线程进行并行处理;步骤S120:获得初始种群,数据在流动过程中,获取子窗口内最新到来的数据,同时得到此数据的频繁1‑项集,将频繁1‑项集编码为实数串,并将频繁1‑项集非零项按原来所在位置随机组合编码,共同组成嵌套子窗口内的初始种群,此种群中个体为待考察频繁项集模式,具体过程如下:1 )统计A、B和C的属性值为V1,V2,V3的个数分别作为第一列、第二列和第三列;2 )大于等于阈值N的保留,并按其所对应的行进行赋值,小于N的赋值0,并去掉;3)将每一个非0值单独成一行,并保持其原来所在行的位置,其余位置填0;4)非零项按原来所在位置随机组合编码,共同组成初始种群;函数是采用GPU CUDA编程模式,采用流技术和共享存储器等优化手段,将每个属性的求解过程进行并行处理;步骤S130:计算个体支持度值是初始种群内待考察频繁模式与实际事务匹配的过程,当个体支持度值大于S时,将该个体模式加入当前子窗口频繁项集内,Fi=Wi/WZ ,Fi 为事务i的支持度,Wi为当前子窗口内具有相同属性值的事务条数,WZ为当前子窗口内事务总条数;分Z 段并行匹配,虽然增大了内存开销,但大量减少运行时间,对于数据流频繁项集挖掘具有很大意义,并行匹配;步骤S140:选择,将种群中个体按支持度值进行轮盘选择;步骤S150:交叉,以交叉概率P进行一次交叉;步骤S160:变异,个体按变异概率Q进行基本位变异;步骤S170:扫描确定变异后个体支持度值,新增的满足条件的个体添加到频繁项集中;步骤S180:判断结束条件,如迭代次数小于T,转步骤3,T次迭代运算后,则终止迭代并获得当前嵌套子窗口内数据的频繁项集;二、获得当前滑动窗口内数据的频繁项集步骤S210:本次获得的各个频繁项集模式与之前U,U=w1/w2‑1次获得的频繁项集模式共同组成初始种群,进行一次搜索,最终满足条件的模式个体为滑动窗口内数据的频繁项集;For i=1:U+1;将各段得到的频繁模式组合成为频繁模式群;End;将频繁模式群在滑动窗口SW内进行一次并行搜索;支持度大于S的最终确定为频繁模式;该步骤的函数采用OpenMP共享编程模式进行多线程并行处理;步骤S310:随着数据流的流动,继续处理新接收到的数据,并抛弃最早的数据,转步骤S102继续以上操作,至数据流结束为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310229098.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种聚酯纤维板
- 下一篇:一种塑料盆的生产工艺