[发明专利]一种基于并行关联规则的话题关系发现方法和发现装置有效
申请号: | 201710504913.0 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107256213A | 公开(公告)日: | 2017-10-17 |
发明(设计)人: | 刘昕;王奕文;李忠伟;王丰;曹帅;邹苹钧 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明实施例提供一种基于并行关联规则的话题关系发现方法。本发明的基于并行关联规则的话题关系发现方法,在获取大规模频繁关键词集的基础上,采用并行关联规则算法获取关联关键词集,进而进行筛选和组合形成话题相关信息,从而发现多个话题之间的关联关系。本发明实施例还提供一种基于并行关联规则的话题关系发现装置。本发明实施例提供的技术方案能够准确有效地发现相关话题之间潜在的关联关系,寻找具体事件发生的深层次或根本原因。 | ||
搜索关键词: | 一种 基于 并行 关联 规则 话题 关系 发现 方法 装置 | ||
【主权项】:
一种基于并行关联规则的话题关系发现方法,包括以下步骤:A.根据多个话题的相关关键词信息分别筛选出对应话题的相关数据信息,通过统计数据中所有关键词的出现次数,获取1_项频繁关键词集;B.在已经获得的k‑1_项关联关键词集(1_项关联关键词集即1_项频繁关键词集)基础上获取k_项候选关键词集的过程如下:k_项候选关键词集的获取包括连接步和剪枝步。连接步分为两个步骤:首先根据k‑1_项关联关键词集的数量进行数据分割和任务分配;然后,每个子任务将得到的所有1_项频繁关键词集和分配得到的k‑1_项关联关键词集随机组合,独立生成k_项候选关键词集。剪枝步是根据关联规则的先验知识,即频繁关键词集的所有非空子集也一定是频繁的,将连接步得到的不满足先验知识的k_项候选关键词集剪枝,进一步压缩得到用于产生频繁关键词集的k_项候选关键词集;C.设置支持度阈值,根据剪枝后的k_项候选关键词集获取k_项频繁关键词集包括以下两个步骤:首先统计数据中所有k_项候选关键词集的出现次数,获取k_项频繁关键词集;然后将每个子任务的结果合并形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;D.设置置信度阈值,根据已经得到的全局k_项频繁关键词集产生所有关联规则,从而筛选出所有关联规则都大于置信度阈值的k_项关联关键词集;E.迭代进行B至D步骤直到所有k_项关联关键词集为空,将存在关联关键词集的最大项记为n;然后将所有k_项关联关键词集(2≤k≤n)合并后约简,获得一个话题的所有关联关键词集;最后筛选和匹配多个话题的关联关键词集,发现多个相关话题之间的关联关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710504913.0/,转载请声明来源钻瓜专利网。