[发明专利]基于关联规则挖掘技术挖掘建设法规领域数据的方法无效
申请号: | 200910023991.4 | 申请日: | 2009-09-18 |
公开(公告)号: | CN101655857A | 公开(公告)日: | 2010-02-24 |
发明(设计)人: | 苏变萍;金维兴;董丽丽;侯筱婷 | 申请(专利权)人: | 西安建筑科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安恒泰知识产权代理事务所 | 代理人: | 李郑建 |
地址: | 710055*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 规则 挖掘 技术 建设 法规 领域 数据 方法 | ||
技术领域
本发明涉及自然语言处理领域中对文本特征进行数据挖掘的方法,属于 国际专利分类(IPC)的子类G06F17/27,特别涉及基于关联规则挖掘技术 挖掘建设法规领域数据的方法。
背景技术
建设法规数据是非结构化数据,面向建设法规数据的挖掘技术属于文本 挖掘技术的研究范畴。所谓文本挖掘(Text Mining)是指利用数据挖掘技术 从大量非结构化的、异构的文本集合中发现新颖的、潜在可用的及最终可以 理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程。 文本数据有比数值性的结构化数据更加丰富复杂的内涵,文本挖掘研究的主 要任务是分析文本的内容,发现文本数据集的特征、文本之间的相互关系和 相互作用。采用的挖掘技术主要有:分词、特征选择、降维、关联分析、分 类、聚类、推技术及文本自动摘要,它涉及多个交叉学科,包括机器学习、 统计学、模式识别、数据分析和Web信息搜索等。
Agrawal等,于1993年首先提出了挖掘顾客交易数据库中项集间的关 联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研 究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想 等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖 掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
1、关联规则挖掘过程、分类及其相关算法
1.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找 出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组 中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组 (Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记 录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support), 以一个包含A与B两个项目的2-itemset为例,我们可以经由公式:
求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度 (Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小 支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表 示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1, 直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从 高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在 最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信 赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B} 所产生的规则AB,其信赖度可经由公式:
求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始 数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的 数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是 数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘 结果。
1.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.2.1基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之 间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对 数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处 理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业 =“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入 是数值类型,所以是一个数值型关联规则。
1.2.2基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910023991.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保内胎及制备方法
- 下一篇:污泥辅窑干化法及装置