[发明专利]基于关联规则挖掘技术挖掘建设法规领域数据的方法无效
申请号: | 200910023991.4 | 申请日: | 2009-09-18 |
公开(公告)号: | CN101655857A | 公开(公告)日: | 2010-02-24 |
发明(设计)人: | 苏变萍;金维兴;董丽丽;侯筱婷 | 申请(专利权)人: | 西安建筑科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安恒泰知识产权代理事务所 | 代理人: | 李郑建 |
地址: | 710055*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 规则 挖掘 技术 建设 法规 领域 数据 方法 | ||
1.基于关联规则挖掘技术挖掘建设法规领域数据的方法,具体包含以 下步骤:
步骤一,生成建设法规文本向量空间模型,该建设法规文本向量空间模 型定义为:
di=((t1,wi1),(t2,wi2),…,(tn,win)) (1)
步骤二,生成建设法规数据向量空间模型,建设法规数据的第 i(i=k+1,k+2,…,n)个特征词的向量空间模型为:
ti=(wi1,wi2,...,wim) (2)
公式(1)和(2)中,t为特征词,k为文本向量空间分量中与同义词 和近义词词典中相对应,权值被赋予1的特征词的个数;wij表示第i个特征 词在第j(j=1,2,…,m)个文本的向量空间模型式中出现的情况,wij的取值 为1或0,wij=1表示特征词ti在第j个文本的特征中出现,wij=0表示特征词 ti在第j个文本的特征中未出现;
步骤三,将建设法规数据向量空间模型转置得到建设法规数据特征向量 空间模型,即生成了建设法规数据频繁特征项集G,G={ti|i=k+1,k+2,…,n};
步骤四,输出建设法规数据关联规则,输出建设法规数据关联规则流程 包括如下步骤:
第(1)步,顺序提取频繁特征项集中的一对特征,计算特征间的关联 度εij;
第(2)步,判断εij是否大于等于0.6;若εij大于等于0.6,可得关联规 则则输出关联规则到W3词表中,并转到第(4)步;
第(3)步,若εij小于0.6,则进行第(4)步;
第(4)步,判断是否到频繁特征项集尾部,若是则结束,否则转到第 (1)步。
2.如权利要求1所述的方法,其特征在于,对于新到来的文本,重复 步骤一到步骤四,将在新的建设法规文本中存在而在特征词集中不存在的新 特征词加入特征词集,并对新文本进行标引,并对已有文本在新特征形成的 维度上补零。
3.如权利要求1所述的方法,其特征在于,所述的建设法规数据向量 空间模型的生成包括如下步骤:
1)动态建立建设法规数据同义词、近义词、上下位词和关联词后控词 表;
2)对每一篇建设法规文本中的同义词、近义词作为同一个特征词处理, 并赋权值1;
3)将管理、监督、条例、规定、办法、通知规定为文本频率高的词, 对每一篇建设法规文本除去文本特征词频率高的词,余下的词作为候选特征 词;
4)将每一篇建设法规文本中的候选特征词按其频率从高到低降序排列, 并进行累计加总;
5)取阈值T为85%—95%,当上个步骤累计加总的频率达到阈值T时, 对剩下的没有进入累计加总的候选特征词进行删除,对保留下来的候选特征 词赋权值,权值为其相应的频率;
6)汇总所有建设法规文本的特征词形成建设法规数据特征词集;
7)将上个步骤形成的特征词集用布尔赋值方法标引每篇文本,形成建 设法规数据文本向量空间模型;
8)对建设法规数据文本向量空间模型转置得到建设法规数据特征向量 空间模型,即频繁特征项集G。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910023991.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保内胎及制备方法
- 下一篇:污泥辅窑干化法及装置