[发明专利]基于关联规则挖掘技术挖掘建设法规领域数据的方法无效

专利信息
申请号: 200910023991.4 申请日: 2009-09-18
公开(公告)号: CN101655857A 公开(公告)日: 2010-02-24
发明(设计)人: 苏变萍;金维兴;董丽丽;侯筱婷 申请(专利权)人: 西安建筑科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安恒泰知识产权代理事务所 代理人: 李郑建
地址: 710055*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 关联 规则 挖掘 技术 建设 法规 领域 数据 方法
【权利要求书】:

1.基于关联规则挖掘技术挖掘建设法规领域数据的方法,具体包含以 下步骤:

步骤一,生成建设法规文本向量空间模型,该建设法规文本向量空间模 型定义为:

di=((t1,wi1),(t2,wi2),…,(tn,win))    (1)

步骤二,生成建设法规数据向量空间模型,建设法规数据的第 i(i=k+1,k+2,…,n)个特征词的向量空间模型为:

ti=(wi1,wi2,...,wim)    (2)

公式(1)和(2)中,t为特征词,k为文本向量空间分量中与同义词 和近义词词典中相对应,权值被赋予1的特征词的个数;wij表示第i个特征 词在第j(j=1,2,…,m)个文本的向量空间模型式中出现的情况,wij的取值 为1或0,wij=1表示特征词ti在第j个文本的特征中出现,wij=0表示特征词 ti在第j个文本的特征中未出现;

步骤三,将建设法规数据向量空间模型转置得到建设法规数据特征向量 空间模型,即生成了建设法规数据频繁特征项集G,G={ti|i=k+1,k+2,…,n};

步骤四,输出建设法规数据关联规则,输出建设法规数据关联规则流程 包括如下步骤:

第(1)步,顺序提取频繁特征项集中的一对特征,计算特征间的关联 度εij

第(2)步,判断εij是否大于等于0.6;若εij大于等于0.6,可得关联规 则则输出关联规则到W3词表中,并转到第(4)步;

第(3)步,若εij小于0.6,则进行第(4)步;

第(4)步,判断是否到频繁特征项集尾部,若是则结束,否则转到第 (1)步。

2.如权利要求1所述的方法,其特征在于,对于新到来的文本,重复 步骤一到步骤四,将在新的建设法规文本中存在而在特征词集中不存在的新 特征词加入特征词集,并对新文本进行标引,并对已有文本在新特征形成的 维度上补零。

3.如权利要求1所述的方法,其特征在于,所述的建设法规数据向量 空间模型的生成包括如下步骤:

1)动态建立建设法规数据同义词、近义词、上下位词和关联词后控词 表;

2)对每一篇建设法规文本中的同义词、近义词作为同一个特征词处理, 并赋权值1;

3)将管理、监督、条例、规定、办法、通知规定为文本频率高的词, 对每一篇建设法规文本除去文本特征词频率高的词,余下的词作为候选特征 词;

4)将每一篇建设法规文本中的候选特征词按其频率从高到低降序排列, 并进行累计加总;

5)取阈值T为85%—95%,当上个步骤累计加总的频率达到阈值T时, 对剩下的没有进入累计加总的候选特征词进行删除,对保留下来的候选特征 词赋权值,权值为其相应的频率;

6)汇总所有建设法规文本的特征词形成建设法规数据特征词集;

7)将上个步骤形成的特征词集用布尔赋值方法标引每篇文本,形成建 设法规数据文本向量空间模型;

8)对建设法规数据文本向量空间模型转置得到建设法规数据特征向量 空间模型,即频繁特征项集G。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910023991.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top