[发明专利]一种用于子话题划分的诱导划分方法有效

专利信息
申请号: 201710587046.1 申请日: 2017-07-18
公开(公告)号: CN107391660B 公开(公告)日: 2021-05-11
发明(设计)人: 续欣莹;苏婧琼;邹雪君;谢珺 申请(专利权)人: 太原理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06K9/62
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 话题 划分 诱导 方法
【权利要求书】:

1.一种用于子话题划分的诱导划分方法,其特征在于包括下述内容:

(1)文本预处理:即从新闻语料库中随机挑选某一热点话题若干篇,进行人工标注,并采用ICTCLAS系统对文档进行分词和去停用词;

(2)LDA主题建模对语料库进行建模:即采用Gibbs抽样算法,提取语料库中的隐含主题,得到“文档-主题”矩阵θ,对矩阵设定阈值δ,δ为0~1的任意小数;

(3)全覆盖粒计算的知识约简:利用全覆盖粒计算模型表征设置阈值后的矩阵,用粒计算的方法将冗余话题删除,将词项空间表达的文档约简为主题空间的低维表达,从而达到了降维的目的;

(4)诱导划分:将删除冗余覆盖元之后的结果作为诱导划分的输入,通过改进的诱导划分方法,得到诱导等价类,从而实现诱导划分;

(5)子话题划分:将诱导等价类中的每一类作为一个子话题,诱导等价类中集合的个数对应子话题的个数,将同一集合中的文档划分为同一个子话题,实现语料库中新闻文档的子话题划分;

文档中主题的概率ρδ时,δ为0~1的任意小数,矩阵θ为1,文档中主题的概率ρ<δ时,矩阵θ为0;

改进的诱导划分步骤是:

步骤1:确定论域和覆盖元;

步骤2:计算论域中每个元素的邻域系统;

步骤3:将具有相同邻域系统的元素进行重新组合和划分,产生新覆盖元,并将覆盖元和新覆盖元视为粒结构;

步骤4:在粒结构中根据诱导覆盖的定义寻找诱导等价类,实现诱导划分。

2.如权利要求1所述的一种用于子话题划分的诱导划分方法,其特征在于:粒结构的定义:设是非空论域U上的一个全覆盖,每个覆盖元是一个生成粒;生成粒之间不断进行交运算和对称差运算,产生的新的粒加入生成粒中,同时与其他粒也进行上述运算,最终形成一个闭合的结构,这样的结构叫做粒结构。

3.如权利要求1所述的一种用于子话题划分的诱导划分方法,其特征在于:子话题划分的诱导划分评价指标包括丢失率Pmiss、误报率Pfa和错误识别代价Cdet,a表示未检测到的与话题i相关的新闻数,b表示与话题i相关的新闻数;

c表示检测到的与话题i不相关的新闻数,d表示与话题i不相关的新闻数;

错误识别代价Cdet=Cmiss×Pmiss×Ptarget+Cfa×Pfa×Pnon-target

式中Cmiss为1,Cmiss表示丢失一个相关新闻的代价;

Cfa为0.1,Cfa表示误报一个相关新闻的代价;

Ptarget为0.02,Ptarget表示一个新闻与目标话题相关的先验概率;

Pnon-target为0.98,Pnon-target表示一个新闻与目标话题不相关的先验概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710587046.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top