[发明专利]一种用于子话题划分的诱导划分方法有效
申请号: | 201710587046.1 | 申请日: | 2017-07-18 |
公开(公告)号: | CN107391660B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 续欣莹;苏婧琼;邹雪君;谢珺 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 卢茂春 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 话题 划分 诱导 方法 | ||
1.一种用于子话题划分的诱导划分方法,其特征在于包括下述内容:
(1)文本预处理:即从新闻语料库中随机挑选某一热点话题若干篇,进行人工标注,并采用ICTCLAS系统对文档进行分词和去停用词;
(2)LDA主题建模对语料库进行建模:即采用Gibbs抽样算法,提取语料库中的隐含主题,得到“文档-主题”矩阵θ,对矩阵设定阈值δ,δ为0~1的任意小数;
(3)全覆盖粒计算的知识约简:利用全覆盖粒计算模型表征设置阈值后的矩阵,用粒计算的方法将冗余话题删除,将词项空间表达的文档约简为主题空间的低维表达,从而达到了降维的目的;
(4)诱导划分:将删除冗余覆盖元之后的结果作为诱导划分的输入,通过改进的诱导划分方法,得到诱导等价类,从而实现诱导划分;
(5)子话题划分:将诱导等价类中的每一类作为一个子话题,诱导等价类中集合的个数对应子话题的个数,将同一集合中的文档划分为同一个子话题,实现语料库中新闻文档的子话题划分;
文档中主题的概率ρδ时,δ为0~1的任意小数,矩阵θ为1,文档中主题的概率ρ<δ时,矩阵θ为0;
改进的诱导划分步骤是:
步骤1:确定论域和覆盖元;
步骤2:计算论域中每个元素的邻域系统;
步骤3:将具有相同邻域系统的元素进行重新组合和划分,产生新覆盖元,并将覆盖元和新覆盖元视为粒结构;
步骤4:在粒结构中根据诱导覆盖的定义寻找诱导等价类,实现诱导划分。
2.如权利要求1所述的一种用于子话题划分的诱导划分方法,其特征在于:粒结构的定义:设是非空论域U上的一个全覆盖,每个覆盖元是一个生成粒;生成粒之间不断进行交运算和对称差运算,产生的新的粒加入生成粒中,同时与其他粒也进行上述运算,最终形成一个闭合的结构,这样的结构叫做粒结构。
3.如权利要求1所述的一种用于子话题划分的诱导划分方法,其特征在于:子话题划分的诱导划分评价指标包括丢失率Pmiss、误报率Pfa和错误识别代价Cdet,a表示未检测到的与话题i相关的新闻数,b表示与话题i相关的新闻数;
c表示检测到的与话题i不相关的新闻数,d表示与话题i不相关的新闻数;
错误识别代价Cdet=Cmiss×Pmiss×Ptarget+Cfa×Pfa×Pnon-target
式中Cmiss为1,Cmiss表示丢失一个相关新闻的代价;
Cfa为0.1,Cfa表示误报一个相关新闻的代价;
Ptarget为0.02,Ptarget表示一个新闻与目标话题相关的先验概率;
Pnon-target为0.98,Pnon-target表示一个新闻与目标话题不相关的先验概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710587046.1/1.html,转载请声明来源钻瓜专利网。