[发明专利]一种用于子话题划分的诱导划分方法有效

专利信息
申请号: 201710587046.1 申请日: 2017-07-18
公开(公告)号: CN107391660B 公开(公告)日: 2021-05-11
发明(设计)人: 续欣莹;苏婧琼;邹雪君;谢珺 申请(专利权)人: 太原理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06K9/62
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种用于子话题划分的改进诱导划分,属于文本语义分析技术与全覆盖粒计算的交叉领域,它包含如下步骤:1)利用LDA主题模型对语料库建模,对“文档‑主题”矩阵设定合适的阈值;2)利用全覆盖粒计算模型表征文本,结合全覆盖粒约简的方法,删除冗余覆盖元;3)通过改进诱导划分算法对覆盖元中具有相同邻域系统的元素进行重新组合,寻找诱导等价类,实现子话题划分。本发明克服了目前子话题划分的已有方法存在的问题,为研究子话题划分提供了一种新的有效方法。
搜索关键词: 一种 用于 话题 划分 诱导 方法
【主权项】:
一种用于子话题划分的诱导划分方法,其特征在于包括下述内容:(1)文本预处理:即从新闻语料库中随机挑选某一热点话题若干篇,进行人工标注,并采用ICTCLAS系统对文档进行分词和去停用词;(2)LDA主题建模对语料库进行建模:即采用Gibbs抽样算法,提取语料库中的隐含主题,得到“文档‑主题”矩阵,对矩阵设定阈值,为0~1的任意小数;(3)全覆盖粒计算的知识约简:利用全覆盖粒计算模型表征设置阈值后的矩阵,用粒计算的方法将冗余话题删除,将词项空间表达的文档约简为主题空间的低维表达,从而达到了降维的目的;(4)诱导划分:将删除冗余覆盖元之后的结果作为诱导划分的输入,通过诱导划分方法或改进的诱导划分方法,得到诱导等价类,从而实现诱导划分;(5)子话题划分:将诱导等价类中的每一类作为一个子话题,诱导等价类中集合的个数对应子话题的个数,将同一集合中的文档划分为同一个子话题,实现语料库中新闻文档的子话题划分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710587046.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top