[发明专利]一种用于子话题划分的诱导划分方法有效
申请号: | 201710587046.1 | 申请日: | 2017-07-18 |
公开(公告)号: | CN107391660B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 续欣莹;苏婧琼;邹雪君;谢珺 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 卢茂春 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
一种用于子话题划分的改进诱导划分,属于文本语义分析技术与全覆盖粒计算的交叉领域,它包含如下步骤:1)利用LDA主题模型对语料库建模,对“文档‑主题”矩阵 |
||
搜索关键词: | 一种 用于 话题 划分 诱导 方法 | ||
【主权项】:
一种用于子话题划分的诱导划分方法,其特征在于包括下述内容:(1)文本预处理:即从新闻语料库中随机挑选某一热点话题若干篇,进行人工标注,并采用ICTCLAS系统对文档进行分词和去停用词;(2)LDA主题建模对语料库进行建模:即采用Gibbs抽样算法,提取语料库中的隐含主题,得到“文档‑主题”矩阵,对矩阵设定阈值,为0~1的任意小数;(3)全覆盖粒计算的知识约简:利用全覆盖粒计算模型表征设置阈值后的矩阵,用粒计算的方法将冗余话题删除,将词项空间表达的文档约简为主题空间的低维表达,从而达到了降维的目的;(4)诱导划分:将删除冗余覆盖元之后的结果作为诱导划分的输入,通过诱导划分方法或改进的诱导划分方法,得到诱导等价类,从而实现诱导划分;(5)子话题划分:将诱导等价类中的每一类作为一个子话题,诱导等价类中集合的个数对应子话题的个数,将同一集合中的文档划分为同一个子话题,实现语料库中新闻文档的子话题划分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710587046.1/,转载请声明来源钻瓜专利网。