[发明专利]一种用于子话题划分的诱导划分方法有效

申请号：	201710587046.1	申请日：	2017-07-18
公开（公告）号：	CN107391660B	公开（公告）日：	2021-05-11
发明（设计）人：	续欣莹;苏婧琼;邹雪君;谢珺	申请（专利权）人：	太原理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06K9/62
代理公司：	太原市科瑞达专利代理有限公司 14101	代理人：	卢茂春
地址：	030024 山西***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种用于子话题划分的改进诱导划分，属于文本语义分析技术与全覆盖粒计算的交叉领域，它包含如下步骤：1)利用LDA主题模型对语料库建模，对“文档‑主题”矩阵设定合适的阈值；2)利用全覆盖粒计算模型表征文本，结合全覆盖粒约简的方法，删除冗余覆盖元；3)通过改进诱导划分算法对覆盖元中具有相同邻域系统的元素进行重新组合，寻找诱导等价类，实现子话题划分。本发明克服了目前子话题划分的已有方法存在的问题，为研究子话题划分提供了一种新的有效方法。
搜索关键词：	一种用于话题划分诱导方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种用于子话题划分的诱导划分方法，其特征在于包括下述内容：（1）文本预处理：即从新闻语料库中随机挑选某一热点话题若干篇，进行人工标注，并采用ICTCLAS系统对文档进行分词和去停用词；（2）LDA主题建模对语料库进行建模：即采用Gibbs抽样算法，提取语料库中的隐含主题，得到“文档‑主题”矩阵，对矩阵设定阈值，为0~1的任意小数；（3）全覆盖粒计算的知识约简：利用全覆盖粒计算模型表征设置阈值后的矩阵，用粒计算的方法将冗余话题删除，将词项空间表达的文档约简为主题空间的低维表达，从而达到了降维的目的；（4）诱导划分：将删除冗余覆盖元之后的结果作为诱导划分的输入，通过诱导划分方法或改进的诱导划分方法，得到诱导等价类，从而实现诱导划分；（5）子话题划分：将诱导等价类中的每一类作为一个子话题，诱导等价类中集合的个数对应子话题的个数，将同一集合中的文档划分为同一个子话题，实现语料库中新闻文档的子话题划分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710587046.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于信誉度的引文网络学术影响力评价排序方法
下一篇：推荐词显示方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于子话题划分的诱导划分方法有效

专利文献下载