[发明专利]基于主题模型和粗糙集的K-means文本聚类方法在审
申请号: | 201811324306.7 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109670037A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 谢珺;段利国;郝晓燕;梁凤梅;续欣莹;靳红伟 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题模型和粗糙集的K‑means文本聚类方法。针对K‑means算法的缺点提出对初始中心点的优化方法,使用LDA主题模型,通过词项在文档级中的共现,有效地提取文本中的语义信息,同时将词空间转化为主题空间,实现主题降维,然后结合粗糙集知识约简理论,删除冗余主题特征,从而提高主题特征提取效率,优化初始中心点,提高K‑means文本聚类效果。 | ||
搜索关键词: | 文本聚类 主题模型 粗糙集 初始中心点 主题特征 提取效率 语义信息 主题空间 词空间 有效地 冗余 降维 文档 约简 算法 删除 优化 文本 转化 | ||
【主权项】:
1.一种基于主题模型和粗糙集的K‑means文本聚类方法,其特征在于,包括:选取文本集,并进行文本向量化,将文本集表示为文本‑词项矩阵;利用LDA主题模型对文本‑词项矩阵进行文本建模,对建模参数进行估计,得到文档‑主题矩阵,同时产生低维主题特征;其中,低维主题特征表示文本集中的每一个词的出现的主题概率;将文档‑主题矩阵转换为主题词项决策系统,利用邻域粗糙集进行主题特征的约简,根据主题的重要度,得到主题的约简集合;将主题约简集合进行主题值的约简,得到主题完全约简集合;对完全简约集合进行K‑means文本聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811324306.7/,转载请声明来源钻瓜专利网。