[发明专利]一种针对混合长度文本集的文本聚类方法有效
申请号: | 201510037543.5 | 申请日: | 2015-01-26 |
公开(公告)号: | CN104573070B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张勇;陈信欢;李超;邢春晓 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 朱绘;张文娟 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对混合长度文本集的文本聚类方法,所述方法包括以下步骤:划分长/短文本步骤,将待聚类文本集划分为长文本集和短文本集;建模步骤,按照特定的规则分别针对所述长文本集和所述短文本集中的文本进行建模从而获取所述文本对应的文本模型;生成特征向量步骤,基于所述文本模型生成主题参数从而基于所述主题参数获取相应文本的特征向量;文本聚类步骤,基于所述特征向量进行所述文本的聚类。本发明的聚类方法充分考虑了同时包含长文本以及短文本的混合长度文本集的特点,在平衡混合长度文本集稀疏性以及维度的前提下进行文本聚类,相较于现有技术,获得的聚类结果更加理想。 1 | ||
搜索关键词: | 文本集 文本聚类 特征向量 长文本 短文本 文本 聚类 文本模型 主题参数 建模 短文本集 聚类结果 稀疏性 维度 平衡 | ||
【主权项】:
1.一种针对混合长度文本集的文本聚类方法,其特征在于,所述方法包括以下步骤:
对混合长度文本划分长短文本步骤,将待聚类文本集划分为长文本集和短文本集;
建模步骤,按照特定的规则同时针对所述长文本集和所述短文本集中的文本进行建模从而获取所述文本对应的文本模型;
生成特征向量步骤,基于所述文本模型生成主题参数从而基于所述主题参数获取相应文本的特征向量;
文本聚类步骤,基于所述特征向量进行所述文本的聚类,在针对所述短文本集中的文本进行建模时利用所述长文本集中的文本进行辅助建模,从而减缓所述文本模型的稀疏程度;
在针对所述长文本集中的文本进行建模时利用所述短文本集中的文本进行辅助建模,从而降低所述文本模型的特征维度。
2.根据权利要求1所述的方法,其特征在于,在所述划分长短文步骤中,基于所述文本中字符个数将所述文本划分到所述长文本集或所述短文本集。3.根据权利要求2所述的方法,其特征在于,将所述字符个数多于140个字符的文本划分到所述长文本集,将所述字符个数少于或等于140个字符的文本划分到所述短文本集。4.根据权利要求1所述的方法,其特征在于,在所述划分长短文步骤中,基于所述文本对应的文档主题生成模型中特定隐藏主题的个数将所述文本划分到所述长文本集或所述短文本集。5.根据权利要求4所述的方法,其特征在于,将所述文本对应的文档主题生成模型中概率大于特定阈值的隐藏主题定义为所述特定隐藏主题。6.根据权利要求1所述的方法,其特征在于,在所述建模步骤中,基于双主题文档主题生成模型对所述文本进行建模。7.根据权利要求1所述的方法,其特征在于,在所述建模步骤中,在利用所述长/短文本集中的文本进行辅助建模时,基于所述长文本集的文本个数与所述短文本集的文本个数之间的比例关系调整所述长/短文本集中的文本的辅助程度。8.根据权利要求1所述的方法,其特征在于,在所述建模步骤中,在利用所述长/短文本集中的文本进行辅助建模时,基于所述长文本集中文本个数与所述短文本集中文本个数的比值采用相应比例的所述长/短文本集中的文本信息。9.根据权利要求1所述的方法,其特征在于,在所述生成特征向量步骤中,首先通过对所述待聚类文本集的训练,估算出所述文本模型的参数;然后对所述参数中关于文本主题的参数进行归一化,从而得到以主题数为维度的所述特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510037543.5/,转载请声明来源钻瓜专利网。
- 上一篇:图像检索方法、图像检索装置和终端
- 下一篇:信息搜索方法、信息搜索装置和终端