[发明专利]一种文本在线聚类可视化方法无效
申请号: | 201110230978.3 | 申请日: | 2011-08-12 |
公开(公告)号: | CN102929894A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 金烨;徐诗恒 | 申请(专利权)人: | 中国人民解放军总参谋部第五十七研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文本在线聚类可视化方法,属于属于计算机学科下的智能信息处理领域。本发明的目的在于,通过引入用户对类别特征词汇标注信息,实现对聚类过程的约束和优化,提升文本聚类结构的清晰度和可理解性;并且设计了文本在线式聚类技术,实现对文本数据流的增量聚类,保持聚类结构的总体稳定,并自适应更新模型。本发明设计了一种在线式高维数据降维布局方法,能够适应大规模数据或数据流环境;通过对聚类后的文本类别分布向量进行降维布局,实现对文本数据的增量式可视化,在二维或三维欧氏空间中实现对文本数据及其类别结构的可视化展示。 | ||
搜索关键词: | 一种 文本 在线 可视化 方法 | ||
【主权项】:
一种文本在线聚类可视化方法,其特征在于,包括基于词汇标注的文本在线聚类、在线式高维数据降维可视化两大步骤:所述的基于词汇标注的文本在线聚类步骤为:步骤a,用户设置聚类数目,并对其中部分或者全部类别提供若干特征词汇;步骤b,统计初始文本集合中的单词词频信息,采用LDA模型对数据进行建模,并利用标注的类别特征词汇对LDA模型进行约束,采用Gibbs Sampling技术求解模型参数;步骤c,模型参数中的文档类别分布θ用于文本类别的预测,模型参数中的词汇‑类别分布频次n(w,z)将作为约束参数,用于增量聚类过程;步骤d,在线聚类时,新文本数据在已有模型参数n(w,z)基础上进行初始化,然后按照步骤b和步骤c进行建模运算,计算完成后,新文本实现增量聚类,模型参数实现自动更新;所述在线式高维数据降维可视化步骤为:步骤e,对文本聚类得到的高维类别分布向量,计算任意两向量间的相似性,同时随机产生对应低维向量初始值,计算任意两低维向量间的相似性;步骤f,利用KL距离(Kullback‑Leibler Divergence)度量高维向量相似性集合与低维向量相似性集合间的差异;步骤g,通过最优化方法迭代搜索步骤f中相似性集合间差异的最小值,同时不断更新低维向量,达到设定误差范围时停止迭代,利用可视化工具对低维向量可视化;步骤h,在线式处理时,对新到来的高维向量降维利用了已产生的低维向量信息,在迭代搜索时已产生的低维向量不再更新,只对新到来的高维向量按照步骤e、步骤f和步骤g作增量式处理;
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军总参谋部第五十七研究所,未经中国人民解放军总参谋部第五十七研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110230978.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于提供个性化搜索列表的方法及系统
- 下一篇:三维图像浏览球体控制器