[发明专利]一种词汇聚类的方法及装置有效
| 申请号: | 201310120245.3 | 申请日: | 2013-04-08 |
| 公开(公告)号: | CN104102654B | 公开(公告)日: | 2017-12-22 |
| 发明(设计)人: | 周美玲;黄云平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 词汇 方法 装置 | ||
技术领域
本申请涉及网络技术领域,特别是涉及一种词汇聚类的方法及装置。
背景技术
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
很多实际应用中都会使用到聚类,例如,在广告应用中,大多数情况下,投放广告的用户购买的是同一类或者相关联的关键词,而投放了广告的应用系统对这些广告进行统计分析时,需要将购买了相关联的关键词的用户和相关联的关键词进行聚类,以形成独立的主题类,以便对这些独立的主题类进行分析,分析这些独立主题类的流量和所消耗的数据。
例如,用户A购买了空顶帽、女装帽、儿童草帽、流行帽和时装帽等各种帽子的关键词,用户B购买了帽子、太阳帽、纯棉帽等帽子相关的关键词,则用户A和用户B应该聚为一类M,用户A和用户B所购买的关键词也聚为相同的类M。
目前通常利用概率潜在语义分析模型(Probabilistic Latent Semantic Analysis,PLSA)进行主题聚类,PLSA是基于双模式和共现的数据分析方法延伸的统计学方法,利用了强化的期望最大化算法来训练潜在类。
但是,单纯的PLSA聚类效果不是很理想,只能达到粗粒度的聚类效果。而且,在PLSA聚类中需要预先指定主题数目,而这些预先指定的主题数目不能很好的表示实际的主题数。因此,PLSA聚类存在聚类结果不准确,进而导致应用聚类结果进行统计分析造成分析结果不准确的问题。
发明内容
本申请提供了一种词汇聚类的方法及装置,以解决目前聚类结果不准确的问题。
为了解决上述问题,本申请公开了一种词汇聚类的方法,包括:
获取多个对象及该对象关联的词汇;
以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象;
通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,得到各中间类;
将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最终主题类。
可选地,所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,包括:
步骤一,查找所述潜在主题类中关联对象最多的词汇,并将所述词汇加入到新建的中间类中,将所述词汇从所述潜在主题类中删除;
步骤二,查找与所述词汇的关联权重达到阈值的对象,并将所述对象加入到所述中间类中,将所述对象从所述潜在主题类中删除;
步骤三,查找与所述对象的关联权重达到阈值的词汇,并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中,将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除;
重复步骤二和步骤三直至没有对象或词汇再加入到所述中间类中;
重复步骤一、步骤二和步骤三至所述潜在主题类的所有对象及对象关联的词汇分别加入到新建的各中间类中。
可选地,所述阈值的确定方法包括:
计算所述中间类之间的关联内聚度;
依据所述关联内聚度计算中间类的平均内聚度,并将所述平均内聚度作为所述阈值。
可选地,所述根据合并后的中间类生成最终主题类,包括:
为每一合并后的中间类建立与其一一对应的最终主题类;
对应每个对象计算所述对象属于各合并后的中间类的概率,找出所述概率最大的合并后的中间类,并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中;
对应每个词汇计算各合并后的中间类出现所述词汇的概率,找出所述概率最大的合并后的中间类,并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类中。
可选地,所述根据合并后的中间类生成最终主题类,还包括:
对于分裂步骤中没有加入到任何中间类中的对象,查找所述各对象关联的词汇的集合中与所述对象的关联权重最大的词汇,并将所述对象加入到所述词汇所属的最终主题类中;
对于分裂步骤中没有加入到任何中间类中的词汇,查找所述各对象关联的词汇的集合中与所述词汇的关联权重最大的对象,并将所述词汇加入到所述对象所属的最终主题类中。
可选地,所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之前,还包括:
利用词汇的类目信息过滤各对象关联的词汇的集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310120245.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于日志的电子文档追踪方法
- 下一篇:视频播放系统及方法





