[发明专利]一种词汇聚类的方法及装置有效
| 申请号: | 201310120245.3 | 申请日: | 2013-04-08 |
| 公开(公告)号: | CN104102654B | 公开(公告)日: | 2017-12-22 |
| 发明(设计)人: | 周美玲;黄云平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 词汇 方法 装置 | ||
1.一种词汇聚类的方法,其特征在于,包括:
获取多个对象及该对象关联的词汇;其中,对象及对象关联的各个词汇之间具有关联权重;
以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类,得到各潜在主题类;其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象;
通过选取部分词汇及与该词汇关联的对象,依据对象及对象关联的各个词汇之间的关联权重,对每一潜在主题类进行分裂,得到各中间类;
将关联内聚度大于阈值的任意两中间类进行合并,并根据合并后的中间类生成最终主题类。
2.根据权利要求1所述的方法,其特征在于,所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂,包括:
步骤一,查找所述潜在主题类中关联对象最多的词汇,并将所述词汇加入到新建的中间类中,将所述词汇从所述潜在主题类中删除;
步骤二,查找与所述词汇的关联权重达到阈值的对象,并将所述对象加入到所述中间类中,将所述对象从所述潜在主题类中删除;
步骤三,查找与所述对象的关联权重达到阈值的词汇,并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中,将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除;
重复步骤二和步骤三直至没有对象或词汇再加入到所述中间类中;
重复步骤一、步骤二和步骤三至所述潜在主题类的所有对象及对象关联的词汇分别加入到新建的各中间类中。
3.根据权利要求1所述的方法,其特征在于,所述阈值的确定方法包括:
计算所述中间类之间的关联内聚度;
依据所述关联内聚度计算中间类的平均内聚度,并将所述平均内聚度作为所述阈值。
4.根据权利要求2所述的方法,其特征在于,所述根据合并后的中间类生成最终主题类,包括:
为每一合并后的中间类建立与其一一对应的最终主题类;
对应每个对象计算所述对象属于各合并后的中间类的概率,找出所述概率最大的合并后的中间类,并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中;
对应每个词汇计算各合并后的中间类出现所述词汇的概率,找出所述概率最大的合并后的中间类,并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类中。
5.根据权利要求4所述的方法,其特征在于,所述根据合并后的中间类生成最终主题类,还包括:
对于分裂步骤中没有加入到任何中间类中的对象,查找所述各对象关联的词汇的集合中与所述对象的关联权重最大的词汇,并将所述对象加入到所述词汇所属的最终主题类中;
对于分裂步骤中没有加入到任何中间类中的词汇,查找所述各对象关联的词汇的集合中与所述词汇的关联权重最大的对象,并将所述词汇加入到所述对象所属的最终主题类中。
6.根据权利要求1所述的方法,其特征在于,所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之前,还包括:
利用词汇的类目信息过滤各对象关联的词汇的集合;
从过滤后的集合中查找只有一个关联对象的词汇,并将所述词汇从过滤后的集合中去除。
7.根据权利要求6所述的方法,其特征在于,所述利用词汇的类目信息过滤各对象关联的词汇的集合,包括:
根据类目信息统计各对象关联的词汇的集合中每个词汇所属的类目个数;
将类目个数大于阈值的词汇作为宽泛词并从所述各对象关联的词汇的集合中去除。
8.根据权利要求6所述的方法,其特征在于,所述根据合并后的中间类生成最终主题类,包括:
对于所述只有一个关联对象的词汇,将所述词汇加入到该词汇的关联对象所属的最终主题类中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310120245.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于日志的电子文档追踪方法
- 下一篇:视频播放系统及方法





