[发明专利]检索结果聚类方法及装置有效
| 申请号: | 201110048758.9 | 申请日: | 2008-12-05 |
| 公开(公告)号: | CN102122296A | 公开(公告)日: | 2011-07-13 |
| 发明(设计)人: | 骆雄武;万小军;杨建武;吴於茜 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 检索 结果 方法 装置 | ||
1.一种检索结果聚类方法,其特征在于,包括:
从检索结果中选取第一数目的短语;
分别确定第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离;
对确定的各个第一平均距离进行归一化处理;
根据归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离;
根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第一数目的短语中选取规定数目的短语;
针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
2.如权利要求1所述的方法,其特征在于,针对每个选取到的短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签之后,还包括:
根据每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量;
根据确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值;
分别根据确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及
按照内部相似度的平均值由大到小的顺序,对被保留下来的聚类进行排列。
3.一种检索结果聚类装置,其特征在于,包括:
选取单元,利用与从检索结果中选取规定数目的短语;
聚类单元,用于针对选取单元选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签;
其中,所述选取单元具体包括:
第一选取子单元,用于从检索结果中选取第一数目的短语;
第一平均距离确定子单元,用于分别确定第一选取子单元选取的第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离;
归一化子单元,用于对第一平均距离确定子单元确定的各个第一平均距离进行归一化处理;
第二平均距离确定子单元,用于根据归一化子单元的归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离;
第二选取子单元,用于根据第二平均距离确定子单元确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第一数目的短语中选取规定数目的短语。
4.如权利要求3所述的装置,其特征在于,还包括:
中心向量确定单元,用于根据聚类单元得到的每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量;
内部相似度平均值确定单元,用于根据中心向量确定单元确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值;
保留单元,用于分别根据内部相似度平均值确定单元确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及
排列单元,用于根据按照内部相似度的平均值由大到小的顺序,对被保留单元保留下来的聚类进行排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110048758.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文相似性匹配方法
- 下一篇:高速内存系统





