[发明专利]主题词的相关性处理方法及系统、主题词推荐方法及系统有效
申请号: | 201210420758.1 | 申请日: | 2012-10-29 |
公开(公告)号: | CN103793387B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 蔡兵 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 王仲凯 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种主题词的相关性处理方法及系统、主题词推荐方法及系统,其网页主题词的相关性处理方法包括从多个网页中提取多个主题词,并形成对象词库;从多个网页中获取网页内容数据,并形成源数据库;统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。本发明可以大大提高主题词相关性计算的准确性。 | ||
搜索关键词: | 主题词 相关性 处理 方法 系统 推荐 | ||
【主权项】:
一种网页主题词的相关性处理方法,其特征在于,包括:从多个网页中提取多个主题词,并形成对象词库;从多个网页中获取网页内容数据,并形成源数据库;统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;其中,所述按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值包括:根据公式计算主题词与主题词之间的相关性数值,其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源数据库中出现过的网页数的差异越大,则越小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210420758.1/,转载请声明来源钻瓜专利网。