[发明专利]主题词的相关性处理方法及系统、主题词推荐方法及系统有效
申请号: | 201210420758.1 | 申请日: | 2012-10-29 |
公开(公告)号: | CN103793387B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 蔡兵 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 王仲凯 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题词 相关性 处理 方法 系统 推荐 | ||
技术领域
本发明涉及网络与计算机的技术领域,特别涉及一种主题词的相关性处理方法及系统、主题词推荐方法及系统。
背景技术
网络信息的指数爆炸给用户浏览和筛选自己感兴趣的网页造成了巨大障碍,这称之为“信息过载”。如何更好地对这些网页进行挖掘、提取、组织成为重要话题。主题词提取作为一种凸显网页核心内容的有效组织手段被广泛利用。
主题词提取解决了单个网页的组织问题,另一方面,通过何种手段将这么多网页关联起来以便于用户浏览及推荐阅读也显得日益重要。主题词相关性计算能够找出彼此语义相近的主题词以及它们包含的网页集合,从而达到了聚合及关联网页的目的。
目前有采用互信息(Mutual information)来计算词之间的相关性,它主要利用了两个词之间的共现次数,互信息值越大表示两者越相关,其公式如下:
其中a和b为待计算相关性的两个主题词;X是a和b共同出现的网页数;Y是a出现但b未出现的网页数;Z是a未出现但b出现的网页数;N表示网页总数。
表1和表2是通过上述互信息计算公式(1)分别计算出的与“切尔西” 和“ios”这两个主题词最相关的十个主题词的结果示意表:
表1
表2
其中,表1和表2中的六列依次表示X(a和b共同出现的网页数)、Y(a出现但b未出现的网页数)、Z(a未出现但b出现的网页数)、I(a和b之间相关性数值)、a(主题词)、b(主题词)。
从表1和表2中可以看出,在计算结果中,两个主题词在网页中出现的次数差异非常明显(如表1的第一行中,主题词“摩西”和主题词“切尔西”在网页中的出现次数分别为10次和278次),可见现有的这种互信息的计算过程并没有将主题词在网页中出现次数的关联考虑在内,而如果两个主题词比较相关,则各自包含它们的网页数量也会比较相近(例如“切尔西”和“德罗巴”具有一定相关性,则往往在一篇网页的内容中会同时提到这两个主题词),从而导致该计算结果的准确性降低。从表1和表2中 的结果也可以看出这点,例如“摩西”、“卡希尔”、“被单”、“库尔”等主题词均与“切尔西”没什么关联。
另外,这种互信息的另一个缺点是无法避免极少出现的无意义主题词:比如,a和b均只在一个网页中同时出现了一次,也就是说X=1,Y=0,Z=0,则计算出现的互信息值是非常高的,这显然是不符合实际情况的。
综上所述,现有的主题词相关性计算方法存在准确性低的问题。
发明内容
本发明的目的是提供一种主题词的相关性处理方法及系统、主题词推荐方法及系统,以解决现有的主题词相关性计算方法存在的准确性低的问题。
本发明提出一种网页主题词的相关性处理方法,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
本发明还提出一种主题词推荐方法,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序;
将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。
本发明还提出一种网页主题词的相关性处理系统,包括:
主题词提取单元,用于从多个网页中提取多个主题词;
对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词;
网页数据获取单元,用于从多个网页中获取网页内容数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210420758.1/2.html,转载请声明来源钻瓜专利网。