[发明专利]一种聚合相同主题网络文档的方法及系统有效
申请号: | 200810088055.7 | 申请日: | 2008-03-27 |
公开(公告)号: | CN101246501A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 唐年鹏;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 聚合 相同 主题 网络 文档 方法 系统 | ||
技术领域
本发明涉及网络文档聚合领域,特别是涉及一种聚合相同主题网络文档的方法及系统。
背景技术
在网络上,将相同主题的网络文档聚合在一起,提供给用户,便于用户对该主题的相关内容进行全面、细致的了解,是网络服务的一项重要内容。现有技术中,许多网站主要通过编辑,人工整理主题相同的网络文档,但人力毕竟有限,面对数据量庞大的网络资源,人工编辑显然无法全面、及时地整理相同主题的网络文档。目前,部分大型网站采用传统的分类和聚类方法,聚合相同主题的网络文档。
参阅图1,示出现有聚合相同主题网络文档的方法,具体包括以下步骤。
步骤S101、将网络文档按主题所属类别分类,为各类网络文档分别设置关键词库。关键词库中的关键词集中反映该类网络文档的特性。例如,以某明星为主题的网络文档,其关键词库包括该明星的姓名、主要歌曲名、主演电影名等词语。
步骤S102、对新查找到的网络文档,提取该网络文档中全部词语,组成关键词库。
步骤S103、将新查找网络文档的关键词库,与各类网络文档的关键词库进行匹配,选出词语匹配度最大的一个类别,新查找的网络文档与该类网络文档主题相同。例如,新查找的网络文档为有关“911”事件的报道,关键词库包括“9月11”、“恐怖分子”、“飞机”、“世贸大厦”等词语。而“911”事件类网络文档的关键词库也会包含上述各词语,因此,这两个关键词库的词语匹配度就会相对较高。
步骤S104、将新查找的网络文档聚合到该类网络文档。
上述方法虽然能够较好地将新查找的网络文档聚合到相同主题的网络文档,但需要对检索到的每一篇网络文档,都整理成关键词库,再与各类网络文档的关键词库匹配,网络文档一般需要细分为多个分类,这样需处理的数据量过大,造成网络更新速度慢,影响用户的体验感。
上述方法在判断时,主要依据关键词库内的关键词,如关键词选择不当,或主题相近网络文档的关键词库中关键词大部分相同,很容易造成误判,不能准确聚合主题相同的网络文档,降低用户的体验感。
发明内容
本发明所要解决的技术问题是提供一种聚合主题相同网络文档的方法,以解决现有技术中聚合主题相同网络文档,需处理的数据量过大,造成网络更新速度慢,影响用户的体验感的问题。该方法可提高网络更新速度,提高用户的体验感。
本发明的另一个目的是提供一种聚合主题相同网络文档的系统,该系统能够提高网络更新速度,提高用户的体验感。
本发明一种聚合相同主题网络文档的方法,包括:获取当前网络文档中各词语的权重值,将上述各词语按权重值降序排列;从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值,聚合上述当前网络文档和相同主题网络文档。
优选的,聚合上述当前网络文档和相同主题网络文档之前,还包括:使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值,去除相关度值低于预设数值的相同主题网络文档。
优选的,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为,按出现频次升序排列当前网络文档和相同主题网络文档中的各词语,将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据,将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据,所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。
优选的,获取当前网络文档中每个词语的权重值具体为,在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量,将总索引数量除以该词语命中的索引数量,再取对数,得到的数值乘以上述出现频次,得到该词语的权重值。
优选的,在当前网络文档中统计各词语的出现频次具体为,获取该词语在当前网络文档中出现的位置,及在该位置的出现次数,将词语在该位置的出现次数乘以该位置对应系数,乘积相加后作为该词语的出现频次。
优选的,在当前网络文档中统计各词语的出现频次具体为,统计词语在当前网络文档中出现次数,判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810088055.7/2.html,转载请声明来源钻瓜专利网。