[发明专利]一种搜索引擎热点词分析算法有效
申请号: | 201410326496.1 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104111999B | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 沈晓龙;王峥;李翔;丁飞达 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙)32231 | 代理人: | 黄杭飞 |
地址: | 210019 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索引擎 热点 分析 算法 | ||
技术领域
本申请属于信息技术领域,涉及一种搜索引擎热点词分析算法。
背景技术
热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得分,处理的方法叫做关键词得分算法。
现有的关键词得分算法是将词语在较近周期中被搜索次数减去词语在较早周期中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者差,等等。下面是一个关键词得分算法的例子:
现有计算关键词得分的算法能够满足一些实际应用的要求,能够在实际应用中起到一部分作用,但容易受到干扰,得到的结果也让人难以满意。以上面的关键词得分算法的例子为计算公式,计算后得到如下表格所示的一组数据:
可以发现表格中的数据存在以下一些问题:
A.“年货”是在较近周期才出现的新词语,经过现有的算法,由于分母为0,不能得到结果,在依据得分统计时,很有可能会被忽视。
B.“三中全会”的得分是负数,与其他的得分格式不同。
C.“虎牌”的搜索次数要远小于其他词语,但是它的得分却大于“大气”等词语。这样的词语我们称为噪声词。
显而易见,现有算法计算出来的结果是不理想的。对于一组词语数据,经过现有算法计算后,得到的结果存在很多问题,这些问题让计算结果的可用性大大降低。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410326496.1/2.html,转载请声明来源钻瓜专利网。