[发明专利]一种搜索引擎热点词分析算法有效

专利信息
申请号: 201410326496.1 申请日: 2014-07-02
公开(公告)号: CN104111999B 公开(公告)日: 2017-12-12
发明(设计)人: 沈晓龙;王峥;李翔;丁飞达 申请(专利权)人: 南京烽火星空通信发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 常州佰业腾飞专利代理事务所(普通合伙)32231 代理人: 黄杭飞
地址: 210019 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 搜索引擎 热点 分析 算法
【说明书】:

技术领域

本申请属于信息技术领域,涉及一种搜索引擎热点词分析算法。

背景技术

热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得分,处理的方法叫做关键词得分算法。

现有的关键词得分算法是将词语在较近周期中被搜索次数减去词语在较早周期中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者差,等等。下面是一个关键词得分算法的例子:

现有计算关键词得分的算法能够满足一些实际应用的要求,能够在实际应用中起到一部分作用,但容易受到干扰,得到的结果也让人难以满意。以上面的关键词得分算法的例子为计算公式,计算后得到如下表格所示的一组数据:

词语较早周期被搜索的次数较近周期被搜索的次数得分年货0569/暖手宝1675872.51497006虎牌21270.285714286天气9659850.020725389火车票6836930.014641288三中全会924365-0.604978355

可以发现表格中的数据存在以下一些问题:

A.“年货”是在较近周期才出现的新词语,经过现有的算法,由于分母为0,不能得到结果,在依据得分统计时,很有可能会被忽视。

B.“三中全会”的得分是负数,与其他的得分格式不同。

C.“虎牌”的搜索次数要远小于其他词语,但是它的得分却大于“大气”等词语。这样的词语我们称为噪声词。

显而易见,现有算法计算出来的结果是不理想的。对于一组词语数据,经过现有算法计算后,得到的结果存在很多问题,这些问题让计算结果的可用性大大降低。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410326496.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top