[发明专利]一种提高多站点搜索关键字准确性的方法及装置有效
申请号: | 201710732432.5 | 申请日: | 2017-08-23 |
公开(公告)号: | CN107301253B | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 李成;范渊;黄进 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 11371 北京超凡志成知识产权代理事务所(普通合伙) | 代理人: | 王术兰 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种提高多站点搜索关键字准确性的方法及装置,涉及互联网信息领域,该方法包括:获取目标网站的网站信息和预设搜索词之间的关联信息,其中,网站信息为当前时刻目标网站的最新网站信息,网站信息包括网站内容和网站地址;对用户输入的搜索信息进行分词处理,得到搜索关键字,其中,搜索信息为对目标网站数据进行搜索的信息;根据关联信息查找与搜索关键字相匹配的网站内容,向用户推送网站内容。本发明缓解了通过现有技术的搜索方法搜索与搜索关键字相匹配的网页内容时,存在的准确性较差的技术问题。 | ||
搜索关键词: | 一种 提高 站点 搜索 关键字 准确性 方法 装置 | ||
【主权项】:
1.一种提高多站点搜索关键字准确性的方法,其特征在于,包括:/n获取目标网站的网站信息和预设搜索词之间的关联信息,其中,所述网站信息为当前时刻所述目标网站的最新网站信息,所述网站信息包括网站内容和网站地址;/n对用户输入的搜索信息进行分词处理,得到搜索关键字,其中,所述搜索信息为对所述目标网站数据进行搜索的信息;/n根据所述关联信息查找与所述搜索关键字相匹配的网站内容,向所述用户推送所述网站内容;/n其中,在获取目标网站的网站信息和预设搜索词之间的关联信息之前,所述方法还包括:/n获取目标爬取时间;/n在所述目标爬取时间控制爬虫执行当前爬取任务,以爬取目标网站,得到第一网站信息;/n根据所述第一网站信息中包括的网站内容确定预设搜索词,并建立所述预设搜索词和所述第一网站信息之间的关联信息;/n将所述关联信息存储在数据服务器中;/n其中,在所述目标爬取时间控制爬虫执行当前爬取任务,以爬取所述目标网站,得到第一网站信息,包括:/n在执行所述当前爬取任务时,对所述目标网站的首页进行爬取,得到所述目标网站的首页内容和所述目标网站的首页信息中包含的超链接接口;/n对所述超链接接口进行分析,确定所述超链接接口是否为目标超链接接口,其中,所述目标超链接接口为未被爬取过的接口,且所述目标超链接接口为正确的超链接接口,且所述目标超链接接口所对应的网页内容中包含预先设置的网页内容;/n在确定出所述目标超链接接口的情况下,对所述超链接接口对应的网页进行遍历,得到所述目标超链接接口的网站内容;/n将每个所述目标超链接接口的网站内容和网站地址作为所述第一网站信息;/n其中,对所述目标网站的首页进行爬取,包括:/n判断对所述目标网站是否为首次执行爬取任务;/n在判断出否的情况下,对第二网站信息进行分析,以确定是否能够通过所述目标网站对目标网址所指示的网页进行访问,或所述目标网址所指示的网页中是否存在网页内容,所述第二网站信息为所述爬虫执行第一爬取任务时爬取到的信息,所述第一爬取任务为所述当前爬取任务的上一个爬取任务,所述目标网址为所述第二网站信息中的任意一个网站地址,/n其中,在确定出是的情况下,则对所述目标网站的首页进行爬取,以得到所述目标网站的首页内容和所述首页信息中包含的超链接接口;/n在确定出否的情况下,将与所述目标网址相关联的关联信息从所述数据服务器中删除。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710732432.5/,转载请声明来源钻瓜专利网。
- 上一篇:原译文匹配的方法及装置
- 下一篇:一种路网热点区域挖掘方法