[发明专利]一种挖掘统一资源定位符转换规则的方法及电子设备有效
申请号: | 201610105550.9 | 申请日: | 2016-02-25 |
公开(公告)号: | CN105787038B | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 孙键;李毅;许静芳 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 统一 资源 定位 转换规则 方法 电子设备 | ||
1.一种挖掘统一资源定位符转换规则的方法,其特征在于,所述方法包括:
通过网络爬虫抓取电脑版本的目标网站下的N个电脑版统一资源定位符URL;
抓取所述目标网站对应的无线网站下的N1个无线版URL,N和N1均为大于第一阈值的整数;
获得所述N1个无线版URL与所述N个电脑版URL中相互匹配的目标URL对,其中,所述目标URL对中的目标无线版URL和目标电脑版URL对应的两个页面之间的相似度大于设定阈值;
根据获得的所述目标URL对,获得所述目标网站的所述电脑版URL到所述无线版URL的转换规则。
2.如权利要求1所述的方法,其特征在于,在所述抓取所述目标网站对应的无线网站下的N1个无线版URL之前,所述方法包括:
判断所述目标网站的电脑版网站首页URL是否能够重定向到所述目标网站的无线版网站首页URL;
若所述电脑版网站首页URL能够重定向到所述无线版网站首页URL,则重定向所述电脑版网站首页URL获得所述目标网站对应的无线版网站首页URL;
若所述电脑版网站首页URL不能够重定向到所述无线版网站首页URL,根据无线网页的URL关键词和所述电脑版网站首页URL获得所述目标网站对应的无线版网站首页URL。
3.如权利要求2所述的方法,其特征在于,当所述目标网站的电脑版网站首页URL能够重定向到所述无线版网站首页URL时,所述获得所述N1个无线版URL与所述N个电脑版URL中相互匹配的目标URL对,包括:
从N个所述电脑版URL中筛选出能够重定向到任一所述无线版URL的第一目标URL;
将所述第一目标URL及重定向获得的第二目标URL组成目标URL对。
4.如权利要求2所述的方法,其特征在于,当所述目标网站的电脑版网站首页URL不能够重定向到所述无线版网站首页URL时,所述获得所述N1个无线版URL与所述N个电脑版URL中相互匹配的目标URL对,包括:
在所述N个电脑版URL及其对应页面的全量库中,查找获得与候选无线版URL主域相同且对应的页面标题之间的相似度大于第二阈值的候选电脑版URL,其中,所述候选无线版URL为所述N1个无线版URL中的任一URL;
从所述候选电脑版URL中,获得与所述候选无线版URL之间URL相似度最大的URL作为与所述候选无线URL匹配的目标电脑版URL;
将所述候选无线版URL和所述目标电脑版URL作为所述目标URL对。
5.如权利要求2所述的方法,其特征在于,所述根据无线网页的URL关键词和所述电脑版网站首页URL获得所述目标网站对应的无线版网站首页URL,包括:
根据无线网页的URL关键词和所述电脑版网站首页URL,生成至少一个待定的无线版网站首页URL;
通过无线网页浏览器抓取所述待定的无线版网站首页URL的页面,并判断抓取得到的页面是否是无效页面;
若抓取得到的所述待定的无线版网站首页URL的页面不是无效页面,则判断所述待定的无线版网站首页URL的页面是否是电脑版本的页面;
若所述待定的无线版网站首页URL的页面不是电脑版本的页面,则确定所述待定的无线版网站首页URL即为所述目标网站的电脑版网站首页URL对应的无线版网站首页URL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610105550.9/1.html,转载请声明来源钻瓜专利网。