[发明专利]页面聚合方法、装置、计算机设备及存储介质有效
申请号: | 201811330607.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN111177522B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 刘欢;叶八达;陈亮辉;潘旭 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 聚合 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了页面聚合方法、装置、计算机设备及存储介质,其中方法包括:按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;根据物料库中的页面的URL挖掘出分页与封面页之间的映射规则;根据映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。应用本发明所述方案,能够优化推荐结果等。
【技术领域】
本发明涉及计算机应用技术,特别涉及页面聚合方法、装置、计算机设备及存储介质。
【背景技术】
推荐系统等可以根据用户的浏览行为为用户提供相关推荐结果。
但实践发现,很多网页内容会分成多个页面显示。比如较长的新闻,可能会分成多页显示,用户通过点击下一页等浏览整篇新闻,小说或文摘等站点更是如此,一篇文章经常会分成很多页显示。
如果将所有分页都当成独立页面处理,会带来很多问题,比如:推荐结果中有分页,用户点击推荐结果,可能首先看到的是某个中间页,不符合用户的浏览习惯,另外,不同分页本质上属于同一可推荐对象,如果能将内容聚合后用于策略分析,能获得更优质的推荐结果,提升点击率等。
【发明内容】
有鉴于此,本发明提供了页面聚合方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种页面聚合方法,包括:
按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
根据本发明一优选实施例,所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
根据本发明一优选实施例,所述挖掘出分页与封面页之间的映射规则之后,进一步包括:
对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。
根据本发明一优选实施例,所述对挖掘出的映射规则进行过滤包括:
按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。
根据本发明一优选实施例,所述按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则包括:
针对任一映射规则,统计满足以下条件的URL对数:
所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;
将统计出的URL对数作为所述映射规则的打分;
若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,所述对挖掘出的映射规则进行过滤包括:
针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,获取映射规则的白名单;
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页包括:根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811330607.0/2.html,转载请声明来源钻瓜专利网。