[发明专利]一种基于标注的日志分类的方法和装置有效
| 申请号: | 201710666342.0 | 申请日: | 2017-08-07 |
| 公开(公告)号: | CN107609020B | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 刁芹;李友科;张凤娜 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/953;G06F16/955 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
| 地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 标注 日志 分类 方法 装置 | ||
本发明公开了一种基于标注的日志分类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。该实施方式将抓取到的日志进行标注之后存储,实现了对抓取的日志的分类,进而测试人员可以快速查找到测试所需的搜索词或者URL,减少测试人员收集数据的工作量。并且保证数据的真实可靠性,进而可提高测试质量。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于标注的日志分类的方法和装置。
背景技术
为了优化搜索引擎召回的质量以及提高GMV(Gross Merchandise Volume成交总额),搜索引擎每天都有大量新功能或者优化提测需要上线。目前搜索引擎功能的测试,使用的是端到端的黑盒测试,测试输入是搜索最原始的搜索请求,其中以URL(UniformResource Locator统一资源定位符)的形式输入,测试验证的输出是搜索引擎最后的召回结果,其中以JSON(JavaScript Object Notation JS对象标记)串的形式输出。不同的功能需要使用不同的URL,目前进行测试时需要测试人员自己构造URL集合。在该过程中,测试人员需要从相应类目下挑选搜索词或者依赖经验猜测搜索词,然后到搜索页进行搜索,通过对搜索结果的判断以及参数的添加构造出URL集合。该方法不仅存在搜索词收集不全的问题,不能保证构造出的URL集合跟线上真实用户的搜索请求一致,覆盖不到真实用户的情况。而且通过这种方法构造的URL集合具有跟新功能不直接相关的URL参数(通用参数)单一的特点,进而导致测试不到其他功能组合对新功能的影响。
发明内容
有鉴于此,本发明实施例提供一种基于标注的日志分类的方法和装置,能够使测试人员快速查找到所需搜索词或者URL,减少测试人员收集数据的工作量,并且保证数据的真实可靠性,提高测试质量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于标注的日志分类的方法。
本发明实施例的基于标注的日志分类的方法包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。
可选地,所述抓取日志包括:统计抓取的渠道;从所述渠道的搜索引擎入口抓取日志。
可选地,本发明实施例的基于标注的日志分类的方法还包括:所述抓取日志之后,对所述日志进行过滤。
可选地,对所述日志进行过滤包括:根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。
可选地,对所述日志进行过滤还包括:根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。
可选地,本发明实施例的基于标注的日志分类的方法还包括:对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。
可选地,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注包括:根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
可选地,本发明实施例的基于标注的日志分类的方法还包括:对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种基于标注的日志分类的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710666342.0/2.html,转载请声明来源钻瓜专利网。





