[发明专利]数据的识别方法及装置在审
申请号: | 201711476639.7 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108228791A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 刘文娇 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数信息 统一资源定位符 互联网技术 人工识别 输出结果 数据识别 出错率 | ||
本发明公开了一种数据的识别方法及装置,涉及互联网技术领域,主要目的在于解决现有技术中在识别URL中的参数信息时,由于采用人工识别的方式,导致的效率低且出错率高的问题,以实现准确、高效地识别参数信息,主要技术方案包括:获取待识别数据,所述待识别数据中包含有统一资源定位符URL;将所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息。
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据的识别方法及装置。
背景技术
伴随着互联网技术的快速发展,网络的智能化已成为大势所趋,即针对性地、及时地向用户主动推送用户的所需信息,以满足不同用户的个性化需求。
智能化的重点在于根据用户的一些历史操作记录,如统一资源定位符(UniformResource Locator,URL)中携带的参数信息,通过参数信息获取用户的真实需求或者获取用户/设备的基本信息等。目前,在对用户的某一时间段内的历史操作记录进行分析确定参数信息时,通过人工逐条分析的方式,该种识别方式效率较低,且由于参数信息多变人工识别的方式出错率较高。
发明内容
有鉴于此,本发明提供的一种数据的识别方法及装置,主要目的在于解决现有技术中在识别URL中的参数信息时,由于采用人工识别的方式,导致的效率低且出错率高的问题,以实现准确、高效地识别参数信息。
依据本发明一个方面,本发明提供了一种数据的识别方法,包括:
获取待识别数据,所述待识别数据中包含有统一资源定位符URL;
将所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息。
可选的,所述方法还包括:
根据标注信息对用于数据识别模型训练的批量样本数据进行分类,所述训练用样本数据中包含不同类别的标注信息;
对属于同一类别的训练用样本数据进行数据识别模型的训练。
可选的,所述标注信息为对统一资源定位符URL中参数信息的标注,对属于同一类别的训练用样本数据进行数据识别模型的训练包括:
根据所述标注信息对所述统一资源定位符URL中参数信息进行训练;所述参数信息包括参数名及参数值;
确定同一类别的训练用样本数据中参数名和/或参数值的特征。
可选的,在根据标注信息对用于数据识别模型训练的批量样本数据进行分类之前,所述方法还包括:
对所述训练用样本数据的统一资源定位符URL中的参数名和/或参数值进行标注。
可选的,将所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息包括:
在所述数据识别模型中,解析得到所述待识别数据中统一资源定位符URL中的参数名及对应的参数值;
若能够通过所述参数名识别出所述统一资源定位符URL中包含的参数信息,则将所述参数信息输出;
若不能通过所述参数名识别出所述统一资源定位符URL中包含的参数信息,则对所述参数值进行识别,识别成功后将所述参数信息输出。
可选的,所述方法还包括:
将识别后的所述待识别数据存储于训练用数据样本库中;
使用所述训练用数据样本库中的样本数据对所述数据识别模型进行更新训练。
第二方面,本发明提供一种数据的识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711476639.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:推送图片的展示方法及装置
- 下一篇:图片检索方法、电子设备及存储介质