[发明专利]数据的识别方法及装置在审
申请号: | 201711476639.7 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108228791A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 刘文娇 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 参数信息 统一资源定位符 互联网技术 人工识别 输出结果 数据识别 出错率 | ||
1.一种数据的识别方法,其特征在于,包括:
获取待识别数据,所述待识别数据中包含有统一资源定位符URL;
将所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据标注信息对用于数据识别模型训练的批量样本数据进行分类,所述训练用样本数据中包含不同类别的标注信息;
对属于同一类别的训练用样本数据进行数据识别模型的训练。
3.根据权利要求2所述的方法,其特征在于,所述标注信息为对统一资源定位符URL中参数信息的标注,对属于同一类别的训练用样本数据进行数据识别模型的训练包括:
根据所述标注信息对所述统一资源定位符URL中参数信息进行训练;所述参数信息包括参数名及参数值;
确定同一类别的训练用样本数据中参数名和/或参数值的特征。
4.根据权利要求3所述的方法,其特征在于,在根据标注信息对用于数据识别模型训练的批量样本数据进行分类之前,所述方法还包括:
对所述训练用样本数据的统一资源定位符URL中的参数名和/或参数值进行标注。
5.根据权利要求4所述的方法,其特征在于,将所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息包括:
在所述数据识别模型中,解析得到所述待识别数据中统一资源定位符URL中的参数名及对应的参数值;
若能够通过所述参数名识别出所述统一资源定位符URL中包含的参数信息,则将所述参数信息输出;
若不能通过所述参数名识别出所述统一资源定位符URL中包含的参数信息,则对所述参数值进行识别,识别成功后将所述参数信息输出。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
将识别后的所述待识别数据存储于训练用数据样本库中;
使用所述训练用数据样本库中的样本数据对所述数据识别模型进行更新训练。
7.一种数据的识别装置,其特征在于,包括:
获取单元,用于获取待识别数据,所述待识别数据中包含有统一资源定位符URL;
处理单元,用于将所述获取单元获取的所述待识别数据输入到对应的数据识别模型中,根据模型输出结果得所述统一资源定位符URL中包含的参数信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
分类单元,用于根据标注信息对用于数据识别模型训练的批量样本数据进行分类,所述训练用样本数据中包含不同类别的标注信息;
训练单元,用于对所述分类单元确定的属于同一类别的训练用样本数据进行数据识别模型的训练。
9.根据权利要求8所述的装置,其特征在于,所述标注信息为对统一资源定位符URL中参数信息的标注,所述训练单元包括:
训练模块,用于根据所述标注信息对所述统一资源定位符URL中参数信息进行训练;所述参数信息包括参数名及参数值;
确定模块,用于确定同一类别的训练用样本数据中参数名和/或参数值的特征。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
标注单元,用于在所述分类单元根据标注信息对用于数据识别模型训练的批量样本数据进行分类之前,对所述训练用样本数据的统一资源定位符URL中的参数名和/或参数值进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711476639.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:推送图片的展示方法及装置
- 下一篇:图片检索方法、电子设备及存储介质