[发明专利]数据的识别方法及装置在审

申请号：	201711476639.7	申请日：	2017-12-29
公开（公告）号：	CN108228791A	公开（公告）日：	2018-06-29
发明（设计）人：	刘文娇	申请（专利权）人：	北京奇虎科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	参数信息统一资源定位符互联网技术人工识别输出结果数据识别出错率
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据的识别方法及装置，涉及互联网技术领域，主要目的在于解决现有技术中在识别URL中的参数信息时，由于采用人工识别的方式，导致的效率低且出错率高的问题，以实现准确、高效地识别参数信息，主要技术方案包括：获取待识别数据，所述待识别数据中包含有统一资源定位符URL；将所述待识别数据输入到对应的数据识别模型中，根据模型输出结果得所述统一资源定位符URL中包含的参数信息。

技术领域

本发明涉及互联网技术领域，特别是涉及一种数据的识别方法及装置。

背景技术

伴随着互联网技术的快速发展，网络的智能化已成为大势所趋，即针对性地、及时地向用户主动推送用户的所需信息，以满足不同用户的个性化需求。

智能化的重点在于根据用户的一些历史操作记录，如统一资源定位符(UniformResource Locator，URL)中携带的参数信息，通过参数信息获取用户的真实需求或者获取用户/设备的基本信息等。目前，在对用户的某一时间段内的历史操作记录进行分析确定参数信息时，通过人工逐条分析的方式，该种识别方式效率较低，且由于参数信息多变人工识别的方式出错率较高。

发明内容

有鉴于此，本发明提供的一种数据的识别方法及装置，主要目的在于解决现有技术中在识别URL中的参数信息时，由于采用人工识别的方式，导致的效率低且出错率高的问题，以实现准确、高效地识别参数信息。

依据本发明一个方面，本发明提供了一种数据的识别方法，包括：

获取待识别数据，所述待识别数据中包含有统一资源定位符URL；

将所述待识别数据输入到对应的数据识别模型中，根据模型输出结果得所述统一资源定位符URL中包含的参数信息。

可选的，所述方法还包括：

根据标注信息对用于数据识别模型训练的批量样本数据进行分类，所述训练用样本数据中包含不同类别的标注信息；

对属于同一类别的训练用样本数据进行数据识别模型的训练。

可选的，所述标注信息为对统一资源定位符URL中参数信息的标注，对属于同一类别的训练用样本数据进行数据识别模型的训练包括：

根据所述标注信息对所述统一资源定位符URL中参数信息进行训练；所述参数信息包括参数名及参数值；

确定同一类别的训练用样本数据中参数名和/或参数值的特征。

可选的，在根据标注信息对用于数据识别模型训练的批量样本数据进行分类之前，所述方法还包括：