[发明专利]一种处理数据的方法、装置、设备和计算机存储介质在审

申请号：	201710260035.2	申请日：	2017-04-20
公开（公告）号：	CN107194412A	公开（公告）日：	2017-09-22
发明（设计）人：	张晓迪;徐云峰;陈承泽;陈炜于	申请（专利权）人：	百度在线网络技术(北京)有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙)11412	代理人：	袁媛
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种处理数据方法装置设备计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

【技术领域】

本发明涉及地图服务技术领域，尤其涉及一种处理数据的方法、装置、设备和计算机存储介质。

【背景技术】

现有的分类模型，在算法上有SVM(support vector machine，支持向量机)、LR(logistic regression，逻辑回归)、决策树等多种选择，但在实现训练以及预测时都依靠单个模型将所有的分类标签和特征涵盖。因此，现有技术在进行分类模型的训练时，当分类问题较大、所涉及的分类标签和特征很多时，则所需要的训练数据的规模也会呈灾难性地增长，从而导致分类模型在有限时间内很难完成训练，进而影响模型应用的时效性以及迭代开发效率。另外，现有技术在进行分类模型的预测时，当单个模型中的分类标签和特征规模较大时，会影响模型的预测速度，若在使用分类模型进行实时预测的场景中，模型的预测速度会影响实时系统的响应速度。

【发明内容】

有鉴于此，本发明提供了一种处理数据的方法、装置、设备和计算机存储介质，能够提升分类模型对用户数据的预测速度以及预测准确度。

本发明为解决技术问题而采用的技术方案是提供了一种处理数据的方法，所述方法包括：获取含用户位置相关信息的用户特征数据；依据所述用户位置相关信息在地理位置上的划分，确定用户特征数据所对应的标签组；利用所述标签组对应的分类子模型对所述用户特征数据进行预测，得到用户的标签；其中，每个标签组分别对应一个分类子模型。

根据本发明一优选实施例，所述分类子模型是采用如下训练方式预先得到的：获取标签以及与标签相关联的用户特征数据；依据各标签在地理位置上的划分，对所述标签进行分组；将每个标签组所包含标签以及与标签相关联的用户特征数据作为训练数据，分别训练各标签组对应的分类子模型。

根据本发明一优选实施例，所述在依据各标签在地理位置上的划分，对所述标签进行分组时，将分组边界上的标签划分至临近的多个标签组。

根据本发明一优选实施例，所述在将每个标签组所包含的标签以及与标签相关联的用户特征数据作为训练数据时，进一步包括：将置信度低于预设置信度阈值的用户特征数据从训练数据中过滤掉。

根据本发明一优选实施例，所述标签包括感兴趣点，或者感兴趣区域。

根据本发明一优选实施例，所述用户位置相关信息包括GPS数据、Wifi信息以及IP地址中的至少一种。

根据本发明一优选实施例，所述依据所述用户位置相关信息在地理位置上的划分，确定用户特征数据所对应的标签组包括：根据所述用户特征数据所包含的地理位置信息，对所述用户特征数据进行空间索引或聚合；根据空间索引或聚合结果，确定所述用户特征数据对应的标签组。

根据本发明一优选实施例，所述利用所述标签组所对应的分类子模型对所述用户特征数据进行预测，得到用户的标签包括：若所述分类子模型只有一个，则将所述用户特征数据发送至该分类子模型，根据该分类子模型的预测结果，得到用户的标签；或者，若所述分类子模型有多个，则将用户特征数据中对应每个分类子模型的特征数据发送至对应的分类子模型中，根据多个分类子模型的预测合并结果，得到用户的标签。

根据本发明一优选实施例，所述根据多个分类子模型的预测合并结果得到用户的标签包括：根据各分类子模型所对应用户特征数据的置信度确定预测结果，得到用户的标签；或者，根据各分类子模型所得到预测结果的置信度确定预测结果，得到用户的标签。

根据本发明一优选实施例，所述用户特征数据的置信度依据地理位置、出现频率或信号强度等中的至少一种确定。

本发明为解决技术问题而采用的技术方案是提供一种处理数据的装置，所述装置包括：获取单元，用于获取含用户位置相关信息的用户特征数据；确定单元，用于依据所述用户位置相关信息在地理位置上的划分，确定用户特征数据所对应的标签组；预测单元，用于利用所述标签组对应的分类子模型对所述用户特征数据进行预测，得到用户的标签；其中，每个标签组分别对应一个分类子模型。

根据本发明一优选实施例，所述装置还包括训练单元，用于采用如下训练方式训练得到分类子模型：获取标签以及与标签相关联的用户特征数据；依据各标签在地理位置上的划分，对所述标签进行分组；将每个标签组所包含标签以及与标签相关联的用户特征数据作为训练数据，分别训练各标签组对应的分类子模型。

根据本发明一优选实施例，所述训练单元在用于依据各标签在地理位置上的划分对所述标签进行分组时，将分组边界上的标签划分至临近的多个标签组。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司，未经百度在线网络技术(北京)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710260035.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种处理数据的方法、装置、设备和计算机存储介质在审

专利文献下载