[发明专利]兴趣点在线检测、机器学习分类器训练方法和装置有效
申请号: | 201710016323.3 | 申请日: | 2017-01-10 |
公开(公告)号: | CN108287816B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 岳大威;孟凡超;汤沛 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N20/10 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 在线 检测 机器 学习 分类 训练 方法 装置 | ||
1.一种兴趣点在线检测方法,包括:
获取从待检测兴趣点的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
通过机器学习分类器并根据所述特征向量判断所述待检测兴趣点是否属于预设类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量包括:
将所述第一特征因子序列中的第一特征因子初始化为第一值;
在所述第一特征因子序列中,将所对应关键词为所述分词得到的关键词的第一特征因子,置为与所述第一值不同的第二值;
生成包括所述第一特征因子序列的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述归一化处理的归一化方式包括取对数归一化和线性函数归一化。
4.根据权利要求1所述的方法,其特征在于,所述获取从待检测兴趣点的兴趣点名称中分词得到的关键词之前,所述方法还包括:
获取已知属于预设类别的兴趣点的第一兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中存在所述关键词集合中的关键词的第二兴趣点样本;
获取已知不属于预设类别的兴趣点、且相应兴趣点名称中不存在所述关键词集合中的关键词的第三兴趣点样本;
将所述第一兴趣点样本、第二兴趣点和所述第三兴趣点样本混合获得兴趣点样本集合;
根据与所述兴趣点样本集合中的兴趣点样本相应的特征向量训练机器学习分类器。
5.根据权利要求1所述的方法,其特征在于,所述获取从待检测兴趣点的兴趣点名称中分词得到的关键词之前,所述方法还包括:
获取兴趣点样本集合;
从所述兴趣点样本集合中选取兴趣点样本子集;
获取机器学习分类器的离散参数取值集合;
根据所述离散参数取值集合中的每个参数取值和所述兴趣点样本子集,训练与每个参数取值相应的机器学习分类器,并获得相应参数取值所对应机器学习分类器的分类预测正确率;
筛选出最大的分类预测正确率并获取相应的参数取值,并根据获取的参数取值和所述兴趣点样本集合训练机器学习分类器。
6.一种用于兴趣点在线检测的机器学习分类器训练方法,包括:
获取兴趣点样本集合中的兴趣点样本;
获取从所述兴趣点样本的兴趣点名称中分词得到的关键词;
确定分词得到的关键词是否为属于预设的关键词集合的关键词;
生成第一特征因子序列,所述第一特征因子序列与所述关键词集合中的关键词一一对应;
根据所对应关键词是否为分词得到的关键词,将所述第一特征因子序列中的第一特征因子取不同的值,得到包括所述第一特征因子序列的特征向量;所述特征向量还包括表征相应兴趣点名称的长度的第二特征因子;和/或,表征相应兴趣点的模糊位置的第三特征因子;和/或,表征相应兴趣点的来源的第四特征因子;所述特征向量中所包括的特征因子均是归一化处理后的特征因子;
根据所述特征向量训练机器学习分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710016323.3/1.html,转载请声明来源钻瓜专利网。