[发明专利]训练分类模型的方法及装置、对搜索词分类的方法及装置有效
| 申请号: | 201610016083.2 | 申请日: | 2016-01-08 |
| 公开(公告)号: | CN105589972B | 公开(公告)日: | 2019-03-15 |
| 发明(设计)人: | 李晨旭 | 申请(专利权)人: | 天津车之家科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F16/28 |
| 代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
| 地址: | 300300 天津市滨海新区空*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 分类 模型 方法 装置 搜索词 | ||
1.一种训练搜索词分类模型的方法,适于在计算设备中执行,该计算设备包括关键词存储器,适于存储关键词分类词典,该词典中每个关键词具有代表用户搜索意图的类别信息,该方法包括:
从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别,其中每个搜索词的类别是基于关键词分类词典得到的;
获取每个搜索词中类别与其相同的分词,所获取的每个分词的属性包括该分词的分类贡献度特征;
获取每个搜索词中类别与其相同的每个分词的关联词,所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征;以及
利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
2.如权利要求1所述的方法,其中所述获取该搜索词的集合中每个搜索词的类别的步骤包括:
如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;以及
如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
3.如权利要求1所述的方法,其中,所述获取每个搜索词中与其类别相同的分词的步骤包括:
利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;以及
利用下述公式计算所提取的每个分词的分类贡献特征:
t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
4.如权利要求1所述的方法,其中,所述获取每个搜索词中类别与其相同的每个分词的关联词的步骤包括:
获取预定网站的至少一部分网页信息;
利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;
对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;
基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
5.如权利要求4所述的方法,其中,所述利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合的步骤包括:
对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
6.如权利要求4所述的方法,其中,所述对所述分词集合执行词聚类操作的步骤包括:
利用word2vec对该分词集合执行词聚类操作。
7.如权利要求1所述的方法,其中所述表示这个关联词与相关联分词语义相似度的特征为余弦距离。
8.如权利要求1所述的方法,其中,所述分类模型为SVM模型。
9.如权利要求1所述的方法,其中,所述利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型的步骤包括:
将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本;以及
利用所生成的每条样本对分类模型的参数进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津车之家科技有限公司,未经天津车之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610016083.2/1.html,转载请声明来源钻瓜专利网。





