[发明专利]训练分类模型的方法及装置、对搜索词分类的方法及装置有效
| 申请号: | 201610016083.2 | 申请日: | 2016-01-08 |
| 公开(公告)号: | CN105589972B | 公开(公告)日: | 2019-03-15 |
| 发明(设计)人: | 李晨旭 | 申请(专利权)人: | 天津车之家科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F16/28 |
| 代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
| 地址: | 300300 天津市滨海新区空*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 分类 模型 方法 装置 搜索词 | ||
本发明公开了训练分类模型的方法及装置、对搜索词分类的方法及装置。其中,训练搜索词分类模型的方法适于在计算设备中执行。该方法包括以下步骤。从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
技术领域
本发明涉及互联网领域,尤其涉及训练分类模型的方法及装置、对搜索词分类的方法及装置。
背景技术
随着互联网的快速发展,网站平台(例如汽车之家)可以提供大量的例如资讯、新闻、广告等内容,以满足用户对信息的需求。然而,用户在面对大量信息时,经常需要输入搜索词并通过搜索引擎进行搜索,以获取用户所需要的内容。在根据搜索词进行搜索时,一个重要的环节是对搜索词进行分类,以确定用户的搜索意图。现有的搜索方案中,通常采用规则分类的方式,以判断搜索词是否与关键词表匹配。
然而,规则分类方式的识别范围很有限,分类的召回率较低。
发明内容
为此,本发明提供一种新的分类方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种训练搜索词分类模型的方法,适于在计算设备中执行。该计算设备包括关键词存储器,适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息,该方法包括以下步骤。从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取该搜索词的集合中每个搜索词的类别的步骤包括:如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中与其类别相同的分词的步骤包括:利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;利用下述公式计算所提取的每个分词的分类贡献特征:t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中类别与其相同的每个分词的关联词的步骤包括:获取预定网站的至少一部分网页信息;利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
可选地,在根据本发明的训练搜索词分类模型的方法中,利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合的步骤包括:对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
可选地,在根据本发明的训练搜索词分类模型的方法中,对所述分词集合执行词聚类操作的步骤包括:利用word2vec对该分词集合执行词聚类操作。
可选地,在根据本发明的训练搜索词分类模型的方法中,表示这个关联词与相关联分词语义相似度的特征为余弦距离。分类模型为SVM模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津车之家科技有限公司,未经天津车之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610016083.2/2.html,转载请声明来源钻瓜专利网。





