[发明专利]一种视频搜索中的查询词纠错方法和装置有效
| 申请号: | 201710533053.3 | 申请日: | 2017-07-03 |
| 公开(公告)号: | CN107301241B | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 孙超博 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/903;G06F16/36 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 搜索 中的 查询 纠错 方法 装置 | ||
本发明提供的视频搜索中的查询词纠错方法和装置,对查询词进行删字处理,得到删字后的字串集合;利用字串集合中的每个词以及查询词,在预先得到的纠错候选词词典中匹配纠错候选词;通过这样简单的策略覆盖率了典型错误模式,如增字、减字、错字和乱序等。提高了查询词的在线纠错的准确率。
技术领域
本发明涉及视频搜索技术领域,更具体地说,涉及一种视频搜索中的查询词纠错方法和装置。
背景技术
发现用户的错误输入,并纠正为符合用户真实意图的正确输入,是搜索引擎对查询词(query)进行预处理的一个关键步骤。搜索引擎需要针对特定的query,召回与之相关的文档(doc)。在实际应用中,query中包含的错误,如错字、增字、乱序等,可能使搜索引擎召回大量与用户真实意图不符的doc。而query被纠正,一方面用户的真实意图被还原,是搜索引擎智能性的体现方式,另一方面则是对检索和排序算法的重要补充,降低了检索的难度。统计表明,视频搜索中10%以上的query是错误的。
视频搜索,作为一种垂直领域的搜索,通常有两类方法来实现查询词纠错:离线方法和在线方法。离线方法依赖于纠错对词典,即“正确query-错误query”的映射关系。这些关系或是手工定义的,或来自于对用户日志的挖掘,虽然可以涵盖部分错误输入,但这类方法一方面需要大量的人工工作,另一方面这种离线方法的作用范围具有迟滞性:用户曾经输入过才可能被发现并放入纠错对词典中。但是由于用户输入的多样性,很多的错误模式,是完全无法预知的。而现有的在线方法对查询词的的纠错判别准则过于简单,发生误纠的概率较大。
发明内容
有鉴于此,本发明提出一种视频搜索中的查询词纠错方法和装置,欲实现准确的对查询词进行在线纠错的目的。
为了实现上述目的,现提出的方案如下:
一种视频搜索中的查询词纠错方法,包括:
接收用户输入的查询词;
对所述查询词进行删字处理,得到字串集合;
利用所述字串集合中的每个词以及所述查询词,在预先得到的纠错候选词词典中匹配得到纠错候选词;
从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果。
优选的,所述从所述纠错候选词中选出最优纠错候选词作为所述查询词的纠错结果具体包括:
利用预先建立的语言模型,对所述纠错候选词以及所述查询词进行特征提取;
利用预先建立的分类模型,针对匹配得到的每个所述纠错候选词,根据对所述纠错候选词以及所述查询词提取得到的特征,判断所述纠错候选词的合理性是否大于所述查询词的合理性;
从合理性大于所述查询词的纠错候选词中选择搜索次数最高的纠错候选词确定为最优纠错候选词,作为所述查询词的纠错结果。
优选的,所述纠错候选词词典的生成过程,包括:
接收用户输入的词语;
将所述词语作为纠错候选词;
对所述词语进行删字处理,得到删字后的字串集合,并建立所述词语与所述词语、对所述词语删字处理后的字串集合之间的对应关系。
优选的,提取的所述特征包括:对数似然在每个词上的平均值、对数似然在每个字上的平均值和/或对数似然在长度为三的窗口上的最小值。
优选的,所述对所述查询词进行删字处理,得到字串集合,具体为:
对所述查询词的每个字分别删除得到字串集合。
一种视频搜索中的查询词纠错装置,包括:
接收单元,用于接收用户输入的查询词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710533053.3/2.html,转载请声明来源钻瓜专利网。





