[发明专利]搜索词纠正方法、装置、电子设备及计算机存储介质在审
申请号: | 202110798742.3 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113553398A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 姚澜;罗川江;王炜;解忠乾;孙翠荣 | 申请(专利权)人: | 杭州网易云音乐科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06K9/62;G06N3/04 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 刘彩红 |
地址: | 310052 浙江省杭州市萧山区钱江世*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 纠正 方法 装置 电子设备 计算机 存储 介质 | ||
本申请实施例提供了一种搜索词纠正方法、装置、电子设备及计算机存储介质,所述方法包括:获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。本申请实施例提供的技术方案与现有技术相比,提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。
技术领域
本申请涉及计算机技术领域,尤指一种搜索词纠正方法、装置、电子设备及计算机存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
如今,随着网络上的资源越来越丰富,搜索引擎的使用也越来越广泛。但在搜索引擎的使用过程中,用户有时难以给出准确的搜索词,或者因为笔误而造成了输入错误。例如输入的搜索词中的英文单词拼写错误、中文同音字错误,输入的搜索词与正确的搜索词语义相关但文字不相同等情况。从而,搜索引擎会根据错误的搜索词进行搜索,给出与用户期望的内容不同的搜索结果。
发明内容
本申请实施例提供一种搜索词纠正方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在搜索词纠正效果不好的问题。
第一方面,本申请一实施例提供了一种搜索词纠正方法,包括:
获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
对所述第二候选词集合中的候选词进行评分;
根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
这样,通过对搜索词进行特征提取,与候选集合中的候选词进行相似度比较后召回,之后再对候选词进行过滤和评分,与现有技术相比提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。
可选地,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
这样,通过LSTM模型对候选词的特征进行编码与进一步地特征提取向量,最终能够提取得到与具有纠错关系的搜索词更为相似的向量。
可选地,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易云音乐科技有限公司,未经杭州网易云音乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798742.3/2.html,转载请声明来源钻瓜专利网。