[发明专利]一种搜索词纠错方法和装置、电子设备和存储介质在审
| 申请号: | 202111491356.6 | 申请日: | 2021-12-08 |
| 公开(公告)号: | CN114297340A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 刘洋;梅丰;陈莹 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/232 |
| 代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 搜索词 纠错 方法 装置 电子设备 存储 介质 | ||
本公开关于一种搜索词纠错方法和装置、电子设备和存储介质,涉及搜索领域,能够使得搜索词纠错不再依赖于历史搜索数据,提高了搜索系统中搜索词纠错装置的鲁棒性。该方法包括:获取搜索词,并确定至少一个第一纠错候选词;获取搜索词和每个第一纠错候选词的实时检索特征;实时检索特征用于表征实时检索结果;基于搜索词的实时检索特征和第一纠错候选词的实时检索特征,确定第一纠错候选词为搜索词的纠错结果的第一纠错概率;第一纠错概率用于表征搜索词的纠错结果为第一纠错候选词的概率;根据所有第一纠错候选词的第一纠错概率确定搜索词的纠错结果。
技术领域
本公开实施例涉及搜索领域,尤其涉及一种搜索词纠错方法和装置、电子设备和存储介质。
背景技术
在搜索场景中,用户常常会因为大意疏忽,可能在输入至少一次错误的搜索词,而搜索服务器根据错误的搜索词往往不能搜索到用户真正需要的资源。在这种情况下,用户往往需要多次输入不同的搜索词才能得到自己想要的资源。为了解决这一点,相关技术的搜索系统中会设置有搜索词纠错装置,该搜索词纠错装置可以依据所有用户的历史搜索数据,对用户输入的搜索词进行纠错。例如,在历史搜索数据中,如果大部分用户在输入“行星相吸”得到相应资源后会立即重新输入“惺惺相惜”,则后续如果有新的用户输入“行星相吸”,则搜索服务器会搜索“惺惺相惜”的相关资源并提供给用户,同时提示用户“您要找的是不是
可以看出,相关技术中的搜索词纠错方案过于依赖历史搜索数据,一旦某个搜索词相关的历史搜索数据存在缺失,则会导致最终的纠错结果不好。也就是说相关技术中的搜索词纠错方案鲁棒性较差,不能很好的满足用户需求。
发明内容
本公开关于一种搜索词纠错方法和装置、电子设备和存储介质,能够使得搜索词纠错不再依赖于历史搜索数据,提高了搜索词纠错的鲁棒性。
为达到上述目的,本公开实施例采用如下技术方案:
第一方面,提供一种搜索词纠错方法,包括:获取搜索词,并确定至少一个第一纠错候选词;获取搜索词和每个第一纠错候选词的实时检索特征;实时检索特征用于表征实时检索结果;基于搜索词的实时检索特征和第一纠错候选词的实时检索特征,确定第一纠错候选词为搜索词的纠错结果的第一纠错概率;第一纠错概率用于表征搜索词的纠错结果为第一纠错候选词的概率;根据第一纠错候选词的第一纠错概率确定搜索词的纠错结果。
上述技术方案,在用户输入了搜索词需要进行用户搜索时,可以先基于搜索词确定至少一个第一纠错候选词。然后,可以基于检索获取到搜索词和每个第一纠错候选词的实时检索特征。其中,实时检索特征用于表征实时检索结果,而搜索词和所有第一纠错候选词中属于用户真正需要搜索的目标词和其他的非正确词语的搜索结果必然是存在一定差别的。一般的,目标词的实时搜索结果中检索到的资源会更多,搜索到的资源和的相关性也会较高,而非正确词语的实时搜索结果中检索到的资源会较少,而且与非正确词语的相关性也会较低。所以基于这一点,之后可以基于搜索词的实时检索特征和第一纠错候选词的实时检索特征,确定每个第一纠错候选词为搜索词的纠错结果的第一纠错概率。最后,便可以根据所有第一纠错候选词的第一纠错概率确定搜索词的纠错结果。综上可以看出,本公开提供的技术方案,不会再依赖于历史搜索数据,而是直接根据每一个词语(搜索词或第一纠错候选词)都会存在的实时检索特征来确定搜索词的纠错结果,使得所有搜索词都可以被纠错,提高了使用该技术方案的搜索系统中搜索词纠错装置的鲁棒性。
可选的,获取搜索词,并确定至少一个第一纠错候选词,包括:获取搜索词,并根据搜索词确定至少一个纠错候选词;根据纠错候选词的纠错特征,确定纠错候选词为搜索词的纠错结果的第二纠错概率;第二纠错概率用于表征搜索词的纠错结果为纠错候选词的概率;纠错特征是根据历史搜索数据获得的;根据所有纠错候选词的第二纠错概率,从至少一个纠错候选词中确定符合预置条件的至少一个第一纠错候选词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491356.6/2.html,转载请声明来源钻瓜专利网。





