[发明专利]搜索文本处理方法、装置、电子设备及介质在审
申请号: | 202110695117.6 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113535895A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 钱昉 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06K9/62;G06F40/232;G06F40/289;G06F40/295 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 文本 处理 方法 装置 电子设备 介质 | ||
1.一种搜索文本处理方法,其特征在于,所述方法包括:
从待处理的搜索文本中确定当前待纠错的纠错文本片段;
基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;
分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;
根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
2.根据权利要求1所述的方法,其特征在于,分别基于所述多个待召回文本,对目标索引库的搜索对象进行检索,包括:
基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括片段文本检索粒度和完整文本检索粒度;
根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
3.根据权利要求2所述的方法,其特征在于,基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,包括:
分别以所述多个待召回文本为检索文本,对所述目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本;
将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本;
以所述候选搜索文本为检索文本,对所述目标索引库的搜索对象进行检索;
根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。
4.根据权利要求2或3所述的方法,其特征在于,根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
在所述完整文本检索粒度下,获取各候选搜索文本命中的索引记录所对应的目标搜索对象;其中,候选搜索文本是以待召回文本对所述搜索文本进行纠错处理得到;
基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征;其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征;
基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。
5.根据权利要求4所述的方法,其特征在于,在所述纠错文本片段为多个的情况下,所述方法还包括:
在确定筛选出的所述目标文本的相似度特征大于或等于相似度阈值时,将所述搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本;
在确定筛选出的所述目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
6.根据权利要求1-5任一项或7所述的方法,其特征在于,所述纠错文本片段是通过以下步骤获得的:
获得发送所述搜索文本的用户所在的位置标识;
对所述搜索文本进行分词处理和/或实体识别,得到多个文本片段:
分别以多个文本片段和所述位置标识为检索文本,对所述目标索引库中的多个索引记录进行检索,得到每个文本片段所命中的索引记录对应的命中搜索对象;
根据每个文本片段对应的命中搜索对象与其他文本片段对应的命中搜索对象的取交集结果,从多个文本片段确定需要纠错的纠错文本片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110695117.6/1.html,转载请声明来源钻瓜专利网。