[发明专利]转义识别方法、装置、计算机设备及存储介质有效
申请号: | 201810367116.7 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108595620B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 邹红建;方高林;陈剑峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转义 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请提出一种转义识别方法、装置、计算机设备及存储介质,其中,方法包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。通过本方法,能够提高转义识别的准确性和可靠性,进而提高搜索结果的准确性。
技术领域
本申请涉及搜索引擎技术领域,尤其涉及一种转义识别方法、装置计算机设备及存储介质。
背景技术
检索是搜索引擎根据用户输入的表示查询意图的搜索语句,返回一定数量的搜索结果的过程。搜索引擎返回的搜索结果可能仅与搜索语句匹配,但不符合用户的真实查询意图,例如,用户输入的搜索语句为“钻石”,搜索引擎返回的搜索结果是“钻石贴膜”的信息,这种情况称之为转义。转义会严重影响用户的搜索体验。
为了能够返回符合用户查询意图的搜索结果,需要对候选搜索结果进行转义识别。相关技术中,转义识别是利用学习获得的转义识别模型实现的。通常,展现的搜索结果的点击量越高,搜索语句和搜索结果之间未发生转义的概率较高,而对于多次展现而无点击量或点击量很少的搜索结果,发生转义的概率较高。基于此,相关技术中,采用用户的点击数据作为训练样本学习得到转义识别模型,以用于转义识别。
然而,依赖于用户点击行为训练得到转义识别模型的方式较片面,对于用户的点击数据中未出现的关键词,难以学习到转义信息,用户无意的误点击或有意的点击作弊均会影响转义识别模型的识别精度,导致转义识别准确率低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种转义识别方法,以通过获取第一目标词语与第二目标词语相关的第一特征向量以及与第二目标词语无关的第二特征向量,以及获取第二目标词语与第一目标词语相关的第三特征向量和与第一目标词语无关的第四特征向量,进而根据第一特征向量与第二特征向量之间的距离以及第三特征向量与第四特征向量之间的距离,确定第一目标词语与第二目标词语组合时的转义概率,提高转义识别的准确性和可靠性,进而提高搜索结果的准确性。
本申请的第二个目的在于提出一种转义识别装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种转义识别方法,包括:
获取待识别的第一目标词语及第二目标词语;
确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;
根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810367116.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种问答方法及设备
- 下一篇:一种虚开增值税发票的预警分析方法及系统