[发明专利]同义标签的获取方法、装置、设备及计算机可读存储介质有效
申请号: | 201710729010.2 | 申请日: | 2017-08-23 |
公开(公告)号: | CN107729347B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 孙珂;王超越;李婷婷;赵世奇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义 标签 获取 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明提供一种同义标签的获取方法、装置、设备及计算机可读存储介质。本发明实施例通过获取待识别标签的中心语素,进而根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。
【技术领域】
本发明涉及搜索技术,尤其涉及一种同义标签的获取方法、装置、设备及计算机可读存储介质。
【背景技术】
标签(tag)是用户用来表述领域需求的基础,也是构成用户查询语句(query)的基础。当用户在使用搜索引擎进行搜索时,会利用查询语句(query)来表达搜索意图,然而常常因为用户选择的查询语句与搜索结果不匹配,导致召回结果不足。在垂直领域中,该问题尤其严重。以电影领域为例,当用户搜索“比较烧脑的电影”时,其真实搜索意图是“高智商电影”或“悬疑、推理类电影”,如果搜索引擎没有将“烧脑电影”与“高智商”、“悬疑”、“推理”类电影资源建立映射关系,则会导致搜索结果召回缺失。
因此,为了能够将与用户所提供的查询语句具有同义关系的搜索结果一并召回,需要基于用户所提供的查询语句进行同义查询扩展,即利用查询语句所包含的标签进行搜索的同时,还需要进一步利用该标签的同义标签进行搜索,从而达到满足用户真正的搜索意图的目的,进而提升用户体验和最大化商业价值。目前,将同义标签的挖掘作为短语级复述任务来处理,其依赖于具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源。
然而,由于现有的同义标签的挖掘依赖于具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,在一些情况下,例如,挖掘资源的数据稀疏,会使得同义标签的覆盖率降低,从而导致了同义标签获取的可靠性的降低。
【发明内容】
本发明的多个方面提供一种同义标签的获取方法、装置、设备及计算机可读存储介质,用以提高同义标签获取的可靠性。
本发明的一方面,提供一种同义标签的获取方法,包括:
获取待识别标签的中心语素;
根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;
根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,包括:
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签之前,还包括:
获取指定实体的至少两个标签;
根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;
获取所述过滤处理之后的标签中每个标签的中心语素;
根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;
根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710729010.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于生物识别的自助培训考核装置
- 下一篇:一种景区交通监测管理系统