[发明专利]一种搜索召回方法及装置有效
申请号: | 201811533531.1 | 申请日: | 2018-12-14 |
公开(公告)号: | CN111400577B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 王涛;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/295 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李丹;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 召回 方法 装置 | ||
本申请公开了一种搜索召回方法及装置,本申请通过短语切分模型和过滤策略对待识别商品标题的处理,提高了品类词挖掘的准确率,而且,通过自动化过程,大大提高了挖掘效率,也大大降低了人工成本。
技术领域
本申请涉及但不限于计算机技术,尤指一种搜索召回方法及装置。
背景技术
品类词实体包括电商标题或询问(query)中描述的对应商品实体的名称,比如:mp3player、cat eye、sport shoe、围巾等。
相关技术中挖掘品类词实体的方法主要是借助于卖家主动填写的属性信息。一方面,这些属性值都是卖家主动填写的,质量参差不齐,这种通过从属性中抽取描述产品类型的属性值来获取品类词实体的方法,对卖家填写信息依赖较大,卖家未填写的部分是覆盖不到的,造成了品类词实体挖掘不全面、不准确;另一方面,抽取的词需要大量的人工审核后才能得到真正需要的品类词实体,无形中增大了成本。而且,对于如服务于东南亚买卖家的电商平台,包含英、泰、印、越、菲等5种主要语言,每种语言在平台都会有对应的搜索入口,在东南亚的买家在平台上购物时,买家通常会优先使用自己熟悉的语言,如泰语、印尼语等输入检索关键词,搜索展示时,需要根据每种语言返回相关的商品,也就是说在多语言环境下搜索召回是有一定问题的。
发明内容
本申请提供一种搜索召回方法及装置,能够提高品类词全面挖掘的准确率,降低成本。
本发明实施例提供了一种搜索召回方法,包括:
获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;
将候选品类词实体输入短语切分模型,获取第一品类词实体;
按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。
可选地,所述方法还包括获取命名实体识别NER模型,包括:
从多语言商品库中获取第一数量的商品标题样本,通过标注获取每个商品标题样本的正样例样本和负样例样本;
将正样例样本和负样例样本输入预先设置的条件随机场CRF模型进行训练,确定模型的参数以得到所述NER模型。
可选地,所述获取品类词实体正样例包括:
将所述待识别商品标题输入所述NER模型,经过所述NER模型的处理得到的品类词实体作为所述品类词实体正样例。
可选地,所述获取品类词实体正样例包括:
通过对所述待识别商品标题进行标注来获取所述品类词实体正样例。
可选地,所述获取品类词实体负样例包括:
利用N元N-Gram模型对所述待识别商品标题进行分析,获取所述品类词实体负样例。
可选地,所述方法还包括:利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成所述短语切分模型;其中,训练生成短语切分模型包括:
根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分,根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分;
将所有得分输入预先设置的最大化整体得分目标函数,使用动态规划算法计算得到目标函数的参数,以学习得到所述短语切分模型;
其中,短语质量得分,用于衡量一个词序列构成短语的概率;词性质量得分,用于考察语法层面的信息。
可选地,所述获取第一品类词实体,可以包括:
将获取的每个所述候选品类词实体输入所述短语切分模型,分别计算短语质量得分和词性质量得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811533531.1/2.html,转载请声明来源钻瓜专利网。