[发明专利]词库构建方法、识别搜索需求的方法及相关装置有效
申请号: | 201710137968.2 | 申请日: | 2017-03-09 |
公开(公告)号: | CN107122392B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 张潇;高原;苟秋媛;梁东;吴霄 | 申请(专利权)人: | 北京星选科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/33 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词库 构建 方法 识别 搜索 需求 相关 装置 | ||
本发明公开了一种词库构建方法、识别搜索需求的方法及相关装置,其中,所述方法包括:基于基础数据确定基础词向量集合;根据类标签的初始关键词和阈值以及所述基础词向量集合,确定每一个所述类标签对应的基础词向量;基于每一个所述类标签及其对应的基础词向量构建词库。采用本发明,能够自动化构建高数据质量的词库,提高识别搜索需求的准确度。
技术领域
本发明实施例涉及电子商务领域和数据处理领域,更为具体而言,涉及一种数据处理方法及相关装置。
背景技术
在互联网搜索领域,词库的构建以及对用户搜索意图的识别均对搜索体验具有重要影响。
在已知的现有技术中,在词库构建方面,通常需要手工整理词库以便完成词库构建,这导致当类别种类较多或者元数据较多时,人力消耗较大;此外,在搜索需求的识别方面,通常需要遍历所有需求,这导致人工准备需求的方式需要较大的人力投入,并且最终的识别结果比较粗略,难以准确反映用户的搜索需求。
发明内容
为了解决现有技术所存在的缺陷,本发明实施方式提供一种词库构建方法、识别搜索需求的方法及相关装置,能够自动构建适于搜索需求识别的词库,并且能提高识别搜索需求的准确度。
第一方面,本发明实施方式提供了一种词库构建方法,包括:
基于基础数据确定基础词向量集合;
根据类标签的初始关键词和阈值以及所述基础词向量集合,确定每一个所述类标签对应的基础词向量;
基于每一个所述类标签及其对应的基础词向量构建词库。
在本发明实施方式的一种实现方式中,所述基于基础数据确定基础词向量集合,包括:针对用户搜索轨迹进行关键词修复、轨迹过滤和轨迹扩充,得到第一基础数据;针对商户分组数据进行分组过滤,得到第二基础数据;将所述第一基础数据和第二基础数据输入连续词袋模型,计算得到所述基础词向量集合。
在本发明实施方式的一种实现方式中,所述基础词向量包括:基础关键词和向量;所述类标签包括:所述初始关键词和所述阈值。
进一步地,所述根据预设的类标签的初始关键词和阈值以及所述基础词向量集合,所述确定每一个所述类标签对应的基础词向量,包括:针对每一个所述类标签,重复地计算满足预设条件的基础词向量并将该基础词向量加入关键词集,直至确定出所有满足所述预设条件的基础词向量;其中,所述关键词集与所述类标签一一对应,且所述关键词集初始包括对应类标签的初始关键词;所述预设条件为:与所述关键词集中至少一个关键词的相似度超过对应的类标签的阈值且未加入所述关键词集;所述类标签所对应的关键词集中的关键词所属的基础词向量,即所述类标签对应的基础词向量。
在本发明实施方式的一种实现方式中,所述词库包括:类标签字段、关键词字段和向量字段。
第二方面,本发明实施例中提供了一种词库构建装置,该装置包括:
集合确定模块,用于基于基础数据确定基础词向量集合;
词向量处理模块,用于根据类标签的初始关键词和阈值以及所述基础词向量集合,确定每一个所述类标签对应的基础词向量;
词库构建模块,用于基于每一个所述类标签及其对应的基础词向量构建所述词库。
在本发明实施方式的一种实现方式中,所述集合确定模块包括:
第一数据子模块,用于针对用户搜索轨迹进行关键词修复、轨迹过滤和轨迹扩充,得到第一基础数据;第二数据子模块,用于针对商户分组数据进行分组过滤,得到第二基础数据;计算子模块,用于将所述第一基础数据和第二基础数据输入连续词袋模型,计算得到所述基础词向量集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星选科技有限公司,未经北京星选科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710137968.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于历史记录的代码审核人推荐方法
- 下一篇:电子相册生成方法以及装置