[发明专利]联想词去重方法及装置、计算机可读存储介质和电子设备有效
申请号: | 202110368415.4 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112765966B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 刘艾婷 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/30;G06F16/9532 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联想 词去重 方法 装置 计算机 可读 存储 介质 电子设备 | ||
1.一种联想词去重方法,其特征在于,包括:
对查询关键词进行语义召回,获得所述查询关键词的候选联想词;
获得不同候选联想词之间的语义关联特征表示向量,所述语义关联特征表示向量表示不同候选联想词之间的语义重复程度;
利用第一分类模型对不同候选联想词之间的语义关联特征表示向量进行处理,获得不同候选联想词之间的第一语义重复指标;
获得不同候选联想词之间的历史搜索行为重叠特征表示向量,所述历史搜索行为重叠特征表示向量表示不同候选联想词之间的搜索行为重叠程度,其中所述搜索行为重叠程度包括将各个候选联想词分别作为搜索关键词进行查询召回相应的网页链接,用户对召回的网页链接的操作行为数据之间的重叠程度;
利用第二分类模型对不同候选联想词之间的历史搜索行为重叠特征表示向量进行处理,获得不同候选联想词之间的第二语义重复指标;
根据不同候选联想词之间的第一语义重复指标和第二语义重复指标,去重过滤所述候选联想词中存在语义重复的候选联想词,确定目标联想词,以同时展示所述查询关键词和所述目标联想词;
所述候选联想词中包括第一联想词和第二联想词;其中,获得不同候选联想词之间的历史搜索行为重叠特征表示向量,包括:
获得所述第一联想词作为搜索关键词,在预定时间段内的第一历史点击网页链接及其第一历史点击量、以及第一历史曝光网页链接及其第一历史曝光量;
获得所述第二联想词作为搜索关键词,在所述预定时间段内的第二历史点击网页链接及其第二历史点击量、以及第二历史曝光网页链接及其第二历史曝光量;
根据所述第一历史点击网页链接及其第一历史点击量、以及所述第一历史曝光网页链接及其第一历史曝光量、所述第二历史点击网页链接及其第二历史点击量、以及所述第二历史曝光网页链接及其第二历史曝光量,获得所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度;
根据所述第一历史点击网页链接和所述第二历史点击网页链接之间的点击网页链接重叠度和网页链接点击重叠度、所述第一历史曝光网页链接和所述第二历史曝光网页链接之间的曝光网页链接重叠度和网页链接曝光重叠度,生成不同候选联想词之间的历史搜索行为重叠特征表示向量;
其中,所述点击网页链接重叠度表示所述第一历史点击网页链接和所述第二历史点击网页链接中相同的网页链接的数量;所述网页链接点击重叠度表示所述第一历史点击网页链接和所述第二历史点击网页链接中相同的网页链接对应的点击量的求和;所述曝光网页链接重叠度表示所述第一历史曝光网页链接和所述第二历史曝光网页链接中相同的网页链接的数量;所述网页链接曝光重叠度表示所述第一历史曝光网页链接和所述第二历史曝光网页链接中相同的网页链接对应的曝光量的求和。
2.根据权利要求1所述的方法,其特征在于,所述候选联想词中包括第一联想词和第二联想词;其中,获得不同候选联想词之间的语义关联特征表示向量,包括:
获得所述第一联想词和所述第二联想词之间的距离信息;
获得所述第一联想词和所述第二联想词之间的公共字符信息;
获得所述第一联想词和所述第二联想词之间的字符串长度信息,其中所述第一联想词和所述第二联想词之间的字符串长度信息包括所述第一联想词的第一字集合和所述第二联想词的第二字集合之间的字集合长度差、所述第一字集合和所述第二字集合之间的字集合长度比、所述第一联想词和所述第二联想词之间的字符串长度差、及所述第一联想词和所述第二联想词之间的字符串长度比中的至少一个;
根据所述第一联想词和所述第二联想词之间的距离信息、公共字符信息和字符串长度信息,生成所述第一联想词和所述第二联想词之间的语义关联特征表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110368415.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像识别模型的训练方法、装置及设备
- 下一篇:高浓度有机磷废水的预处理装置