[发明专利]一种同义词挖掘方法、装置、存储介质及电子设备有效
| 申请号: | 202310615472.7 | 申请日: | 2023-05-29 |
| 公开(公告)号: | CN116340469B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 吕劲松;杨建明;戚耀 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/247 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 邓超 |
| 地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 同义词 挖掘 方法 装置 存储 介质 电子设备 | ||
本说明书公开了一种同义词挖掘方法、装置、存储介质及电子设备,本说明书实施例基于用户同一会话下的搜索词序列所产生的搜索日志序列中的曝光日志和点击日志,确定出搜索日志序列的编码字符串和搜索词序列的搜索词串。基于“换词搜索后点击”代表换词之前的搜索词与换词后点击时的搜索词很大可能是同义词的原理,根据预设的编码字符模式,从搜索词串中提取子搜索词串,基于子搜索词串,挖掘出候选同义词对,并基于候选同义词对,确定出最终同义词对。在此方法中,采用用户针对搜索词的上下文日志,以及结合用户执行点击行为前后的搜索词来挖掘同义词,可以避免同一搜索词在不同语境下的不同意思,从而提高挖掘同义词对的准确性。
技术领域
本说明书涉及自然语言处理领域,尤其涉及一种同义词挖掘方法、装置、存储介质及电子设备。
背景技术
同义词挖掘在自然语言处理和信息检索是一个非常重要的任务,其精准性影响自然语言理解的诸多下游任务,以及用户搜索点击转化的效果。
现有技术中,基于预先训练的机器学习模型,针对任意两个词语,先提取这两个词语的特征向量,得到这两个词语的词向量,然后,计算这两个词向量之间的距离或相似度,以判断这两个词语是否为同义词。
然而,现有技术中机器学习模型的特征提取是基于词语本身的文本信息进行的,但是,同一词语在不同语境下所表达的意思是不同,词向量也是不同的,这导致挖掘出的同义词对可能是不准确的或同义词对质量不高。
发明内容
本说明书实施例提供一种同义词挖掘方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种同义词挖掘方法,包括:
获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
基于所述子搜索词串,挖掘出各候选同义词对;
基于所述各候选同义词对,确定出最终同义词对。
可选地,根据所述搜索词序列,确定出搜索词串,具体包括:
采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
可选地,根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,具体包括:
当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;
根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
可选地,基于所述子搜索词串,挖掘出各候选同义词对,具体包括:
确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310615472.7/2.html,转载请声明来源钻瓜专利网。





