[发明专利]一种同义词的识别方法及识别装置有效
申请号: | 201610641371.7 | 申请日: | 2016-08-05 |
公开(公告)号: | CN107688563B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 郑婷婷;毕娅娜 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289;G06F40/284;G06F16/2458;G06F16/9532 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 识别 方法 装置 | ||
1.一种同义词的识别方法,其特征在于,包括:
针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度;其中,所述地址相似度是基于第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,所述第一查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,所述第二查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于所述第一查询结果地址总数和所述第二查询结果地址总数,计算所述第一分词与所述第二分词之间的地址相似度;
计算所述第一分词与所述第二分词之间的字面相似度;其中,所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度;
基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度;
确定所述综合相似度不小于预设阈值时,判定所述第一分词与所述第二分词互为同义词;
其中,计算所述第一分词与所述第二分词之间的字面相似度,包括:
统计所述第一字符组与所述第二字符组之间所有相同字符,基于统计的所有相同字符,确定所述第一分词与所述第二分词之间的相同字符总数;
基于所述第一字符组包含的第一字符总数和所述第二字符组包含的第二字符总数,确定所述第一字符总数与所述第二字符总数之间的最少字符总数,
基于所述相同字符总数和所述最少字符总数,计算所述第一分词与所述第二分词之间的字面相似度。
2.如权利要求1所述的识别方法,其特征在于,针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度之前,进一步包括:
采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于所述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
3.如权利要求1或2所述的识别方法,其特征在于,基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度,包括:
确定表征所述地址相似度权重的第一常数和表征所述字面相似度权重的第二常数,其中,所述第一常数与所述第二常数之和为1;
基于所述地址相似度和所述第一常数,以及所述字面相似度和所述第二常数,计算所述第一分词与所述第二分词之间的综合相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610641371.7/1.html,转载请声明来源钻瓜专利网。