[发明专利]一种语义冗余的确定方法和装置、对应的搜索方法和装置有效
申请号: | 201210147154.4 | 申请日: | 2012-05-11 |
公开(公告)号: | CN103390004B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 方高林 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置,其中语义冗余的确定方法包括S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况,为query的去冗余提供基础。利用去冗余后的query进行搜索,使得冗余的关键词不必参与匹配,提高了搜索结果的召回率,提高了搜索效果。 | ||
搜索关键词: | 一种 语义 冗余 确定 方法 装置 对应 搜索 | ||
【主权项】:
一种语义冗余的确定方法,其特征在于,该方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词;所述统计词A和词B构成的搭配词对的上下文向量具体包括:确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词,从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文,并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值,得到所述搭配词对的上下文向量;其中,在所述第二模板中所述搭配词对为前缀或后缀;所述统计词A的上下文向量具体包括:从语料中抽取所述词A的上下文,并利用抽取的上下文与所述词A的共现频率确定上下文的权值,得到所述词A的上下文向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210147154.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种开胃菊香鲜蚕豆的制作方法
- 下一篇:一种营养健康的饺皮粉及其制备方法