[发明专利]一种对例句检索结果进行排序的方法及装置有效
申请号: | 201110303380.2 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102364469A | 公开(公告)日: | 2012-02-29 |
发明(设计)人: | 刘占一;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 例句 检索 结果 进行 排序 方法 装置 | ||
【技术领域】
本发明涉及自然语言处理技术领域,特别涉及一种对例句检索结果进行 排序的方法及装置。
【背景技术】
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强 大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助 语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用 户输入相匹配的例句,帮助用户获得相关语言的正确用法。
但是现有的例句检索系统在对检索结果的排序过程中,不考虑用户输入 的查询词在某个具体的例句中与例句上下文之间的相互关系,这样很可能出 现排在检索结果前列的例句,并不是用户真正希望获取的例句。
例如针对用户输入的查询词:“提高”+“效率”,得到下面两个匹配 例句:
1、从某种意义上说,生产力的提高可以实现更高的效率。
2、这篇文章详细的解释了如何提高大规模检索系统的效率。
通常来说,当用户输入多个查询词,这多个查询词之间是有联系的,用 户希望看到的是这几个查询词在例句中是如何被联合使用的。在例句2中, “提高”与“效率”恰好构成搭配关系,具有较强的内在联系,而例句1中, “提高”实际上是与“生产力”构成了搭配,“提高”与“效率”之间的联 系并不强,对用户来说,显然例句2才是他真正希望获取的内容。由于现有 技术对例句检索结果进行排序时,不能对例句1和例句2这两种情况进行区 分,从而导致与用户需求不够相关的检索结果被排在前列,从而影响了用户 的浏览效率,增加了系统的响应次数。
【发明内容】
本发明所要解决的技术问题是提供一种对例句检索结果进行排序的方 法及装置,以解决现有的例句检索系统中存在的影响用户浏览效率,增加系 统响应次数的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种对例句检索结果进 行排序的方法,包括:A.获取用户的查询词;B.从句库中检索包含所述查询词 的匹配例句;C.计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例 句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配 例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是 指词语之间形成搭配关系的可能性;D.按照匹配例句与所述查询词之间的搭配 强度对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
根据本发明之一优选实施例,匹配例句与所述查询词之间的搭配强度等于: 各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外 的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率 中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率 中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹 配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各 查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其 他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与 各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值, 与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关 的函数。
根据本发明之一优选实施例,所述方法进一步包括:如果所述句库为双语 句库,在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文 的另一语言的例句。
根据本发明之一优选实施例,所述方法进一步包括:在展示各个匹配例句 时,确定并展示各匹配例句与所述查询词之间的搭配强度等级。
本发明还提供了一种对例句检索结果进行排序的装置,包括:接收单元, 用于获取用户的查询词;检索单元,用于从句库中检索包含各查询词的匹配例 句;计算单元,用于计算各个匹配例句与所述查询词之间的搭配强度,其中匹 配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与 匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概 率是指词语之间形成搭配关系的可能性;排序单元,用于按照匹配例句与所述 查询词之间的搭配强度对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110303380.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息触发位置选取的方法及装置
- 下一篇:投影机