[发明专利]一种对例句检索结果进行排序的方法和装置有效
申请号: | 201110303382.1 | 申请日: | 2011-10-09 |
公开(公告)号: | CN102346777A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 刘占一;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 例句 检索 结果 进行 排序 方法 装置 | ||
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种对例句检索结果进行排序的方法和装置。
【背景技术】
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用户输入相匹配的例句,帮助用户获得相关语言的正确用法。
但是,在现有的例句检索系统中,只能为用户提供包含用户查询词的例句,而没有对这些例句进行组织,以一种更符合用户检索目的的方式提供给用户,例如用户输入“performance”,用户除了希望能获取到包含这个词语的句子,还希望得知句子中“performance”这个词是如何使用的,而词语的使用方式通常是通过其与句子中的其他词的搭配关系来体现的,而现有的例句检索系统,不能对句子中的搭配信息进行识别,这样就导致与用户需求不够相关的例句检索结果出现在用户浏览页靠前的位置,使得用户为了找到想要的信息不得不进行翻页操作,从而降低了用户的浏览效率,也增加了系统的响应次数。
【发明内容】
本发明所要解决的技术问题是提供一种对例句检索结果进行排序的方法和装置,以解决现有的例句检索系统中存在的影响用户浏览效率,增加系统响应次数的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种对例句检索结果进行排序的方法,包括:A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与所述匹配例句包含的词语个数的比值。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于匹配例句包含的词语个数。
根据本发明之一优选实施例,所述方法进一步包括对排序后的各个匹配例句进行展示。
根据本发明之一优选实施例,如果所述句库为双语句库,则在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
根据本发明之一优选实施例,所述方法进一步包括在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
根据本发明之一优选实施例,所述方法进一步包括:E1、确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语;E2、按照预设的分类策略,对步骤E1确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,并在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序并展示。
根据本发明之一优选实施例,所述分类策略包括:将具有相同词性组合的搭配词对分为一个类别;或者,将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或者,将所有的搭配词对分为一个类别。
本发明还提供了一种对例句检索结果进行排序的装置,包括:接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含所述查询词的匹配例句;计算单元,用于计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照所述查询词与所述匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且小于匹配例句包含的词语个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110303382.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不确定数据上的多准则信息处理方法
- 下一篇:人膀胱癌细胞系