[发明专利]一种跨语言搜索的方法和装置有效

专利信息
申请号: 201110047892.7 申请日: 2011-02-28
公开(公告)号: CN102651003A 公开(公告)日: 2012-08-29
发明(设计)人: 赵世奇;吴华;王海峰 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人: 何青瓦;李庆波
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语言 搜索 方法 装置
【说明书】:

【技术领域】

发明涉及互联网技术领域,特别涉及一种跨语言搜索的方法和装置。

【背景技术】

随着互联网信息的不断增长,人们对于信息搜索提出了更高的要求,不再满足于在同一种语种文档集中搜索,而要求获取多种语种文档。例如,如果用户输入的搜索词(query)为“贝克汉姆图片”,则中文文档集中的搜索可能并不能最大程度地满足用户需求,欧美网站的英文文档集中可能具有更优、更多的搜索结果。

当从多语种文档集中进行搜索的需求越来越高时,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍,人们希望能够以一种自己熟悉的语言描述query,而搜索结果中能够包括多语言的文档,即进行两语种之间的跨语言搜索。

【发明内容】

有鉴于此,本发明提供了一种跨语言搜索的方法和装置,以便于实现包含多语言文档的搜索结果,为用户提供更优、更多的搜索结果。

具体技术方案如下:

一种跨语言搜索的方法,该方法包括:

A、接收用户输入的源语言搜索请求query;

B、将所述源语言query翻译为N种目标语言query,N为大于1的整数;

C、分别获取所述N种目标语言query对应的搜索结果;

D、将步骤C获取的搜索结果进行整合后形成最终的搜索结果集合提供给用户;

其中在所述最终的搜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。

在步骤B中,针对每一种目标语言,将所述源语言query对应的该种目标语言的翻译结果中,翻译分值最高的一种翻译结果作为目标语言query;

翻译结果e的翻译分值由以下因素中的至少一种确定:翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。

较优地,所述步骤B具体包括:

B1、对所述源语言query进行优化处理,所述优化处理包括query纠错处理和query扩展处理中的任一种或组合;

B2、将优化处理后的源语言query翻译为N种目标语言query。

其中,如果所述优化处理仅包括query纠错处理,则对所述用户输入的源语言query进行query纠错处理后得到包含n1个query的源语言query集合Q1,n1为预设的正整数;

所述步骤B2具体为:针对每一种目标语言,分别利用所述Q1中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query;其中,翻译结果的翻译分值总和为P(e|qi)为Q1中qi被翻译为e的翻译分值;

翻译结果e对应的翻译分值由以下因素中的至少一种确定:翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。

如果所述优化处理仅包括query扩展处理,则对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2,n2为预设的正整数;

所述步骤B2具体为:针对每一种目标语言,分别利用所述Q2中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query;其中,翻译结果的翻译分值总和为P(e|qi)为Q2中qi被翻译为e的翻译分值;

翻译结果e对应的翻译分值由以下因素中的至少一种确定:翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。

如果所述优化处理既包括query纠错处理又包括query扩展处理,则对所述用户输入的源语言query进行query纠错处理和query扩展处理后得到包含n个query的源语言query集合Q,n为预设的正整数;

所述步骤B2具体为:针对每一种目标语言,分别利用所述Q中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query;其中,翻译结果的翻译分值总和为P(e|qi)为Q中qi被翻译为e的翻译分值;

翻译结果e的翻译分值由以下因素中的至少一种确定:翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。

其中,对所述用户输入的源语言query进行query纠错处理后和query扩展处理后得到包含n个query的源语言query集合Q具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110047892.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top