[发明专利]一种跨语言搜索中的网页排序方法和系统有效
申请号: | 201110049883.1 | 申请日: | 2011-03-02 |
公开(公告)号: | CN102654867A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 搜索 中的 网页 排序 方法 系统 | ||
1.一种跨语言搜索中的网页排序方法,其特征在于,所述跨语言搜索中的网页排序方法包括:
a.获取第一语言搜索请求;
b.将所述第一语言搜索请求翻译成第二语言搜索请求;
c.利用所述第二语言搜索请求搜索多个第二语言网页;
d.将所述多个第二语言网页翻译成多个第一语言网页;
e.根据所述多个第二语言网页的翻译置信度对所述多个第一语言网页进行排序。
2.如权利要求1所述的跨语言搜索中的网页排序方法,其特征在于,在所述步骤e中,在排序后的所述多个第一语言网页中,所述翻译置信度越高的所述第一语言网页的位置越靠前。
3.如权利要求1所述的跨语言搜索中的网页排序方法,其特征在于,所述步骤e包括:
e1.获取翻译所述第二语言网页时使用的双语语料库中的源语言语料;
e2.利用所述源语言语料生成语言模型;
e3.利用所述语言模型计算所述第二语言网页的翻译困惑度;
e4.根据所述翻译困惑度对所述多个第一语言网页进行排序。
4.如权利要求3所述的跨语言搜索中的网页排序方法,其特征在于,在所述步骤e4中,通过以下公式计算所述翻译困惑度:
其中,P为所述翻译困惑度,xi为所述第二语言网页中的第i个句子,1≤i≤I,I为所述第二语言网页中的句子数量,p(xi)为通过所述语言模型计算获得的xi的出现概率。
5.如权利要求4所述的跨语言搜索中的网页排序方法,其特征在于,所述语言模型为n-gram语言模型。
6.如权利要求1所述的跨语言搜索中的网页排序方法,其特征在于,所述步骤e包括:
e1.统计所述第二语言网页在翻译过程中的调序次数;
e2.根据所述调序次数对所述多个第一语言网页进行排序。
7.如权利要求1所述的跨语言搜索方法,其特征在于,所述步骤e包括:
e1.获取翻译所述第二语言网页时使用的双语语料库中的源语言语料;
e2.将所述源语言语料聚类成多个文档;
e3.计算所述第二语言网页与所述多个文档的最大相似度;
e4.根据所述最大相似度对所述多个第一语言网页进行排序。
8.如权利要求7所述的跨语言搜索中的网页排序方法,其特征在于,在步骤e2中,从所述多个文档中获取多个主题,并计算每一所述文档属于每一所述主题的概率,以形成多个第一向量,在步骤e3中,计算所述第二语言网页属于每一所述主题的概率,以形成第二向量,计算所述多个第一向量与所述第二向量的相似度,并选择所述相似度中最大的作为所述最大相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110049883.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动杂交仪
- 下一篇:一种食醋熏醅蒸汽管路