[发明专利]用于查询扩展的音译有效
申请号: | 200910164542.1 | 申请日: | 2009-07-20 |
公开(公告)号: | CN101630333A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 皮尤什·普拉拉德卡;拉利特什·卡特拉嘎达;维内特·古普塔 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 张焕生;安 翔 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 查询 扩展 音译 | ||
技术领域
本说明涉及用于用户向搜索引擎提交查询的查询扩展。
背景技术
搜索引擎-以及,特别地,因特网搜索引擎-的目标在于识别与用户 的需求相关的资源(例如,网页、图像、文本文档、多媒体内容(context)) 以及将与资源有关的信息以对用户最有用的方式进行呈现。因特网搜 索引擎响应于用户提交的查询返回搜索结果。如果用户对于为查询返 回的搜索结果不满意,那么用户能够尝试精化所述查询以更好地匹配 用户的需求。
一些搜索引擎为用户提供搜索引擎识别为与用户的查询相关的建 议的替选查询,例如扩展的查询。用于找到用于查询扩展的查询词的 同义词的技术通常依赖于自然语言模型或者用户搜索日志数据。识别 出的查询词的同义词能够在识别附加的或者更相关的资源的尝试中用 于扩展查询以改进用户搜索体验。
电子文档通常用多种不同语言书写。通常在特定的书写系统(即 文字(script))中表达每一种语言,所述书写系统的特征通常在于特 定的字母表。例如,使用拉丁字母表来表达英语语言,而使用梵文字 母表来表达印度语语言。一些语言所使用的文字包括已经被扩展为包 括附加的标记或者字符的特定字母表。在音译(transliteration)中,一 种语言的文字被用于表示通常以另一种语言的文字书写的词。例如, 音译词语能够是从一种文字转换成另一种文字的词语或者以一种文字 的词语的另一种文字的语音表示。用于找到用于查询扩展的查询词的 同义词的技术可能对于找到音译词语的查询词语的同义词不能很好的 工作。例如,当前的自然语言技术对于音译数据不能很好的工作,并 且搜寻日志数据通常不能很好地覆盖大多数音译的变体。
发明内容
本发明描述了涉及识别用于查询扩展的音译词语的候选同义词的 技术。
一般来说,在本说明中描述的主题的一方面能够被具体化为计算 机实现的方法,该方法包括下述动作:使用一个或者多个计算机识别 目标语言的多个音译词语;对于目标语言的多个音译词语中的每一个 音译词语,将音译词语映射到源语言的一个或者多个词语;以及对于 目标语言的多个音译词语中的第一音译词语,识别目标语言的多个音 译词语的一个或多个第二音译词语作为第一音译词语的候选同义词, 其中所述一个或者多个第二音译词语中的每一个被映射到也从第一音 译词语映射的源语言的至少一个词语。该方面的其它实施例包括对应 的系统、装置以及计算机程序产品。
这些和其它实施例能够可选地包括下述特征中的一个或多个。识 别目标语言的多个音译词语能够进一步包括从web资源识别只包含目 标语言的字符的词语。该方面能够进一步包括计算用于仅包含目标语 言的字符的每个识别的词语的统计量,将用于每个识别的词语的统计 量与指定的阈值进行比较,并且如果用于特定的识别词语的统计量超 过指定的阈值,则将特定的识别的词语包括在目标语言的多个音译词 语中。
用于每个识别的词语的统计量能够是与讲源语言的一个或多个地 区(locale)相关联的顶级域的web资源中识别的词语的出现概率相对 于与任何地区相关联的顶级域的web资源中识别的词语的出现概率的 比率。用于每个识别的词语的统计量能够是与讲源语言的一个或多个 地区相关联的web资源中识别的词语的出现概率相对于与任何地区相 关联的web资源中识别的词语的出现概率的比率。web资源与讲源语言 的地区的关联能够通过web资源的顶级域来确定。
将音译词语映射到源语言的一个或多个词语能够进一步包括将目 标语言的音译词语音译为源语言的一个或多个词语。被识别为第一音 译词语的候选同义词的一个或多个第二音译词语中的每一个能够具有 超过指定的阈值的相对于第一音译词语的置信(confidence)值。第二 音译词语的置信值能够是从第一音译词语和第二音译词语两者映射的 源语言的词语的数目的函数。将目标语言的音译词语音译为源语言的 词语能够进一步包括产生用于目标语言的音译词语到源语言的词语的 音译的音译分值。第二音译词语的置信值能够是web资源中第二音译词 语的出现概率、用于第二音译词语到也被从第一音译词语映射的源语 言的词语的音译的音译分值、以及用于第一音译词语到源语言的词语 的音译的音译分值中的一个或多个的函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910164542.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:投影系统
- 下一篇:修复管用管段、及使用该管段的既设管修复方法