[发明专利]多语言文档聚类有效
申请号: | 201380047819.7 | 申请日: | 2013-07-11 |
公开(公告)号: | CN104620241B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 基里尔·布里亚克 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28;G06F17/40 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种技术,能够包括:识别待聚类的文档集。所述文档集能够包括外语文档和基础语言文档。在基础语言翻译模块处能够将外语文档翻译成基础语言。在文档索引模块处能够确定基础语言文档中的关键字和经翻译的外语文档中的关键字。基于基础语言文档中的确定的关键字和经翻译的外语文档中的确定的关键字,能够将基础语言文档与外语文档聚类在文档聚类的公共集合中。响应于第一语言的搜索查询,能够提供搜索结果的列表,其包括公共文档聚类中的第一语言的文档和另一语言的文档。 | ||
搜索关键词: | 文档 基础语言 外语 聚类 文档聚类 文档集 语言 多语言文档 翻译 翻译模块 公共集合 公共文档 搜索查询 搜索结果 文档翻译 文档索引 响应 | ||
【主权项】:
1.一种计算机实现的方法,包括:在计算装置中的通信模块处接收来自与用户装置交互的用户的对翻译网页的请求,其中所述用户装置与所述计算装置通信;在所述计算装置中的所述通信模块处接收来自所述用户的第一语言的搜索查询;在所述计算装置中的文档识别模块处识别与所述搜索查询有关的一个或多个文档以及来自与所述计算装置通信的数据库的至少一个文档聚类,所述一个或多个文档来自文档集并且包括被用户请求从所述第一语言翻译成不同于所述第一语言的第二语言的第一文档,所述文档聚类包括所述第一语言的第一文档和所述第二语言的一个或多个另外文档,其中通过以下操作产生所述文档聚类:(ⅰ)在所述计算装置中的文档收集模块处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;(ⅱ)在所述计算装置中的基础语言翻译模块处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;(ⅲ)在所述计算装置中的文档索引模块处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;(ⅳ)在所述计算装置中的聚类模块处,基于所述基础语言文档中的确定的关键字和所述经翻译的外语文档中的确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档两者,以及(ⅴ)将所述文档聚类的集合存储在数据库中;在所述计算装置中的聚类评估模块处评估所述至少一个文档聚类以从与所述第一文档的距离在预定阈值内的所述第二语言的所述一个或多个另外文档识别第二文档,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平;从所述至少一个文档聚类选择所述第二文档,以及当所述第二文档与所述第一文档的距离在所述预定阈值内时,响应于所述搜索查询从所述计算装置中的用户接口模块处提供所述第二文档给所述用户装置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201380047819.7/,转载请声明来源钻瓜专利网。