[发明专利]多语言文档聚类有效
申请号: | 201380047819.7 | 申请日: | 2013-07-11 |
公开(公告)号: | CN104620241B | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 基里尔·布里亚克 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28;G06F17/40 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 基础语言 外语 聚类 文档聚类 文档集 语言 多语言文档 翻译 翻译模块 公共集合 公共文档 搜索查询 搜索结果 文档翻译 文档索引 响应 | ||
1.一种计算机实现的方法,包括:
在计算装置中的通信模块处接收来自与用户装置交互的用户的对翻译网页的请求,其中所述用户装置与所述计算装置通信;
在所述计算装置中的所述通信模块处接收来自所述用户的第一语言的搜索查询;
在所述计算装置中的文档识别模块处识别与所述搜索查询有关的一个或多个文档以及来自与所述计算装置通信的数据库的至少一个文档聚类,所述一个或多个文档来自文档集并且包括被用户请求从所述第一语言翻译成不同于所述第一语言的第二语言的第一文档,所述文档聚类包括所述第一语言的第一文档和所述第二语言的一个或多个另外文档,其中通过以下操作产生所述文档聚类:
(ⅰ)在所述计算装置中的文档收集模块处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;
(ⅱ)在所述计算装置中的基础语言翻译模块处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;
(ⅲ)在所述计算装置中的文档索引模块处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;
(ⅳ)在所述计算装置中的聚类模块处,基于所述基础语言文档中的确定的关键字和所述经翻译的外语文档中的确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档两者,以及
(ⅴ)将所述文档聚类的集合存储在数据库中;
在所述计算装置中的聚类评估模块处评估所述至少一个文档聚类以从与所述第一文档的距离在预定阈值内的所述第二语言的所述一个或多个另外文档识别第二文档,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平;
从所述至少一个文档聚类选择所述第二文档,以及
当所述第二文档与所述第一文档的距离在所述预定阈值内时,响应于所述搜索查询从所述计算装置中的用户接口模块处提供所述第二文档给所述用户装置。
2.一种计算机实现的方法,包括:
在计算装置中的通信模块处接收来自与用户装置交互的用户的第一语言的搜索查询,其中所述用户装置与所述计算装置通信;
在所述计算装置中的文档识别模块处识别与所述搜索查询有关的所述第一语言的一个或多个文档以及来自与所述计算装置通信的数据库的至少一个文档聚类,所述一个或多个文档来自文档集,所述文档聚类从所述文档集产生并且包括所述第一语言的所述一个或多个文档和不同于所述第一语言的第二语言的一个或多个另外文档;以及
评估所述至少一个文档聚类以从与所述第一语言的所述一个或多个文档的第一文档的距离在预定阈值内的所述第二语言的所述一个或多个另外文档识别第二文档,其中所述第一文档与所述第二文档之间的距离对应于所述第一文档与所述第二文档之间的相似水平
响应于所述搜索查询,从所述计算装置将搜索结果的列表提供给所述用户装置,所述搜索结果的列表包括只来自所述文档集并且至少两种语言的文档,其中所述至少两种语言包括所述第一语言和所述第二语言,当所述第二文档与所述第一文档的距离在所述预定阈值内时所述搜索结果的列表包括所述第二文档。
3.如权利要求2所述的计算机实现的方法,其中所述搜索查询包括来自所述用户的翻译网页的请求,并且所述第一文档被所述用户请求从所述第一语言翻译成所述第二语言。
4.如权利要求2所述的计算机实现的方法,其中通过以下步骤产生所述文档聚类:
(ⅰ)在所述计算装置中的文档收集模块处识别待聚类的文档集,所述文档集包括外语文档和基础语言文档;
(ⅱ)在所述计算装置中的基础语言翻译模块处将所述外语文档翻译成所述基础语言,以得到经翻译的外语文档;
(ⅲ)在所述计算装置中的文档索引模块处确定所述基础语言文档中的关键字和所述经翻译的外语文档中的关键字;
(ⅳ)在所述计算装置中的聚类模块处,基于所述基础语言文档中的确定的关键字和所述经翻译的外语文档中的确定的关键字,将所述基础语言文档与所述外语文档聚类在文档聚类的公共集合中,所述文档聚类的集合包括所述基础语言文档和所述外语文档,以及
(ⅴ)将所述文档聚类的集合存储在所述数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380047819.7/1.html,转载请声明来源钻瓜专利网。