[发明专利]一种基于分布式并行计算框架的机器翻译方法无效

申请号：	201110453278.0	申请日：	2011-12-30
公开（公告）号：	CN102567312A	公开（公告）日：	2012-07-11
发明（设计）人：	翟岩龙;罗壮;黄河燕;刘培志	申请（专利权）人：	北京理工大学
主分类号：	G06F17/28	分类号：	G06F17/28;G06F9/38
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于分布式并行计算框架的机器翻译方法，首先在机群上部署分布式计算环境，并在每个数据节点都部属机器翻译引擎；将需要翻译的语言信息经过预处理后分块存储在分布式文件系统中，然后启动多个任务进行分布式并行翻译，并将翻译之后的结果进行汇总，形成最终翻译之后的文档。本发明通过采用分布式并行计算框架实现了翻译任务的并行执行，大大提高了翻译系统的翻译效率，并具有良好的可扩展性。
搜索关键词：	一种基于分布式并行计算框架机器翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于分布式并行计算框架的机器翻译方法，包括以下步骤：第一步：在机群上部署Hadoop分布式计算环境，其中一台为调度节点即名字节点，其余为计算节点即数据节点，然后在每个计算节点上都部署机器翻译引擎；第二步：设定HDFS分布式文件系统的数据分块大小；第三步：对于输入的海量语言信息进行预处理，将待翻译信息按照文档、段落、句子进行编号；将预处理后的待翻译文档以Hadoop特有文件格式HAR进行文件聚合，将大量小文件聚合为大文件，然后提交给MapReduce集群计算系统中的调度节点；第四步：调度节点根据设定的数据块大小对聚合文件中的数据进行划分，如果分割点位于一个句子中间，则将整个句子置于之前或之后的数据划分中；将文档、段落、句子的编号组合为Key，将待翻译的文本内容作为Value进行保存；第五步：调度节点为每一个数据划分创建一个Map任务，动态的分配到各计算节点；第六步：各Map任务在运行过程中，将相应的数据块提交到部署在其所在计算节点上的机器翻译系统中，并得到该部分数据的翻译结果；第七步：Reduce任务把各Map任务的翻译结果从计算节点的本地磁盘拷贝到分布式文件系统中；第八步：将Map任务运算之后的结果按照Key值进行整体排序；第九步：所有的拷贝工作都结束后，Reduee任务即将所有的Map任务运算结果聚合为结果文件；第十步：根据聚合时的标记以及运算结果的Key值，将翻译后的聚合文件进行分解，生成相应文档的翻译结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110453278.0/，转载请声明来源钻瓜专利网。

上一篇：一种制备三氯甲氧基苯的方法
下一篇：光学单元及其组装方法以及用于粘合光学元件的工装

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分布式并行计算框架的机器翻译方法无效

专利文献下载