[发明专利]一种机器翻译方法无效
申请号: | 201010191769.8 | 申请日: | 2010-06-04 |
公开(公告)号: | CN102270196A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 张大鲲;孙乐;李文波 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邵可声 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 | ||
技术领域
本发明属于自然语言处理技术领域,具体来说,本发明涉及一种机器翻译方法。
背景技术
在统计机器翻译方法中对句子结构的分析可以提高译文的质量。目前主要的对句子结构分析的方法有两类,一类是使用符合语言学意义的句法分析器对句子结构进行分析的语言学句法方法(参考K.Yamada and K.Knight.2001.A Syntax-based Statistical Translation Model.inProceedings of ACL.p.523-530.和Y.Liu,Q.Liu,and S.Lin.2006.Tree-to-String AlignmentTemplate for Statistical Machine Translation.in Proceedings of ACL.p.609-616.),另一类是不需要明确句法分析过程的形式化句法方法(参考D.Wu,Stochastic Inversion TransductionGrammars and Bilingual Parsing of Parallel Corpora.Computational Linguistics,1997.23(3):p.377-404.和D.Chiang,Hierarchical phrase-based translation.Computational Linguistics,2007.33(2):p.201-228.)。基于语言学句法的方法首先需要利用句法分析器对句子结构进行分析,不管是对单语还是对双语的分析方法,都会使模型的学习过程变得复杂,因此,在实际计算时需要增加限制条件以进行简化。在基于形式化句法的方法中,句法结构直接从平行语料中学习,不依赖于复杂的语言学方法进行分析,不考虑所得到的分析结果是否符合语言学标准。因此,相比之下,形式化句法复杂度低,算法效率高。
主要的形式化句法的方法有两种,一种是基于层次型短语的方法,另一种是基于反向转录语法的方法。基于层次型短语的方法从词对齐的双语句子中抽取带有间隔的短语,利用对间隔的扩展得到一棵层次型的句法分析树,这种方法在句子结构生成的过程中,只考虑了输入源语言句子的信息,没有考虑目标语言端对翻译时的影响。基于反向转录语法的方法允许两种形式的词语位置交换(保序和反序),每次交换的词语个数限制为两个,因此,生成的句子结构表示成一棵二叉树的形式,这种方法的不足在于限制了词语的位置交换只能在两个节点之间进行,在实际翻译时可能出现过多无用的交换结构,导致翻译错误率过高的问题。
发明内容
本发明的目的在于提供一种机器翻译方法,通过本发明改进的双语句法树结构对训练和解码过程进行约束,可大大提高翻译的性能和质量。本发明提供的机器翻译方法属于形式化句法方法范畴。
为实现上述发明目的,本发明的技术方案为:
一种机器翻译方法,其步骤为:
1)将词对齐的双语句子转换为双语句法树结构;
2)在双语句法树的每一层抽取带有结构属性的短语,计算短语翻译概率组成短语翻译表;
3)根据短语翻译表,利用搜索算法对待翻译双语句子进行翻译;
其中,所述双语句法树的树节点为互为翻译的双语词对或者双语短语对,句法树的父节点的源语言端由该父节点所有儿子节点的源语言端保序组合得到、目标语言端由该父节点所有儿子节点的目标语言端以设定的词语组合顺序组合得到,句法树中相邻上下层中的节点在目标语言端的组合顺序相反;其中组合顺序包括保序或反序。
进一步的,所述父节点为双语短语对,所述儿子节点为双语词对或双语短语对。
进一步的,步骤1)中的转换方法为:
a)将训练数据中双语句子的词对齐关系表示成对齐矩阵的形式;
b)标定整个双语句子为当前要处理的块,并设置当前块的组合顺序;所述组合顺序为保序或反序;
c)根据当前块的组合顺序和词语对齐信息,构造当前双语句子的句法树当前层树节点,如果不能构造出当前层的树节点,则更改当前块的组合顺序重新构造当前层树节点;如果保序或反序均不能构造出当前层的树节点,则将当前块中的双语翻译对作为不能继续分解的短语节点添加到句法树结构中;
d)找出并标定上一层中非词语对齐的树节点为当前要处理的块,并设置其组合顺序后,重复步骤c);直到生成整个双语句子的双语句法树结构。
进一步的,所述短语翻译表包括:正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010191769.8/2.html,转载请声明来源钻瓜专利网。