[发明专利]一种机器翻译方法无效
申请号: | 201010191769.8 | 申请日: | 2010-06-04 |
公开(公告)号: | CN102270196A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 张大鲲;孙乐;李文波 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邵可声 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 | ||
1.一种机器翻译方法,其步骤为:
1)将词对齐的双语句子转换为双语句法树结构;
2)在双语句法树的每一层抽取带有结构属性的短语,计算短语翻译概率组成短语翻译表;
3)根据短语翻译表,利用搜索算法对待翻译双语句子进行翻译;
其中,所述双语句法树的树节点为互为翻译的双语词对或者双语短语对,句法树的父节点的源语言端由该父节点所有儿子节点的源语言端保序组合得到、目标语言端由该父节点所有儿子节点的目标语言端以设定的词语组合顺序组合得到,句法树中相邻上下层中的节点在目标语言端的组合顺序相反;其中组合顺序包括保序或反序。
2.如权利要求1所述的方法,其特征在于所述父节点为双语短语对,所述儿子节点为双语词对或双语短语对。
3.如权利要求2所述的方法,其特征在于步骤1)中的转换方法为:
a)将训练数据中双语句子的词对齐关系表示成对齐矩阵的形式;
b)标定整个双语句子为当前要处理的块,并设置当前块的组合顺序;所述组合顺序为保序或反序;
c)根据当前块的组合顺序和词语对齐信息,构造当前双语句子的句法树当前层树节点,如果不能构造出当前层的树节点,则更改当前块的组合顺序重新构造当前层树节点;如果保序或反序均不能构造出当前层的树节点,则将当前块中的双语翻译对作为不能继续分解的短语节点添加到句法树结构中;
d)找出并标定上一层中非词语对齐的树节点为当前要处理的块,并设置其组合顺序后,重复步骤c);直到生成整个双语句子的双语句法树结构。
4.如权利要求1或2或3所述的方法,其特征在于所述短语翻译表包括:正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。
5.如权利要求4所述的方法,其特征在于所述短语结构概率采用公式 计算,其中 为短语对 在结构属性为o时出现的次数,o取值为保序或反序; 为短语对 在语料中出现的总次数,即保序和反序次数的总和。
6.如权利要求4所述的方法,其特征在于所述搜索算法为柱搜索算法。
7.如权利要求6所述的方法,其特征在于所述利用柱搜索算法对待翻译双语句子进行翻译的方法为:
1)从短语翻译表中选出能够匹配待翻译句子的短语翻译候选;其中每一个短语翻译候选包括源语言短语、目标语言短语,以及正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率;
2)组合不同的短语翻译候选以覆盖待翻译句子中的不同区域,根据已覆盖的待翻译句子中的词数个数将翻译候选放置到相应的柱中;
3)计算每个柱中每个翻译候选的翻译概率总和,并根据概率总和对翻译候选进行排序;
4)扩展已覆盖的待翻译句子词语,直到覆盖整个待翻译句子为止,将得到的全部覆盖整个待翻译句子的候选翻译项中概率最高的一项作为最终的翻译结果。
8.如权利要求7所述的方法,其特征在于所述翻译概率总和包括语言模型概率、正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。
9.如权利要求8所述的方法,其特征在于计算所述翻译概率总和时,如果某个翻译候选的短语翻译对出现在保序层,则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在反序层的短语结构概率;如果某个翻译候选的短语翻译对出现在反序层,则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在保序层的短语结构概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010191769.8/1.html,转载请声明来源钻瓜专利网。