[发明专利]统计机器翻译短语抽取方法有效
| 申请号: | 200910164809.7 | 申请日: | 2009-08-01 |
| 公开(公告)号: | CN101989261A | 公开(公告)日: | 2011-03-23 |
| 发明(设计)人: | 刘洋;夏天;肖欣延;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 统计 机器翻译 短语 抽取 方法 | ||
技术领域
本发明涉及自然语言处理领域,更具体地,涉及文本的统计机器翻译领域。
背景技术
随着世界经济的迅猛发展,各国间的文化,经济等的交往越来越频繁,人们每天的工作和生活有时不得不面对来自各个国家的各种语言的资料和信息,随之而来的一个主要问题便是语言理解问题,人们需要能够在较短的时间内理解使用非母语写成的资料。
因此,机器翻译技术应运而生,早期的机器翻译主要集中在规则翻译系统的研究,但翻译规则的书写需要语言专家的参与,而且通常每更换一个翻译领域就要重写一大批的规则,需要耗费大量的人力、物力、财力,在这种情形下,统计机器翻译方法在机器翻译领域迅速崛起。
统计机器翻译通过利用大规模的平行双语语料对翻译系统进行训练(统计建模)来成功完成翻译。只要拥有足够多的双语平行语料,就可以在无人干预的情形下短时间内搭建一个任何语言对象之间的机器翻译系统,而且从目前国际上主流的统计机器翻译系统的效果来看,已基本上赶上甚至超越了规则翻译系统。
但是,现有的统计机器翻译方法存在一些缺陷。作为统计机器翻译技术最重要的第一步,双语语料的对齐基于吉萨++(GIZA++)产生的最优解(1-best)进行。在所生成的被称作对齐矩阵的反映对齐关系的二维矩阵中,如果词语对齐,则相应的元素为“1”;否则为“0”。由于双语语料规模和质量的限制,该对齐矩阵所表示的对齐质量并不理想,从而导致抽取的短语表较差,进一步造成翻译质量差。
发明内容
为了减小统计机器翻译中基于1-best的对齐错误对后续短语抽取的影响,改善抽取短语的质量,本发明提供一种统计机器翻译短语抽取方法。
根据本发明的一个方面,提供了一种统计机器翻译短语抽取方法,包括下列步骤:
1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;
2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;
3)根据所述对齐矩阵,计算短语对齐的频度;
4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。
在该短语抽取方法中,所述步骤3)进一步包括:
31)根据所述对齐矩阵,对于每个短语对齐,计算内向概率和外向概率;
32)计算所述内向概率和所述外向概率的积作为所述短语对齐的频度。
在该短语抽取方法中,所述步骤32)后还包括:
步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。
在该短语抽取方法中,所述阈值为区间(0.1,1)内的实数。
在该短语抽取方法中,所述步骤1)进一步包括:
分别从两个方向对双语语料进行对齐,每个方向获得多个对齐的最优解以及所述最优解的概率;
获得一个方向的所述多个最优解与另一个方向的所述多个最优解的对齐句对组合,并根据所述最优解的概率计算所述对齐句对组合的先验概率。
在该短语抽取方法中,所述对齐的最优解的个数为大于1且小于11的正整数。
本发明的优点在于,能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量。
附图说明
图1是根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图;
图2是示出对齐的最优解的个数N与翻译系统的性能的关系的示意图;
图3是当所述对齐的最优解的个数N=50时,减枝阈值与翻译性能的关系的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的统计机器翻译短语抽取方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图,如图所示,该方法包括以下步骤:
步骤1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率。
下面给出执行该步骤的一个示例:
11)分别从源语言到目标语言的方向和相反方向利用GIZA++对双语语料进行对齐,并对于每个方向都输出N个对齐的最优解(N-best)以及对齐的最优解的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910164809.7/2.html,转载请声明来源钻瓜专利网。





