[发明专利]统计机器翻译短语抽取方法有效
| 申请号: | 200910164809.7 | 申请日: | 2009-08-01 |
| 公开(公告)号: | CN101989261A | 公开(公告)日: | 2011-03-23 |
| 发明(设计)人: | 刘洋;夏天;肖欣延;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 统计 机器翻译 短语 抽取 方法 | ||
1.一种统计机器翻译短语抽取方法,包括下列步骤:
1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;
2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;
3)根据所述对齐矩阵,计算短语对齐的频度;
4)根据所述短语对齐的频度计算所述短语对齐的相对频度和词汇化概率。
2.根据权利要求1所述的短语抽取方法,其特征在于,所述步骤3)进一步包括:
31)根据所述对齐矩阵,对于每个短语对齐,计算内向概率和外向概率;
32)计算所述内向概率和所述外向概率的积作为所述短语对齐的频度。
3.根据权利要求2所述的短语抽取方法,其特征在于,所述步骤32)后还包括:
步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。
4.根据权利要求3所述的短语抽取方法,其特征在于,所述阈值为区间(0.1,1)内的实数。
5.根据权利要求1所述的短语抽取方法,其特征在于,所述步骤1)进一步包括:
分别从两个方向对双语语料进行对齐,每个方向获得多个对齐的最优解以及所述最优解的概率;
获得一个方向的所述多个最优解与另一个方向的所述多个最优解的对齐句对组合,并根据所述最优解的概率计算所述对齐句对组合的先验概率。
6.根据权利要求1或5所述的短语抽取方法,其特征在于,所述对齐的最优解的个数为大于1且小于11的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910164809.7/1.html,转载请声明来源钻瓜专利网。





