[发明专利]评价、选择例句对,构建通用例句库,机器翻译的方法及装置有效
申请号: | 200810165986.2 | 申请日: | 2008-10-06 |
公开(公告)号: | CN101714137A | 公开(公告)日: | 2010-05-26 |
发明(设计)人: | 刘占一;王海峰;吴华 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;刘瑞东 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评价 选择 例句 构建 通用 机器翻译 方法 装置 | ||
1.一种机器翻译的方法,包括以下步骤:
为待翻译的第一语种的句子,在从进行了对齐的双语语料库中选择的 例句对中查找相似的第一语种的例句,上述双语语料库包括多对相对应的 第一语种和第二语种的例句以及每对例句之间的对齐信息;
为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的 区别部分准备相应的译文;以及
将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区 别部分的译文组合,生成参考译文;
其中,所述从进行了对齐的双语语料库中选择的例句对通过下述步骤 选择:
计算给定的例句对的得分;以及
将上述计算出的得分与给定的阈值进行比较;
如果上述得分大于上述阈值,则将上述给定的例句对选出;
其中,所述计算给定的例句对的得分的步骤包括:
根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率 和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间 的一致性,计算上述给定的例句对的得分;
基于上述计算出的得分,对上述给定的例句对进行评价;
其中,上述给定的例句对中的第一语种的例句在上述双语语料库中的 覆盖率通过以下步骤计算:
计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任 一例句对中的第一语种的例句之间的相似度;以及
计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例 句在上述双语语料库中的覆盖率;
其中,上述给定的例句对中的上述第一语种的例句和上述第二语种的 例句之间的一致性通过以下步骤计算:
根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给 定的例句对中的上述第二语种的例句的长度的概率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句 和上述第二语种的例句中被对齐的词占所有词的比率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句 和上述第二语种的例句之间的词对齐概率;以及
计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定 的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810165986.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能森林灭火系统
- 下一篇:一种轧机AGC控制系统