[发明专利]机器翻译结果的词对齐方法、装置、电子设备及存储介质有效
| 申请号: | 202011305025.4 | 申请日: | 2020-11-20 |
| 公开(公告)号: | CN112199965B | 公开(公告)日: | 2021-08-17 |
| 发明(设计)人: | 周玉;邓彪;李小青;刘鹏;韩延超 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/279;G06F40/242;G06F40/189 |
| 代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李伟波 |
| 地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器翻译 结果 对齐 方法 装置 电子设备 存储 介质 | ||
1.一种机器翻译结果的词对齐方法,其特征在于,包括:
S1、将源语言语句和所述源语言语句的机器翻译结果即目标语言语句组成句对,分别对所述源语言语句以及所述目标语言语句进行分词;
S2、使用专业领域词典对所述分词后的句对中的单词进行对齐,获得专业领域词典能够对齐的单词对,作为词典对齐结果;
S3、对所述源语言语句中的每个词与所述目标语言语句中的每个词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果;
S4、对于步骤S3中未能够正向对齐的词进行反向对齐,获得反向对齐能够对齐的单词对,作为反向对齐结果;以及
S5、将词典对齐结果、正向对齐结果以及反向对齐结果作为初级对齐结果;
其中,对步骤S5获得的初级对齐结果进行补充对齐,包括:
S61、使用源语言切分词以及目标语言切分词将所述句对切分成源语言语块序列以及目标语言语块序列;
S62、基于所述初级对齐结果,将源语言语块与目标语言语块一一对应,获得语块对;
S63、判断所述初级对齐结果中的单词对中的源语言单词以及目标语言单词是否同时出现在一个语块对中,如果某个单词对未同时出现在一个语块对中,则将该单词对中的源语言单词以及目标语言单词从语块对中去除,获得清洗后的语块对;以及
S64、将清洗后的语块对中未对齐的单词进行对齐,获得所述初级对齐结果的补充对齐结果。
2.根据权利要求1所述的机器翻译结果的词对齐方法,其特征在于,步骤S3中,对专业领域词典未能够对齐的词进行正向对齐,获得正向对齐能够对齐的单词对,作为正向对齐结果。
3.根据权利要求2所述的机器翻译结果的词对齐方法,其特征在于,步骤S62中,使用以下方法获得所述语块对:
将源语言语块序列表示为将目标语言语块序列表示为
其中,带有a下标的为初级对齐结果的单词对,带有下标的是未对齐的单词;
基于所述初级对齐结果,获得源语言单词与目标语言单词的对齐关系以及对齐概率,使用以下公式进行语块对齐:
其中i,j表示语块序号,m,n分别表示语块序列i、j中的单词的序号;
在进行语块对齐时,对每个源语言语块,计算其中的每个词与目标语言语块的每个词之间的对齐概率ρ,单词对属于初级对齐结果的,其对齐概率为初级对齐概率,不属于初级对齐结果的,其对齐概率为0;
将源语言语块内的所有单词对的对齐概率相加作为该源语言语块相对于目标语言语块的语块对齐概率,选择概率最大的为该源语言语块对齐的目标语言语块。
4.根据权利要求1所述的机器翻译结果的词对齐方法,其特征在于,步骤S3中,所述正向对齐包括以下步骤:
S31、获得源语言训练语料中的每个词相对于目标语言训练语料中的每个词的翻译概率,以及位置对齐因子;
S32、基于所述翻译概率和所述位置对齐因子,计算分词后所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率;以及
S33、取所述源语言语句中的每个词相对于分词后所述目标语言语句中的每个词的位置对齐概率的最大值对应的的所述源语言语句的词与所述目标语言语句的词的对应结果作为正向对齐结果。
5.根据权利要求4所述的机器翻译结果的词对齐方法,其特征在于,还包括:
S34、判断每个所述最大值是否超过预定阈值,如果存在低于所述预定阈值的最大值,则对低于所述预定阈值的最大值对应的所述源语言语句中的词进行反向对齐。
6.根据权利要求5所述的机器翻译结果的词对齐方法,其特征在于,所述反向对齐包括:
获得目标语言训练语料中的每个词相对于源语言训练语料中的每个词的翻译概率,同时增大所述正向对齐中的位置对齐因子;基于所述翻译概率和增大后的位置对齐因子,计算分词后所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率;取所述目标语言语句中的每个词相对于分词后所述源语言语句中的每个词的位置对齐概率的最大值对应的所述目标语言语句的词与所述源语言语句的词的对应结果作为反向对齐结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305025.4/1.html,转载请声明来源钻瓜专利网。





