[发明专利]用于机器翻译的数词和序号替换方法及系统在审
申请号: | 201710187175.1 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107066454A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 海同舟;李明;王兴强;彭成超 | 申请(专利权)人: | 成都优译信息技术股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 冯龙 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 机器翻译 数词 序号 替换 方法 系统 | ||
1.用于机器翻译的数词和序号替换方法,其特征在于,包括以下步骤:
S1:从语义库中选取与原句最相似的参考句,并选取出与参考句相匹配的参考译文;
S2:判断原句与参考句不同处是否为序号或数词;
S3:如果不同处为序号,根据参考句、参考译文和序号表对原句序号进行序号替换;如果不同处为数词,根据参考句、参考译文和数词表对原句数词进行数词替换。
2.根据权利要求1所述的用于机器翻译的数词和序号替换方法,其特征在于,步骤S1还包括以下子步骤:
从语义库中选取与原句等长且WER值最小的句子作为与原句最相似的参考句;所述WER值为从原句修改成参考句所需要的最小步数;所述WER值采用莱温斯坦距离。
3.根据权利要求1所述的用于机器翻译的数词和序号替换方法,其特征在于,还包括以下步骤:
制作序号表和数词表;所述序号表包括序号类型和与序号对应的序号数值;所述数词表包括数词类型和与数词对应的数词数值。
4.根据权利要求3所述的用于机器翻译的数词和序号替换方法,其特征在于,所述序号替换包括以下步骤:
如果参考句序号、参考译文序号和原句序号全部属于序号表中的序号类型,则根据序号表计算原句序号的序号数值,并根据该序号数值和参考译文的序号类型在序号表中找到对应的序号替换原句序号;
如果参考句序号、参考译文序号和原句序号中任意一项不属于序号表中的序号类型,且参考句序号、参考译文序号和原句序号都为多级阿拉伯数字,则对该原句序号不做改变;
如果参考句序号、参考译文序号和原句序号中任意一项不属于序号表中的序号类型,也不是多级阿拉伯数字,则请求扩充序号表的序号类型。
5.根据权利要求3所述的用于机器翻译的数词和序号替换方法,其特征在于,所述数词替换包括以下步骤:
如果参考句数词、参考译文数词和原句数词全部属于数词表中的数词类型,则根据数词表计算原句数词的数词数值,并根据该数词数值和参考译文的数词类型在数词表中找到对应的数词替换原句数词;
如果参考句数词、参考译文数词和原句数词中任意一项不属于数词表中的数词类型,则请求扩充数词表的数词类型。
6.根据权利要求1所述的用于机器翻译的数词和序号替换方法,其特征在于,所述序号表随着语种和应用领域的变化而增加序号类型;所述数词表随着语种和应用领域的变化而增加数词类型。
7.采用权利要求1至6任意一项方法的用于机器翻译的数词和序号替换系统,其特征在于,包括:
用于从语义库中选取与原句最相似的参考句,并选取出与参考句相匹配的参考译文的选取单元;
用于判断原句与参考句不同处是否为序号或数词的判断单元;
用于在不同处为序号时根据参考句、参考译文和序号表对原句序号进行序号替换,在不同处为数词时根据参考句、参考译文和数词表对原句数词进行数词替换的替换单元。
8.根据权利要求7所述的用于机器翻译的数词和序号替换系统,其特征在于,所述选取单元从语料库中选取与原句等长且WER值最小的句子作为与原句最相似的参考句;所述WER值为从原句修改成参考句所需要的最小步数;所述WER值采用莱温斯坦距离。
9.根据权利要求7所述的用于机器翻译的数词和序号替换系统,其特征在于,还包括:
用于制作、储存和修改序号表和数词表的制作单元;所述序号表包括序号类型和与序号对应的序号数值;所述数词表包括数词类型和与数词对应的数词数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710187175.1/1.html,转载请声明来源钻瓜专利网。