[发明专利]一种文本翻译方法、装置及设备有效
申请号: | 201910272783.1 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109977430B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 熊新雷 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雪;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 翻译 方法 装置 设备 | ||
本申请公开一种文本翻译方法、装置及设备,所述方法包括:确定待翻译文本中的数字词语;将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。由于本申请在对待翻译文本进行翻译之前利用预设占位符替换了数字词语,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请提供的文本翻译方法能够提高数字词语翻译的准确性。
技术领域
本申请涉及机器翻译领域,具体涉及一种文本翻译方法、装置及设备。
背景技术
文本翻译包括对文本中的数字词语的翻译,目前主流的机器翻译系统中对数字词语的翻译是直接将包含数字词语的文本输入到神经网络系统中进行翻译,具体的,首先对包含数字词语的文本进行切分处理,然后对切分后的文本进行翻译,得到包含数字词语的文本的翻译结果。
上述方式是将数字词语作为普通的字符串进行切分处理,在切分数字词语的过程中,可能将其切分为常见词和不常见词,而不常见词在翻译时容易被丢失等,导致通过上述方式对数字词语的翻译结果不准确。
因此,如何提高对数字词语翻译的准确性,是目前的机器翻译系统面临的一项难题。
发明内容
有鉴于此,本申请提供了一种文本翻译方法、装置及设备,能够提高对数字词语翻译的准确性。
第一方面,本申请提供了一种文本翻译方法,所述方法包括:
确定待翻译文本中的数字词语;
将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;
对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;
根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。
一种可选的实施方式中,所述将所述数字词语替换为预设占位符,包括:
确定所述数字词语的类型以及合法性;
根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。
一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:
根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;
将所述阿拉伯数字替换为预设占位符;
相应的,所述记录所述数字词语的位置信息,具体为,记录由所述数字词语规整的阿拉伯数字的位置信息。
一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:
根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;
将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。
一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:
根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。
一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910272783.1/2.html,转载请声明来源钻瓜专利网。