[发明专利]一种机器翻译质量评估方法、装置、设备和存储介质在审
| 申请号: | 202210970061.5 | 申请日: | 2022-08-12 |
| 公开(公告)号: | CN115310460A | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 陶大程;丁亮;陆清屿 | 申请(专利权)人: | 京东科技信息技术有限公司 |
| 主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/58;G06F40/194 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 郭德霞 |
| 地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器翻译 质量 评估 方法 装置 设备 存储 介质 | ||
1.一种机器翻译质量评估方法,其特征在于,包括:
获取待评估的翻译文本对,所述翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本;
基于至少两种质量评估指标和所述源文本,对所述目标文本进行质量评估,确定每种所述质量评估指标对应的评估结果;
基于所述源语种与所述目标语种之间的语种相似度,确定每种所述质量评估指标对应的评估权重;
基于各个所述评估权重,对各个所述评估结果进行融合处理,确定所述翻译文本对的目标评估结果。
2.根据权利要求1所述的方法,其特征在于,所述质量评估指标包括:流畅度评估指标和忠实度评估指标;
所述基于至少两种质量评估指标和所述源文本,对所述目标文本进行质量评估,确定每种所述质量评估指标对应的评估结果,包括:
基于至少一个预设流畅度评估模型和所述源文本,对所述目标文本进行流畅度评估,确定所述流畅度评估指标对应的评估结果;
基于至少一个预设忠实度评估模型和所述源文本,对所述目标文本进行忠实度评估,确定所述忠实度评估指标对应的评估结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述源语种与所述目标语种之间的语种相似度,确定每种所述质量评估指标对应的评估权重,包括:
将所述源语种与所述目标语种之间的语种相似度输入至预设网络模型中,所述预设网络模型是预先基于翻译样本对数据和标签评估结果进行训练获得的;
根据所述预设网络模型的输出,确定每种所述质量评估指标对应的评估权重。
4.根据权利要求3所述的方法,其特征在于,在所述质量评估指标包括流畅度评估指标和忠实度评估指标时,根据所述预设网络模型的输出,确定每种所述质量评估指标对应的评估权重,包括:
根据所述预设网络模型的输出,确定流畅度评估指标对应的评估权重;
基于所述流畅度评估指标对应的评估权重,确定出忠实度评估指标对应的评估权重。
5.根据权利要求1-4任一项所述的方法,其特征在于,在基于所述源语种与所述目标语种之间的语种相似度,确定每种所述质量评估指标对应的评估权重之前,还包括:
基于预设多语种模型,根据所述源语种对应的源语料库和所述目标语种对应的目标语料库,确定所述源语种对应的源语种表征向量和所述目标语种对应的目标语种表征向量;
基于所述源语种表征向量和目标语种表征向量,确定源语种与目标语种之间的语言相似度。
6.根据权利要求5所述的方法,其特征在于,所述基于预设多语种模型,根据所述源语种对应的源语料库和所述目标语种对应的目标语料库,确定所述源语种对应的源语种表征向量和所述目标语种对应的目标语种表征向量,包括:
将所述源语种对应的源语料库中的每个源文本输入至预设多语种模型中,确定每个源文本对应的源语言表征向量,并基于各个所述源语言表征向量,确定所述源语种对应的源语种表征向量;
将所述目标语种对应的目标语料库中的每个目标文本输入至预设多语种模型中,确定每个目标文本对应的目标语言表征向量,并基于各个所述目标语言表征向量,确定所述目标语种对应的目标语种表征向量。
7.根据权利要求6所述的方法,其特征在于,所述基于各个所述源语言表征向量,确定所述源语种对应的源语种表征向量,包括:
对各个所述源语言表征向量进行平均处理,获得的平均向量确定为所述源语种对应的源语种表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210970061.5/1.html,转载请声明来源钻瓜专利网。





