[发明专利]翻译模型训练方法及装置在审
申请号: | 202310195329.7 | 申请日: | 2023-02-24 |
公开(公告)号: | CN116306696A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 贾承勋 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/126;G06F40/289;G06N3/045;G06N3/0455;G06N3/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 张瑞 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 模型 训练 方法 装置 | ||
本申请提供翻译模型训练方法及装置,其中所述翻译模型训练方法包括:确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练;实现对训练翻译模型的语料进行筛选,以获得翻译关系更强的语料,以此为基础可以训练出翻译精度更高的翻译模型。
技术领域
本申请涉及机器学习技术领域,特别涉及翻译模型训练方法及装置。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;TensorFlow、PyTorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、问答系统(Question AnsweringSystem,QA,是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题)、主题/关键词提取等。
在机器翻译场景下,为了能够提高翻译模型的翻译精度,需要在模型训练阶段采集大量的平行语料对翻译模型进行训练,而平行语料的质量和数量是确保翻译模型预测精度的基础。现有技术中,平行语料的筛选大多数基于边距的评分方法完成,虽然能够达到平行语料筛选的目的,但是其筛选出的平行语料质量较低,致使训练出的翻译模型预测精度不高,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种翻译模型训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种翻译模型训练装置,一种翻译方法,一种翻译装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种翻译模型训练方法,包括:
确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;
根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;
在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;
将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练。
根据本申请实施例的第二方面,提供了一种翻译模型训练装置,包括:
确定模块,被配置为确定初始语料集合中每个初始语料对的语料对分值,其中,初始语料对由对应源语种和对应目标语种的语句组成;
筛选模块,被配置为根据所述语料对分值在所述初始语料集合中,筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合;
选择模块,被配置为在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合,并在所述目标语料集合中确定目标语料对;
训练模块,被配置为将所述目标语料对添加至语料样本集,并利用所述语料样本集对初始翻译模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310195329.7/2.html,转载请声明来源钻瓜专利网。