[发明专利]翻译模型训练方法、装置、设备及存储介质在审

专利信息
申请号: 202011454443.X 申请日: 2020-12-10
公开(公告)号: CN112560510A 公开(公告)日: 2021-03-26
发明(设计)人: 叶忠义;张为泰;刘俊华 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G06F40/49 分类号: G06F40/49;G06F40/58
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 付丽
地址: 230088 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种翻译模型训练方法、装置、设备及存储介质,本申请针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,该平行语料是目标语言,若训练语料的语言与目标语言近似,该平行语料是源语言,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,由混合语言训练语料与平行语料组成平行语料对,以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。本申请利用了源语言和/或目标语言的近似语言资源,丰富了模型训练数据,提升了翻译模型的训练效果。
搜索关键词: 翻译 模型 训练 方法 装置 设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202011454443.X/,转载请声明来源钻瓜专利网。

同类专利
  • 一种融合句法信息的濒危语言翻译模型方法-202310960646.3
  • 钱兆鹏;于重重;徐小龙;秦汉忠 - 北京工商大学
  • 2023-08-01 - 2023-10-27 - G06F40/49
  • 本发明公布了一种融合句法信息的濒危语言翻译模型方法,包括:采用半自动化方式构建依存句法标准格式的濒危语言依存结构树库;基于双仿射分类器对濒危语言进行依存句法分析,构建基于双仿射分类器的濒危语言依存句法分析模型;将濒危语言依存结构树库中包含的词序索引、词性标注、支配词索引、依存句法关系标注作为句法特征加入到机器翻译模型编码端,构建濒危语言‑汉语神经机器翻译模型。本发明通过句法信息能够更加准确的完成对于濒危语言的翻译,并且克服了人工标注濒危语言语料费时费力、需要大量专业知识、数据量较少、使用常规神经机器翻译方法的效果较差等不足,大大提升了濒危语言翻译的有效性。
  • 一种支持多平台的多语种交互式实时翻译终端及方法-202310505711.3
  • 陆保宁;易红元 - 深圳市凝趣科技有限公司
  • 2023-05-08 - 2023-10-20 - G06F40/49
  • 本发明提供了一种支持多平台的多语种交互式实时翻译终端及方法,通过石英晶体振荡器,进行频率控制和频率选择,根据实时翻译终端驱动程序,利用集成蓝牙芯片单元进行实时翻译终端与多平台通信设备终端的双向信息通信;通过多平台输入识别,追踪多平台输入过程,获取多平台输入信息;进行输入语种的多平台输入信息标准化处理,通过多语种实时翻译引擎进行目标语种搜索翻译,分析对比目标语种表述顺序和输入语种表述顺序,获取输入翻译分析对比数据;根据输入翻译分析对比数据,进行目标语种表述顺序和输入语种表述顺序调整判定及翻译参照交互选择,实现智能化多语种参照交互式实时翻译。
  • 一种基于自然语言处理的专利翻译方法与系统-202310881287.2
  • 卢春辉;臧智涛;李建雨;张敏 - 企知道科技有限公司
  • 2023-07-18 - 2023-10-13 - G06F40/49
  • 一种基于自然语言的专利翻译方法与系统,涉及数据处理的领域。该方法应用于服务器,该方法包括:获取用户输入的第一专利原文;对第一专利原文进行特征标注,生成第二专利原文,特征标注包括词性标注与词意标注;将第二专利原文输入专利翻译模型中,得到第二专利原文的翻译结果;对第二专利原文的翻译结果进行后处理,生成目标专利文本。实施本申请提供的技术方案,解决了传统机器翻译会导致翻译的专利文本出现文本歧义的问题。
  • BestTransformer汉盲转换方法及系统-202310659771.0
  • 苏伟;王蕊;谢迎春 - 兰州速微网络科技有限公司;兰州大学
  • 2023-06-06 - 2023-09-01 - G06F40/49
  • 本发明公开了BestTransformer汉盲转换方法及系统,包括以下步骤:S1、采集训练数据,并对训练数据进行预处理,并对预处理后的训练数据进行分类,得到训练数据集和测试数据集;训练数据包括:中文文本数据以及盲文文本数据;S2、构建转换模型,基于训练数据集对转换模型进行训练,并基于测试数据集对训练后的所述转换模型进行测试,得到BestTransformer模型;S3、基于BestTransformer模型对待转换句子进行汉盲转换。本发明提出的方法只需要建立句子级汉盲对照语料库,建设难度低,无需进行分词模型和拼音模型的构建和训练,打破了多模型的思路壁垒。
  • 数据处理方法、装置、计算机设备及计算机可读存储介质-202210143195.X
  • 梁棋棋;刘宜进;孟凡东;陈钰枫;徐金安 - 腾讯科技(深圳)有限公司;北京交通大学
  • 2022-02-16 - 2023-08-29 - G06F40/49
  • 本申请公开了数据处理方法、装置、计算机设备及计算机可读存储介质,应用于计算机技术领域。该方法包括:获取待处理数据序列;调用数据转换模型对待处理数据序列进行处理,得到待处理数据序列中各个待处理数据对应的目标数据,该数据转换模型对应的训练样本包括源词序列以及对应的目标词序列,该数据转换模型是基于训练样本以及目标词序列中的每个目标词的对齐偏置进行训练得到的,该对齐偏置为每个目标词相对于源词序列中对应源词的偏移数据;输出各个待处理数据对应的目标数据。本申请可以应用于同步机器翻译等各种数据转换场景,能够提高数据转换的准确性。
  • 一种面向地质文本的地质实体语义关系提取方法及装置-202110379257.2
  • 储德平;万波;李红 - 中国地质大学(武汉)
  • 2021-04-08 - 2023-08-11 - G06F40/49
  • 本发明提供了一种面向地质文本资料的语义关系提取方法及装置,主要用于文本特征模式多样、内容冗余的非结构化地质文本资料中地质实体语义关系的提取。本发明充分结合了地质文本的表达特点,提供了完善的语义关系提取流程及装置。所述装置包括:地质文本输入模块;数据处理模块;数据标注模块;重要性计算模块;阈值设定模块;结果输出模块。本发明通过对地质文本资料中能够表达地质实体语义关系的词汇的相关特点进行了定量分析,提供了一种有效的面向地质文本资料的地质实体语义关系提取方法。
  • 基于ICAT与TRADOS的融合翻译方法与系统-201811371518.0
  • 王莲 - 传神语联网网络科技股份有限公司
  • 2018-11-21 - 2023-06-13 - G06F40/49
  • 本发明提出了一种基于ICAT与TRADOS的融合翻译计算机系统,所述计算机系统包括待译语料输入组件、待译语料属性提取模块以及翻译工具选择组件。采用本发明的技术方案,可以通过计算机自动分析待译语料的文本属性,并根据文本属性的相关分布自动选择合适的翻译工具;不仅实现了翻译工具的选择,也解决翻译工具的融合问题。
  • 一种生词处理方法、装置、电子设备和可读存储介质-201711444969.8
  • 冷志峰 - 珠海金山办公软件有限公司;北京金山办公软件股份有限公司;广州金山移动科技有限公司
  • 2017-12-27 - 2023-05-23 - G06F40/49
  • 本发明实施例提供了一种生词处理方法、装置、电子设备和可读存储介质。方法应用于文档阅读客户端,该方法包括:将文档阅读客户端所显示的文档中的、满足预设条件的词,确定为文档的生词;调用预设翻译软件对生词进行翻译,得到生词翻译结果;在文档阅读客户端显示的两个窗口中,一个窗口显示文档,另一个窗口显示生词和生词翻译结果;查找记录有文档阅读客户端的当前登录账号和文档的文档内容标识值的生词记录文件;将生词和生词翻译结果对应存储至查找到的生词记录文件中。应用本发明实施例提供的方案处理生词,能够快速地获得文档中生词的翻译,并能够快速地对该生词及该翻译进行记录和显示,提高了生词处理效率。
  • 一种神经机器翻译NMT模型的创建方法及系统-201910235726.6
  • 李涵;张东生;韩昊天;刘纯燕 - 河南大学
  • 2019-03-27 - 2022-12-09 - G06F40/49
  • 本发明公开的神经机器翻译NMT模型的创建方法及系统,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库,利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型,实现了专业领域文本的精确翻译,提高了翻译质量、满足了人们对专业领域文本的翻译需求。
  • 一种计算机人工智能外文翻译方法及其翻译系统-202210450944.3
  • 郭志胜;秋超慧 - 西安领向鸟文化传播有限公司
  • 2022-04-24 - 2022-07-08 - G06F40/49
  • 本发明提供一种计算机人工智能外文翻译方法,提高外文翻译质量,通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联等技术,实现提高翻译质量的同时降低翻译中的低级错误,提升翻译效率,有效利用已有的和正在协作的翻译结果,降低翻译单位成本,增加企业市场竞争力,提升社会整体翻译价值,使被翻译对象契合前后语言环境,达到翻译译文的“信、达、雅”,大大提高人们对于各种语言的驾驭能力,可促进全世界范围内的文化交流学习。
  • 一种多语言翻译模型的确定方法和相关装置-202210283840.8
  • 季佰军;胡博杰;鞠奇 - 腾讯科技(深圳)有限公司
  • 2022-03-22 - 2022-06-28 - G06F40/49
  • 本申请公开了一种多语言翻译模型的确定方法和相关装置,可应用于人工智能、自然语言处理、机器学习等各种场景。通过采样参数确定n个训练任务对应的翻译方向,并且基于对应的翻译方向对训练语料进行采样,获得n个样本集,n个样本集与n个训练任务一一对应,n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向,可以避免忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型,根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数,然后基于n个损失函数确定总损失函数,并根据该总损失函数训练初始多语言翻译模型,提升模型泛化程度,保证在不同翻译方向下的翻译精度。
  • 一种翻译语料库的匹配方法-202111039403.3
  • 江心波 - 山东智慧译百信息技术有限公司
  • 2021-09-06 - 2022-05-31 - G06F40/49
  • 一种翻译语料库的匹配方法,包括:获取待匹配语料库数据,将待匹配的原文和对应的ID进行处理;翻译语料库数据与待匹配数据大致匹配得到集合p,待匹配数据与集合p进行详细匹配,得到最佳匹配的数据:p循环结束后scores倒序得到最佳的匹配结果。本发明利用二维数组获取两个字符串的相似度,取左边值+1,上边值+1,若左边值+1,上边值+1不相等取左上角+1的值,若左边值+1,上边值+1相等取左上角的值,最终取左边值+1和上边值+1和左上角最终值的最小值,从而得到两个字符串的匹配度。本发明相比于海明距离匹配方法和Jaccard相似度匹配方法匹配召回率增高明显。
  • 基于术语保护的机器翻译方法及装置-202210094875.7
  • 朱宪超;韩冰 - 四川语言桥信息技术有限公司
  • 2022-01-26 - 2022-05-10 - G06F40/49
  • 本发明提供一种基于术语保护的机器翻译方法及装置,通过搜集海量平行语料,对其进行分词,得到第一集合,并将其输入训练后的IBM Model模型中,输出词对齐概率;根据词对齐概率,对原文中的词进行特殊符号的替换,对译文中的词进行特殊符号的替换和相对位置的标记,并根据替换后的平行语料对机器翻译模型进行训练;基于训练好的机器翻译模型和自定义词典对待翻译原文进行处理,得到翻译结果。本发明通过引入相对位置标记,来对译文中的罕见字词进行标记,使翻译模型可以学习到在生成特殊标记的同时生成相对位置信息,以此可以知道使用哪个原文词对应的译文进行替换,以达到对罕见字词进行正确翻译的目的。
  • 一种基于语料大数据的智能翻译方法-202111485429.0
  • 单士坤;钟京伟;张潇;夏晓莉;梁熠程;郭红梅 - 山东建筑大学
  • 2021-12-07 - 2022-03-11 - G06F40/49
  • 本发明公开了一种基于语料大数据的智能翻译方法,具体涉及语料翻译领域,包括如下步骤:步骤一、语言识别,步骤二、语句汇总,步骤三、语句修正,步骤四、数据更新,步骤五、语义翻译,步骤六、翻译排版输出。本发明通过设置语句修正和语义翻译,当用语者采用多国语言混合使用,同时采用的词汇较为新潮时可以进行精准的对应解析和翻译,同时按照对应国家的用语习惯解析语义进行翻译,同时对国内地方语言进行解析,避免导致倾听者无法理解叙述者含义的情况,防止由于国家和地区用语习惯的不同,导致难以进行清楚的了解叙述者的表达含义的情况。
  • 一种基于计算机辅助翻译系统的辅助翻译方法-202111396966.8
  • 干蜀波;袁成芳;李刚;洪露;于菲 - 成都飞机工业(集团)有限责任公司
  • 2021-11-23 - 2022-03-04 - G06F40/49
  • 本发明提出了一种基于计算机辅助翻译系统的辅助翻译方法,通过设置项目预处理单元、语料库管理单元、系统管理单元、辅助翻译单元、审校管理单元和语料对齐管理单元,对翻译文件进行预处理,进而实现翻译前的工作量统计和分析,从而匹配合适的翻译人员,提高翻译人员利用效率及翻译效率,通过辅助管理、系统管理及审校管理配合使用,进一步提高翻译人员管理效率、翻译效率及翻译准确度,同时通过建立语料库进行语料存储,便于后期直接匹配重复翻译语句,同时通过分级存储,提高翻译文件的安全性。
  • 翻译方法、装置、设备和存储介质-202010469139.6
  • 周凤鸣;赵宇 - 阿里巴巴集团控股有限公司
  • 2020-05-28 - 2021-12-03 - G06F40/49
  • 本发明实施例提供一种翻译方法、装置、设备和存储介质,该方法包括:获取待翻译语句以及此语句的属性信息。然后,根据此属性信息,在翻译记忆库中确定与待翻译语句对应的目标语句,其中,目标语句与待翻译语句的属性信息匹配。进一步,再从翻译记忆库中确定与目标语句对应的译文,此译文也即是待翻译语句的译文,从而完成翻译。可见,上述提供的翻译方法是通过对待翻译语句以及翻译记忆库中的语句进行属性信息的设置,再根据设置的属性信息自动匹配出译文的过程,也即是实现自动翻译,大大提高翻译效率。
  • 翻译模型训练方法、装置、设备及存储介质-202011454443.X
  • 叶忠义;张为泰;刘俊华 - 科大讯飞股份有限公司
  • 2020-12-10 - 2021-03-26 - G06F40/49
  • 本申请公开了一种翻译模型训练方法、装置、设备及存储介质,本申请针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,该平行语料是目标语言,若训练语料的语言与目标语言近似,该平行语料是源语言,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,由混合语言训练语料与平行语料组成平行语料对,以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。本申请利用了源语言和/或目标语言的近似语言资源,丰富了模型训练数据,提升了翻译模型的训练效果。
  • 一种游戏资源文件翻译方法、装置及设备-201911371991.3
  • 宋大伟;吴健 - 苏州亿歌网络科技有限公司
  • 2019-12-27 - 2021-03-23 - G06F40/49
  • 本发明涉及一种游戏资源文件翻译方法包括:获取原始语言的资源文件和目标语言的翻译语料库;从原始语言的资源文件中提取待翻译的原始语言字符并生成第一翻译文件;将第一翻译文件与目标语言的翻译语料库进行匹配,得到第二翻译文件;在第二翻译文件显示原始语言字符未全部翻译完成时将第二翻译文件提交人工进行翻译,并获取人工翻译结果;根据人工翻译结果得到第三翻译文件;根据第三翻译文件替换资源文件中的原始语言字符,得到目标语言的资源文件。本发明通过语料库可以对多批次资源文件进行翻译,减少重复工作,并提高了翻译的准确性。
  • 基于关键词提示的文本翻译方法、计算设备及存储介质-202011330963.X
  • 腰思维 - 掌阅科技股份有限公司
  • 2020-11-24 - 2021-02-26 - G06F40/49
  • 本发明公开了一种基于关键词提示的文本翻译方法、计算设备及存储介质。该方法包括:响应于用户触发的关键词提示操作,基于原文区域呈现的原文本内容查询预先建立的关键词库,对原文区域内与关键词库中的关键词相匹配的文本词进行定位标记;响应于用户在翻译区域内执行的针对初始翻译文本内容的编辑操作,呈现关键词对应的目标翻译文本内容,根据目标翻译文本内容对翻译区域内显示的初始翻译文本内容进行编辑处理,得到翻译文本内容。本发明通过定位标记,使得用户能够直观地获知原文区域内哪些文本词是关键词,提升了翻译效率,根据目标翻译文本内容对初始翻译文本内容进行编辑处理,从而实现了文本翻译的一致性,进而提升了翻译质量。
  • 一种专业英语翻译为汉语的译文专业性分析方法-202011261831.6
  • 许展;谷亚兰;潘南竹 - 洛阳理工学院
  • 2020-11-12 - 2021-02-02 - G06F40/49
  • 本发明公开了一种专业英语翻译为汉语的译文专业性分析方法,通过每个专业英语单词和词组及其对应的专业行业中标准汉语翻译设定为一组数据,将所有数据汇总后转换为计算机语言并输入计算机中建立若干个按照专业行业分类的专业英语数据库,将待判定专业性的英文全文按照段落划分若干单元,逐步判断各个段落的翻译的专业程度,然后将各个数据处理后获得全文的专业程度结果,可以快速获得专业英语译文翻译的专业程度,大大降低老师在批改课程设计和毕业设计过程中的工作量,提高工作效率。
  • 一种藏汉翻译方法和装置-202010987775.8
  • 尼玛扎西;于永斌;头旦才让;仁青东珠;王昊;邓权芯 - 西藏大学
  • 2020-09-18 - 2020-12-15 - G06F40/49
  • 本发明涉及一种藏汉翻译方法和装置,构建藏汉双语平行原始语料库,并进行预处理,得到可训练的藏汉双语平行目标语料库,获取源语言序列和目标语言序列,将源语言序列和目标语言序列进行向量扩展,得到源语言向量和目标语言向量,将源语言向量输入至编码器模块进行处理,得到处理结果,将目标语言向量以及处理结果输入至解码器模块进行训练,得到输出向量,将输出向量映射回目标语言词典,计算目标语言序列中每个词出现的概率值,将概率取值以向量形式输出,得到训练模型,利用集束搜索算法,对训练模型进行推断。本发明提供的藏汉翻译方法与传统的LSTM网络相比拥有更好的并行性能和更高的计算效率,探索了藏汉互译中的应用推广。
  • 一种涉外专利翻译需求识别方法及系统-202010527511.4
  • 倪海斌;施建建;徐可欣 - 南通赛优科技服务有限公司
  • 2020-06-11 - 2020-09-18 - G06F40/49
  • 本发明提供一种涉外专利翻译需求识别方法及系统,涉及涉外专利翻译技术领域。该涉外专利翻译需求识别方法,包括以下步骤:S1、创建搜索关键词,基于各大网站及语言搜索相关涉外专利,获取涉外专利样本;S2、基于人工智能算法,对涉外专利样本进行迭代训练;S3、判断分析搜索的涉外专利真实性,筛选无关内容、重复内容及覆盖残缺内容。本发明,通过获取涉外专利样本,然后再利用人工智能算法,对涉外专利样本进行迭代训练,使得后期根据关键词获取的涉外专利相关性大大提高,从而能够大大减少后续人工筛选的操作,工作量大大减少,翻译过程比较简单,大大提高了翻译之后的专利文件准确度。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top