[发明专利]一种基于用户词典的神经机器翻译方法有效
申请号: | 201910099168.5 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109840331B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 杜权;徐萍 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/216;G06N3/0455;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于用户词典的神经机器翻译方法,步骤为:通过网络爬虫技术从网络中爬取海量数据,抽取技术从语料中获取双语词对构建用户词典;使用用户词典对训练语料进行词典化,并抽取出来与原始语料混合在一起,作为神经网络模型训练的输入;对句对中所包含的用户词典占位符进行一致性检测;使用用户词典对训练数据进行处理,输入到神经网络模型中开始训练模型至模型收敛;输入包含用户词典的句子,获取词典信息替换占位符同时进行翻译,获得与用户词典中信息相匹配的高精度译文。本发明在翻译时很好地满足不同用户对名词性短语和命名实体的高精度需求,根据用户的需要及翻译习惯添加自定义的词典库,以达到不同用户对翻译译文的高质量要求。 | ||
搜索关键词: | 一种 基于 用户 词典 神经 机器翻译 方法 | ||
【主权项】:
1.一种基于用户词典的神经机器翻译方法,其特征在于包括以下步骤:1)构造用户词典:通过网络爬虫技术从网络中爬取海量数据,然后使用命名实体识别技术和命名实体抽取技术从语料中获取双语词对构建用户词典;2)训练语料词典化:使用用户词典对训练语料进行词典化,将双语语料中包含的词典中出现的词对用占位符$userdict代替并抽取出来与原始语料混合在一起,形成新的训练语料,作为神经网络模型训练的输入;3)用户词典一致性检测:同时读取双语数据中的句对,对句对中所包含的用户词典占位符$userdict进行一致性检测,以确认$userdict是否同时在源语言和目标语言两端同时出现,以保证模型的性能;4)模型训练:使用用户词典经步骤2)~3)对训练数据进行处理后,将处理后的数据输入到神经网络模型中开始训练模型至模型收敛;5)使用用户词典翻译:神经网络模型训练完成后,输入包含用户词典的句子,模型先将目标语中包含用户词典信息位置的词置为占位符,之后通过查找词典后处理操作获取词典信息替换占位符同时进行翻译,获得与用户词典中信息相匹配的高精度译文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910099168.5/,转载请声明来源钻瓜专利网。