[发明专利]一种基于特征性句干提取的机器翻译方法及装置有效
申请号: | 201810544842.1 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108763229B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 李晶洁;胡文杰 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 上海统摄知识产权代理事务所(普通合伙) 31303 | 代理人: | 金利琴 |
地址: | 201620 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 性句干 提取 机器翻译 方法 装置 | ||
本发明涉及一种基于特征性句干提取的机器翻译方法及装置,具体为:1)在语言A语料库中获取多词序列并识别结构满足句干要求的序列;2)基于内部粘着力、外部边界独立性及篇章分布域确定特征性句干并基于MIN‑MAX归一化算法和局部最大值消重法对其筛选;3)翻译特征性句干得特征性句干数据库;4)输入待翻译的语言A文本,逐句提取句干,在特征性句干数据库中查找句干译文,翻译句干外的词语并将其译文按照目标语言B的语序组合到句干译文中得到译文。装置包括特征性句干数据库单元、语言输入单元、句干提取单元、句干识别单元、翻译单元及组合单元。本发明的机器翻译方法及装置,翻译效率高,处理时间短,极具应用前景。
技术领域
本发明属于机器翻译领域,涉及一种基于特征性句干提取的机器翻译方法与装置,具体涉及一种基于语料库提取特征性句干的机器翻译方法及装置。
背景技术
从早期的词典匹配到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。
基于语料库的机器翻译方法开始成为机器翻译领域研究的主要方向。由Sinclair团队倡导的语料库驱动的翻译对等研究方法正是在这样的背景下产生。翻译对等的核心思想为两种(或多种)语言间存在翻译对等(translation equivalence),即语料库L1中某个词的文本环境和语料库L2中的翻译对等词(translation equivalent)有密切关联。通过计算机识别词语的文本环境,就可以此来确定L1中该词语的每次实际出现分别对应着L2中的哪个词。
基于此构建机器翻译模型的步骤如下:1)利用Wordsmith等工具在JDEST中检索索引证据,描述特征性句干的形式和意义特征,确立形式和功能的对应关系;2)在平行语料库中,寻找汉语或目标语言译文,将频数较高的翻译确定为“潜在对等单位”(potentialequivalent);3)将潜在对等单位输入汉语或目标语言语料库中进行检验,考察其形式和功能特征,最终在语境中确立两者的对应程度。在这一模型中,特征性句干(sentence stem)是指学术英语语料库中实施语篇组织和态度表达功能的高频半固定句级序列,是一类特殊的小句级别的短语单位,它包含主谓结构,是句子的核心。对于它的提取一直以来都是机器翻译尤其是对等翻译领域的技术难点。
而近年来,随着计算能力不断的提升和语料资源的不断丰富,短语学研究也不断深入,特征性句干提取技术的发展渐现曙光。现有的短语单位的自动提取方法主要有以下两类:1)频数阈值法,主要是用于生成初步的候选序列,其优势是计算复杂性低,但缺点在于识别的准确率和召回率较低;2)关联测量值法,其使用迭代或组合判断,可将提取技术扩展到多词序列,一定程度提高了其识别的准确率,但问题是进行学术英语文本翻译时,现有的关联测量值法抽取的多词序列超过半数都是专业术语或名词短语,同一语言结构的序列超过95%,而句干类别的跨结构单位的序列尤其是特征性句干极少,句干不同于专业术语或名词短语,其内部关联度较低,而且边界难确定,现有的术语提取方法不能直接用于特定句干的识别判断。虽然目前短语单位的自动提取方法有了一定的发展,但是上述方法仅仅是对于简单短语的提取,不能满足提取篇章性句干以用于机器翻译的实际需求。
因此,如何有效地从海量数据中自动识别和抽取特征性句干进而进行机器翻译,成为亟待解决的重要问题。
发明内容
本发明的目的是为了克服现有技术对跨语种文本翻译质量低下、准确率低的缺陷,提供一种特征性句干提取精准、处理量小且对跨语种文本翻译质量好、准确率高的基于特征性句干提取的机器翻译方法与装置。本发明利用特征性句干的特性,设法提取特征性句干,提升机器翻译效果,本发明提出了利用MIN-MAX归一化算法消重处理,并提取特征性句干的方法,以此改进机器翻译的机器翻译方法和机器翻译装置,可以有效改进机器翻译的质量。
为了达到上述目的,本发明采用的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810544842.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然语言辅助处理系统
- 下一篇:利用外部信息的神经机器翻译方法