[发明专利]一种基于语料匹配和语法分析的机器翻译方法及其系统有效

专利信息
申请号: 201410373465.1 申请日: 2014-07-31
公开(公告)号: CN105320650B 公开(公告)日: 2019-03-26
发明(设计)人: 崔晓光;李斌 申请(专利权)人: 崔晓光
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27
代理公司: 北京易光知识产权代理有限公司 11596 代理人: 应志超
地址: 100080 北京市海淀区海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 机器翻译 方法 及其 系统
【说明书】:

一种机器翻译方法及其系统,该方法采用语法分析与预存翻译语料匹配交替使用的方式,逐次逐个地处理各个语言单位。在不能整体匹配的情况下,分断语言单位,再在较小的语言单位的基础上匹配翻译,先形成局部译文,然后再将局部译文,按语言的修饰关系逐步整合,最终形成整句译文。

技术领域

本发明关于一种机器翻译方法及其系统,尤其关于基于语法分析和语料匹配交替使用的英中互译机器翻译方法和系统。

背景技术

语言机器翻译大致经历过三个阶段。

最初人们试图分析语言的语法,基于语言语法建立规则,从而实现机器翻译。由于语言的语法规则最多能覆盖60%左右的语言现象,相当多的语言现象无法包括在语法规则内。所以基于语法分析的翻译质量,很快被基于语料比对翻译的质量所超过。行业内,普遍以为整体语法分析的道路行不通,转而在一些小的语言单位(又称语言颗粒)上总结规律,制定规则,借此改进翻译质量。但在细枝末节上下功夫,不能根本上解决翻译问题。且,不同文体的语言材料,规律大不相同,换一种文体,又要改变或新制定规则。再者,这种以最小语言颗粒为核心,逐渐粘裹其他语言颗粒,而形成的较大语言单位,都是在语言末梢形成的局部译文,语言整体结构的混乱,常常会将它们接搭错位,从而造成误解。

第二个阶段是在语法分析不成功的情况下,彻底扬弃了语法分析,而走了一条将以前翻译过的语料存储起来,在翻译新语言材料时,将新语料,以事先存储的语料比对,匹配上的即将原存储的语料调出使用的道路。这样可以避免就相同的语料重复翻译。只要原来存储的语料译文是准确的,重复利用的译文的准确性是可以保证的。市面上的达多思翻译软件就属这种。为了保证翻译的准确性,达多思翻译软件采用以整句为一个翻译单位。这种翻译方式的缺点是,如果没有事先翻译过并存储于计算机数据库中的语言材料,就不能翻译。整句作为一个翻译单位,准确度大致可以保证,但语言单位过大,匹配率较低。以英文为例,英文的单词有几百万个,韦氏大辞典收录的就60多万条,新英汉词典收录的有词条有14万多条;英文中专业文章句子较长,以专利文件为例,据统计,专利文件中,整句的平均词量(依不同公司的专利文件统计),从20几个到40几个不等。就以20个词放在少说15万个词(英文中几百万词汇,主要是技术词汇,专利文件中所面对的英文词汇是任何其他英文文件所不能比拟的)中去排列组合,是一个无法算清的超天文数字。在这样大的范围内,寻找到一种特定的排列组合,是很难匹配上的。所以一个语言单位中单词量越多,其排列组合越多,从而匹配的概率也就越小。所以达多思不是一个彻底的机器翻译软件,而是一个翻译工具软件,匹配不上或不能完全匹配上时,还需要人工翻译。另外,一个翻译者或一个翻译单位建设数据库的能力是有限的,面对几乎是无限的词汇组合形成的不同的句子,自建能覆盖所有情况的数据库几乎是不可能的。况且,逐步建设和积累数据库需要时间。在数据库积累尚不足够的情况下,达多思软件也不好使用。

第三个阶段,针对第二阶段匹配翻译数据库不足的缺陷,产生了基于网络大数据的匹配翻译方式。谷歌翻译是大数据翻译代表。这种翻译方式,在网络海量数据的支持下,使语言材料的匹配率大幅上升,一定程度上克服了达多思语料数据库不足的缺点。但随意从网络上抓取的翻译材料,其精准度依然存在问题。另外,虽然网络信息量超大,但对于一些长句子、某些专业的、小众化的语言材料也无能为力,例如专利文件翻译。这也是为什么在专利申请翻译中,大多还是使用达多思翻译软件。

发明内容

本发明的目的之一是提供了一种基于语法规则和语料匹配的翻译方法及其系统。

本发明的目的之二是提供了一种语料匹配--语法分析--语言单位分断--语料匹配交替循环处理的翻译及其系统。

本发明的目的之三是提供了一种多种语法和语料数据库的翻译方法及其系统。

本发明的目的之四是提供了一种以英语为中心可以相对多种语言进行英语到目标语言的翻译的方法及其系统。

本发明的目的之五是提供了一种多种语言翻译成英语目标语言的翻译的方法及其系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔晓光,未经崔晓光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410373465.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top