[发明专利]一种获取词条译文的方法及系统在审
申请号: | 201611199556.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106776590A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 武英波 | 申请(专利权)人: | 北京金山办公软件股份有限公司;珠海金山办公软件有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 词条 译文 方法 系统 | ||
技术领域
本发明涉及语言信息转换领域,特别是涉及一种获取词条译文的方法及系统。
背景技术
随着全球的国际化,越来越多的文化交流在世界范围内发生,越来越多的中国人使用英语或其他语言与外国人交流,作为以中文为母语的中国人,在外语的口语、书面语中,经常遇到不知道如何表达才是地道的表达方式,不知道某外国人名应该如何拼写,不知道某些中文固定搭配应该如何翻译成外文等等。同样,外国人在使用中文时也常常遇到相同的问题。为解决此类问题,传统的方法是通过查阅各种人工构造的词典,人工构造的词典,虽然具有很高的可信性,但人工构造词典,成本高、词典更新频率低,不能及时地收录新词的翻译。
随着互联网、信息技术的飞速发展,在计算机领域出现了新的双语词典构建方法,其不再依赖于传统的人工词典,提高了效率、新词更新频率高,并且对于使用者来说极为便利。现有的双语词典自动构建的方法主要有:基于模式匹配的方法和基于词对齐方法。其中,基于模式匹配的方法是按照特定的模式(模块),从文本中抽取特定形式的文本,“括号解释型”是其中一种,“单行解释型”也是基于模式匹配的方法。以括号解释型为例,假设待抽取文本为“这个品牌的矿泉水(mineral water)品质优秀…”,按照括号定义的模式,可以抽取出“矿泉水-mineral water”这样的翻译词对。基于模式匹配的方法,其优点是能够抽取出网页上存在的新词及译文,而且词典规模随着处理网页数量的增大而增大。但缺点也很明显,那就是互联网的数据鱼龙混杂,良莠不齐,而且基于固定模式获得的翻译对未必都是高质量的译文。以“括号型解释型”为例,有些括号内的内容与之前的正文之间并不是翻译关系,这样提取的“翻译对”显然不准确。并且这种方法需要做较多的后续处理,比如去除冗余、干扰信息。因此这种方法的准确率通常受到网页质量的限制。
基于词对齐方法:词对齐是指将双语文本(比如中英)中互为翻译关系的词标识出而得到的结果。词对齐方法有多种,公知的有规则方法、统计方法及词典方法等。在现有技术中使用最广泛,技术最先进的是统计词对齐方法。统计词对齐方法的基本原理是:计算双语句对中词与词之间的“翻译概率”,概率的计算是基于“统计机器翻译模型”理论得到,并且需要迭代计算若干次。在得到词对齐的基础上,利用对角线法,可以抽取翻译短语。所谓对角线法,指的是将双向对齐词(比如中英、英中对齐词)组成一个矩阵(如图1),矩阵中有值的位置表示对齐关系。以图1为例,通过对角线的判定,可以认为“工业训练中心”与“industrial training centers”是对译关系。
统计词对齐方法得出的翻译结果不一定是真正意义的“短语”,可能是“are of the”这样的字符串。统计词对齐方法的另一个缺点是,由于要考虑全局信息,即多次迭代求概率,使得一些小的错误会导致其它的短语对齐。以上面的例子为例,若“训练”与“industrial”对应上的话,“中心”很有可能与“training”相对应,这样会导致错误传播。因此,统计词对齐方法虽然较之前的各种方法先进,但因为需要多次迭代求概率,需要处理的数据量大,处理时间长,需要对全部双语句子进行数次处理,才能确定最终结果。如对于300万对规模的句子,在服务器上进行处理,通常需要处理3-4天才有结果,同时可能会发生对齐错误,影响翻译结果的准确性。
发明内容
本发明所要解决的技术问题是提供一种获取词条译文的方法及系统,提高译文生成效率,提高译文结果的准确度。
为了解决上述问题,本发明实施例公开了一种获取词条译文的方法,包括步骤:
接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类;
根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类;
以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山办公软件股份有限公司;珠海金山办公软件有限公司,未经北京金山办公软件股份有限公司;珠海金山办公软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199556.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于众投的译文评价方法及系统
- 下一篇:直译时的句式选择方法