[发明专利]计算机翻译数据处理方法及装置在审
申请号: | 201210285384.7 | 申请日: | 2012-08-10 |
公开(公告)号: | CN103577397A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 吴克文;廖剑;张永刚;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 翻译 数据处理 方法 装置 | ||
技术领域
本申请涉及计算机辅助翻译技术领域,特别是涉及一种计算机翻译数据处理方法及装置。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术己经深入我们工作、生活的方方面面。在翻译领域,也出现了计算机辅助翻译技术,例如常见的google翻译、百度翻译或有道翻译等等。
计算机辅助翻译常见的方法有根据语料库实现记忆翻译,即将待翻译的句子分解为几个词语,然后借助于已经存储的实例翻译,对分解出来的词语进行翻译,最后再将翻译后的结果组合起来。例如,需要翻译的句子为“他买了一本书”,则可以分解为“他、买了、一本书”,然后在系统中进行查找对应的翻译实例,例如,查找到“她正在看一本书:sheis reading a book”以及“他买了一台电脑:he bought a computer”,那么就可以对分解出来的词或短语进行翻译得到“he、bought、a book”,最后组合得到翻译结果“he bought a book”。
此种方式可以将句子细分到很小的颗粒,从而可以提高翻译质量。但是因为需要精确的匹配操作,为了保证匹配率,需要在系统中或数据库中维护大量的实例语句数据,这就会占用大量的数据存储空间。同时,在大量的实例语句数据中查询匹配完全相同的词语也需要花费较多的查询时间,从而导致系统的响应速度较慢。当待翻译句子的并发量较大时,还可能会导致系统崩溃。另外,因为需要精确的匹配操作,需要待翻译的句子具有标准的句式,但是在某些特殊的信息领域,其待翻译的大量句子可能都不具有标准格式,那么就可能出现无法匹配的情况,此时往往需要人为的修改待翻译的句子反复查询,直到得到用户期望的结果,这无疑会增加系统的负载。
发明内容
本申请提供一种计算机翻译数据处理方法及装置,能够解决实例语句占用大量系统空间、翻译查询效率低,系统响应慢的问题。
为了解决上述问题,本申请公开了一种计算机翻译数据处理方法,包括以下步骤:
接收待翻译的源语句,对所述源语句进行切分;
将切分得到的词语在分类词典中进行查询,确定各词语的类别;
根据所述源语句各词语的类别在语义模式数据库中查找确定所述源语句的语义模式;
查找所述语义模式对应的翻译规则,根据所述翻译规则对源语句进行翻译。
进一步地,所述根据所述源语句各词语的类别在语义模式数据库中查找确定所述源语句的语义模式包括:
确定源语句的类别组合;
将得到的类别组合分别代入语义模式数据库中查找匹配的语义模式,若能够找到,则获取所述语义模式;
比较所述各匹配的语义模式所对应的类别组合中的类别数量,选取类别数量最多的类别组合所对应的语义模式为源语句的语义模式。
进一步地,所述选取类别数量最多的类别组合所对应的语义模式为源语句的语义模式包括:
判断所述类别数量最多的类别组合是否为源语句的全部词语类别,若是,则选取所述类别数量最多的类别组合所对应的语义模式为源语句的语义模式;
若否,则判断源语句剩余的词语类别组合是否有对应的语义模式,若是,则获取其语义模式,并与所述类别数量最多的类别组合所对应的语义模式共同作为源语句的语义模式,若否,则将所述类别数量最多的类别组合所对应的语义模式作为源语句的语义模式。
进一步地,所述确定源语句的类别组合包括:
若类别数量N为2,则类别组合为一个;
若类别数量N>2,则类别组合一共有N-1个,包括从第一个类别开始的前两个类别为第一类别组合;从第一个类别开始的前三个类别为第二类别组合,直到从第一个类别开始的N个类别为第N-1类别组合。
进一步地,若源语句的语义模式为至少两个语义模式的组合,所述根据所述翻译规则对源语句进行翻译包括:
按照各语义模式所对应的翻译规则对源语句中对应部分进行翻译得到部分翻译结果,将所述部分翻译结果组合得到源语句的最终翻译结果;或
按照各语义模式所对应的翻译规则对源语句中对应部分进行翻译得到部分翻译结果,获取各语义模式间的翻译规则,根据所述翻译规则对部分翻译结果进行调整,得到源语句的最终翻译结果。
本申请还公开了一种计算机翻译数据处理装置,包括:
数据获取模块,用于接收待翻译的源语句,对所述源语句进行切分;
类别确定模块,用于将切分得到的词语在分类词典中进行查询,确定各词语的类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210285384.7/2.html,转载请声明来源钻瓜专利网。