[发明专利]一种词语对齐方法及装置无效
申请号: | 201310389092.2 | 申请日: | 2013-08-30 |
公开(公告)号: | CN103425638A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 沈世奇;刘洋;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词语 对齐 方法 装置 | ||
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种词语对齐方法及装置。
背景技术
随着国际交流的日益深入,人们的语言翻译需求日益增长。互联网作为当今最为便捷的获取信息平台,用户对在线翻译需求日益迫切。如何为用户提供高质量的翻译服务成为一个难题。互联网中存在的语言种类多,各语言又具有大量的多义性,语言又处于时时刻刻的变化之中,这就对翻译服务提出更高的要求。
词语对齐旨在计算平行文本中词语之间的对应关系,它最早是作为机器翻译的中间结果提出。由于词语对齐能够为不同自然语言在词语层建立关联,它在机器翻译、机器辅助翻译、词义消歧和双语词典构建等多项自然语言处理任务中起着关键的作用。例如,在统计机器翻译中,无论是基于短语的方法、基于层次短语的方法还是基于句法的方法,往往都依赖于词语对齐进行规则抽取,因而词语对齐的质量对机器翻译译文的质量具有重要的影响。
虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,然而在搜索算法方面,对于词语对齐的搜索空间,空间大小是随着句子长度而指数级别增长的。由于词语对齐中连线之间存在错综复杂的依赖关系,无论是爬山法还是柱搜索算法都面临着严重的搜索错误问题。但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。
综上所述,急需一种新的词语对齐方法,解决现有技术中搜索错误严重的问题,提高对齐的准确率。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种词语对齐方法及装置,高效准确地完成词语对齐工作,以克服现有技术搜索错误率高,词语对齐不准确的问题。
(二)技术方案
为了解决上述技术问题,一方面,本发明提供了一种词语对齐方法,包括如下步骤:
A、选取不同的词语对齐特征分别建立判别式子模型一和判别式子模型二;
B、搜索词语对齐空间,分别获得上述两个判别式子模型的最优对齐中间结果;
C、利用对偶分解算法融合上述判别式子模型一和判别式子模型二的最优对齐中间结果,获得最终词语对齐结果。
进一步地,所述步骤A前还包括步骤:
A′、构建数据集和进行预处理,并使用生成式模型对训练集中的训练语料进行训练,得到模型参数;
所述构建数据集包括收集双语句对,选择训练集、开发集和测试集;
所述进行预处理包括对数据集中源语言文本和目标语言文本中的句子切分成词,以及统一转换大小写。
具体地,所述模型参数包括源语言和目标语言之间的翻译概率和繁殖概率;
所述步骤A中的词语对齐特征包括上述翻译概率和繁殖概率;
所述词语对齐特征还包括:精准匹配数量、交叉数量、邻居数量、连接的词语数量、兄弟距离、连线数量、特殊连线数量。
优选地,所述判别式子模型一是基于全部9种词语对齐特征构建的;
所述判别式子模型二是基于全部9种中的任6种词语对齐特征构建的。
进一步地,所述步骤B具体是通过按序执行以下步骤实现的:
B1、对每个判别式子模型的每个词语对齐特征设置初始特征权重作为当前特征权重;
B2、基于每个词语对齐特征的当前特征权重,在对齐空间中分别选取判别式子模型一和判别式子模型二的最优对齐作为对齐中间结果;
B3、以开发集标注语料为参考,获得上述对齐中间结果的词语对齐准确度,使用最小错误率训练算法,逐个调整当前特征权重,分别得到两个判别式子模型对应的每个词语对齐特征的最优特征权重,将当前特征权重更新为所述最优特征权重;
B4、再次执行步骤B2,执行结果分别为判别式子模型一和判别式子模型二的最优特征权重下的最优对齐中间结果。
进一步地,所述步骤B2中所述选取判别式子模型一和判别式子模型二的最优对齐具体为:
采用柱搜索方法搜索对齐空间,计算搜索范围内每个对齐的分数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310389092.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置和信息处理方法
- 下一篇:太阳能泥水分离系统