[发明专利]一种基于依存句法树的翻译规则抽取方法和翻译方法无效
申请号: | 201110207750.2 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102243626A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 米海涛;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 翻译 规则 抽取 方法 | ||
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于依存句法树的统计机器翻译方法。
背景技术
依存文法是自然语言处理中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点:依存结构具有最好的短语结合性质(phrasal cohesion properties);依存边给出了语义信息。因此,依存文法是机器翻译领域中非常具有吸引力的资源。但是现有的依存句法树到串模型(参考文献1:Deyi Xiong,Qun Liu,and Shouxun Lin.A Dependency Treelet String Correspondence Model for Statistical Machine Translation.In Proceedings of Second Workshop on Statistical Machine Translation.2007.)以源语言依存句法树中的任意连通子图作为翻译规则的基本结构,这种翻译规则没有明确的语言学意义,更重要的是这种翻译规则不能表达全部的调序关系,需要借助启发式或调序模型来约束翻译得到的串的词序以完成整个翻译过程。此外,即使引入启发式或调序模型来约束翻译结果的词序,现有依存句法树到串模型的性能依然落后于主流的成分树到串模型(参考文献2:Yang Liu,Qun Liu,and Shouxun Lin.2006.Tree-to-String Alignment Template for Statistical Machine Translation.In Proceedings of COLING/ACL 2006,pages 609-616,Sydney,Australia,July.)。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于依存句法树的翻译方法,通过将调序关系直接表示于翻译规则中来提高翻译的性能。
本发明的目的是通过下述技术方案实现的:
一方面,本发明提供了一种基于依存句法树的翻译规则抽取方法,包括以下步骤:
步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点n标记中心词跨度和依存跨度,所述中心词跨度是与n对齐的所有目标词的位置的集合;所述依存跨度指以n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;
步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;
步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;
其中所述中心词-修饰词片段为以中心(head)词为根节点,以修饰(dependent)词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词(head-dependent)片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
根据本发明实施例的翻译规则抽取方法,其中步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括:
(i)中心词节点的中心词跨度对齐一致,
(ii)所有修饰词的依存跨度不为空,
(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交;
根据本发明实施例的翻译规则抽取方法,步骤3)包括以下步骤:
(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;
(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,
a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;
b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110207750.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:解析计算耦合互连功耗的方法
- 下一篇:输入信息的修正方法和装置