[发明专利]一种基于依存句法树的翻译规则抽取方法和翻译方法无效
申请号: | 201110207750.2 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102243626A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 米海涛;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 翻译 规则 抽取 方法 | ||
1.一种基于依存句法树的翻译规则抽取方法,包括以下步骤:
步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点n标记中心词跨度和依存跨度,所述中心词跨度是与n对齐的所有目标词的位置的集合;所述依存跨度指以n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;
步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;
步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;
其中所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
2.根据权利要求1所述的翻译规则抽取方法,其中步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括:
(i)中心词节点的中心词跨度对齐一致,
(ii)所有修饰词的依存跨度不为空,
(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交。
3.根据权利要求1或2所述的翻译规则抽取方法,步骤3)包括以下步骤:
(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;
(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,
a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;
b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。
4.根据权利要求3所述的翻译规则抽取方法,步骤3)还包括以下步骤:
(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;
(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否则,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。
5.一种基于依存句法树的翻译方法,包括以下步骤:
步骤5-1)通过分析源语言串得到源语言串的依存句法树;
步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;
其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
6.根据权利要求5所述的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。
7.根据权利要求5所述的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。
8.根据权利要求5所述的翻译方法,所述步骤5-2)中所述的翻译规则是根据权利要求1、2、3或4所述的翻译规则抽取方法得到的规则。
9.根据权利要求5所述的翻译方法,所述步骤5-2)包括以下步骤:
后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,
步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;
步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;
步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;
重复步骤5-2-1)、5-2-2)和5-2-3)直到访问了源语言串依存句法树的所有节点为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110207750.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:解析计算耦合互连功耗的方法
- 下一篇:输入信息的修正方法和装置