[发明专利]一种基于句法树的规则抽取及翻译方法有效
| 申请号: | 201310450616.4 | 申请日: | 2013-09-25 |
| 公开(公告)号: | CN103473223A | 公开(公告)日: | 2013-12-25 |
| 发明(设计)人: | 谢军;孟凡东;吕雅娟;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 句法 规则 抽取 翻译 方法 | ||
1.一种基于句法树的规则抽取方法,其特征在于,包括下列步骤:
1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;
2)遍历步骤1)标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心-修饰片段,得到含成分短语节点的中心-修饰片段;
3)依据所抽取的含成分短语节点的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成含成分短语的中心-修饰规则。
2.根据权利要求1所述的基于句法树的规则抽取方法,其特征在于,所述步骤1)中,如果以成分句法树中某个成分短语节点为根的子树所覆盖的源语言端连续词序列恰好被一个依存句法树片段完全覆盖,则该依存句法树片段与所述成分短语节点相对应。
3.根据权利要求2所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)中,所述含成分短语的中心-修饰规则中包括短语类别约束变量,所述短语类别约束变量表示对应该短语类别约束变量的节点可由与该节点短语类别相同的成分短语替换。
4.根据权利要求3所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)中,在抽取含成分短语节点的中心-修饰片段时,若成分短语节点覆盖依存中心词节点,则以成分短语节点作为中心-修饰片段的根节点,以依存修饰词为中心-修饰片段的孩子节点;若成分短语节点不覆盖依存中心词,则以依存中心词节点为中心-修饰片段的根节点,以成分短语节点及不被成分短语节点覆盖的其它依存修饰节点作为为中心-修饰片段的孩子节点。
5.根据权利要求4所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)还包括:抽取无成分短语节点的中心-修饰片段;
所述步骤3)还包括:依据所抽取的无成分短语节点的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成无成分短语的中心-修饰规则。
6.根据权利要求5所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)还包括:抽取双语短语规则,双语短语规则的源语言端和目标语言端都是串。
7.根据权利要求2所述的基于句法树的规则抽取方法,其特征在于,对于已经标记成分短语节点的源语言依存句法树,对于每个依存句法树节点n,利用所述对齐关系标记依存句法树节点跨度和子树跨度;所述依存句法树节点跨度是与依存句法树节点n对齐的所有目标词的位置的集合;所述子树跨度是指以依存句法树节点n为根的子树中所有节点的节点跨度的并集的闭包;对于每个成分短语节点m,标记短语节点跨度,所述短语跨度是成分短语节点m包含的所有依存句法树节点的节点跨度的并集的闭包。
8.根据权利要求7所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)中,在抽取含成分短语节点的中心-修饰片段时,若成分短语节点覆盖依存中心词节点,则以成分短语节点作为中心-修饰片段的根节点,以依存修饰词为中心-修饰片段的孩子节点;若成分短语节点不覆盖依存中心词,则以依存中心词节点为中心-修饰片段的根节点,以成分短语节点及不被成分短语节点覆盖的其它依存修饰节点作为为中心-修饰片段的孩子节点;
对于含成分短语节点的中心-修饰片段,若成分短语节点覆盖根节点,根节点的短语跨度对齐一致,孩子节点的子树跨度对齐一致;若成分短语节点不覆盖根节点,根节点的节点跨度对齐一致,孩子节点中,成分短语节点的短语跨度对齐一致,其它孩子节点的子树跨度对齐一致。
9.根据权利要求8所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)中,所述含成分短语的中心-修饰规则包括半词汇化的含成分短语的中心-修饰规则,其构造方法为:构造半词汇化的含成分短语的中心-修饰规则源语言端,将依存句法树内部节点标记为词汇化约束变量;将成分短语节点标记为短语类别约束变量;构造半词汇化的含成分短语的中心-修饰规则目标语言端:按照含成分短语节点的中心-修饰片段中各个节点所标记的跨度排列中心-修饰片段中所有节点,并用词汇化约束变量替换其中依存句法树内部节点,用短语类别约束变量替换其中成分短语节点;短语类别约束变量表示对应该短语类别约束变量的节点可由与该节点短语类别相同的短语替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310450616.4/1.html,转载请声明来源钻瓜专利网。





