[发明专利]一种基于句法树的规则抽取及翻译方法有效
| 申请号: | 201310450616.4 | 申请日: | 2013-09-25 |
| 公开(公告)号: | CN103473223A | 公开(公告)日: | 2013-12-25 |
| 发明(设计)人: | 谢军;孟凡东;吕雅娟;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 句法 规则 抽取 翻译 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,具体地说,本发明涉及一种基于句法树的规则抽取及翻译方法。
背景技术
当前,句法树到串的翻译模型是统计机器翻译的热点。根据语言学结构的差异,这些模型可分为两大类:成分句法树到串模型(参考文献1:Yang Liu,Qun Liu,and Shouxun Lin.2006.Tree-to-String Alignment Template for Statistical Machine Translation.In Proceedings of COLING/ACL2006,pages609-616,Sydney,Australia,July.)和依存句法树到串模型(参考文献2:Jun Xie,Haitao Mi,and Qun Liu.2011.A Novel Dependency-to-String Model for Statistical Machine Translation.In Proceedings of EMNLP2011,pages216-226,Edinburgh,UK,July.)。这两种模型能够分别捕获不同的语言学现象。成分句法树描述句子中词语以及词语序列(sequence of words)的句法成分组成,具有良好的短语兼容性,然而其长距离调序的表达不如依存句法树直接。依存句法树描述句子中词语之间的文法关系,能够更简单、直接地描述词语间的长距离依赖,然而,它的短语兼容性又有所不足,对于整块短语的翻译效果、流利度不如成分句法树的效果好。
发明内容
因此,本发明的任务是克服现有技术的缺陷,提出一种既具有较强的长距离调序能力,又具有很好的短语兼容性的基于句法树的规则抽取及翻译方法。
为实现上述发明目的,本发明提供了一种基于句法树的规则抽取方法,包括下列步骤:
本发明还提供了相应的基于句法树的翻译方法,包括下列步骤:
与现有技术相比,本发明具有下列技术效果:
1、本发明具有较强的长距离翻译调序能力;具有较好的短语兼容性,弥补了单纯用依存句法树指导翻译的不足。
2、本发明使得短语的翻译和短语级别的长距离调序更好地表达。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1(a)示出了成分句法树的一个示例;
图1(b)示出了依存句法树的一个示例;
图1(c)示出了根据本发明一个实施例的标记了成分短语节点的依存句法树的一个示例;
图2(a)示出了一个无成分短语节点的中心-修饰片段的示例;
图2(b)示出了一个含成分短语节点的中心-修饰片段的示例;
图2(c)示出了另一个含成分短语节点的中心-修饰片段的示例;
图3(a)示出了一个无成分短语节点的中心-修饰规则示例;
图3(b)示出了一个含成分短语节点的中心-修饰规则示例;
图3(c)示出了一个双语短语规则示例;
图4示出了为每个依存树节点标记了节点跨度和子树跨度,并为每个成分短语节点标记了短语跨度的依存句法树示例;
图5(a)示出了词汇化的无成分短语节点的中心-修饰规则的示例;
图5(b)示出了半词汇化的含成分短语节点的中心-修饰规则的示例;
图6(a)示出了非词汇化的无成分短语节点的中心-修饰规则的示例;
图6(b)示出了非词汇化的含成分短语节点的中心-修饰规则的示例;
图7示出了本发明一个实施例的流程示意图;
图8示出了一个翻译森林的示例。
具体实施方式
为了使发明目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供了一种基于成分句法树和依存句法树相结合的翻译规则抽取方法,具体包括下列步骤:
步骤1:对于四元组(源语言成分句法树,源语言依存句法树,目标语言串,源语言与目标语言间的词语对齐关系),遍历源语言成分句法树上的每个成分短语节点m,若以m为根的子树所覆盖的源语言端连续词序列A,能够在源语言依存句法树上找到恰好完全覆盖A的依存句法树连续节点片段d,则将成分短语节点m标记到依存句法树的片段d上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310450616.4/2.html,转载请声明来源钻瓜专利网。





