[发明专利]生成单语解析模型的方法和装置以及语言转换装置有效
申请号: | 201310491909.7 | 申请日: | 2013-10-18 |
公开(公告)号: | CN104572629A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 付亦雯;郑仲光;葛乃晟;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;王娜丽 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 解析 模型 方法 装置 以及 语言 转换 | ||
技术领域
本发明涉及文字处理领域,具体涉及在不同语言转换过程中生成单语解析模型的方法和装置以及语言转换装置。
背景技术
在不同语言转换过程中,例如,在统计机器翻译领域中,不同语言的语序有很大差别。调序模型可以是基于位置的,也就是描述两种语言中每个句子不同位置的短语的调序概率。调序模型也可以是基于短语本身的,例如,基于短语本身来描述在给定当前短语对条件下,其前后短语对是否互换位置。由于实际的调序模型远非“互换位置”这么简单,而是涉及句法知识,因而调序的效果仍然不佳。目前重定位问题还是机器翻译中亟待解决的问题。
根据句法分析的程度,已有的预调序可以分为三种:基于词形的预调序、基于词块的预调序、以及基于深层句法分析的预调序。此外,根据获取预调序知识的方式,已有的预调序可以分为两种:基于统计的知识获取的预调序、以及基于专家规则的预调序。在基于统计的知识获取的预调序中,通过预先对双语平行语料进行统计分析,然后自动获得调序规则。
目前基于句法分析的预调序多是分别训练句法分析模型和调序模型,并且,句法分析模型的训练语料在大多数情况下与训练调序模型的不一致,造成预调序过程中句法分析误差,并导致调序准确率下降。然而,构建统一调序与句法分析训练语料是耗时费力的。
因此,需要一种能够解决上述问题的技术。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种生成单语解析模型的方法和装置以及语言转换装置和方法。
根据本发明的一个方面,提供了一种生成单语解析模型的方法,包括:按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示,其中,预定策略包括:以第一预定概率在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记,以及以第二预定概率在所述候选结构表示的节点处标记表示要插入助词的标记;根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及对所选择的结构表示进行建模以生成单语解析模型。
根据本发明的另一个方面,提供了一种语言转换方法,包括:利用上述的生成单语解析模型的方法所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示;对结构表示进行解析以生成经解析的待转换源语句;以及将经解析的待转换源语句转换成目标语句。
根据本发明的再一个方面,提供了一种生成单语解析模型的装置,包括:语序调整部,用于按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序;中间语句生成部,用于按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句,其中,在目标语句中存在该助词而在源语句中没有与该助词对应的助词;候选结构表示生成部,用于根据目标语言和源语言的双语平行语料,利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示,其中,预定策略包括:以第一预定概率在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记,以及以第二预定概率(PI)在所述候选结构表示的节点处标记表示要插入助词的标记;结构表示选择部,用于根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示;以及单语解析模型生成部,用于对所选择的结构表示进行建模以生成单语解析模型。
根据本发明的又一个方面,提供了一种语言转换装置,包括:生成部,用于利用上述用于生成单语解析模型的装置所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示;解析部,用于对结构表示进行解析以生成解析待转换源语句;以及转换部,用于将解析待转换源语句转换成目标语句。
另外,根据本发明的又一个方面,发明的实施例还提供了用于实现上述方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社;,未经富士通株式会社;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310491909.7/2.html,转载请声明来源钻瓜专利网。