[发明专利]平行口语语料的对齐方法和装置无效
申请号: | 200710199195.7 | 申请日: | 2007-12-20 |
公开(公告)号: | CN101464856A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 任登君;吴华;王海峰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 李 峥;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种平行口语语料的对齐方法和装置以及分别采用了这样的平行口语语料的对齐方法和装置的语音机器翻译方法和系统。该平行口语语料的对齐方法包括:从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以获得短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。本发明通过利用从语料库中的平行口语语料获得的基于统计方法和词典的高准确率词对齐集合对平行口语语料进行短语对齐、进而词对齐,来获得短语对齐集合和词对齐集合,并将其用于语音机器翻译中,从而利用短语的完整性来减少口语词对齐的歧义。 | ||
搜索关键词: | 平行 口语 语料 对齐 方法 装置 | ||
【主权项】:
1. 一种平行口语语料的对齐方法,包括:从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以得到短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710199195.7/,转载请声明来源钻瓜专利网。
- 上一篇:电子词典机数据更新方法
- 下一篇:一种混合数字接口