[发明专利]基于锚点的增长式实时双语词对齐的对齐方法及对齐系统在审
申请号: | 201611169586.X | 申请日: | 2016-12-16 |
公开(公告)号: | CN106844332A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 张家俊;黄国平;周玉;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 郭文浩,李飞 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增长 实时 双语 对齐 方法 系统 | ||
1.一种基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述对齐方法包括:
对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
根据所述源语言词组和目标语言词组确定探测锚点集合;
根据所述探测锚点集合,对源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤,直至完成全部源语言句子和目标语言句子的处理。
2.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述确定探测锚点集合的方法包括:
步骤S21:根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;
步骤S22:将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;
步骤S23:标记所述锚点对应的源语言句子词的下标为横坐标,将横坐标所在行的所有互信息替换为最小互信息值;标记所述锚点对应的目标语言句子词的下标为纵坐标,将纵坐标对应列的所有互信息替换为最小互信息值;
步骤S24:从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
3.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,在步骤S22之前,所述确定探测锚点集合的方法还包括:
初始化对齐描点集合,使得所述对齐描点集合为空集。
4.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。
5.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述对源语言词组和目标语言词组进行双语短语切分的方法包括:
逐一遍历所述探测锚点集合中的每个启用锚点,以设定位置的启用锚点为中心,在满足双语短语扩展的约束条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,获得多个双语短语切分候选,形成双语短语切分候选集合。
6.根据权利要求5所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点,能跨越禁用锚点;且源语言句子端和目标语言句子端均不能超过距离阈值。
7.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括:
采用动态规划算法搜索最佳的双语短语切分候选,并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。
8.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述根据当前的批处理训练集更新词对齐模型的方法包括:
随机抽样一批对齐双语词作为初始化训练数据,并训练得到双语短语翻译对当前的词对齐模型的状态跳转概率和词翻译概率;
更新共现次数小于设定次数的源语言词和目标语言词的翻译概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611169586.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化艾条成型设备
- 下一篇:一种方便清灰的艾灸盒