[发明专利]一种改进训练语料的平行质量的方法及装置有效
申请号: | 201610235521.4 | 申请日: | 2016-04-15 |
公开(公告)号: | CN105955966B | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 段湘煜;龚慧敏;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括:在预先获得的训练语料库中确定待纠正的目标句对,目标句对包括原文句子和相对应的译文句子;从目标句对的所有组合划分点中,选择一个可用组合划分点;利用可用组合划分点划分目标句对,获得原文句子的两个子句和译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案,改进了训练语料的平行质量,提升了统计机器翻译系统的翻译性能。 | ||
搜索关键词: | 一种 改进 训练 语料 平行 质量 方法 装置 | ||
【主权项】:
1.一种改进训练语料的平行质量的方法,其特征在于,包括:在预先获得的训练语料库中确定待纠正的目标句对,所述目标句对包括原文句子和相对应的译文句子;从所述目标句对的所有组合划分点中,选择一个可用组合划分点;利用所述可用组合划分点划分所述目标句对,获得所述原文句子的两个子句和所述译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正所述目标句对;其中,通过以下步骤获得所述训练语料库:获得初始语料库;对所述初始语料库中的语料进行格式规范化处理,获得所述训练语料库;其中,所述从所述目标句对的所有组合划分点中,选择一个可用组合划分点,包括:识别所述目标句对中与预设的组合划分点类型相匹配的所有组合划分点;针对识别到的每个组合划分点,确定利用该组合划分点划分所述目标句对所对应的词对齐错误率;根据各个组合划分点对应的词对齐错误率的大小,确定所述目标句对的可用组合划分点;其中,所述确定获得的子句构成的子句对是否平行,包括:针对每个子句对,确定该子句对的句长信息和词对齐信息;根据所述句长信息和所述词对齐信息,确定该子句对的词对齐信息的词频;根据所述词对齐信息的词频与预设第一阈值的关系,确定该子句对是否平行;其中,利用以下公式计算得到所述词对齐信息的词频:M=(Lei*Lfi)/(Le*Lc);式中,Lei为将所述词对齐信息进行去重处理后对应的原文句子的子句长度;Lfi为将所述词对齐信息进行去重处理后对应的译文句子的子句长度;Le为所述原文句子的长度;Lc为所述译文句子的长度;或者,所述确定获得的子句构成的子句对是否平行,包括:针对每个子句对,确定该子句对的所述句长信息和所述词对齐信息;根据所述句长信息和所述词对齐信息,确定该子句对的词对齐信息的密度;根据所述词对齐信息的密度与预设第二阈值的关系,确定该子句对是否平行;其中,利用以下公式计算所述词对齐信息的密度:P=La/(Le*Lc);式中,Le为所述原文句子的子句长度,Lc为所述译文句子的子句长度,La为所述子句对的词对齐信息的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610235521.4/,转载请声明来源钻瓜专利网。
- 上一篇:切削液循环再生补给系统
- 下一篇:车用宽温域生物润滑油及其制备方法