[发明专利]一种改进训练语料的平行质量的方法及装置有效

专利信息
申请号: 201610235521.4 申请日: 2016-04-15
公开(公告)号: CN105955966B 公开(公告)日: 2019-04-26
发明(设计)人: 段湘煜;龚慧敏;张民 申请(专利权)人: 苏州大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
地址: 215123 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括:在预先获得的训练语料库中确定待纠正的目标句对,目标句对包括原文句子和相对应的译文句子;从目标句对的所有组合划分点中,选择一个可用组合划分点;利用可用组合划分点划分目标句对,获得原文句子的两个子句和译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案,改进了训练语料的平行质量,提升了统计机器翻译系统的翻译性能。
搜索关键词: 一种 改进 训练 语料 平行 质量 方法 装置
【主权项】:
1.一种改进训练语料的平行质量的方法,其特征在于,包括:在预先获得的训练语料库中确定待纠正的目标句对,所述目标句对包括原文句子和相对应的译文句子;从所述目标句对的所有组合划分点中,选择一个可用组合划分点;利用所述可用组合划分点划分所述目标句对,获得所述原文句子的两个子句和所述译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正所述目标句对;其中,通过以下步骤获得所述训练语料库:获得初始语料库;对所述初始语料库中的语料进行格式规范化处理,获得所述训练语料库;其中,所述从所述目标句对的所有组合划分点中,选择一个可用组合划分点,包括:识别所述目标句对中与预设的组合划分点类型相匹配的所有组合划分点;针对识别到的每个组合划分点,确定利用该组合划分点划分所述目标句对所对应的词对齐错误率;根据各个组合划分点对应的词对齐错误率的大小,确定所述目标句对的可用组合划分点;其中,所述确定获得的子句构成的子句对是否平行,包括:针对每个子句对,确定该子句对的句长信息和词对齐信息;根据所述句长信息和所述词对齐信息,确定该子句对的词对齐信息的词频;根据所述词对齐信息的词频与预设第一阈值的关系,确定该子句对是否平行;其中,利用以下公式计算得到所述词对齐信息的词频:M=(Lei*Lfi)/(Le*Lc);式中,Lei为将所述词对齐信息进行去重处理后对应的原文句子的子句长度;Lfi为将所述词对齐信息进行去重处理后对应的译文句子的子句长度;Le为所述原文句子的长度;Lc为所述译文句子的长度;或者,所述确定获得的子句构成的子句对是否平行,包括:针对每个子句对,确定该子句对的所述句长信息和所述词对齐信息;根据所述句长信息和所述词对齐信息,确定该子句对的词对齐信息的密度;根据所述词对齐信息的密度与预设第二阈值的关系,确定该子句对是否平行;其中,利用以下公式计算所述词对齐信息的密度:P=La/(Le*Lc);式中,Le为所述原文句子的子句长度,Lc为所述译文句子的子句长度,La为所述子句对的词对齐信息的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610235521.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top