[发明专利]一种机器翻译语料质量评估处理方法在审
| 申请号: | 202210803158.7 | 申请日: | 2022-07-07 |
| 公开(公告)号: | CN115310459A | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 李天洋;胡环环;王艺宁 | 申请(专利权)人: | 合肥群音信息服务有限公司 |
| 主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/58 |
| 代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 李敏 |
| 地址: | 230000 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器翻译 语料 质量 评估 处理 方法 | ||
1.一种机器翻译语料质量评估处理方法,其特征在于,包括:
获取原始翻译语料,以及所述原始翻译语料对应的所述语料特征;其中,所述语料特征包括翻译质量、语言模型概率、翻译模型概率中的一种或多种;
根据所述语料特征计算获取所述原始翻译语料中子语料的语料质量评分,并根据所述语料质量评分对所述子语料进行排序,获取目标翻译语料;
基于覆盖度对所述目标翻译语料进行分析,获取冗余率;以及基于专业人员抽样分析所述目标翻译语料,判断质量是否达标,并获取质量分析标签;
将所述质量分析标签和所述冗余率联合计算,获取所述原始翻译语料对应的原始语料评分,根据所述原始语料评分进行质量评估。
2.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,在获取所述原始翻译语料之后,分析获取所述原始翻译语料对应的语料类型;其中,所述语料类型包括单语语料和平行语料;
所述单语语料对应的所述语料特征包括通过专业人员评估获取的所述语言模型概率;其中,所述语言模型概率用于表征所述子语料的流畅度。
3.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,结合所述语料特征对应的特征权重获取所述子语料的所述语料质量评分,包括:
计算获取所述语料特征对应的特征值,并标记为Pi;其中,i为所述语料特征的编号;
通过公式获取所述语料质量评分Q(c,e);其中,(c,e)表示句对,c为源语句,e为目标语句,wi为语料特征i对应的特征权重。
4.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,根据所述语料质量评分对所述子语料进行排序,获取所述目标翻译语料,包括:
获取若干所述子语料对应的所述语料质量评分;
将排序规则和所述语料质量评分结合,对若干所述子语料排序;其中,所述排序规则包括从大到小或者从小到大;
按照语料长度对排序后的若干所述子语料进行调整,获取所述目标翻译语料;其中,所述语料长度用于调整语料质量评分相同的若干子语料的顺序。
5.根据权利要求4所述的一种机器翻译语料质量评估处理方法,其特征在于,基于所述覆盖度分析所述目标翻译语料进行分析,获取所述冗余率,包括:
获取所述目标翻译语料;
通过所述覆盖度对所述目标翻译语料进行扫描筛选,获取高效翻译语料;其中,所述覆盖度的参考指标包括词的覆盖、N-gram的覆盖、短语翻译对的覆盖中的一种或者多种;
计算所述高效翻译语料在所述目标翻译语料中的所占比例,标记为所述冗余率。
6.根据权利要求5所述的一种机器翻译语料质量评估处理方法,其特征在于,基于专业人员对所述目标翻译语料进行抽样分析,根据抽样分析结果生成所述质量分析标签,包括:
通过专业人员从所述目标翻译语料的首尾各随机抽取设定比例的子语料,并分别标记为首部语料和尾部语料;其中,所述设定比例的范围为[0.05,0.3];
当所述首部语料和所述尾部语料对应若干子语料的语料质量评分的平均分值不低于分值阈值时,则将所述质量分析标签设置为1;否则,将所述质量分析标签设置为0;其中,所述分值阈值根据经验设定。
7.根据权利要求6所述的一种机器翻译语料质量评估处理方法,其特征在于,在获取所述质量分析标签之前,根据所述首部语料和所述尾部语料评估所述目标翻译语料的合理性,包括:
专业人员对所述首部语料和所述尾部语料中的子语料进行人工评分,并标记为人工质量评分;
当所述设定规则为从大到小时,所述首部语料中任意一个所述子语料对应的人工质量评分均大于所述尾部语料,判定所述目标翻译语料合理;或者
当所述设定规则为从小到大时,所述首部语料中任意一个所述子语料对应的人工质量评分均不大于所述尾部语料,判定所述目标翻译语料合理。
8.根据权利要求7所述的一种机器翻译语料质量评估处理方法,其特征在于,将所述质量分析标签和所述冗余率联合分析,根据分析结果对原始翻译语料进行质量评估,包括:
将所述冗余率和所述质量分析标签分别标记为RL和ZFB;
通过公式YPF=α×ZFB×RL获取原始语料评分YPF;其中,α为大于0的比例系数;
当YPF≥L时,则判定所述原始翻译语料质量合格;否则,判定所述原始翻译语料不合格;其中,L为根据经验数据设定的评分阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥群音信息服务有限公司,未经合肥群音信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210803158.7/1.html,转载请声明来源钻瓜专利网。





