[发明专利]一种语句翻译复杂度的分析方法有效
申请号: | 201310712248.6 | 申请日: | 2013-12-23 |
公开(公告)号: | CN103729348A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06Q10/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 翻译 复杂度 分析 方法 | ||
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种语句翻译复杂度的分析方法。
背景技术
译前处理是翻译过程中非常重要的一个环节,对于一个翻译任务,如何为其确定翻译资源,如何为其安排翻译生产是译前处理的主要工作,这些工作的一个基础就是确定翻译量。翻译任务的翻译量由翻译文档的大小和难度所决定,翻译文档的大小可以通过字数统计得到,相对简单准确,而翻译文档的难度的判定则复杂得多,其中判断文档翻译难度最重要的一个因素是判断文档中语句的翻译难度。
对于语句翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待语句进行标注和判别,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对语句语义难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对语句进行翻译难度判断,目前最常用的方法是通过对语句中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对语句翻译难度的判别,还缺乏一个既高效又相对准确的判别方法。
发明内容
本发明旨在提供一种语句翻译复杂度的分析方法,解决了如何对语句的翻译复杂度进行既高效又相对准确的判别的问题。
本发明公开了一种语句翻译复杂度的分析方法,包括:
扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;
根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;
根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。
优选地,所述待译语句中的句长为所述待译语句所述词汇总数。
优选地,确定所述待译语句中的子句的平均长度的过程包括:
将所述待译语句中的所述词汇总数除以所述子句数量,结果作为所述子句的平均长度。
优选地,确定所述待译语句的词汇等级的过程包括:
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为词汇等级调节系数,word为总词汇数。
优选地,所述词汇等级调节系数为所述多元线性回归模型的回归系数,采用最小二乘法对样本数据进行计算得到。
优选地,确定所述待译语句的实义词密度的过程包括:
将得到的所有所述实义词按照一定顺序进行排列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310712248.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有推杆的采矿刨机
- 下一篇:关于双梯度钻井的井监测、感测、控制和泥浆测井