[发明专利]用于机器翻译的完整句识别方法与系统有效
申请号: | 201811225110.2 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109325237B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 何恩培;郑丽华;王莲 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/211;G06F40/58 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 机器翻译 完整 识别 方法 系统 | ||
本申请提出了用于机器翻译的完整句识别系统,该系统包括:(1)预处理系统:该预处理系统将待译文本进行预处理,包括段落识别、结尾识别等;得到以段落为单位的段落子部分集合,例如识别出段落开头与结尾,还可以识别出待译文本的全文结尾;(2)段落子部分处理系统:所述段落子部分处理系统以段落为单位,对所述段落子部分集合进行处理,输出完整句;(3)完整句上传系统:将段落子部分处理系统输出的完整句上传至机器翻译引擎。
技术领域
本申请属于翻译技术领域,尤其涉及用于机器翻译的完整句识别方法与系统。
背景技术
随着计算机辅助技术的发展,各行各业均引入计算机辅助技术用于提高工作效率,翻译工作也不例外。已经出现各种类型的不同机器翻译工具,可以实现不同语言之间的自动翻译。
然而,大部分机器翻译毕竟仅仅是简单的字词对照-查找-替换-拼接-过程,其翻译是机械的过程,并不具备语义分析的能力;此外,要翻译的语料通常是大段的长篇幅文本,但是很多翻译引擎一次性只能翻译一定数量字词的文本,需要翻译员手动复制一定数量的文本进入翻译引擎,这个过程无法实现自动切分;即使采用自动文本切分技术,其也只是根据数量要求平均切分,而没有考虑到切分的每个子部分需要具备完整语义。
进一步的,虽然现有的机器翻译引擎支持整段的上传翻译,但是这种方式翻译结果较差,并且发明人发现,随着整段的数量越多,其翻译效果越差;并且机器翻译的结果并不是最终结果,后续还需要人工校对,如果总是整段输入,人工校对面对整段输出的翻译结果,要校对的错误数量巨大,甚至超过了人工翻译本身的量,极大的降低了工作效率。
通常情况下,为了保证机器翻译本身具备能够输出高质量的翻译结果,翻译人员通常选择每次将单个的完整句子上传,从而翻译引擎能够输出一个完整意义的译句,这个译句本身错误相对较少,翻译员可以实时校对。但是,该过程需要翻译人工从待译文本中识别出一个句子是否具备完整意义,相当于翻译员人工阅读了整个待译文本,整体效率依然较低;并且,有时候一个句子虽然构成完整句,但是字数过少,每次输入较短的句子,就增加了输入和上传的次数。
现有技术中,存在相关的技术判断一个句子是否具备完整意义,例如,通常认为如果某段连续的文本以句号、问号、感叹号结束,则认为该句子结束,可以认为该连续文本构成了一个完整的句子;基于这种思路,可以采用检测特定的符号的方式实现句子结束检测从而完成句子切分。当然,这种方式能够实现预定效果的前提是要处理的文本在形成时便严格遵守标点符号使用规则。
不过,当前的语言环境中,已经很少有人严格按照规定使用标点符号,大部分人除了段落末尾以及文章末尾之外,其他部分从来不使用句号,一个逗号到底或者直接不停的采用分号;更别说乱用问号、感叹号的现象在各种特殊文体中习以为常(例如咆哮体)。因此,仅仅采用前述的判断方式已经不能准确识别出文本中的具有完整意义的句子。
发明内容
为解决上述问题,特别是翻译过程中需要准确切分出完整意义上的句子的问题,本申请提出了一种用于机器翻译的完整句识别方法与系统,能够从待译的文本中准确识别出一段连续文本是否结束构成了一个句子,从而切分该部分构成单次上传内容,输入到机器翻译引擎中。
这里的完整句,是指具备完整意义的句子,而不再是以句号结尾判断,不受待译文本是否正确使用标点符号的限制。
在本发明的第一个方面,提供用于机器翻译的完整句识别系统,该系统包括:
(1)预处理系统:该预处理系统将待译文本进行预处理,包括段落识别、结尾识别等;得到以段落为单位的段落子部分集合,例如识别出段落开头与结尾,还可以识别出待译文本的全文结尾;
(2)段落子部分处理系统:所述段落子部分处理系统以段落为单位,对所述段落子部分集合进行处理,输出完整句;
(3)完整句上传系统:将段落子部分处理系统输出的完整句上传至机器翻译引擎。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811225110.2/2.html,转载请声明来源钻瓜专利网。