[发明专利]一种机器翻译的断句方法及系统、计算机程序、计算机有效
申请号: | 201711310547.1 | 申请日: | 2017-12-11 |
公开(公告)号: | CN107832308B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 宗浩;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/58 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 断句 方法 系统 计算机 程序 | ||
本发明属于计算机软件技术领域,公开了一种机器翻译的断句方法及系统、计算机程序、计算机,包括:给出输入文本的语言种类;使用断句方法进行文本的句子切分。本发明可以提高长句子或者篇章文本的翻译质量,断句后分开翻译再组合回来的译文质量明显优于未断句的质量;还可以解决超长句子翻译时间过长的问题,通过断句分发翻译请求来达到提高翻译响应速度的效果。本发明针对机器翻译实际应用中可能存在的句子切分问题,提出了机器翻译的句子切分方法。在实际应用测试中,提高了句子翻译准确性在BLEU(Bilingual Evaluation Understudy)上平均有0.8左右的提升,在翻译效率上也有约7%左右的提升。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种机器翻译的断句方法及系统、计算机程序、计算机。
背景技术
机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向,具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展,机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。目前,大部分机器翻译使用的断句方法均为简单的以句号、问号、感叹号进行切分,不会针对引号进行单独处理;百度没有对引号中的句子单独处理,如果使用本文提出的句子切分方法,则不会出现百度类似的问题,错误的将引号中的句子断开。由于错误的将句子断开,百度翻译还多译出了一个引号,增加了翻译的忠实度错误。此外,如果翻译中存在小数点,标题点,网址,域名,路径等容易引发断句错误从而使得翻译结果不佳。遇到这种情况,机器翻译往往需要耗费更多的时间对这种不符合语法的冗长句子进行翻译。如果将其切分成更小的碎片可以有效的减少翻译时间。
综上所述,现有技术中存在的问题是:目前机器翻译没有句子切分;对于引号中存在多句话;句子中存在小数点、标题点、网址、域名、路径和缩写等情况时往往表现不佳。
发明内容
针对现有技术存在的问题,本发明提供了一种机器翻译的断句方法及系统、计算机程序、计算机。
本发明是这样实现的,一种机器翻译的断句方法,所述机器翻译的断句方法包括:
步骤一,给出输入文本的语言种类;
步骤二,使用断句方法进行文本的句子切分。
进一步,所述步骤二包括:中文句子切分、英文句子切分、所有输入句子强制保留。
进一步,所述中文句子切分具体包括:
(1)句子的最大长度Lmax;可切分的标点符号集合Pstop,可切分的标点符号包括句号、问号、感叹号和分号,暨Pstop={,?!;};次级切分优先级序列Psub=[......,:]优先级的顺序依次为省略号、逗号和分号;
(2)句子长度小于Lmax个字符:
句子内不存在引号,则按照Pstop进行切分;
句子内存在引号,在保证引号内句子不断开的情况下按照(1)进行切分;
(3)句子长度大于等于Lmax个字符:
检索句子前Lmax个字符中是否有其他标点符号,有则按照Psub的优先级进行切分;
句子前Lmax个字符中均无其他标点符号,在Lmax位置进行切分;对切分后长度小于Lmax使用(2)进行切分。
进一步,所述英文句子切分具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711310547.1/2.html,转载请声明来源钻瓜专利网。