[发明专利]藏汉翻译系统的多策略藏语长句切分方法有效

专利信息
申请号: 201410458322.0 申请日: 2014-09-10
公开(公告)号: CN104239294B 公开(公告)日: 2017-06-06
发明(设计)人: 黄河燕;黄静 申请(专利权)人: 华建宇通科技(北京)有限责任公司;北京理工大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京北新智诚知识产权代理有限公司11100 代理人: 满靖
地址: 100083 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 翻译 系统 策略 藏语 长句 切分 方法
【说明书】:

技术领域

发明涉及一种用于藏汉翻译系统的、基于多策略对藏语长句进行切分的方法,属于基于计算机科学的语言处理与分析领域。

背景技术

藏文是一门古老而独特的语言,它具有独特的标点符号体系,不同于其他文字的标点符号。藏语的标点符号数量是很有限的,只有7种——音节点、单垂符、双垂符、四垂符、蛇形垂符、聚宝垂符、云头符,见下表1所示。

表1

在表1中,“音节点”是划开音节,使藏文字之间的界线不混淆的一种符号。“单垂符”是表示词语或句子之间的并列、停顿或结束的符号,相当于汉语标点符号中的顿号、逗号、分号或句号。藏语无专门的问号和感叹号,一个句子的语调全靠文字表达。表1中的其它五种标点符号用得不太多,一般用来标明藏语句首、段首、章结尾等。

藏语标点符号具有特殊性和复杂性,最常用的是“单垂符”,其主要用于句末,也用于词或者短语之后,功能上相当于汉语标点符号中的顿号、逗号、分号、句号。一方面,有些“单垂符”表示的是顿号、逗号的作用,不能简单作为分句的标志,另一方面,藏文句子中的“单垂符”可以省略,所以藏语中长句情况很普遍,有些句子最长可达到百来个词时才出现一个“单垂符”。

下面列举一个例子(在该例子中,鉴于清晰表达,各藏文字由转写系统转换为若干拉丁字母、数字或特殊符号表示,各藏语标点符号由转写系统转换为相应汉语标点符号表示、做相应省略或回车处理,其中,例如“音节点”以空格表示,“单垂符”以逗号表示):

las zhugs bod skyor thad don dngos bsgrubs pa dang bod kyi mtho slob slob thon slob ma nang sar las ka byed par bskyod rgyuvi khrid ston hur thag byas nas bod skyor zhing chen dang grong khyer dang krung dbyang gi rkang vdzin khe las la mthun sbyor gyis lo ltar skye khungs bod nas yin pavi mtho slob slob thon slob ma 100yi las zhugs bkod sgrig bya rgyu bcas byed dgos,

上面例子中只在句末有一个“单垂符”,仅出现了“音节点”和“单垂符”,其汉语意思应为:“在援藏就业方面完成的实事,对西藏高校毕业生去内地工作努力进行指导,援藏省份和城市及中央骨干企业协同对100个西藏生源的高校毕业生做就业安排,”。

由此可见,面对藏语中的众多长句,如何提高藏汉翻译的处理速度以及确保翻译的正确性是翻译系统需要考虑的问题。而现如今已有的大多藏汉翻译系统都或多或少的存在着翻译速度慢或翻译正确率低的缺陷。

因此,鉴于藏语标点符号的特殊性和复杂性以及藏语长句存在的普遍性,设计出一种可快速、准确对藏语长句进行有效切分的技术方案,是目前急需解决的问题。

发明内容

本发明的目的在于提供一种对复杂的藏语长句进行快速、准确切分的多策略藏语长句切分方法,该方法可用于藏汉翻译系统中,以提高藏汉翻译处理的速度和正确性。

为了实现上述目的,本发明采用了以下技术方案:

一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:

1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号,当前长句中的成分个数大于15;

2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;

3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);

4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);

5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华建宇通科技(北京)有限责任公司;北京理工大学,未经华建宇通科技(北京)有限责任公司;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410458322.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top