[发明专利]词汇式繁体中文与简体中文的转换系统及转换方法无效
申请号: | 01104564.7 | 申请日: | 2001-02-16 |
公开(公告)号: | CN1369833A | 公开(公告)日: | 2002-09-18 |
发明(设计)人: | 杨立伟 | 申请(专利权)人: | 意蓝科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 宋军 |
地址: | 台湾省*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇 繁体中文 简体中文 转换 系统 方法 | ||
本发明涉及一种词汇式繁体中文与简体中文的转换系统,尤其是一种利用长词优先断词法进行词汇分割之后再予以转换汉字的词汇式繁体中文与简体中文的转换系统。本发明亦包括利用上述词汇式繁体中文与简体中文的转换系统进行简繁汉字转换的词汇式繁体中文与简体中文的转换方法。
目前世界上所使用的中文电脑系统中,通行的汉字系统分为两种:一为繁体中文系统,如台湾以及香港所采用的汉字系统;另一为简体中文系统,如中国大陆及新加坡所采用者。由一种汉字系统所编辑出来的文字数据并不能直接由另一种汉字系统处理。也就是说,繁体中文系统不能处理简体中文文字数据;而简体中文系统则无法处理繁体中文文字数据。
为使电脑能同时处理二种中文数据,必须先利用简繁汉字转换系统,将电脑不能辨识的汉字转换成电脑可以辨识的汉字。如此,使用任何一种中文系统的电脑可以同时处理简/繁汉字,而不受所使用的中文系统限制。
现有的简繁汉字转换系统中,其简繁汉字的转换方法,均使用单字对应单字的转换运算。即,现有系统中的汉字转换法以每一个汉字单字为处理单位,由一简/繁单字对应表,进行单字对单字的对应运算,然后逐字地转换单字,使每一单字转换成电脑系统可辨识的汉字。
例如,图3(a)的现有简繁汉字转换系统所用的简繁汉字转换法步骤中,首先在数据接收步骤701中,将待转换中文文件70的一汉字取出;接着,在简繁汉字转换步骤702中,将所取出的汉字对照内建的单字对应表80,找出相对应的译字。如果汉字能在单字对应表80中具有相对应的译字,则将汉字进行转换,成为单字对应表80中所对应到的译字。将待转换中文文件70的每一个汉字逐一进行上述的对应及转换,使待转换中文文件所有可对应于单字对应表80的汉字均替换成所要的译字。最后,在输出步骤703中输出。藉此,待转换中文文件70被转换成电脑系统兼容的中文文件90,达成将简体中文文件转换成繁体中文文件或将繁体中文文件转换成简体中文文件的目的。
例如,所输入的待转换中文文件70为“馬鈴薯是一種植物”时,其中各个汉字71(图3(b))会逐一地转换成相对应的译字711(图3(c))。
然而,上述现有简繁汉字转换系统所用的汉字转换法,在实际的文字数据转换应用上存在有许多的缺点。因为在使用简繁汉字的人民中,某些同义的词汇,其用语并不相同,甚至用语字数不同。因此,现有简繁汉字转换系统的单字对应单字的转换方法,不能确实地将一汉字转换成所要的另一种汉字。
前述的例子中,英文中的potato,在台湾的民众会叫它为“馬鈴薯”或“洋芋”,然而,在中国大陆的人民则会叫它为“土豆”。故当繁体中文文件以单字对应单字的关系转换时,在繁体汉字中的词汇“馬鈴薯”并无法精确地转换成简体汉字中的词汇“土豆”,使大众不易理解被转换的文件。反之亦然,当简体汉字的词汇“土豆”以单字对应单字的方式转换时,其也无法转换成繁体汉字的词汇“馬鈴薯”或“洋芋”。故,有必要对此一缺点提出解决之道。
针对上述问题,本发明的一目的为提供一种能够确实地进行简繁汉字转换的词汇式繁体中文与简体中文的转换系统。
为完成本发明上述目的,词汇式繁体中文与简体中文的转换系统包括一数据接收模块、一断词处理模块、一简繁汉字转换模块、及一输出模块,其中断词处理模块能依照长词优先断词法对数据进行分割。
因为,断词处理模块依照长词优先断词法,对待转换数据中的所有文字进行词汇对应运算,而在该待转换数据中优先分割出符合断词处理模块内最长复合词的复合词,而成为待转换复合词,所以本发明的词汇式繁体中文与简体中文的转换系统,能够进行复合词的转换,使繁体及简体汉字之间的转换更加确实。本发明的另一目的为提供一种利用上述词汇式繁体中文与简体中文的转换系统进行简繁汉字转换的词汇式繁体中文与简体中文的转换方法。
附图的简单说明
图1为一示意图,显示依本发明较佳实施例的词汇式繁体中文与简体中文的转换系统。
图2(a)为一示意图,显示依本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的步骤。
图2(b)为一示意图,显示依图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的步骤所要处理的待转换数据。
图2(c)为一示意图,显示在依照图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的断词处理步骤之后,待转换数据被切割成待转换复合词及待转换单字。
图2(d)为一示意图,显示在依照图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的简繁汉字转换步骤的待转换复合词及待转换单字与相对应的复合词及单字的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于意蓝科技股份有限公司,未经意蓝科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01104564.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中式烹调燃气火力控制装置
- 下一篇:一种重铬酸钠废渣资源化处理再制砖