[发明专利]基于领域本体的名片信息中译英自动翻译方法无效
申请号: | 200710304514.6 | 申请日: | 2007-12-28 |
公开(公告)号: | CN101216819A | 公开(公告)日: | 2008-07-09 |
发明(设计)人: | 张玉洁;孟祥武 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 张颖玲 |
地址: | 100088*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 本体 名片 信息 中译英 自动 翻译 方法 | ||
技术领域
本发明涉及一种基于本体的翻译方法,尤其涉及一种基于领域本体的名片信息中译英自动翻译方法。
背景技术
机器翻译涉及到语言学、计算机科学、认知心理学等多种学科,是计算语言学中非常重要的分支。但它在语言学和计算机实现方面都存在着一些尚待解决的难题,比如自然语言的多义问题、译文的词序问题、介词处理问题、上下文的关联问题、机器翻译所需知识的获取和表达及中译外机器翻译的汉语分词歧义等问题。这些问题依然限制着译文的质量,也不是用规则能够完全解决的,因而使机器翻译的结果难以令人满意。
特别是汉语的机器翻译,存在的问题相当多。汉语和许多印欧语系语言不同,汉语在词形上属于孤立语,采用连续书写形式,词与词之间无自然界限,无词尾形式标志,无形态变化,这种“三无”现象使得人们在阅读时要借助大脑思维切分词语,而用计算机理解和处理书面汉语时,就必须先进行自动切分词语的工作,而汉语语义及结构上的复杂性与多变性和“三无”现象的存在,给汉语自动分词带来了极大困难。我国中文信息处理发展已经经过了很多年,但是关于“词”如何进行抽象定义和判定的问题到现在也没有很好的解决。虽然我国已制定了《信息处理用现代汉语分词规范》,但仍然有一些情况很难判断。自80年代初提出汉语自动分词以来,已经研究出了许多分词方法。如最大匹配MM方法、RMM方法、逐词遍历法、设立切分标记法、OM方法、有穷多层次列举法、二次扫描法、基于词频统计的分词方法、基于期望的分词方法、双向扫描法、邻接约束法、最少分词词频选择方法、神经元网络方法等。这些方法对常规句子的处理,一般具有很高的精度,但在处理歧义切分方面,都存在明显的缺陷。歧义切分是汉语分词中不可避免的现象,也是自然语言处理中的一个难点。另外,中文的使用习惯会产生大量的信息省略,这是一种信息损失。会导致误解以及错误的传播,而当中文翻译为英文的时候,由于二者之间有很多语法上得差异,所以为了保证翻译的正确率和完整性,必须要找回这些信息损失,而要想找回这些损失的信息,必须具备大量的知识储备,而计算机并不具备,因而它们无法准确的理解文本所要表达的信息,所以建立在这种错误理解基础上的翻译必然会大打折扣。在翻译系统中最重要的就是检索匹配,只要保持高的检索匹配正确率,才能提高翻译的准确率,而通常的检索方法采用的是词形匹配,而不是语义匹配。这样自然会降低检索的准确率。产生这些问题的根源在于这种词形查询对于计算机而言没有任何含义,或者说没有语义,因而检索的结果不能完全满足用户检索的意图。
另外,自然语言是一种不断发展、不断变化、约定俗成的交流工具,因而具有很大的随意性。将这些千变万化的现象条理化,以有限的规则来应付无边无际的自然语言,也很难实现信息的准确翻译。特别是,很多语句需要借助上、下文的关联信息才能进行,这些都是造成机器翻译不准确的因素,因此,目前,虽然机器翻译技术可以部分帮助人们完成一些翻译工作,但这些帮助都相当有限。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于领域本体的名片信息中译英自动翻译方法,能提供准确的名片信息翻译,非常实用。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于领域本体的名片信息中译英自动翻译方法,以词料库、语料库为基础,为名片中所包括信息建立领域本体库,所述领域本体库中至少包括地址领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括:地址分割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括:地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例之间的对应关系;该方法还包括以下步骤:
A、向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710304514.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:免疫原性组合物
- 下一篇:一种现浇砼空心板用空腔模壳构件