[发明专利]一种英文信件地址的中文自动批译方法无效
| 申请号: | 200910045583.9 | 申请日: | 2009-01-20 |
| 公开(公告)号: | CN101482862A | 公开(公告)日: | 2009-07-15 |
| 发明(设计)人: | 吕岳;屠晓 | 申请(专利权)人: | 上海邮政科学研究院 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 | 代理人: | 季申清 |
| 地址: | 200062上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 英文 信件 地址 中文 自动 方法 | ||
技术领域
本发明属于邮政处理自动化技术领域,尤其涉及一种英文信件地址的中文自动批译方法。
背景技术
在国际邮件处理技术领域,所述的批译是指将国际邮件上的地址、单位名称、收件人名等投递信息翻译成中文批注到邮件上,以便邮件下一步的分拣和投递。国际邮件的投递信息中涉及到的文种主要有中文、英文、日文、法文、俄文、德文、西班牙文、意大利文等,其中英文站总量的90%。邮政部门的专业批译人员将国际寄达中国的英文信件的收信人地址翻译成中文,并批注在信封上,以便于投递人员送达目的地。批译人员除了要熟悉英文,还要熟悉邮件分拣业务,具有行政区划的地理常识,掌握主要国家机关、外事单位、公共服务机构和大型企业的地址,因此对于批译人员的要求非常之高达到了几乎不可能的程度。
幸运的是,随着计算机技术的发展和普及,出现了机器自动翻译批译处理系统,随着需求的演变,采用打印地址的商业信函的数量急剧增加,占到了通常信件数量的主要部分,商业信函的地址的重复性高,运用字符识别技术和机器翻译技术的地址批译系统针对此种情况更使得信件的批译处理效率倍增。
然而,现有的英文信件地址的自动批译系统由于固有的技术上的限制仍然存在不少缺点,具体说,有以下几种情况:
1)、字符识别技术的缺点
目前印刷体的字符识别率可以达到99%以上,但是误识率是所有识别技术无法避免的。比如将“H”错误识别为“M”,将“I”错误识别为“1”等等。这就增加了批译系统的拒翻率(即无翻译结果的概率)和误翻率(即错误翻译的概率)。
2)机器翻译技术的问题
1.地址中使用的语言是自然语言的一个子集,但对自然语言中字词句类型的定义和规则却不能直接用在批译系统中,需要针对地址的用语下新的定义,提取新的规则。
2.地址书写的不规范
目前还没有统一规定中国地址如何确切地用英文表示。如“南京西路”的英文表示方法就可以写为以下几种:Nanjing xi lu,Nanjing West Road,West Nanjing Road等。
3.地址书写错误
有些用户可能对中文拼音不是很熟悉,不会区分前后鼻音或者平翘舌音,在书写地址时凭印象或或者信手写上一个。比例如把“ling ling lu”(零陵路)写成“lin lin lu”。虽然识别出来的字符是正确的,但是对照标准的地址库时却无法翻译出结果。
发明内容
本发明的目的是提供一种英文信件地址的中文自动批译方法,解决目前由于OCR误识、地址书写不规范或者书写错误对翻译性能的影响所造成的英文信件地址批译中误翻或者拒翻的问题。
本发明的技术方案是,一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤:
A1、自动识别以英文印刷字符书写的信件地址;
A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;
A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。
所述的步骤A3中的相似度计算过程由以下步骤组成:
B1、将所述信件地址信息集记为:AddrX(Sec0,Sec1,...,Sec10),其中Secj(1≤j≤10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容;
B2、将所述地址信息数据库中某一地址记录记为:DBk(Item1,Item2,...,Item10,CItem1,CItem2,...,CItem10),其中Itemj(1≤j≤10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容,CItemj(1≤j≤10)是对应于Itemj的中文表述,1≤k≤N,N为数据库中的记录总数;
B3、将地址AddrX和数据库中某记录DBk的相似度定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海邮政科学研究院,未经上海邮政科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910045583.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硬件安全单元
- 下一篇:基于现场可编程门阵列的串并行协议转换装置





