[发明专利]一种英文信件地址的中文自动批译方法无效
| 申请号: | 200910045583.9 | 申请日: | 2009-01-20 |
| 公开(公告)号: | CN101482862A | 公开(公告)日: | 2009-07-15 |
| 发明(设计)人: | 吕岳;屠晓 | 申请(专利权)人: | 上海邮政科学研究院 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 | 代理人: | 季申清 |
| 地址: | 200062上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 英文 信件 地址 中文 自动 方法 | ||
1、一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤:
A1、自动识别以英文印刷字符书写的信件地址;
A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;
A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。
2、如权利要求1所述的英文信件地址的中文自动批译方法,其特征在于,所述的步骤A3中的相似度计算过程由以下步骤组成:
B1、将所述信件地址信息集记为:AddrX(Sec0,Sec1,...,Sec10),其中Secj(1≤j≤10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容;
B2、将所述地址信息数据库中某一地址记录记为:DBk(Item1,Item2,...,Item10,CItem1,CItem2,...,CItem10),其中Itemj(1≤j≤10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容,CItemj(1≤j≤10)是对应于Itemj的中文表述,1≤k≤N,N为数据库中的记录总数;
B3、将地址AddrX和数据库中某记录DBk的相似度定义为:
其中Sim(Secj,Itemj)是Secj和Itemj两个字符串之间的相似度,μj表示某个地址信息项是否为空,空则为0,非空则为1;
B4、令若则认为AddrX与DBi相匹配,DBi(CItem1,CItem2,...,CItem9)为AddrX的中文表述,其中λ是相似度阈值,取值在0~1之间。
3、如权利要求2所述的英文信件地址的中文自动批译方法,其特征在于,所述步骤B4中的相似度阈值λ取为0.85。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海邮政科学研究院,未经上海邮政科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910045583.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:硬件安全单元
- 下一篇:基于现场可编程门阵列的串并行协议转换装置





