[发明专利]一种中文地址名词分层级的方法和装置有效
申请号: | 201811034393.2 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109284358B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 党越 | 申请(专利权)人: | 普信恒业科技发展(北京)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284;G06K9/62 |
代理公司: | 上海衡方知识产权代理有限公司 31234 | 代理人: | 朱穆峰 |
地址: | 100022 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 地址 名词 层级 方法 装置 | ||
本发明提供一种中文地址名词分层级的方法和装置,不依赖地址关键词词典,对大量地址名词进行前处理,采用HSMM方法建立训练模型,解码得到地址名词中每个地址段的层级,极大的提高了地址名词划分层级的效率,提高了中文地址的识别准确度,为地址相似度计算提供了精准的比对基础。相比现有基于规则的方法通过人工创建各个层级的地址关键词词典进行匹配切分地址段的方式,本发明省去整理地址关键词词典的工作,节省了人力、物力,并有效解决了地址关键词省略、出现地址关键词的集外词、切分歧义时分层错误的问题。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种中文地址名词分层级的方法和装置。
背景技术
地址名词的层级划分是计算地址相似度、模糊搜索等业务的基础工作。目前地址名词的层级划分主要是基于规则的方法。首先,定义一个地名关键词列表,包含地名关键词(路、街、村、小区等)和每个关键词的地址层级。然后,在地址分层级时,从前往后遍历待分层的地名,若匹配到关键词,就切分出地址段,并以关键词的层级作为该地址段的层级。这种方法对于形式规则的地名划分层级时效果较好。但是,中国的地名多变而复杂,尤其在实际业务中,用户填写的地址名词或网上爬取的地址名词经常是省略的、不规则的。
目前基于地址关键词匹配的规则方法主要存在以下四方面问题:
1.构造地址关键词词典需要耗费大量人力。
2.一旦出现了地址关键词词典中的集外词,则不能准确解析。例如:“杜儿坪四巷7楼55户”中的“坪”,“西丽宝珠花园菱香阁”中的“花园”和“阁”,不易被收录在地址关键词词典中。
3.如果出现地址关键词省略的情况,不能准确解析。例如:“中山街天润嘉园2栋”,“中关村东路都市网景A座”,这两个地址都省略了“小区”,基于地址关键词匹配的规则方法会错误地把小区名称和楼栋号划分在一个层级,结果为“中山(街)-天润嘉园2栋”,“中关村东(路)都市网景A(座)”
4.如果其它位置出现了地址关键词,则会出现切分歧义的情况,不能准确解析。例如:“三十里堡村西卅里”,如果地址关键词中有“里”和“村”,会被解析成:三十里-堡村-西卅里,但实际上“三十里堡”是一个完整的村名。
综上所述,现有的中文地址名词通过关键词匹配的划分方法耗费人力、不够准确,仍存在需要改进的空间。
发明内容
为了解决上述中文地址名词划分方法耗费人力仍不够准确的问题,本发明提供了一种中文地址名词分层级的方法和装置,基于统计机器学习的方法,将大量中文地址名词进行前处理后,非监督地训练HSMM模型(隐半马尔科夫模型),从而根据训练好的模型参数,实现一个新地名的层级划分,极大的提高了地址名词划分层级的效率以及中文地址的识别准确度,为地址相似度的计算提供了精准的比对基础。
为实现上述目的,本发明提供了一种中文地址名词分层级的方法,其特征在于,包括:
收集多个地址名词,进行前处理,作为训练数据;
模型训练,以K个隐状态的HSMM算法对前处理后的地址层级建模,每个状态表示层级的标签,其中K为正整数;
解码,采用上一步骤中训练好的HSMM模型及参数,求解待分层的地址名词中每个词的层级。
可选地,所述前处理包括:根据行政区划去掉省市区,并将剩余地址中的数字转化为第一符号,连续的英文字符串转化为第二符号,训练数据在10万个以上。
可选地,所述模型训练还包括:限制层级的跳转,限制每个层级跳转到所述每个层级以下的层级,其中K为3、4、5或6。
可选地,所述模型训练还包括:设置所述层级的关键词,在初始化和前几轮训练的结果中,将本层级对于本层级关键词的输出概率设置为较大,其它层级对于本层级的关键词输出概率设置为较小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普信恒业科技发展(北京)有限公司,未经普信恒业科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811034393.2/2.html,转载请声明来源钻瓜专利网。