[发明专利]一种基于无词典的中文地址分词方法有效
申请号: | 201710441735.1 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107329950B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 谢婷婷;李晓林;严柯;张懿;刘志杰 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 宁波甬致专利代理有限公司 33228 | 代理人: | 李迎春 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 中文 地址 分词 方法 | ||
本发明公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。
技术领域
本发明涉及互联网技术及数据挖掘技术领域,具体涉及一种利用中文地址的互信息和信息熵以及置信度对中文地址中的地址要素进行切分的无词典中文地址分词方法。
背景技术
随着互联网技术的快速发展,网络成为信息传播交流的重要平台。在网络空间中每天都有大量的数据或信息产生,其中大部分都以自然语言文本的形式存在,如何从中挖掘出有用的信息成为当前的研究热点。这些文本中蕴含着大量的空间信息,据抽样统计,全球约70%的网页中含有位置信息。但是,与传统的地理信息或数据相比,文本中的地理信息是非结构化的,只有在形式化处理后,才能进行分析和挖掘。文本中的空间信息形式化包括地名地址分词、空间关系提取、事件提取等方面。地名地址分词作为空间信息形式化最基础、最底层的工作,其准确性将直接影响到后续工作的有效性。
地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地理要素的过程。中文分词算法大体可以分为3类:基于词典的分词方法、基于统计的分词方法以及基于理解的分词方法。由于我国地址名称多而杂乱,没有一个完整的词典包含所有的地址信息,因此,本文针对地名地址串,提出一种无词典的中文地址分词方法。
发明内容
针对现有技术的问题,本发明的目的在于提供一种基于无词典的中文地址分词方法,通过统计地址语料库的词频,互信息,信息熵,对字符串进行全切分得到所有切分方式集合,计算出弧度花费最小的切分方式,然后对切分方式做置信度处理进行二次切分,得到最优结果。
本发明为解决上述技术问题所采用的技术方案是:
本发明提供一种基于无词典的中文地址分词方法,包括以下步骤;
S1,统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵;
S2,对输入的地址字符串利用正则表达式进行预处理,对处理后得到的字符串进行全切分处理,得到切分集合;
S3,根据步骤S1统计得到的字符串的互信息和信息熵,计算得到弧段花费最小的分词方案;
S4,根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。
作为优选,所述步骤S1包括以下子步骤:
S11,统计地址语料库中的每条地址中任意字符长度大于1小于等于8的字符串的频度,存入词频词典Word_dic中;
S12,利用公式(1)统计字符串之间的互信息,存入MI_map中;
其中p(xy)是字符x和字符y在语料里同时出现的概率;p(x)是字符x单独出现的概率;p(y)是y单独出现的概率;
S13,利用公式(2)和公式(3)统计字符串的左熵、右熵,并存入LR-map中,左熵、右熵分别指字符串左边界和右边界的信息熵;
其中w表示字符串,A表示字符串左邻字的集合,a表示左邻字,B表示字符串右邻字的集合,b表示右邻字,aw、wb分别表示字符串w与左邻字a和右邻字b组合形成的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441735.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发动机系统以及发动机系统的控制方法
- 下一篇:一种发动机监控操作系统