[发明专利]一种基于贝叶斯分词算法的中文地址语义标注方法有效
申请号: | 201610880863.1 | 申请日: | 2016-10-09 |
公开(公告)号: | CN106528526B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 黄爽;李晓林;谢婷婷;严柯;刘志杰;段艳会;张玉敏 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 宁波市鄞州甬致专利代理事务所(普通合伙) 33228 | 代理人: | 李迎春 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。 | ||
搜索关键词: | 一种 基于 贝叶斯 分词 算法 中文 地址 语义 标注 方法 | ||
【主权项】:
1.一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,包括:步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l‑1,其中,l是地址字符串S的长度;步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp;在步骤S6之后,该方法还包括:步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;步骤S10:输出新的标注结果tag_result。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610880863.1/,转载请声明来源钻瓜专利网。