[发明专利]一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法在审
申请号: | 202011483732.2 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112560478A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 杜清运;张红伟;任福;张琛;陈张建;陈凯;俞春娜 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/169;G06F40/151;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 语义 标注 中文 地址 roberta bilstm crf 耦合 解析 方法 | ||
本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减,得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注,能够识别地址中地址元素的层级及空间关系;能够从非标准地址提取标准地址,解决未登录词问题、剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。
技术领域
本发明涉及自然语言处理中的中文分词领域,尤其是涉及一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
背景技术
随着外卖、快递等行业的发展,基于地址匹配的位置服务扮演着越来越重要的角色,同时也对地址匹配的准确性提出了越来越高的要求。地址解析是地址匹配的重要组成部分,其对地址匹配的准确性有着重要影响。但是,由于定位系统的误差,导致经常使用的百度地图导航、高德地图导航、腾讯地图导航等无法解决最后几十米的导航问题。为了更加准确的对某一位置进行描述,经常在地址中加入距离、方位等空间关系关键词。另外,中文地址作为一种空间数据基础设施,由于不同的需求,会造成地址描述方式的不一致。比如,公安部门要求地址精确到房间号,而工商教育部门一般要求地址精确到楼栋号或门牌号。这些都增加了地址解析的难度。因此,对这些地址进行高效的解析成为了一个急需解决的问题。
地址解析就是把地址中的地址元素以及地址标志结构抽取出来,即结合空间关系地址模型对中文地址进行分词,并标注地址元素的层级及空间关系,为下一阶段的地址标准化和匹配做准备。目前,很多研究者提出了中文地址分词算法。程昌秀等、张雪英等提出了基于规则和词尾特征的中文分词,但是由于地址用字的自由性,该方法分词准确率不高。后来随着统计语言模型的兴起,基于统计模型的地址分词受到了越来越多的关注。应申等提出了基于决策树的城市地址集分词,该方法统计城市地址集的分布特征构建决策树进行地址元素提取,无法解决数据稀疏及过分割问题。蒋文明等提出了基于条件随机场的地址元素提取方法,该方法需要设计复杂的特征。李伟等提出了基于规则和统计的混合方法进行中文地址分词,该方法需要提取词尾特征集,在一定程度上缓解了数据稀疏的问题,仍存在过分割的问题。随着机器学习、特别是深度学习的技术在自然语言处理领域取得了重大突破。李鹏鹏等使用BiGRU进行中文地址分割,该方法只考虑了使用兴趣点地址进行分词,没有考虑地址元素之间的约束关系,无法对地址进行标准化等操作。程博等使用BiLSTM-CRF对中文地址进行分词,该方法提取了地址元素词尾特征以增强地址切分的准确性,并且对地址元素所处的层级进行了标注,但是没有考虑地址中的楼层号、距离关系等。
针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。该方法不需要依赖外部特征,采用基于自然语言理解的深度学习方法学习地址模型特征和上下文信息。
发明内容
本发明针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
本发明的目的是通过以下技术方法来实现的:一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注。处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483732.2/2.html,转载请声明来源钻瓜专利网。