[发明专利]一种基于预训练的地址提取和标准化方法在审
申请号: | 202111582633.4 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114398886A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 冯纯博;廖奇;黄洋;陈楷;王辉 | 申请(专利权)人: | 科讯嘉联信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 赵娟 |
地址: | 230000 安徽省合肥市中国(安徽)自由贸易试验区合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 地址 提取 标准化 方法 | ||
1.一种基于预训练的地址提取和标准化方法,其特征在于:包括以下步骤:
S1、收集含有地址信息的语料,对模型进行预训练;
S2、基于增强型地址语料,通过半监督自学习模式对预训练模型进行微调,并利用微调后的模型进行地名识别;
S3、基于自更新自维护字典进行地址纠正;
S4、基于多头注意力机制生成模型进行地址规范化。
2.根据权利要求1所述的基于预训练的地址提取和标准化方法,其特征在于:S2中基于增强型地址语料,通过半监督自学习模式对模型进行微调,包括:
根据国家行政区划获取地址白名单,从地址白名单中随机组合各级地址,构造地址白名单语料;
使用地址白名单语料中的地址对已有真实语料中对应级别槽位进行随机替换,构造增强型地址语料;
利用增强型地址语料对预训练模型进行微调,并将微调后的模型作为识别模型进行地名识别。
3.根据权利要求2所述的基于预训练的地址提取和标准化方法,其特征在于:所述增强型地址语料通过半监督自学习模式进行语料增强,包括:
使用动态方式计算选取语料的阈值,分批次抽取待标注语料;
利用识别模型进行地名识别后,选取置信度较高的预测结果融入到训练语料中;
依次对待标注语料进行多轮数据抽取,每一轮根据预测结果调整抽取量,如果预测结果良好则可以提高抽取量,反之减小抽取量;
将经过人工检查的预测结果与原来人工标注的标注语料进行融合,形成增强型地址语料。
4.根据权利要求2或3所述的基于预训练的地址提取和标准化方法,其特征在于:所述预训练模型使用少量人工标注的标注语料进行微调的启动。
5.根据权利要求1所述的基于预训练的地址提取和标准化方法,其特征在于:S3中基于自更新自维护字典进行地址纠正,包括:
对识别模型进行地名识别得到的地名进行拆分,分别得到该地名所在层级的上一层级地名以及地名通名;
从上一层级地名中圈定地名候选集,分别对识别地名和地名候选集中的地名进行规则处理,分离出地名通名和地名专名;
利用自更新自维护字典对地名专名进行最大正向匹配和最大逆向匹配,对匹配得到的结果进行加权匹配,将权值最高的结果作为标注地名输出。
6.根据权利要求5所述的基于预训练的地址提取和标准化方法,其特征在于:所述对地名专名进行最大正向匹配和最大逆向匹配,包括:
进行标准地名完全匹配,如果有完全匹配结果则直接匹配成功,并输出标准地名,否则扩大匹配范围,利用自更新自维护字典进行别称地名完全匹配,如果有完全匹配结果则匹配成功;
如果以上均没有完全匹配到,则进行规则匹配,如果有规则匹配结果,则进入下一步加权匹配,否则直接退出匹配过程。
7.根据权利要求5或6所述的基于预训练的地址提取和标准化方法,其特征在于:所述加权匹配,包括:
对规则匹配结果中的关键字使用基于拼音模糊匹配的加权匹配,得到所有权值。
8.根据权利要求7所述的基于预训练的地址提取和标准化方法,其特征在于:所述自更新自维护字典从实际对话数据中进行抽取,对每个有别称的地名构建一个字典,字典的key为对应的标准地名,字典的value为对应的别称及别称出现次数,所述自更新自维护字典根据别称出现次数对别称排序进行自动更新。
9.根据权利要求1所述的基于预训练的地址提取和标准化方法,其特征在于:S4中基于多头注意力机制生成模型进行地址规范化,包括:
将纠正后的地址数据输入编码网络进行编码,并在地址数据与上下文向量之间设置多头注意力机制,将编码网络的输出向量输入至解码器中进行解码,将解码器生成结果、多头注意力机制生成的包含上下文向量的多头注意力向量输入至复制网络,复制网络决定从词汇表生成词还是对原有文本中的词直接复制,并将复制网络输出结果作为最终结果。
10.根据权利要求9所述的基于预训练的地址提取和标准化方法,其特征在于:所述多头注意力机制生成模型包括编码网络、解码器和复制网络,所述编码网络采用双向长短时记忆网络,所述解码器采用单向长短时记忆网络,所述复制网络采用Pointnetwork。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科讯嘉联信息技术有限公司,未经科讯嘉联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111582633.4/1.html,转载请声明来源钻瓜专利网。