[发明专利]基于词汇增强的中文地址要素解析方法、设备及存储介质在审
| 申请号: | 202210339889.0 | 申请日: | 2022-04-01 |
| 公开(公告)号: | CN114792091A | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 傅湘玲;申艳廷;仵伟强;陈松龄;沈耀迪 | 申请(专利权)人: | 渤海银行股份有限公司;北京邮电大学 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/30;G06F16/33;G06F16/36;G06N3/04;G06N5/02 |
| 代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 张莉瑜 |
| 地址: | 300171 *** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 词汇 增强 中文 地址 要素 解析 方法 设备 存储 介质 | ||
1.一种基于词汇增强的中文地址要素解析方法,其特征在于,包括:
获取待解析的中文地址文本;
确定所述中文地址文本中的每个字符及对应的嵌入表示;
确定所述中文地址文本中的每个词汇及对应的嵌入表示;
将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、令牌在所述中文地址文本中的位置以及令牌之间的关联关系,构建平面图;其中,所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾位置信息构成,用于提供词汇的语义信息和边界信息;
基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码;
基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;
基于提取的特征进行分类,得到解析后的地址要素。
2.根据权利要求1所述的中文地址要素解析方法,其特征在于,
所述确定所述中文地址文本中的每个词汇及对应的嵌入表示,包括:
确定所述中文地址文本对应的词典;
基于所述词典,建立字典树;
基于所述字典树,对所述中文地址文本进行匹配,得到所述中文地址文本中的每个词汇;
基于所述词典对应的嵌入表示资源库,获取所述中文地址文本中每个词汇的嵌入表示。
3.根据权利要求1所述的中文地址要素解析方法,其特征在于,
所述平面图包括的第一平面图和第二平面图,其中,所述第一平面图为平面晶格结构,用于表示字符与自匹配词汇关联关系,所述第二平面图为平面转移结构,用于表示字符与最近上下文词汇关联关系;
所述基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码,包括:对于每两个令牌,均执行如下步骤:
分别基于所述第一平面图和所述第二平面图,计算两个令牌之间的相对位置编码;
将分别基于所述第一平面图和所述第二平面图计算得到的相对位置编码进行拼接,经过神经网络的线性变换,得到两个令牌之间的最终相对位置编码。
4.根据权利要求3所述的中文地址要素解析方法,其特征在于,
所述计算两个令牌之间的相对位置编码包括:
确定两个令牌在句子中对应的头尾位置信息,包括头位置和尾位置;
确定两个令牌之间的头头、头尾、尾头和尾尾四种相对距离;
若两个令牌之间存在包含关系,则对确定的四种相对距离同时进行缩小;
对四种相对距离做非线性变换,得到相对位置编码。
5.根据权利要求4所述的中文地址要素解析方法,其特征在于,
所述对确定的四种相对距离同时进行缩小,包括:
对确定的四种相对距离同时乘以ew,进行指数缩小;其中,w为两个令牌之间头头和尾尾两种相对距离的乘积。
6.根据权利要求4所述的中文地址要素解析方法,其特征在于,
所述确定两个令牌在句子中对应的头尾位置信息,包括:
若令牌为字符,其头位置和尾位置相同,均为该字符在句子中的位置;
若令牌为词汇,对于所述第一平面图,其头位置、尾位置分别为该词汇的起、止字符在句子中的位置,对于所述第二平面图,其头位置、尾位置分别为该词汇的前、后相邻字符在句子中的位置,且不超出句子范围。
7.根据权利要求1所述的中文地址要素解析方法,其特征在于,
所述确定所述中文地址文本中的每个字符及对应的嵌入表示,包括:
将所述中文地址文本输入预训练的BERT模型,确定所述中文地址文本中的每个字符及对应的嵌入表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海银行股份有限公司;北京邮电大学,未经渤海银行股份有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210339889.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:真空轨道机传送导向装置
- 下一篇:多功能支架及车辆





