[发明专利]基于词汇增强的中文地址要素解析方法、设备及存储介质在审
申请号: | 202210339889.0 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114792091A | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 傅湘玲;申艳廷;仵伟强;陈松龄;沈耀迪 | 申请(专利权)人: | 渤海银行股份有限公司;北京邮电大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/30;G06F16/33;G06F16/36;G06N3/04;G06N5/02 |
代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 张莉瑜 |
地址: | 300171 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词汇 增强 中文 地址 要素 解析 方法 设备 存储 介质 | ||
本发明涉及数据处理技术领域,特别涉及一种基于词汇增强的中文地址要素解析方法、设备及存储介质,其中方法包括:获取中文地址文本;确定中文地址文本中的每个字符、词汇及对应的嵌入表示;将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、令牌在中文地址文本中的位置以及令牌之间的关联关系,构建平面图;基于平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码;基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;基于提取的特征进行分类,得到解析后的地址要素。本发明通过引入词汇的语义信息和边界信息,能够有效增强字符的语义信息,提升中文地址要素解析准确率。
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于词汇增强的中文地址 要素解析方法、设备及存储介质。
背景技术
地址作为一种重要的文本数据,记录了社会生产活动及人的行为活动对 应的地理空间信息,在地理商业智能、城市治理、金融风控等领域有着重要 的应用价值。随着互联网、大数据以及地理信息系统的快速发展,公众对位 置信息的需求迅速增加,如何利用计算机快速、准确解析地址,成为备受关 注的内容。
中文地址要素解析指的是对中文地址文本拆分成具有独立语义的地址要 素实体,并将这些实体确定其对应的类别。中国幅员辽阔,地理文化差异大, 至今没有形成一个权威的、覆盖全国的地点命名标准,同时,日常应用中, 中文地址大部分是以非结构化文本的形式表达,数据结构复杂,随意性较强, 多伴随地址要素缺失或冗余等问题。因此,目前针对中文文本的地址要素解 析技术往往精确度偏低,不利于实际应用。
发明内容
基于中文地址要素解析精确度偏低的问题,本发明提供了一种中文地址 要素解析方法、设备及存储介质,能够有效提高中文地址要素解析的精确度。
第一方面,本发明实施例提供了一种中文地址要素解析方法,包括:
获取待解析的中文地址文本;
确定所述中文地址文本中的每个字符及对应的嵌入表示;
确定所述中文地址文本中的每个词汇及对应的嵌入表示;
将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、 令牌在所述中文地址文本中的位置以及令牌之间的关联关系,构建平面图; 其中,所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾 位置信息构成,用于提供词汇的语义信息和边界信息;
基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌 之间的最终相对位置编码;
基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;
基于提取的特征进行分类,得到解析后的地址要素。
可选地,所述确定所述中文地址文本中的每个词汇及对应的嵌入表示, 包括:
确定所述中文地址文本对应的词典;
基于所述词典,建立字典树;
基于所述字典树,对所述中文地址文本进行匹配,得到所述中文地址文 本中的每个词汇;
基于所述词典对应的嵌入表示资源库,获取所述中文地址文本中每个词 汇的嵌入表示。
可选地,所述平面图包括的第一平面图和第二平面图,其中,所述第一 平面图为平面晶格结构,用于表示字符与自匹配词汇关联关系,所述第二平 面图为平面转移结构,用于表示字符与最近上下文词汇关联关系;
所述基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个 令牌之间的最终相对位置编码,包括:对于每两个令牌,均执行如下步骤:
分别基于所述第一平面图和所述第二平面图,计算两个令牌之间的相对 位置编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海银行股份有限公司;北京邮电大学,未经渤海银行股份有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210339889.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:真空轨道机传送导向装置
- 下一篇:多功能支架及车辆