[发明专利]一种基于行业知识的标签识别方法及装置在审
申请号: | 202310043528.6 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116089610A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赵群;苏萌;刘译璟;苏海波;杜晓梦 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06N3/0464 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行业 知识 标签 识别 方法 装置 | ||
本发明涉及计算机领域,提供了一种基于行业知识的标签识别方法及装置。主旨在于在于通过本技术来解决标准标签识别问题。主要方案包对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得数据以及标准库中数据对应的标准标签;数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;对数据向量化,将给定的数据经过预训练模型训练后获取向量化表示;对向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类,将得到的标准类别标签。
技术领域
本发明涉及计算机领域,一种基于行业知识的标签识别方法及装置。
背景技术
随着互联网和人工智能的兴起和快速发展,文本数据发生了爆炸式的增长,行业内各企业在对文档设定标签时,会按照各自企业的资料进行自定义设计,但在行业大领域内,随着人工智能的落地,都已经设定好各自行业的标准标签,迫切需要一项高效的技术将各企业自定义的标签与行业内规定的标准标签进行匹配,从而帮助各企业或组织快速获取标准有用的信息。
标签识别技术是指利用自然语言处理算法自动识别数据单元所属的标准标签,与行业规定的标准标签进行匹配。这样,人们就可以通过标签来理解标签数据的真实标准含义,为我们理解文本数据的语义信息提供了很大便利。
本提案要解决的技术问题:
对于数据库中的数据,在垂直行业中,省、部这一级的系统相对规范,标签比较准确;在市、区、县一级的系统中,标签相对不规范,标签可能存在着拼音规则、首字母等问题;在单实际业务系统中,甚至还存在着空标签的问题,通过本技术来解决标准标签识别问题。
目前为了确定待匹配的实体名称所对应的实体标准名称,需要人工预先观察一些不标准的实体名称与实体标准名称所构成的样本数据的特点,并总结出一些规则逻辑,然后依据这些规则逻辑确定自定义标签所对应的标准标签。然而,人工观察的样本数据较为有限,因此,基于人工观察所制定的规则逻辑并不能覆盖所有情况,从而导致一些不标准的自定义标签无法匹配到相应的标准标签。而且,通过人工观察样本数据总结规则逻辑的方式也对于人工的经验要求较高,且需要耗费较多的人力资源。
虽然还未有机器学习方法应用,但机器学习的方法无法捕获到文本中隐藏的深层语义信息。
发明内容
本发明的目的在于解决对于数据库中的数据,在垂直行业中,省、部这一级的系统相对规范,标签比较准确;在市、区、县一级的系统中,标签相对不规范,标签可能存在着拼音规则、首字母等问题;在单实际业务系统中,甚至还存在着空标签的问题,通过本技术来解决标准标签识别问题。
一种基于行业知识的标签识别方法,包括以下步骤:
步骤1:对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签;
步骤2:数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;
步骤3:对步骤2处理后的数据向量化,将给定的数据经过预训练模型训练后获取向量化表示;
步骤4:对步骤3的向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类;
步骤5:将步骤4得到的标准类别标签与数据归档处理。
上述技术方案中,步骤1具体包括以下步骤:
步骤1.1:获取业务系统中的数据;
步骤1.2:获取行业标准中的标准标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043528.6/2.html,转载请声明来源钻瓜专利网。