[发明专利]一种基于自然语言处理的数据元识别方法及装置在审
申请号: | 202310043525.2 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116049403A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 赵群;苏萌;刘译璟;苏海波;杜晓梦 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/295;G06F40/30;G06F18/2321 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 数据 识别 方法 装置 | ||
1.一种基于自然语言处理的数据元识别算法,其特征在于,包括以下步骤:
步骤1:利用带有OCR识别技术获取原始数据元,对不同行业领域的数据元进行初步数据清洗操作,得到初步清洗后的数据元;
步骤2:对初步清洗后的数据元进行语义增广操作,得到增强语义数据元;
步骤3:对增强语义数据元进行聚类划分操作,得到不同分支增强语义数据元组;
步骤4:对不同分支增强语义数据元进行属性自生成操作,得到不同分支属性数据元组;
步骤5:对不同分支属性数据元组进行数据规范操作,得到不同分支规范数据元组;
步骤6:对不同分支规范数据元组进行分类数据存储操作,得到不同分支数据存储。
2.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤1具体包括以下步骤:
步骤1.1:得到由OCR识别数据元后,对不同行业领域的数据元进行缺省值填充,对于数据内容为空的部分补充NULL或unk,得到缺省填充后的数据元;
步骤1.2:对缺省填充后的数据元进行异常值丢弃和数据统一规范化,得到统一数据元;
步骤1.3:对统一数据元进行特殊符号消除替换和字对齐,得到初步清洗后的数据元。
3.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤2具体包括以下步骤:
步骤2.1:对初步清洗后的数据元进行空值语义填充,得到填充数据元;
步骤2.2:对填充数据元进行词条语句化,利用特定的语义增广预训练模型将数据元结构生成为语义流畅的增强语义数据元,从此数据元的基本单位为完整语句而非词条。
4.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤3具体包括以下步骤:
步骤3.1:对增强语义数据元进行向量化操作,输入预训练模型Encoder得到数据元词嵌入;
步骤3.2:对数据元词嵌入进行聚类分析操作,利用DBSCAN算法将高维语义空间的词嵌入自动化分为不同的类别,得到所属不同类别的类别信息,划分为中文类别、拼音类别、同义词类别、英文类别和英文同义类别;
步骤3.3:将对应相同的类别信息的增强语义数据元划分为一组,得到不同分支增强语义数据元组。
5.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤4具体包括以下步骤:
步骤4.1:对不同分支的增强语义数据元组进行命名实体识别操作,具体地来说是对于所属相同分支的所有增强语义数据元全体进行命名实体识别操作,自适应地抽取得到不同分支对应的不同属性类和属性值;
步骤4.2:对不同分支对应的不同属性类和属性值进行数据耦合与降序排列,得到不同分支属性数据元组。
6.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤5具体包括以下步骤:
步骤5.1:对不同分支属性数据元组进行组内数据规范化操作,对所属相同类别的属性数据元组进行相似属性合并、比例数值归一化操作,得到不同分支对齐数据元组;
步骤5.2:对不同分支对齐数据元组进行组间数据规范化操作,对所属不同类别的属性数据元组进行相似属性规范化、相关属性对齐化、对立属性离散化操作,得到不同分支规范数据元组。
7.根据权利要求1所述的一种基于自然语言处理的数据元识别算法,其特征在于,步骤6具体包括以下步骤:
步骤6.1:对不同分支规范数据元组进行组内存储操作,将所属同一分支的规范数据元组存储到数据库中并将索引节点归并到同一子树上,按照一定的次序降序排列,得到不同分支子树存储;
步骤6.2:对不同分支子树存储依照所属领域类别在词嵌入空间的相似性聚类排列合并,得到最终的不同分支数据存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043525.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置