[发明专利]一种基于自然语言处理的数据元识别方法及装置在审
申请号: | 202310043525.2 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116049403A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 赵群;苏萌;刘译璟;苏海波;杜晓梦 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/295;G06F40/30;G06F18/2321 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 数据 识别 方法 装置 | ||
本发明涉及自动化数据处理方法领域,提供了一种基于自然语言处理的数据元识别方法。主旨在于解决简单的枚举方式对所有不同行业和领域分类造成的数据稀疏问题和随之产生的不同细分行业和领域层级数据元字典类别过多的问题。主要方案包括利用带有OCR识别技术获取原始数据元,对数据清洗操作;对初步清洗后的数据元进行语义增广操作,得到增强语义数据元;对增强语义数据元进行聚类划分操作,得到不同分支增强语义数据元组;对不同分支增强语义数据元进行属性自生成操作,得到不同分支属性数据元组;对不同分支属性数据元组进行数据规范操作,得到不同分支规范数据元组,然后进行分类数据存储操作,得到不同分支数据存储。
技术领域
本发明涉及自动化数据处理方法领域以及人工智能自然语言处理领域,具体为一种基于自然语言处理的数据元识别方法及装置。
背景技术
常见的数据元识别方案以“模板-分类-存储”的流程为主,这需要工作人员事先对于不同行业领域的数据元格式做分析并给出对应不同行业领域数据元的数据存储模板,进而通过OCR、手动信息录入、批量格式转化输入等方式以不同的模板作为格式进行存储。存储方式也各有不同,一种是存放于传统的关系型数据库中,比如MySQL、Oracle、SQLServer等关系型数据库,还有一种是csv或者其他特定格式的半结构化数据。这种首先通过人工分析设计模板规定数据元格式的方法对人工划分的精确性和交互性有很高的要求,规定数据元格式的好坏能够直接影响数据处理存储的速度和效率,进而影响整个系统识别分析的性能。这类数据元是数据类型通过定义,标识,表示以及允许值等一系列属性的数据单元,在特定语义环境中被认为是不可再分的最小数据单元。在大数据处理的情况下需要对大量的数据元进行识别,将其识别成某个领域中的标准数据元。制定出一套完备可复现的流程之后可以针对不同类别或领域的标准数据元制定不同的数据清洗标准,利用数据元清洗,即可将不符合规范的数据剔除。这种数据元识别方法主要是通过手工录入和比对进行的,当需要导入新数据时,根据数据列的相关信息对数据元素进行手工匹配,不仅匹配效率低而且错误率高。
目前传统的也是应用最广泛的是利用分类算法进行数据元识别,在公开号为CN110851559A的专利《数据元自动识别方法和识别系统》是与本申请提案最为接近的方案。在该方案中,利用带有OCR技术的装置得到数据元之后,首先需要进行简单的行业分类建立不同标准的数据元格式,并且据此构建不同的中文字典与拼音字典实现自动化、持续性的数据元录入。这种方式往往根据不同行业的标签建立第一级数据元字典,所述第一级数据元字典中的每一个子树对应一个行业,子树的叶子为行业的标签。之后根据不同行业的标准数据元建立与行业对应的第二级数据元字典。这些对标准数据元进行分词后的不同词元结果存储于MySQL数据库的词库表中。具体是用ElasticSearch分词插件对标准数据元进行分词,将分词结果存储于MySQL数据库的词库表中,定时查询词库表,根据词库表中的中文、英文、拼音、同义词和相似词构建到对应的中文字典、拼音字典、同义词字典、英文字典和英文同义字典等等之中,然后以词典树的格式常驻内存。对第一识别结果中的每个行业对应的第二级数据元字典进行匹配:根据行业A的第二级数据元字典计算分词后的文本中词语的TF-IDF权重,对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度,如果相似度大于预设的相似度阈值,认为待识别数据元与行业A的第二级数据元字典匹配成功;否则,匹配失败。由此,通过这种自动识别方法通过对不同行业的标准数据元进行语义分析,得到能够用于识别不同行业的数据元字典,依据此数据元字典,对待识别数据元进行匹配,从而得到识别结果。该方法能够对杂乱无章的数据进行自动识别,统一为规范的数据集,从而为后续数据处理提供方便。
这种技术带来了一定程度上的便捷性,但是仍然有以下几点缺陷:
一、简单的根据不同行业和领域分类可能会导致数量过于庞大的细分行业和领域使得构建的层级数据元字典类别过多同时其中包含的数据元条目又过少。每一种类别的数据元字典都需要人工进行清洗纠错规范化,这无疑增加了许多人工投入的成本,本质上是对所有不同类别的数据元都采用了不同的规范处理,时间开销过于庞大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043525.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置