[发明专利]一种基于机器人的智能数据采集系统有效
申请号: | 202210011870.3 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114078254B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 刘波;张晓玮;戈姗姗;曾绍颖;李浩;李伟利 | 申请(专利权)人: | 华中科技大学同济医学院附属协和医院 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19;G06K9/62 |
代理公司: | 北京中誉至诚知识产权代理事务所(普通合伙) 11858 | 代理人: | 张平力 |
地址: | 430022 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器人 智能 数据 采集 系统 | ||
本发明涉及数据采集领域,尤其涉及一种基于机器人的智能数据采集系统,包括:采集模块,用以提取文件内的特征信息,中控模块,用以对所述采集模块提取的特征信息进行识别并在识别完成时检测针对特征信息的识别精度,云端服务器,其中存储有语言文字信息,本发明通过设有采集模块、中控模块及云端服务器,用以根据用户的需求提取文件中的特征信息生成暂存文档,并对暂存文档中的文字内容进行校验替换,保证了纸质文件电子化的准确性,同时本发明通过采用云端服务器中存储的文字特征以对文字内容中含义不清楚的字词及导致句子有歧义的字词进行校验替换,在进一步保证数据采集系统采集内容的精确度的同时,提高了本发明所述系统的运行效率。
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于机器人的智能数据采集系统。
背景技术
现今,将纸质文件电子化的技术已越发成熟,但是社会上的现有技术仍存在固定比率的纸质数据误读的问题,且现有技术大都不对纸质文件电子化的数据进行校验,进一步加剧数据误读问题的产生。
中国专利公开号CN105681620B公开了一种图像文字采集一体化系统,包括:服务器模块、初始化配置模块、扫描模块和上传信息反馈模块,所述初始化配置模块包括图片文件夹路径输入模块、表格名称输入模块和文件名输入模块,所述扫描模块包括扫描控件模块、扫描操作模块和扫描文件编辑模块。通过上述方式,本发明图像文字采集一体化系统,不仅可以完成图像文字的扫描采集工作,而且可以直接将采集的各种信息分门别类的排列组合在相对应的表格中,提高了工作效率和准确率。
由此可见,上述技术方案存在以下问题:
1、没有对识别的文字信息进行词义与句子的校验造成系统读取精度低的问题;
2、未对内容信息进行分类并应用各自的采集方法。
发明内容
为此,本发明提供一种基于机器人的智能数据采集系统,用以克服现有技术中没有对识别的文字信息进行词义与句子的校验造成系统读取精度低的问题。
为实现上述目的,本发明提供一种基于机器人的智能数据采集系统,包括:
采集模块,用以提取文件内的特征信息、根据文件内特征信息生成对应的暂存文档、对暂存文档中的各特征信息的种类进行判定并在判定完成时根据用户需求对对应种类的特征信息进行初步采集;当所述采集模块识别到文件时,采集模块根据需求提取暂存文档中对应种类的特征信息;所述特征信息的种类包括文字特征、图像特征以及表格特征;
中控模块,其与所述采集模块相连,用以对所述采集模块提取的特征信息进行识别并在识别完成时检测针对特征信息的识别精度;当所述中控模块针对文件中的文字特征进行识别时,中控模块依次对各文字进行识别,当中控模块完成对全部文字特征的识别时,中控模块检测文字特征中存在的词语和语句并依次对词语和语句的识别精度进行校对,若存在单个词语,该词语的含义不清楚,中控模块依次重新识别该词语中的各文字以重新识别单个首选替换词和若干备选替换词,若不存在含义不清楚的词语,中控模块针对文字特征中的语句的识别精度进行校对并在判定存在含义不清楚的语句时逐个重新识别语句中的各词语;
云端服务器,其与所述中控模块相连,在云端服务器中存储有若干不同种类的预设特征信息,用以在中控模块对特征进行识别时提供对应种类的预设特征信息作为识别标准;当所述中控模块针对对应种类的特征信息进行识别时,中控模块从所述云端服务器中提取对应种类的预设特征信息并使用该预设特征信息作为针对对应种类的特征信息的识别标准。
进一步地,所述中控模块中设有预设文字特征相似度S0,当所述中控模块针对文件中的文字特征进行识别时,中控模块从所述云端服务器中提取预设文字特征以作为识别标准,提取完成后,中控模块使用预设文字特征依次对所述采集模块初步采集的各文字特征进行识别,针对单个所述文字特征,中控模块依次计算该文字特征与各预设文字特征的相似度,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学同济医学院附属协和医院,未经华中科技大学同济医学院附属协和医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210011870.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置