[发明专利]智能古文字数据采集系统有效
申请号: | 201911015660.6 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110728262B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 程少轩 | 申请(专利权)人: | 程少轩 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/14;G06V30/10;G06F16/22 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 210093 江苏省南京市栖霞区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 古文字 数据 采集 系统 | ||
本发明提供一种智能古文字数据采集系统,用于对格式相对比较固定的古文字工具书的扫描图像进行自动识别并实现古文字数据的自动采集,其特征在于,包括:采集格式存储部;用于获取扫描图片的图像获取部;用于对扫描图像进行识别切割从而得到多个字头图像以及相应的古文字记载图像的图像切割部;用于对字头图像中的现代字形进行识别从而获取相应的字符编码的字头识别获取部;用于对古文字记载图像进行分析从而获取相应的古文字图像的古文字图像分析获取部;用于根据古文字图像对相应古文字记载图像中的备注文字进行识别从而得到相应的备注信息的备注信息识别获取部;以及用于将字符编码、古文字图像以及备注信息分别进行对应存储的古文字数据存储部。
技术领域
本发明属于古文字识别领域,涉及古文字的登记和录入,具体涉及一种智能古文字数据采集系统。
背景技术
随着古文字识别技术的兴起,需要将古文字录入数据库从而扩充识别数据库,过去对于古文字的研究都被制成工具书完成记载,目前古文字工具书有数百种,是可以利用的初步采集成果。
然而,在现在对工具书中的数据库进行录入时,需要人工采集工具书中的已有数据。以这些工具书中记载的文字材料计,甲骨文有10万片以上,总字数为百万级。青铜器铭文、战国竹简、秦汉简、玺印货币陶文等也均在此数量级别。若按资料逐一清理登记,采集数据量极大,会造成极高的时间以及成本的浪费。
发明内容
为解决上述问题,利用古文字类工具书格式相对比较固定的实际情况,提供一种能够实现自动采集从而提高古文字采集效率的智能古文字数据采集系统,本发明采用了如下技术方案:
本发明提供了一种智能古文字数据采集系统,用于对格式相对比较固定的古文字工具书的扫描图像进行自动识别并实现古文字数据的自动采集,其特征在于,包括:采集格式存储部,存储有预先设定的包含有字头区域以及古文字记载区域的采集格式;图像获取部,用于获取扫描图片;图像切割部,用于根据采集格式对扫描图像进行识别切割从而得到多个字头图像以及相应的古文字记载图像;字头识别获取部,用于采用字符识别方法对字头图像中的现代字形进行识别从而获取相应的字符编码;古文字图像分析获取部,用于对古文字记载图像进行分析从而获取相应的古文字图像;备注信息识别获取部,用于根据古文字图像对相应古文字记载图像中的备注文字进行识别从而得到相应的备注信息;古文字数据存储部,用于将字符编码、古文字图像以及备注信息分别进行对应存储。
本发明提供的智能古文字数据采集系统,还可以具有这样的技术特征,其中,古文字图像分析获取部包括:二值法分析单元,用于通过二值法识别古文字记载图像中古文字的位置并将四点定位得到的坐标区域作为古文字区域;以及裁剪获取单元,用于根据古文字区域对古文字记载图像进行裁剪从而获取古文字图像。
本发明提供的智能古文字数据采集系统,还可以具有这样的技术特征,其中,备注信息识别部包括文字识别判定单元以及备注字符识别单元,文字识别判定单元用于在古文字图像分析获取部识别出古文字图像后识别出古文字区域下方的含有文字的待识别区域并判定该待识别区域是否含有可识别文字,若判定含有可识别文字,备注字符识别单元就通过字符识别方法识别待识别区域并将识别出的字符串作为备注信息。
本发明提供的智能古文字数据采集系统,还可以具有这样的技术特征,还包括:识别控制部以及识别判定部,其中,一旦备注信息识别部完成备注信息的识别,识别控制部就控制识别判定部判定当前的古文字记载图像是否还具有未被识别的文字,若判定还具有未被识别的文字,识别控制部就控制古文字图像分析获取部以及备注信息识别部再次对当前的古文字记载图像进行识别直到识别判定部判定当前的古文字记载图像中不具有未被识别的文字。
本发明提供的智能古文字数据采集系统,还可以具有这样的技术特征,还包括:画面存储部以及输入显示部,其中,画面存储部中存储有区域设定画面,输入显示部显示区域设定画面让使用者设定含有字头所在区域以及古文字记载所在区域的区域设定数据,采集格式存储部将区域设定数据作为采集格式进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于程少轩,未经程少轩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911015660.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置