[发明专利]一种古籍文字数字化录入方法在审
| 申请号: | 201610964844.7 | 申请日: | 2016-10-31 |
| 公开(公告)号: | CN106529521A | 公开(公告)日: | 2017-03-22 |
| 发明(设计)人: | 王良君;禇正东;徐朝龙;王旭 | 申请(专利权)人: | 江苏文心古籍数字产业有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种古籍文字数字化录入方法,包括对古籍进行全文扫描,将扫描图像碎片化,利用古籍字体数据库对所述文字单元格进行自动识别,采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检,完善古籍字体数据库,根据录入结果和坐标,还原位置,生成PDF文件。本发明可以提高图像数字化信息安全度和效率。 | ||
| 搜索关键词: | 一种 古籍 文字 数字化 录入 方法 | ||
【主权项】:
一种古籍文字数字化录入方法,其特征在于,步骤包括:步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;步骤5、根据录入结果和坐标,还原位置,生成PDF文件:根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏文心古籍数字产业有限公司,未经江苏文心古籍数字产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610964844.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种智能养花系统
- 下一篇:试验水分胁迫控制灌溉系统及其数据标定方法





