[发明专利]基于文本匹配的学生作业页码识别方法有效

专利信息
申请号: 201910800669.1 申请日: 2019-08-28
公开(公告)号: CN110533035B 公开(公告)日: 2022-02-15
发明(设计)人: 张东祥;聂雨杨;郭馨茹;陈李江 申请(专利权)人: 海南阿凡题科技有限公司
主分类号: G06V20/62 分类号: G06V20/62;G06V10/764;G06V10/82;G06K9/62;G06F16/31;G06F16/33;G06N3/04;G06N3/08
代理公司: 北京市恒有知识产权代理事务所(普通合伙) 11576 代理人: 郭文浩;尹文会
地址: 571924 海南省海口市老城高*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于图像匹配技术领域,具体涉及了一种基于文本匹配的学生作业页码识别方法,旨在解决现有技术页码识别精确度达不到预期并且拓展性不强的问题。本发明方法包括:识别待识别页面的文字连通区域并进行划分,获得多个文本行图片;通过文本序列识别模型分别将文本行图片转化为文本;提取文本的N‑gram特征,并在数据库对应的特征倒排表中查询;将数据库中共同特征最多且特征数量高于设定阈值的图片作为文本的匹配图片。本发明使用基于深度学习神经网络构建的文本序列识别模型,通过N‑gram特征查询的方式,从数据库中匹配图片,页面匹配和页码识别精确度有了很大的提高,对于数学公式等不规则字符的识别精确率提升也有很好的效果。
搜索关键词: 基于 文本 匹配 学生 作业 页码 识别 方法
【主权项】:
1.一种基于文本匹配的学生作业页码识别方法,其特征在于,该页面匹配方法包括:/n步骤S10,获取纸质文本页面的图像作为待识别页面;/n步骤S20,识别所述待识别页面中的各个文字连通域,根据所识别出来的文字连通域,对文字内容进行划分,获得多个文本行图片;/n步骤S30,通过文本序列识别模型,分别基于所述多个文本行图片转化为相应的文本,获得待识别页面对应的文本;所述文本序列识别模型基于深度学习神经网络构建,包括图像理解模型、序列生成模型;/n步骤S40,提取所述待识别页面对应的文本的bi-gram与tri-gram特征,获得特征集合;/n步骤S50,分别在倒排表中查询所述特征集合中每一个特征,获取共同特征最多的图片;所述倒排表为根据数据库图片对应的bi-gram与tri-gram特征构建的;/n步骤S60,判断所述共同特征最多的图片包含的共同特征数量是否大于设定阈值,是则该图片为所述待识别页面的匹配图片,该图片对应的页码数字类别为所述待识别页面的页码数字类别;否则数据库中不包含所述待识别页面的匹配图片。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南阿凡题科技有限公司,未经海南阿凡题科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910800669.1/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top