[发明专利]文本识别方法、装置和电子设备在审
申请号: | 202110299717.0 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113033552A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 肖学锋 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 | ||
本公开实施例公开了文本识别方法、装置和电子设备。该方法的一具体实施方式包括:获取待识别的视频,对视频进行采样,得到视频帧序列,其中,视频帧序列中的视频帧按照在视频中由前到后的顺序进行排列;确定视频帧序列中的视频帧的单位光流值,基于视频帧序列中的视频帧的单位光流值、预设第一光流阈值、预设第二光流阈值和处理视频帧时的处理状态,从视频帧序列中提取目标视频帧,得到目标视频帧序列;对目标视频帧序列中的目标视频帧进行文字识别,得到初始的文本识别结果;基于目标视频帧序列中的目标视频帧对应的初始的文本识别结果,输出最终的文本识别结果。该实施方式提高了视频文本识别的准确性。
技术领域
本公开实施例涉及计算机技术领域,具体涉及文本识别方法、装置和电子设备。
背景技术
目前,随着信息化建设的全面开展,文字识别技术已经进入行业应用开发的成熟阶段。在对视频中的文字进行识别的过程中,通常会首先从视频中提取待识别的视频帧,再对待识别的视频帧中的文字进行识别。因此,如何从视频中提取待识别的视频帧,是视频文字识别的关键步骤。
发明内容
提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开实施例提供了一种文本识别方法、装置和电子设备,提高了视频文本识别的准确性。
第一方面,本公开实施例提供了一种文本识别方法,该方法包括:获取待识别的视频,对视频进行采样,得到视频帧序列,其中,视频帧序列中的视频帧按照在视频中由前到后的顺序进行排列,视频中呈现有文字;确定视频帧序列中的视频帧的单位光流值,基于视频帧序列中的视频帧的单位光流值、预设第一光流阈值、预设第二光流阈值和处理视频帧时的处理状态,从视频帧序列中提取目标视频帧,得到目标视频帧序列,其中,处理状态包括陷入状态和非陷入状态;对目标视频帧序列中的目标视频帧进行文字识别,得到初始的文本识别结果;基于目标视频帧序列中的目标视频帧对应的初始的文本识别结果,输出最终的文本识别结果。
第二方面,本公开实施例提供了一种文本识别装置,该装置包括:获取单元,用于获取待识别的视频,对视频进行采样,得到视频帧序列,其中,视频帧序列中的视频帧按照在视频中由前到后的顺序进行排列,视频中呈现有文字;提取单元,用于确定视频帧序列中的视频帧的单位光流值,基于视频帧序列中的视频帧的单位光流值、预设第一光流阈值、预设第二光流阈值和处理视频帧时的处理状态,从视频帧序列中提取目标视频帧,得到目标视频帧序列,其中,处理状态包括陷入状态和非陷入状态;识别单元,用于对目标视频帧序列中的目标视频帧进行文字识别,得到初始的文本识别结果;输出单元,用于基于目标视频帧序列中的目标视频帧对应的初始的文本识别结果,输出最终的文本识别结果。
第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本识别方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本识别方法的步骤。
本公开实施例提供的文本识别方法、装置和电子设备,通过首先获取待识别的视频,对上述视频进行采样,得到视频帧序列;之后,确定上述视频帧序列中的视频帧的单位光流值,基于上述视频帧序列中的视频帧的单位光流值、预设第一光流阈值、预设第二光流阈值和处理视频帧时的处理状态,从上述视频帧序列中提取目标视频帧,得到目标视频帧序列;而后,对上述目标视频帧序列中的目标视频帧进行文字识别,得到初始的文本识别结果;最后,基于上述目标视频帧序列中的目标视频帧对应的初始的文本识别结果,输出最终的文本识别结果。通过稠密光流计算的这种可以从视频中抽取出较为清晰的视频帧,对这些较为清晰的视频帧进行文字识别,提高了视频文本识别的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299717.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置和电子设备
- 下一篇:视频抽帧方法、装置和电子设备