[发明专利]一种字幕识别方法、装置和终端有效

申请号：	201310463870.8	申请日：	2013-10-08
公开（公告）号：	CN103607635A	公开（公告）日：	2014-02-26
发明（设计）人：	李鹏;孙熙;崇伟峰;章志坚;高鹏程	申请（专利权）人：	十分（北京）信息科技有限公司
主分类号：	H04N21/435	分类号：	H04N21/435;H04N21/235
代理公司：	暂无信息	代理人：	暂无信息
地址：	100022 北京市朝阳区东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种字幕识别方法装置终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及视频识别技术领域，尤其涉及一种字幕识别方法、装置和终端。

背景技术

随着智能电视的不断普及，以及机顶盒智能化程度的不断提高，与智能电视相关的信息推送方期望一种与正在播放的节目内容或者与正在收看节目的观众特征相关的信息推送方式。很多电视节目都配有与声音相应的字幕，识别出这些字幕对于信息推送系统识别出电视正在播放的内容有着重要帮助。

OCR（Optical Character Recognition，光学字符识别）技术可以应用于视频截图中的文本检测。由于电视节目中的文本通常直接叠加在各式各样的视频内容上，当背景颜色与文字颜色很接近时，会明显地影响文字识别结果，导致识别结果无法用于后续的计算任务，使文字识别过程的效率低下。

发明内容

本发明实施例提供一种字幕识别方法、装置和终端，能够使文字识别结果的准确率大幅提高。

为达上述目的，本发明实施例采用以下技术方案：

一种字幕识别方法，所述方法包括：

提取当前视频流中包含字幕的多帧图像；

对所述多帧图像分别进行字幕识别，得到多个字幕识别结果；

检测出得到的多个字幕识别结果中属于同一个字幕的至少两个字幕识别结果；

根据所述属于同一个字幕的至少两个字幕识别结果，确定最终的字幕识别结果。

通过提取包含字幕的多帧图像而得到多个字幕识别结果，对多个字幕识别结果中属于同一个字幕的字幕识别结果进行合并，从而大大提高了对视频中的字幕文字识别结果的准确率，更有利于进行后续的计算任务，提高了文字识别过程的效率。

所述检测出得到的多个字幕识别结果中属于同一个字幕的至少两个字幕识别结果，包括：根据所识别字幕的时间间隔信息、字幕识别结果的内容长度差别和字幕识别结果的相同文字的比例中的一项或几项确定属于同一个字幕的至少两个字幕识别结果。

综合三种检测方法，可有效弥补各检测方法单一使用时的检测漏洞，使检测结果的准确率大幅提高。

所述根据所述属于同一个字幕的至少两个字幕识别结果，确定最终的字幕识别结果，包括：将属于同一个字幕的至少两个字幕识别结果进行匹配处理，保留匹配后的所述至少两个字幕识别结果中的相同字幕；对于所述至少两个字幕识别结果中的不同的字幕，根据概率模型分别确定不同的字幕的概率，从不同的字幕的概率中确定较大概率对应的字幕；将所述较大概率对应的字幕与所述相同字幕按照字幕识别结果中的顺序合并成最终的字幕识别结果。根据多个字幕识别结果以及概率模型确定出现概率最高的字幕组合，从而保证识别结果的准确性。

对于所述至少两个字幕识别结果中的不同的字幕，根据概率模型确定出现概率较高的字幕之前，所述方法还包括：获取当前视频流的内容类别信息；根据所述内容类别信息确定对应的概率模型。

对于不同内容类别的视频字幕，可以用与该类别相对应的概率模型来确定字幕识别结果，实现了字幕识别算法基于视频内容类别的高度定制，进一步提高了字幕识别结果的准确性。

所述提取当前视频流中包含字幕的多帧图像，包括：按预定频率提取当前视频流中包含字幕的连续多帧图像。这种方式不会降低整体的字幕识别效果，并且处理速度会更加稳定。

所述方法还包括：发送所述最终的字幕识别结果至服务端；接收所述服务端根据所述最终的字幕识别结果推送的信息。发送的字幕识别结果准确率更高，收到服务端推送的信息更接近视频内容，更容易引起观看者的兴趣。

一种字幕识别装置，包括：

提取模块，用于提取当前视频流中包含字幕的多帧图像；

识别模块，用于对所述多帧图像分别进行字幕识别，得到多个字幕识别结果；

检测模块，用于检测出得到的多个字幕识别结果中属于同一个字幕的至少两个字幕识别结果；

确定模块，用于根据所述属于同一个字幕的至少两个字幕识别结果，确定最终的字幕识别结果。

所述检测模块包括：

第一确定单元，用于根据所识别字幕的时间间隔信息、字幕识别结果的内容长度差别和字幕识别结果的相同文字的比例中的一项或几项确定属于同一个字幕的至少两个字幕识别结果。

所述确定模块包括：