[发明专利]媒体捕获事件中的实体的自动识别有效

申请号：	201680035310.4	申请日：	2016-06-16
公开（公告）号：	CN107750460B	公开（公告）日：	2020-11-06
发明（设计）人：	A·考尔;S-E·特雷姆布莱	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	H04N21/2187	分类号：	H04N21/2187;H04N21/234;H04N21/44;H04N21/4722;H04N21/84;H04N21/8405;G06K9/62;G06K9/32;G06K9/00
代理公司：	北京市金杜律师事务所 11256	代理人：	王茂华
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	媒体捕获事件中的实体自动识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

使得能够使用识别过程实时标识实况广播(例如，实况事件的流式内容(例如，视频))及非实况呈现(例如，电影)中诸如人物和内容的实体的架构。这可以通过提取与实况事件相关的实况数据来完成。关于人物实体，可以执行过滤，以从所提取的实况数据中标识已命名的(人物)实体，以及被发现与实况事件相关联的、与已命名的实体相关的趋势话题。针对已命名的实体，捕获在不同条件下捕获已命名的实体的已命名的实体的多个图像。然后对图像进行处理，以提取并学习脸部特征(训练一个或多个模型)，然后使用一个或多个经训练的模型对视频中的脸部执行脸部识别。

背景技术

脸部识别是流行且充满竞争的技术领域。然而，实况广播的实时脸部标识面临巨大的挑战。为了这样的系统运作，必须创建具有可能出现在电视上的每个人(例如，名人、体育明星等)的脸部的庞大支持系统。然而，快速且提供高精度的这种规模的系统是非常难以实现的。而且，采用出现在广播中的人物的相当小的子集仍然导致通常在广播中看到的数百万个脸部，这是无法进行实时处理的数量。此外，许多名人脸部看起来如此相似，使得用于实时区分这些脸部所需的处理是不切实际的。需要获得结果的速度、所需的存储器资源以及低精度是大规模的实时标识实况广播的脸部面临巨大的挑战的原因。

发明内容

以下呈现简化的发明内容，以提供对本文所描述的一些新颖实现的基本理解。本发明内容并不是广泛的概述，也不旨在标识关键/重要元素或划定其范围。其唯一目的是以简化的形式呈现一些概念，作为稍后呈现的更详细描述的序言。

所公开的架构使得能够至少使用识别过程(例如，脸部识别)在实况广播(例如，实况事件的流式内容(例如，视频))和非实况呈现(例如，电影)中实时标识诸如人物和内容(例如，文本、标志等)的实体。可以针对实况事件的电视广播以及电视节目和电影来实现实时标识，并且实时标识足够轻量化(用于更简单和更快的执行的更少的指令)以通过具有适度资源的系统(例如，本地客户端设备、便携式计算设备、蜂窝电话等)进行处理。

所公开的架构扩展到实况广播和非实况电视以及基于计算机的节目和电影，以识别视频帧中的实体并且利用来自网络源的信息/内容以及来自用户的个人存储和企业信息源的信息/内容来补充视频呈现，网络源例如是限制性(登录启用)信息源以及因特网的非限制性信息源(例如，网站)。

更具体地，这可以通过提取与实况事件有关的实况数据来实现(其中实况数据包括在事件正在发生时生成的实时信息和/或在与事件正在发生的时间接近的时间生成的实时信息)。关于人物实体，可以执行过滤，以从所提取的实况数据中标识已命名的实体(例如，人物)，以及与实况事件相关联地、被发现与已命名的实体有关的趋势话题。可以利用在不同条件(例如，照明、用于实现品质识别的一个或多个合适姿势等)下捕获的已命名的实体的多个图像(例如，照片)。然后对图像进行处理，以提取并学习脸部特征(训练一个或多个模型)，然后使用一个或多个经训练的模型对(例如，实况)视频中的脸部执行脸部识别。

架构还适用于在诸如聚会、集会等的社交活动期间，在个人电影/照片中捕获的家庭成员、亲属和/或朋友的识别处理。可以基于针对这些种类的人物训练的个人模型来标识这样的人物。例如，常见的是家庭和亲属的家庭规模扩大并且跨地理位置分散，使得与子女和孙子女的“紧密联系”很困难。捕获表亲、亲属等的家庭图像以及访问这样的图像随后使得能够在经由视频、照片等回顾过去的事件(例如，聚会)的同时识别这些成员的脸部和背景内容。在回顾期间与视频/照片一起呈现的信息可以包括从社交网络和其他合适的信息源接收的此人正在做什么、传记信息等。

例如，架构可以被实现为系统，该系统包括：访问组件，被配置为访问与视频中捕获的事件有关的信息；收集组件，被配置为从信息中收集训练数据并用于标识视频中的实体；训练组件，被配置为使用训练数据来训练模型；识别组件，被配置为执行视频中的实体的脸部识别处理，以标识特定实体，使用模型执行脸部识别处理；以及内容组件，被配置为获取与特定实体有关的内容，以与特定实体一起呈现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201680035310.4/2.html，转载请声明来源钻瓜专利网。

上一篇：视频编码方法、编解码装置及介质
下一篇：生成描述数据以及获得媒体数据和元数据的方法和装置

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]媒体捕获事件中的实体的自动识别有效

专利文献下载