[发明专利]一种唇动识别模型的构建方法及系统有效
申请号: | 201710190523.0 | 申请日: | 2017-03-27 |
公开(公告)号: | CN108664842B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 李颖豪 | 申请(专利权)人: | TCL科技集团股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李艳丽 |
地址: | 516006 广东省惠州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 模型 构建 方法 系统 | ||
本发明实施例提供了一种唇动识别模型的构建方法及系统,其中方法包括:通过构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。本发明实施例可以节省构建唇动识别模型所耗费的人力、财力和时间,并且提高了构建的唇动识别模型精确性和可读性。
技术领域
本发明属于计算机技术领域,尤其涉及一种唇动识别模型的构建方法及系统。
背景技术
对嘴型是指对讲词或讲话录音,替动态虚拟人制作相应的嘴部动作。人手制作动态虚拟人发音的嘴部动画是一项技术要求高而且很繁杂的工作。
现有的自动对嘴型的方法一般都是基于机器学习,机器学习本身需要大量的讲话视频和相应的讲词,训练数据的质和量会直接影响对嘴系统的优劣。
为了收集大量的讲话视频,现有的产品和研发都是使用现有的开发数据,例如新闻报道视频或者是使用者上传的视频,由于当中的视频都并非是为了读唇而制作,所以说话者都只是以自然的方式说话,其中的嘴部动作未必会清晰可读,利用这种数据所训练出来的唇动识别模型将会同样难以阅读。
相对地,为了收集高质素、清晰的视频,其中一个方法就是聘请专业人士到一个实验室环境去拍摄讲话,研究人员可以明确地要求讲者使用清晰可读的嘴型讲话,然而这种方式要收集到足够的视频就需要花费昂贵的金钱、大量的时间和人力。
发明内容
本发明实施例的目的在于提供一种唇动识别模型的构建方法及系统,旨在解决上述要收集到足够的视频需要花费昂贵的金钱、大量的时间和人力时间的问题。
本发明实施例是这样实现的,一种唇动识别模型的构建方法,包括:
构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据;
根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库。
在上述技术方案的基础上,所述根据预设建模策略对所述样本数据中讲话者的唇部动作进行建模分析,得到唇语识别模型,并建立唇语识别模型数据库包括:
通过预设的嘴唇跟踪算法跟踪所述样本数据中讲话者的唇部动作,得到所述唇部动作的跟踪点数据;
将所述样本数据中唇部动作所对应的短句分拆成元音,并配对好按照时间顺序排列的跟踪点数据和元音,组成输入数据;
通过预设的分类算法对部分输入数据进行分类训练得到唇语识别模型;
将剩余部分输入数据中按照时间顺序排列的元音作为测试数据输入到训练得到的所述唇语识别模型进行唇部动作模拟;
通过所述预设的嘴唇跟踪算法提取模拟的唇部动作的跟踪点数据,判断所述模拟的唇部动作的跟踪点数据是否与所述测试数据所对应的跟踪点数据相匹配;
若不匹配,则返回所述通过预设的分类算法对所述输入数据进行分类训练得到唇语识别模型的步骤,重复执行上述流程,直至模拟的唇部动作的跟踪点数据与所述测试数据中元音所对应的跟踪点数据相匹配;
若相匹配,则将所述唇语识别模型存储至所述唇语识别模型数据库。
在上述技术方案的基础上,所述构建读唇猜句游戏,通过所述读唇猜句游戏收集讲话视频的样本数据包括:
为所述读唇猜句游戏设置讲者和猜句者两个玩家角色,并将所述读唇猜句游戏设置为回合制;
每轮游戏开始时,根据进入游戏的玩家人数制定游戏回合以及每个游戏回合中各个玩家的游戏角色,每个游戏回合中仅有一个玩家为讲者角色,其余玩家均为猜句者角色;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL科技集团股份有限公司,未经TCL科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710190523.0/2.html,转载请声明来源钻瓜专利网。