[发明专利]一种视频语音检索方法有效
申请号: | 202110308948.3 | 申请日: | 2021-03-23 |
公开(公告)号: | CN112905844B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 刘文印;李劼博;陈俊洪 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/683;G06K9/62;G06V10/80 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 语音 检索 方法 | ||
本申请公开了一种视频语音检索方法,包括:提取训练样本中的视频特征和语音特征;将视频特征和语音特征进行特征对齐;计算视频/语音特征与视频/语音特征记忆库中视频/语音特征的视频特征相似度;若视频特征相似度和/或者语音特征相似度小于预设的阈值,则更新对应的视频特征记忆库和/或者语音特征记忆库;计算视频/语音特征与记忆库中视频/语音特征的距离关系向量;将对齐后的视频特征和语音特征进行特征融合,得到融合特征向量;将距离关系向量与融合特征向量进行加权计算,得到训练样本的特征与记忆库特征的匹配度;根据匹配度调整视频语音检索模型的参数。本申请可以对新类事物进行实时学习,并能对新样本所描述的事物进行匹配检索。
技术领域
本申请涉及视频语音检索技术领域,尤其涉及一种视频语音检索方法。
背景技术
智能机器人,从人类的演示视频中,学习人类动作并充分理解动作的含义,绝不仅仅体现于它能在特定场景下复现人类动作。它应该在更加广阔的外部场景下,根据场景信息和人类发出的语音信息亦或指令做出相应的一种或多种动作。这样才算得上,机器人系统从广泛的视频和语音资料中学习并理解到了其中的含义。当看不见的内容时,听觉通常可以提供在与有关视觉内容上,具有相同结构的信息。因此,尽管对于一段带声音的视频片段,声音是视频内容补充的存在,但是声音或语音本身也包含了关于隐含在动作中的重要信息。要认识并理解到这一点,其实对于机器人或者智能系统来说是不容易的,因为它们的学习能力尚未达到人类的那种元认知学习的程度,尚不善于把各种动作的类型,包括动作对于的物体,以及物体的种类联系起来。例如,对于“刀切橙子”和“刀切香蕉”的语音信息,对应的动作都是“切”,但是,确切到被切的物体,辅助动作还会有细微的不同。
为了实现这样的目标,可以把动作视频资料和描述动作的语音资料联系起来,而这就涉及到跨模态算法的发展和应用。以往,训练好的神经网络模型在实际的测试和使用中,当面对新种类的物体或者动作出现时,往往只能靠瞎猜或者难以达到理想的效果。如果想要进一部获得较好的预测效果,需要重新建立大规模数据,并在上面重新训练新的特征表示,以连结不同模态的关系。这样的操作实际上非常昂贵,在时效上,也很划不来。
综上,提出一个能从视频和语音中学习到内在关联,实现视频语音之间检索的模型,并且让搭载该模型的智能机器人或智能系统在实际应用中面对新的陌生样本,可以就地实时学习,不断丰富其视频语音记忆库的方案,是有重大意义的。
发明内容
本申请提供了一种视频语音检索方法,使得可以把动作视频资料和描述动作的语音资料联系起来,并且能够就地实时学习,不断丰富其视频语音记忆库,得到一个可以不断学习,并能对音视频结合进行识别的视频语音检索模型。
有鉴于此,本申请提供了一种视频语音检索方法,所述方法包括:
提取训练样本中的第一视频特征和第一语音特征;
将所述第一视频特征和所述第一语音特征进行特征对齐;
计算所述第一视频特征与视频特征记忆库中第二视频特征的视频特征相似度,以及计算所述第一语音特征与语音特征记忆库中第二语音特征的语音特征相似度;
若所述视频特征相似度和/或者所述语音特征相似度小于预设的阈值,则更新对应的所述视频特征记忆库和/或者所述语音特征记忆库;
计算所述第一视频特征与所述第二视频特征的视频特征距离关系向量,以及计算所述第一语音特征与所述第二语音特征的语音特征距离关系向量;
将对齐后的所述第一视频特征和所述第一语音特征进行特征融合,得到融合特征向量;
将所述视频特征距离关系向量、所述语音特征距离关系向量以及所述融合特征向量进行加权计算,得到训练样本的特征与特征记忆库中特征的匹配度;
根据所述匹配度调整视频语音检索模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308948.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配网自愈线路网架问题智能分析方法和系统
- 下一篇:一种装配式螺杆组件