[发明专利]一种相似视频的检索方法、装置和存储介质有效

申请号：	201710331203.2	申请日：	2017-05-11
公开（公告）号：	CN107066621B	公开（公告）日：	2022-11-08
发明（设计）人：	张媛媛;于群;占飞;华枭;張永燊;熊磊	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/78	分类号：	G06F16/78;G06F16/73;G06F16/33
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种相似视频检索方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种相似视频的检索方法、装置和存储介质；本实施例在获取需要检索相似视频的视频信息后，一方面，可以根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合；另一方面，可以采用预设文本深度表示模型对该视频信息进行训练，以将视频信息转化为词向量，并根据词向量从视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，综合该第一候选视频集合和第二候选视频集合来选择该视频信息的相似视频，以达到检索相似视频的目的；该方案不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

技术领域

本发明涉及通信技术领域，具体涉及一种相似视频的检索方法、装置和存储介质。

背景技术

在信息爆炸的时代，面对海量的视频，如何从中准确且全面地检索到相似视频，对于用户查询和视频信息推荐等场景，都有着积极的意义。

现有在检索相似视频时，一般都会采用文本深度表示模型(word2vec)来进行建模，然后，基于该模型计算视频标题的相似度，并根据该相似度来查找相似的视频。其中，训练word2vec模型的语料主要来自于网络，若语料发生更新，则该word2vec模型需要重新进行训练。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有方案非常依赖于分词效果、语料的量级以及语料更新的及时性，若语料更新不及时，对于一些新出现的视频信息，则可能无法取得正确的分词结果，进而影响word2vec模型的训练结果，最终导致召回率(R，Recall，也称为查全率)较低，检索结果不准确，而若语料更新频率过大，则需要消耗大量的训练时间和计算资源，导致资源浪费。

发明内容

本发明实施例提供一种相似视频的检索方法、装置和存储介质，不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

本发明实施例提供一种相似视频的检索方法，包括：

获取需要检索相似视频的视频信息，所述视频信息包括视频标签和视频标题；

根据预设知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

采用预设文本深度表示模型(word2vec)对所述视频信息进行训练，以将所述视频信息转化为词向量；

根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；

根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。

相应的，本发明实施例还提供一种相似视频的检索装置，包括：

获取单元，用于获取需要检索相似视频的视频信息，所述视频信息包括视频标签和视频标题；

匹配单元，用于根据预设知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

训练单元，用于采用预设word2vec对所述视频信息进行训练，以将所述视频信息转化为词向量；