[发明专利]视频节目的搜索方法和装置有效
申请号: | 201611019485.4 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106708929B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 李贤 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/71 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 节目 搜索 方法 装置 | ||
本发明公开了一种视频节目的搜索方法,包括:接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。相应地,本发明还公开了一种视频节目的搜索装置。采用本发明实施例,能挖掘出文档的潜在语义,提高搜索视频节目的准确度和搜索效率。
技术领域
本发明涉及计算机领域,尤其涉及视频节目的搜索方法和装置。
背景技术
在做综艺节目推荐时,ContentBase方法是一种重要的策略,主要是通过综艺内容描述的相似度进行聚类推荐,这种方法将内容相近的文本进行了聚类,现有主要是基于TF-IDF的Rocchio算法,Rocchio算法来源于向量空间模型理论,向量空间模型Vector spacemodel的基本思想为采用向量来表示一个文本,之后的处理过程就可以转化为空间中向量的运算。Rocchio算法训练的过程,其实就是建立类别特征向量的过程,对于给定的一个未知文本,生成该文本的向量,然后计算该向量与各类别特征向量的相似度,最后将该文本分到与其最相似的类别中去。
但是采用上述算法存在以缺点:Rocchio算法无法挖掘文档的潜在语义。二、它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。
发明内容
本发明实施例提出的一种视频节目的搜索方法和装置,能挖掘出文档的潜在语义,提高搜索视频节目的准确度和搜索效率。
本发明实施例提供的一种视频节目的搜索方法,包括:
接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别;
选取与所述视频类别相对应的潜在语义索引模型,并根据所述语义索引模型的索引矩阵的构建方式,构建所述描述词条的查询向量;其中,所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的;
根据所述潜在语义索引模型,计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度;
对计算获得的余弦相似度进行从大到小的排序,并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
进一步地,由描述视频节目的描述文档构建成索引矩阵的过程包括:将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值;
构建所述描述词条的查询向量的过程包括:设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同,并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值;其中,所述查询向量为列向量。
进一步地,由描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程,具体为:
对于数据库存储的描述同一视频类别的视频节目的所有描述文档,根据标准词条格式,对所述所有描述文档包含的词条进行格式调整;其中,所述数据库存储有多种视频类别的描述文档,一个描述文档描述一个视频节目,不同的描述文档描述的视频节目互不相同;
调用分词工具;
利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词,获得第一词语集;
根据TF-IDF算法从所述第一词语集中提取关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611019485.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:切削刀具及其制造方法
- 下一篇:一种合成碳酸二甲酯的方法