[发明专利]多媒体文件的预测方法和装置有效
申请号: | 201711409084.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108304459B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 张志伟;杨帆 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/44 | 分类号: | G06F16/44 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标多媒体文件 多媒体文件 分布概率 图像识别算法 语音识别算法 自然语言处理 方法和装置 内容识别 算法 预测 标签 目标主题 主题集 预设 排序 统计 | ||
1.一种多媒体文件的预测方法,其特征在于,所述方法包括:
对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;
根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;
根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;其中,所述条件分布概率通过对训练多媒体文件集进行训练得到的步骤,包括:对训练多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一训练标签集、第二训练标签集及第三训练标签集;根据所述第一训练标签集、第二训练标签集及第三训练标签集,将所述训练多媒体文件集中的各训练多媒体文件划分至预设主题集的各主题中;根据所述各训练多媒体文件的标注信息,统计各主题中的训练多媒体文件属于目标主题的概率,得到各主题中目标主题对应的条件分布概率;
按照所述得分对所述各目标多媒体文件进行排序。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各训练多媒体文件的标注信息,统计各主题中的训练多媒体文件属于目标主题的概率,得到各主题中目标主题对应的条件分布概率的步骤,包括:
根据所述各训练多媒体文件的标注信息,统计各主题中属于目标主题的训练多媒体文件的数目,得到第一数值;
统计所述各主题中的训练多媒体文件的总数目,得到第二数值;
计算所述第一数值与第二数值的比值,得到各主题中目标主题对应的条件分布概率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分的步骤,包括:
对于每个目标多媒体文件,将所述目标多媒体文件在各主题中的分布概率和各主题中目标主题对应的条件分布概率分别相乘,得到所述目标多媒体文件在各主题中的目标概率;
将所述目标多媒体文件在各主题中的目标概率相加,得到所述目标多媒体文件的得分。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中的步骤,包括:
对于所述目标多媒体文件集中的各目标多媒体文件,根据所述目标多媒体文件在第一标签集中对应的第一标签、第二标签集中的第二标签以及第三标签集中的第三标签,进行综合判断以将所述目标多媒体文件划分至预设主题集中的各主题中。
5.一种多媒体文件的预测装置,其特征在于,包括:
标签获取模块,用于对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;
主题划分模块,用于根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;
得分预测模块,用于根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;
训练标签获取模块,用于对训练多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一训练标签集、第二训练标签集及第三训练标签集;
训练主题划分模块,用于根据所述第一训练标签集、第二训练标签集及第三训练标签集,将所述训练多媒体文件集中的各训练多媒体文件划分至预设主题集的各主题中;
条件分布概率统计模块,用于根据所述各训练多媒体文件的标注信息,统计各主题中的训练多媒体文件属于目标主题的概率,得到各主题中目标主题对应的条件分布概率;
排序模块,用于按照所述得分对所述各目标多媒体文件进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711409084.4/1.html,转载请声明来源钻瓜专利网。