[发明专利]多媒体资源的标签构建方法、装置、电子设备及存储介质在审
申请号: | 202210262736.0 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114564602A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 王霄;聂礼强;张博威;甘甜;宋雪萌;戴蒙 | 申请(专利权)人: | 北京达佳互联信息技术有限公司;山东大学 |
主分类号: | G06F16/435 | 分类号: | G06F16/435;G06F40/216;G06F16/45;G06K9/62 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 黄丽霞 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多媒体 资源 标签 构建 方法 装置 电子设备 存储 介质 | ||
本公开关于一种多媒体资源的标签构建方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,其中方法通过获取待构建标签的多媒体资源,从多个多媒体中确定目标标签集,并根据目标标签集中任一标签对所对应的多媒体,获取标签对的统计特征,进而根据标签对的统计特征确定标签对的关系类别,最后根据每个标签对的关系类别构建多媒体资源的标签体系。以实现基于待构建标签的多媒体资源进行标签的挖掘以及标签体系的构建,从而提高了定义标签的准确性及效率。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种多媒体资源的标签构建方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
背景技术
随着互联网技术的发展,短视频技术得到了广泛的应用。在短视频分析场景中,标签亦是重要的结构化数据,对短视频的整理、检索和分发有着重要作用。
相关技术中,传统信息系统中的标签体系由专家定义,但是由于短视频具有庞大增量和高度时效的特点,使得传统定义标签的方式准确性及效率都较低。
发明内容
本公开提供一种多媒体资源的标签构建方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,以至少解决相关技术中定义标签的方式准确性及效率都较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体资源的标签构建方法,包括:
获取待构建标签的多媒体资源,所述多媒体资源包括多个多媒体;
从多个多媒体中确定目标标签集,所述目标标签集包括多个目标标签;
根据所述目标标签集中任一标签对所对应的多媒体,获取所述标签对的统计特征,所述标签对为在同一多媒体中出现的任意两个目标标签;
根据所述标签对的统计特征确定所述标签对的关系类别;
根据每个所述标签对的关系类别构建所述多媒体资源的标签体系。
在其中一个实施例中,所述从多个多媒体中确定目标标签集,包括:获取每个多媒体的文本信息,所述文本信息包括所述多媒体的标题与所述多媒体的封面文本组成的拼接字符串;识别每个多媒体的文本信息中的关键词,并获取每个关键词的频数;根据每个关键词以及对应的频数获取满足设定条件的关键词为候选标签;获取每个所述候选标签的特征表示,根据所述特征表示确定目标标签,得到所述目标标签集。
在其中一个实施例中,所述多媒体还包括对应的类目信息;所述获取每个所述候选标签的特征表示,根据所述特征表示确定目标标签,包括:根据每个所述候选标签对应的多媒体以及所述多媒体对应的类目信息,获取所述候选标签的特征表示,所述特征表示包括所述候选标签向所述类目信息中任一类目的转移特征以及对应的特征熵;将所述候选标签的特征表示输入训练后的预测模型,得到所述预测模型输出的所述候选标签的特征参数;获取所述特征参数达到参数阈值的候选标签作为目标标签。
在其中一个实施例中,所述转移特征的获取方法包括:获取多媒体资源对应类目信息中任一类目信息对应的多媒体中所述候选标签的第一出现频数,以及获取多媒体资源中所有多媒体中所述候选标签的第二出现频数;根据所述第一出现频数与所述第二出现频数确定所述候选标签向任一类目的转移特征。
在其中一个实施例中,所述特征熵的获取方法包括:根据所述多媒体资源中所述多媒体对应的类目信息,以及所述候选标签向任一类目的转移特征,计算所述候选标签向任一类目的转移特征对应的特征熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司;山东大学,未经北京达佳互联信息技术有限公司;山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262736.0/2.html,转载请声明来源钻瓜专利网。