[发明专利]一种内容标注方法和相关装置有效
申请号: | 202110449489.0 | 申请日: | 2021-04-25 |
公开(公告)号: | CN112862021B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 朱灵子;马连洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 518064 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 内容 标注 方法 相关 装置 | ||
本申请实施例公开了一种内容标注方法和相关装置,至少涉及人工智能中的机器学习,包括:获取待处理内容集合,待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;根据待定标签的标签置信度,从待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足第一阈值的第二目标内容;将第一目标内容作为训练样本训练得到分类模型;通过分类模型对第二目标内容进行标注,得到第二目标内容的候选标签;根据第二目标内容的待定标签和候选标签,确定第二目标内容的实际标签。相关数据均可以保存在区块链中,通过大数据处理,确定待处理内容集合中的内容的实际标签,提高了第二目标内容的实际标签的准确性。
技术领域
本申请涉及数据处理领域,特别是涉及一种内容标注方法和相关装置。
背景技术
对互联网中产生的内容进行标注可以实现对内容的有效识别、分类,通过对内容标注的标签,后续可以作为标注集使用在大量的内容应用场景中,例如基于内容的标签向用户有针对性的内容推荐场景。
对未标注的内容进行标注的效率和准确度直接影响了对内容的后续使用,相关技术中主要采用人工标注或基于规则标注两种方式。
人工标注的标签虽然准确率尚可,但是非常依赖经验且效率低下,基于规则标注的方式难以适用于日新月异的各类内容,准确率无法保证。
发明内容
为了解决上述技术问题,本申请提供了一种内容标注方法和相关装置,用于提高对未标注的内容进行标注的效率和准确度
本申请实施例公开了如下技术方案:
一方面,本申请提供一种内容标注方法,所述方法包括:
获取待处理内容集合,所述待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;
根据所述待定标签的标签置信度,从所述待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足所述第一阈值的第二目标内容;
将所述第一目标内容作为训练样本训练得到分类模型;
通过所述分类模型对第二目标内容进行标注,得到所述第二目标内容的候选标签;
根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签。
另一方面,本申请提供一种内容标注装置,所述装置包括:获取单元、训练单元、标注单元和确定单元;
所述获取单元,用于获取待处理内容集合,所述待处理内容集合中的内容具有通过弱监督训练的模型所标注的待定标签;
所述获取单元,还用于根据所述待定标签的标签置信度,从所述待处理内容集合的内容中获取标签置信度满足第一阈值的第一目标内容,和标签置信度不满足所述第一阈值的第二目标内容;
所述训练单元,用于将所述第一目标内容作为训练样本训练得到分类模型;
所述标注单元,用于通过所述分类模型对第二目标内容进行标注,得到所述第二目标内容的候选标签;
所述确定单元,用于根据所述第二目标内容的待定标签和候选标签,确定所述第二目标内容的实际标签。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110449489.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法