[发明专利]一种数据处理方法、装置、设备及存储介质有效
申请号: | 202110918706.6 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113378826B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 司雪敏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62;G06F16/33;G06F16/35;G06F40/279;G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
地址: | 518064 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种人工智能领域的数据处理方法、装置、设备及存储介质,其中该方法包括:获取目标弹幕的目标文本;通过第一弹幕识别模型,根据目标文本确定目标弹幕的第一识别结果;第一弹幕识别模型是基于包括第一训练文本及其对应的弱标注结果的第一训练样本训练得到的,弱标注结果是根据播放第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;通过第二弹幕识别模型,根据目标文本确定目标弹幕的第二识别结果;第二弹幕识别模型是基于包括第二训练文本及其对应的强标注结果的第二训练样本训练得到的;根据第一识别结果和第二识别结果,确定目标弹幕的目标识别结果。该方法能够取得较好的不良弹幕识别效果,并且降低模型训练成本。
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
如今,很多网络视频播放平台均具有弹幕功能,即支持用户在观看视频的过程中编辑并发送其对于当前播放的视频的评论内容即弹幕,观看该视频的用户可以相应地看到其他用户发送的弹幕。在实际应用中,用户发送的弹幕良莠不齐,其中经常夹杂着包括不雅的内容、枯燥无聊的内容、令其他用户厌恶的内容等不良内容的弹幕,此类弹幕在业界又被称为不良弹幕;为了提高用户的视频观看体验,一些网络视频播放平台会识别用户发送的弹幕是否为不良弹幕,并对不良弹幕进行过滤处理,不向其他用户展示不良弹幕。
相关技术中,通常利用基于机器学习算法训练得到的不良弹幕识别模型,识别用户发送的弹幕是否为不良弹幕。若要通过该方法取得较好的不良弹幕识别效果,避免发生漏识别和误识别的情况,往往需要利用大量的标注样本训练不良弹幕识别模型,而这将耗费很高的标注成本,即模型训练成本较高。如何在保证不良弹幕识别效果的前提下降低模型训练成本,已成为目标亟待解决的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,能够在保证取得较好的不良弹幕识别效果的前提下,降低模型训练成本。
有鉴于此,本申请第一方面提供了一种数据处理方法,所述方法包括:
获取待识别的目标弹幕的文本,作为目标文本;
通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果;所述第一弹幕识别模型是基于第一训练样本训练得到的,所述第一训练样本包括第一训练文本及其对应的弱标注结果,所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;
通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果;所述第二弹幕识别模型是基于第二训练样本训练得到的,所述第二训练样本包括第二训练文本及其对应的强标注结果,所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型;
根据所述第一识别结果和所述第二识别结果,确定所述目标弹幕对应的目标识别结果;所述目标识别结果用于表征所述目标弹幕的类型。
本申请第二方面提供了一种数据处理装置,所述装置包括:
文本获取模块,用于获取待识别的目标弹幕的文本,作为目标文本;
第一识别模块,用于通过第一弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第一识别结果;所述第一弹幕识别模型是基于第一训练样本训练得到的,所述第一训练样本包括第一训练文本及其对应的弱标注结果,所述弱标注结果是根据播放所述第一训练文本所属的弹幕后弹幕播放功能是否被关闭确定的;
第二识别模块,用于通过第二弹幕识别模型,根据所述目标文本,确定所述目标弹幕对应的第二识别结果;所述第二弹幕识别模型是基于第二训练样本训练得到的,所述第二训练样本包括第二训练文本及其对应的强标注结果,所述强标注结果用于表征所述第二训练文本所属的弹幕的标准类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110918706.6/2.html,转载请声明来源钻瓜专利网。