[发明专利]产品评论数据处理方法、装置、设备和存储介质在审
申请号: | 202111041836.2 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113901354A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 王喆;裴子龙;范凌 | 申请(专利权)人: | 特赞(上海)信息科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06Q30/06 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 李志刚 |
地址: | 200000 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 产品 评论 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种产品评论数据处理方法、装置、设备和存储介质。该方法包括:获取无标签产品评论集和有标签产品评论集;将所述无标签产品评论集,和/或,经过预处理的有标签产品评论集输入到预先训练的标签识别模型中,得到标签识别结果;将所述标签识别结果发送给客户端,以使得所述客户端对所述标签识别结果进行标签更正;根据所述客户端的反馈对所述有标签产品评论集进行更新。本申请解决了由于有标签的产品评论数据短缺,标签识别模型识别效能不高的技术问题,并且人工打标人力成本高,效率低下。
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种产品评论数据处理方法、装置、设备和存储介质。
背景技术
对于产品评论进行打标签具有非常重要的作用,可以根据标签对上万条产品评论进行分门别类,有利于产品的生成企业进行改进。但是对于标签识别模型来讲,在训练标签识别模型时,需要大量的测试样本集和训练样本集,都需要有大量的打标签的评论数据。现有技术中,都是需要人工手动来打标签,制作有标签的评论数据作为测试样本集,或者训练样本集。要想使得标签识别模型达到可观的精确度,需要大量的有标签的评论,工至少上千条,对于人工手动打标签,成本太高。
发明内容
本申请的主要目的在于提供一种产品评论数据处理方法、装置、设备和存储介质,以解决上述问题。
为了实现上述目的,根据本申请的一个方面,提供了一种产品评论数据处理方法,包括:
获取无标签产品评论集和有标签产品评论集;
将所述无标签产品评论集,和/或,经过预处理的有标签产品评论集输入到预先训练的标签识别模型中,得到标签识别结果;
将所述标签识别结果发送给客户端,以使得所述客户端对所述标签识别结果进行标签更正;
根据所述客户端的反馈对所述有标签产品评论集进行更新。
在一种实施方式中,有标签产品评论集进行预处理,包括:
将有标签产品评论集分成两组;
其中,第一组为经过人工打标签的评论集;第二组为没有经过人工打标签评论集;
对所述第一组评论集进行简单增强EDA处理;
对所述第二组评论集进行UDA处理。
在一种实施方式中,对所述第一组评论集进行简单增强EDA处理;包括:
对所述第一组评论集进行4倍简单增强处理。
在一种实施方式中,对所述第一组评论集进行4倍简单增强处理,包括:
将所述第一组评论集翻译成第一外语,再翻译回中文得到第一产品评论中文结果;
将所述第一组评论集翻译成第二外语,再翻译回中文得到第二产品评论中文结果;
将所述第一组评论集翻译成第三外语,再翻译回中文得到第三产品评论中文结果;
将所述第一组评论集翻译成第四外语,再翻译回中文得到第四产品评论中文结果;
将所述第一产品评论中文结果、第二产品评论中文结果、第三产品评论中文结果和第四产品评论中文结果进行合并得到所述第一组评论集增强后的集合。
在一种实施方式中,将所述标签识别结果发送给客户端,以使得所述客户端对所述标签识别结果进行标签更正,包括:
向客户端推送包含所述标签识别结果的标签选择页面,所述标签选择页面上设置有多个备选标签;以使客户端从多个备选标签中选择正确的标签。
第二方面,一种产品评论数据处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特赞(上海)信息科技有限公司,未经特赞(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041836.2/2.html,转载请声明来源钻瓜专利网。