[发明专利]文本分类模型的更新方法及系统、电子设备及存储介质在审
申请号: | 202010626363.1 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111737472A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 邓艳江;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/958;G06F16/23 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 更新 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种文本分类模型的更新方法及系统、电子设备及存储介质。所述文本分类模型的更新方法包括:利用目标文本分类模型对网页文本进行分类,并将分类结果展示于前端页面;若接收到用户对所述分类结果执行的质疑操作,则将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本;将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集,重新训练文本分类模型;根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,并将所述目标文本分类模型更新为所述最佳模型。本发明实现了对误判样本的收集,并据此来重新训练更准确的文本分类模型,从而替换原有的文本分类模型,提高了用户体验。
技术领域
本发明涉及信息技术领域,特别涉及一种文本分类模型的更新方法及系统、电子设备及存储介质。
背景技术
随着人工智能技术的发展,很多原来由人工完成的工作现在逐步被模型所替代,例如投诉分析系统、细粒度情感分析系统等。训练集有标注错误或者训练集样本不全等原因可能导致模型上线后有一些误判的样本。如果能不断地收集、甄别并利用这部分样本,让模型进一步学习,模型的准确率和召回率也会不断地提高。但是,当前缺乏一套流程化、规范化的系统以高效完成以上工作。
发明内容
本发明要解决的技术问题是为了克服现有技术中的上述缺陷,提供一种文本分类模型的更新方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明的第一方面提供一种文本分类模型的更新方法,包括:
利用目标文本分类模型对网页文本进行分类,并将分类结果展示于前端页面;
若接收到用户对所述分类结果执行的质疑操作,则将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本;
将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集,重新训练文本分类模型;其中,所述原有训练集为训练所述目标文本分类模型所使用的训练集;
根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,并将所述目标文本分类模型更新为所述最佳模型。
较佳地,所述根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,具体包括:
根据文本分类模型在训练集和验证集上的F1值的平均值以及方差筛选备选模型;
根据更新前的目标文本分类模型与所述备选模型分别在测试集上的F1值确定是否将所述备选模型作为最佳模型。
较佳地,所述根据文本分类模型在训练集和验证集上的F1值的平均值以及方差筛选备选模型,具体包括:
利用以下公式计算文本分类模型的分数Score:
Score=a*F1平均值-(1-a)*F1方差;
其中,F1平均值为文本分类模型在训练集和验证集上的F1值的平均值,F1方差为文本分类模型在训练集和验证集上的F1值的方差,a为权重;
筛选分数Score最大的文本分类模型作为备选模型。
较佳地,所述根据更新前的目标文本分类模型与所述备选模型分别在测试集上的F1值确定是否将所述备选模型作为最佳模型,具体包括:
若更新前的目标文本分类模型在测试集上的F1值与所述备选模型在测试集上的F1值之间的差值不大于1%,则确定将所述备选模型作为最佳模型。
较佳地,所述更新方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010626363.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种波纹管推进辅助装置
- 下一篇:腹透用输液装置