[发明专利]模型训练方法、短信审核方法、装置、设备以及存储介质在审
申请号: | 202011093027.1 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112085219A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 何烩烩;王乐义;刘明浩;郭江亮 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 邓海鸿;杨瑾瑾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 短信 审核 装置 设备 以及 存储 介质 | ||
本申请公开了模型训练方法、短信审核方法、装置、设备以及存储介质,涉及人工智能领域。模型训练的具体实现方案为:对第一未标注样本进行样本约减,得到第二未标注样本;将第二未标注样本输入机器学习模型进行预测,得到对第二未标注样本的预测结果对应的概率;根据概率从第二未标注样本中选择出第三未标注样本;利用标注后的第三未标注样本训练机器学习模型。本申请实施例通过样本约减去除冗余样本,使得选出的样本具备一定的代表性。并且使用主动学习技术,利用机器学习模型进一步选出对于当前模型最有标注价值的信息量大的样本,减少了标注成本。
技术领域
本申请涉及一种计算机技术领域,尤其涉及一种人工智能领域。
背景技术
模型训练需要大量的人工标注数据。并且随着业务的不断发展,需要不断的补充最新的标注数据,从而使模型随着业务迭代优化。然而,相关技术中,新增的标注样本可能没有提供新增的信息量,对于模型的性能提升没有显著的帮助。以短信审核业务为例,每天产生海量的短信日志,若随机从中挑选待标注样本,在耗费一定标注成本之后,可能对于模型的性能提升没有显著的帮助。
发明内容
本申请提供了一种模型训练方法、和短信审核方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种模型训练方法,包括:
对第一未标注样本进行样本约减,得到第二未标注样本;
将第二未标注样本输入机器学习模型进行预测,得到对第二未标注样本的预测结果对应的概率;
根据概率从第二未标注样本中选择出第三未标注样本;
利用标注后的第三未标注样本训练机器学习模型。
根据本申请的第二方面,提供了一种短信审核模型的训练方法,包括:
采用上述实施例中的模型训练方法得到短信审核模型。
根据本申请的第三方面,提供了一种短信审核方法,包括:
获取待审核短信的文本信息;
利用关键词对待审核短信的文本信息进行初步审核;
将通过初步审核的待审核短信的文本信息,输入到短信审核模型进行预测,得到待审核短信的文本信息的审核结果,短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。
根据本申请的第四方面,提供了一种模型训练装置,包括:
约减单元,用于对第一未标注样本进行样本约减,得到第二未标注样本;
预测单元,用于将第二未标注样本输入机器学习模型进行预测,得到对第二未标注样本的预测结果对应的概率;
选择单元,用于根据概率从第二未标注样本中选择出第三未标注样本;
训练单元,用于利用标注后的第三未标注样本训练机器学习模型。
根据本申请的第五方面,提供了一种短信审核模型的训练装置,包括:
采用上述实施例中的模型训练装置得到短信审核模型。
根据本申请的第六方面,提供了一种短信审核装置,包括:
获取单元,用于获取待审核短信的文本信息;
第一审核单元,用于利用关键词对待审核短信的文本信息进行初步审核;
第二审核单元,用于将通过初步审核的待审核短信的文本信息,输入到短信审核模型进行预测,得到待审核短信的文本信息的审核结果,短信审核模型为采用上述实施例中的短信审核模型的训练方法得到的模型。
根据本申请的第七方面,提供了一种电子设备,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011093027.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合型银系二氧化钛无机抗菌剂
- 下一篇:显示设备及计算设备