[发明专利]分类模型训练方法、文本挖掘方法、设备及存储介质在审
| 申请号: | 202210372329.5 | 申请日: | 2022-04-11 |
| 公开(公告)号: | CN114911929A | 公开(公告)日: | 2022-08-16 |
| 发明(设计)人: | 陈志优;李健;陈明;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/33;G06N20/00 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类 模型 训练 方法 文本 挖掘 设备 存储 介质 | ||
本发明公开了一种分类模型训练方法、文本挖掘方法、设备及介质,涉及计算机技术领域。训练方法将获取的多个对话文本作为训练数据,依据所述训练数据对分类模型执行训练,得到阶段训练完成的分类模型。其中,采用聚类分析的方式对训练数据进行筛选,以场景类别对训练数据进行标注,从而能够大大降低训练数据的标注量。并且,根据训练数据确定的差异信息判断所述阶段训练完成的分类模型是否需要继续训练。从而能够在差异信息符合场景挖掘条件的情况下,通过继续训练来挖掘出更多的场景类别,使得文本挖掘过程中,能够挖掘出更细化的场景类别且信息量少的相关文本,从而便于相关对话文本的统计分析。
技术领域
本发明涉及计算机技术领域,特别是涉及一种分类模型训练方法、文本挖掘方法、设备及存储介质。
背景技术
在一些线上业务场景中,业务人员为客户提供业务咨询时,会保留大量的咨询数据。对于资历较浅的业务人员来说,咨询数据中的体现出专业性的话术是值得学习的。在现有技术中,普遍会使用分类模型对咨询数据进行统计分析,从而可以基于不同场景类别进行学习。但是,分类模型在训练过程中需要大量的标注数据,且在固定场景分类后,缺乏发现新场景的能力。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分类模型训练方法、文本挖掘方法、设备及存储介质。
依据本发明的第一方面,提供了一种分类模型训练方法,所述方法包括:
获取多个对话文本作为训练数据;
依据所述训练数据对分类模型执行训练,得到阶段训练完成的分类模型;
基于所述训练数据确定差异信息,依据所述差异信息判断所述阶段训练完成的分类模型是否符合场景挖掘条件;
若所述差异信息符合场景挖掘条件,则依据所述训练数据和阶段训练完成的分类模型更新训练数据并继续训练;
若所述差异信息不符合场景挖掘条件,则将所述阶段训练完成的分类模型作为训练完成的分类模型;
其中,依据所述训练数据对分类模型执行训练,得到阶段训练完成的分类模型,包括:
对所述训练数据进行聚类分析,确定多个训练类簇;
确定训练类簇对应的场景类别,将所述训练类簇中文本标注为所述场景类别;
采用标注的文本数据训练分类模型,得到阶段训练完成的分类模型。
依据本发明的第二方面,还提供了一种文本挖掘方法,所述方法包括:
接收对话信息,从所述对话信息中获取第一用户的对话文本;
将所述对话文本输入到分类模型中进行分类识别,确定出对应的目标场景类别,所述分类模型通过训练数据执行训练,得到阶段训练完成的分类模型,并基于所述训练数据确定差异信息,判断所述阶段训练完成的分类模型是否符合场景挖掘条件,依据判断结果确定是否更新训练数据继续训练阶段训练完成的分类模型得到;
查询所述目标场景类别对应的目标回复文本;
采用所述目标回复文本作为第二用户的对话文本,反馈所述第一用户的对话文本。
依据本发明的第三方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210372329.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风筒风量开停传感器支架
- 下一篇:一种安全稳定的垂直运输装置及其运载方法





