[发明专利]基于文本分类识别用户意图的方法、装置及存储介质有效
| 申请号: | 202011532168.9 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112989035B | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 曾斌 | 申请(专利权)人: | 深圳市中保信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06F18/214 |
| 代理公司: | 深圳峰诚志合知识产权代理有限公司 44525 | 代理人: | 吴林 |
| 地址: | 518000 广东省深圳市龙华区大浪街*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文本 分类 识别 用户 意图 方法 装置 存储 介质 | ||
本申请公开了基于文本分类识别用户意图的方法、装置及存储介质,涉及分类算法领域,基于文本分类模型将数据集分为第一样本集和第二样本集;第二样本集为未被文本分类模型的训练集覆盖的样本集;分析从第二样本集中提取的第一文本特征,获取各目标类别对应的预设类别区分度阈值;将第一文本特征输入文本分类模型,以对文本分类模型进行训练更新,生成对应的分类结果;将分类结果中类别参数值高于对应预设类别区分阈值的特征所对应的类别作为目标类别;分别为每类目标类别设置对应的标签;根据目标类别的数量调整补丁规则数量;基于文本分类模型识别用户意图的目标类别和待识别文本中的关键信息,根据目标类别和关键信息确定向用户推荐的目标服务。
技术领域
本申请实施例涉及人工智能的分类算法技术领域,尤其涉及一种基于文本分类识别用户意图的方法、装置及存储介质。
背景技术
在自然语言处理领域,文本分类模型用于情绪识别、意图识别、新闻分类、垃圾邮件检测等场景。例如,情绪识别和意图识别主要应用在客户服务对话系统中,采用ASR将用户说的语音内容转换为文本,再对文本进行用户情绪和意图识别,得到识别结果后,根据该识别结果对用户说的语音内容进行响应。由此可见,意图识别是保证响应用户准确性的关键,情绪识别则有助于从语音内容中发现用户情绪并作出针对性应对,二者结合即可提高用户的满意度。
目前,对文本分类模型的性能评测以准确率、召回率、F1为主,一般采用人工构建补丁规则,并基于该补丁规则对文本分类模型进行覆盖。因此主要存在以下几点技术问题:
1、由于文本分类模型的分类性能取决于模型和输入训练模型采用的数据集,而模型的拟合性能通常无法达到95%以上的生产上线要求。
2、对于模型无法覆盖的样本和场景,需要人工构建补丁规则进行覆盖,效率低下且准确性一般。
3、对于分类数量非常多的数据集,采用人工创建补丁规则对文本分类模型进行打补丁则需要巨大的工作量,甚至无法完成所有类别的补丁规则创建工作。
可见,现有补丁规则的创建效率较低且可能导致文本分类模型覆盖不全面。
发明内容
本申请实施例提供了一种基于文本分类识别用户意图的方法、装置、计算机设备及存储介质,旨在解决现有技术中文本分类模型的补丁规则的创建效率较低且可能导致文本分类模型覆盖不全面的问题。
第一方面,本申请实施例提供了一种基于文本分类识别用户意图的方法,其包括:
获取数据集,基于文本分类模型对数据集进行文本分类,得到第一样本集和第二样本集;
从所述第二样本集中提取第一文本特征,分析第一文本特征的类别区分度;
确定所述第一文本特征中符合类别区分条件的多个目标类别,获取各目标类别对应的预设类别区分度阈值;
将所述第一文本特征输入文本分类模型,以对文本分类模型进行训练更新,并生成对应的分类结果;
分别将各类别的特征的类别参数值与对应的预设类别区分度阈值进行比较,将分类结果中类别参数值高于对应预设类别区分阈值的特征所对应的类别作为目标类别;
分别为每类目标类别设置对应的标签,以更新文本标签体系;
根据所述目标类别的数量调整补丁规则数量;
接收用户输入的待识别文本,基于文本分类模型识别用户意图的目标类别和待识别文本中的关键信息,根据目标类别和关键信息确定向用户推荐的目标服务,并向终端发送与目标服务对应的数据。
第二方面,本申请实施例提供了一种用户意图识别装置,其包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市中保信息技术有限公司,未经深圳市中保信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011532168.9/2.html,转载请声明来源钻瓜专利网。





