[发明专利]文本分类方法、问答系统及对话机器人有效
申请号: | 202011218101.8 | 申请日: | 2020-11-04 |
公开(公告)号: | CN112417111B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 黄友福;肖龙源;廖斌 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/30;G06N20/00 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 问答 系统 对话 机器人 | ||
本发明公开了一种文本分类方法、问答系统及对话机器人,其通过对验证集的数据进行预测,得到所述验证集的初始类别、预测类别及预测分值;通过选定类别I作为待优化类别,根据待优化类别I从所述验证集中抽取出数据集A;从所述数据集A中抽取出数据集Ai,所述数据集Ai的初始类别为类别Ii;根据所述预测分值对所述数据集Ai进行排序并计算统计分值Si;最后,将待分类文本输入所述目标模型进行预测,输出最终的预测类别,从而实现在不变更数据模型的情况下,提升特定类别识别准确率的方法,能够节省数据补充和模型调整的人工和时间成本。
技术领域
本发明涉及人工智能技术领域,特别是一种文本分类方法及其应用该方法的问答系统及对话机器人。
背景技术
在人机交互的过程中,对话机器人系统的首要动作就是要获取到用户输入的目标语句,待获取到输入的目标语句之后,服务器再对用户输入的目标语句进行分析与意图识别,这样才能够针对用户提出的问题或要求反馈更加合适的回答。
在对话机器人中,通常会有一些意图具有更重要的意义,如咨询联系方式等,获取联系方式操作和对话成功与否有直接关联。然而,用户输入的目标语句不止一个句子,可能是很多单独的句子,也可能是具有上下联系关系的句子。如果输入的目标语句过于复杂,系统难以识别出目标语句的真实意图,不能及时反馈出准确的回答。
因此在这些意图上,需要提升准确率。而在文本分类任务中,由于数据数量、数据分布、数据质量以及选用模型服务器算力等原因,模型在特定的单个类别上的准确率可能达不到要求。
为了提高特定类别的准确率,现有技术通常需要对该特定类别的训练样本进行扩充,或者调整训练模型。如中国发明专利CN111737472A公开的一种文本分类模型的更新方法及系统、电子设备及存储介质,需要通过收集用户对原有分类结果执行的质疑操作,将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本;将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集,重新训练文本分类模型;根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,并将所述目标文本分类模型更新为所述最佳模型,需要消耗极大的人工成本和时间成本。
发明内容
本发明的主要目的在于提供了一种文本分类方法、问答系统及对话机器人,在不变更数据模型的情况下,提升特定类别识别准确率的方法,能够节省数据补充和模型调整的人工和时间成本。
为实现上述目的,本发明提供了一种文本分类方法,其包括以下步骤:
采用目标模型对验证集的数据进行预测,得到所述验证集的初始类别、预测类别及预测分值;其中,所述预测类别或所述初始类别包括类别I和类别Ii,i=1,2....n;
选定类别I作为待优化类别,根据待优化类别I从所述验证集中抽取出数据集A;其中,所述数据集A的预测类别为类别I;
从所述数据集A中抽取出数据集Ai;其中,所述数据集Ai的初始类别为类别Ii;
根据所述预测分值对所述数据集Ai进行排序,并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计,得到统计分值Si,i=1,2....n;
将待分类文本输入所述目标模型进行预测,当输出的预测类别为类别I、预测分值为S时,计算(S-Si)/(Si),i=1,2....n;若(S-Si)/(Si)均小于0,则得到所述待分类文本的分类为类别I;若(S-Si)/(Si)中存在大于0的项,则选取使得(S-Si)/(Si)最大的i,得到所述待分类文本的分类为类别Ii。
优选的,所述预测分值采用softmax分值,通过对所述目标模型的预测结果应用softmax函数进行归一化,输出一个和为1的预测分值序列;通过获取所述预测分值序列中最大值的位置进而确定最终的预测类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011218101.8/2.html,转载请声明来源钻瓜专利网。