[发明专利]文本分类方法、问答系统及对话机器人有效
申请号: | 202011218101.8 | 申请日: | 2020-11-04 |
公开(公告)号: | CN112417111B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 黄友福;肖龙源;廖斌 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/30;G06N20/00 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 问答 系统 对话 机器人 | ||
1.一种文本分类方法,其特征在于,包括以下步骤:
采用目标模型对验证集的数据进行预测,得到所述验证集的初始类别、预测类别及预测分值;其中,所述预测类别或所述初始类别包括类别I和类别Ii,i=1,2....n;
选定类别I作为待优化类别,根据待优化类别I从所述验证集中抽取出数据集A;其中,所述数据集A的预测类别为类别I;
从所述数据集A中抽取出数据集Ai;其中,所述数据集Ai的初始类别为类别Ii;
根据所述预测分值对所述数据集Ai进行排序,并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计,得到统计分值Si, i=1,2....n;
将待分类文本输入所述目标模型进行预测,当输出的预测类别为类别I、预测分值为S时,计算(S-Si)/(Si),i = 1,2....n;若(S-Si)/(Si)均小于0,则得到所述待分类文本的分类为类别I;若(S-Si)/(Si)中存在大于0的项,则选取使得(S-Si)/(Si)最大的i,得到所述待分类文本的分类为类别Ii;
其中,根据预测分值和预测准确率进行统计得到统计分值Si,是通过对所述数据集Ai中预测分值进行阈值计算,使所述预测分值小于所述统计分值时,该预测分值对应的预测类别的准确率最低;所述统计分值Si的计算方法包括以下步骤:
将数据集Ai根据其预测分值按照从小到大的顺序排列;
设Si,n为数据集Ai中的预测分值,分别从数据集Ai中抽取预测分值小于Si,n(n=1,2...len(R))的预测数据;len(R)代表分值序列的长度;
计算当前数据集的准确率,当准确率在Si,n时最低,则取Si,n作为所述统计分值Si。
2.根据权利要求1所述的一种文本分类方法,其特征在于:所述预测分值采用softmax分值,通过对所述目标模型的预测结果应用softmax函数进行归一化,输出一个和为1的预测分值序列;通过获取所述预测分值序列中最大值的位置进而确定最终的预测类别。
3.根据权利要求1所述的一种文本分类方法,其特征在于:所述验证集的初始类别采用人工标注得到,所述验证集的预测类别通过所述目标模型对验证集的数据进行预测得到;并且,进一步根据所述预测类别和所述初始类别的差异,得到验证损失值;根据所述验证损失值确定是否停止训练所述目标模型。
4.根据权利要求1至3任一项所述的一种文本分类方法,其特征在于:所述验证集的数据为文本的人机对话数据或者语音转文本的人机对话数据,所述初始类别或所述预测类别为基于语义分析的用户意图类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011218101.8/1.html,转载请声明来源钻瓜专利网。