[发明专利]基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其存储介质在审
申请号: | 202110886442.0 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113535961A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王永剑;孙亚茹;杨莹 | 申请(专利权)人: | 公安部第三研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 学习 实现 语言 混合 文本 分类 处理 系统 方法 装置 存储器 及其 存储 介质 | ||
1.一种基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的系统包括:
数据采集模块,用于将少量预设标签样本输入至该系统;
数据预处理模块,与所述的数据采集模块相连接,用于对所述的预设标签样本进行数据集划分、数据清洗以及批量处理操作;
模型计算处理模块,与所述的数据预处理模块相连接,用于根据预处理后获取的文本数据进行关键特征提取,并生成相应的模型准确率计算结果;以及
模型生成及输出模块,与所述的模型计算处理模块相连接,用于根据所述的模型准确率计算结果预测出当前文本数据的模型预测结果,并通过对所述的模型预测结果的抽样审核处理,进一步更新迭代该输出模型。
2.根据权利要求1所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的模型计算处理模块具体包括:
字词信息处理单元,与所述的数据预处理模块相连接,用于将经过批量处理后获取的所述的少量标签文本数据样本进行n元词法切分、字词嵌入以及字词集合的迭代处理;
文本特征嵌入单元,与所述的字词信息处理单元相连接,用于将经过上述迭代处理后的字词信息组合成文本整体特征作为有效卷积层的输入;
文本关键区域特征单元,与所述的文本特征嵌入单元相连接,用于获取文本整体特征中的文本关键特征信息;
文本类别判断单元,与所述的文本关键区域特征单元相连接,用于分析并计算出当前输入文本所属的分类类别;以及
模型准确率计算单元,与所述的文本类别判断单元相连接,用于将经过上述文本处理后所得的文本信息进行模型准确率的计算处理。
3.根据权利要求2所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的模型生成及输出模块具体包括:
模型预测处理单元,用于输入多语言混合短文本数据,进行模型预测;
预测结果输出单元,与所述的模型预测处理单元相连接,用于输出模型预测结果;以及
抽样审核单元,与所述的预测结果输出单元相连接,用于对模型预测结果进行抽样审核以此来检测该预测模型的准确性。
4.根据权利要求3所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的抽样审核单元通过系统预设阈值根据以下规则判断是否进行更新校准:
如果所述的抽样审核单元抽样审核的文本数据大于阈值,则添加标签新数据至所述的数据采集模块进行模型的迭代更新处理;否则
所述的抽样审核单元抽样审核的文本数据不大于阈值,则需要进行校准处理后再添加标签新数据至所述的数据采集模块进行模型的迭代更新处理。
5.一种利用权利要求4所述的系统实现基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,所述的方法包括以下步骤:
(1)从多语言混合短文本中获取文本子词信息;
(2)对所述的文本子词信息进行数据集划分、数据清洗以及批量操作的预处理;
(3)对经过预处理后的所述文本子词信息进行文本特征嵌入,获取有效卷积层的输入信息;
(4)采用不同核卷积,获取所述的文本子词信息的邻近词信息以及文本关键区域信息;
(5)通过概率分布判断文本所属类别;
(6)根据类别信息进行分类模型的预测以及挖掘新的文本数据信息的处理,并进行模型的更新和迭代。
6.根据权利要求5所述的基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)查找字词,若无,则按n元语法切分形成子词库,且切分前先查找特殊子词,进入步骤(3.3);否则,进入步骤(3.2);
(3.2)若有,则按特殊子词切分,其余部分按n元语法切分,否则直接按n元语法切分,形成相应的形成子词库,并进入步骤(3.3);
(3.3)将切分后形成的子词库仿射变换到词层面的表征,同时将新表征的词作为特殊子词增加到子词集合中,计算高一层的子词表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886442.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通过GPRS定位测速的智能车灯
- 下一篇:一种电网数据全链路监控系统