[发明专利]文本分类方法、装置、计算机设备和存储介质在审
申请号: | 202011426643.4 | 申请日: | 2020-12-09 |
公开(公告)号: | CN113407715A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 刘智静;康斌;周宇超;黄义棚;王皓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待处理文本;
按字符类型对所述待处理文本中的字符序列进行切分处理,得到切分词块;
确定所述切分词块在所述待处理文本中的位置,并根据所述切分词块所属的类别,得到所述切分词块的类别标识;
根据所述切分词块、所述切分词块的类别标识以及所述切分词块在所述待处理文本中的位置,得到所述待处理文本的特征数据;
根据所述特征数据,对所述待处理文本进行分类分析,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,所述按字符类型对所述待处理文本中的字符序列进行切分处理,得到切分词块包括:
识别所述待处理文本中的中文序列和非中文序列;
根据预设的中文切分粒度参数,对所述中文序列进行切分,得到中文词块;
对所述非中文序列进行子词切分,得到预设分类类别的非中文词块,其中,所述预设分类类别包括数学字符类、英文字符类、数学字符英文字符组合类、其他字符类以及子词类中的至少一个。
3.根据权利要求2所述的方法,其特征在于,根据预设的中文切分粒度参数,对所述中文序列进行切分,得到中文词块包括:
当预设的中文切分粒度参数为字粒度时,对所述待处理文本中的中文序列进行字切分,得到单个汉字;
当预设的中文切分粒度参数为词粒度时,对所述待处理文本中的中文序列进行词切分,得到汉字组合。
4.根据权利要求1所述的方法,其特征在于,所述按字符类型对所述待处理文本中的字符序列进行切分处理,得到切分词块包括:
根据包含常用字符的预设词表,识别所述待处理文本的常用字符序列和非常用字符序列;
根据常用字符类别,对所述常用字符序列中的中文序列进行切词并对所述常用字符序列中的非中文序列进行子词切分,得到与所述常用字符类别对应的切分词块;
根据非常用字符类别,对所述非常用字符序列中的中文序列进行切词并对所述非常用字符序列中的非中文序列进行子词切分,得到与所述非常用字符类别对应的切分词块。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待处理文本进行片段划分,确定所述切分词块所属的片段;
根据所述切分词块、所述切分词块的类别标识、所述切分词块所属的片段以及所述切分词块在所述待处理文本中的位置,得到所述待处理文本的特征数据。
6.一种文本分类方法,其特征在于,通过BERT模型实现如权利要求1-5中任一项所述的文本分类方法;
所述BERT模型的构建过程包括:
获取携带有类别标签的训练数据,对初始BERT模型进行训练,得到教师模型,所述初始BERT模型的特征数据获取过程包括词块切分、词块分类标记以及词块位置标记;
根据所述教师模型对所述训练数据进行预测,得到所述训练数据的分类概率;
对所述初始BERT模型进行层级压缩,得到压缩BERT模型;
基于预设的损失函数,根据携带有所述分类概率和所述类别标签的训练数据,对压缩BERT模型进行训练,构建得到所述BERT模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取携带有目标类别标签的新增标注文本,所述新增标注文本包括所述BERT模型分类结果出现错误并进行了正确类别标注的文本;
将所述标注文本添加至预设样本库,并记录所述预设样本库的新增标注文本的数量;
当所述新增标注文本的数量达到预设阈值时,根据所述新增标注文本对所述BERT模型进行迭代训练,得到更新BERT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011426643.4/1.html,转载请声明来源钻瓜专利网。