[发明专利]文本分类方法、装置、计算机设备和存储介质在审

申请号：	202011426643.4	申请日：	2020-12-09
公开（公告）号：	CN113407715A	公开（公告）日：	2021-09-17
发明（设计）人：	刘智静;康斌;周宇超;黄义棚;王皓	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	李文渊
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，提供了一种文本分类方法、装置、计算机设备和存储介质。方法包括：获取待处理文本；按字符类型对待处理文本中的字符序列进行切分处理，得到切分词块；确定切分词块在待处理文本中的位置，并根据切分词块所属的类别，得到切分词块的类别标识；根据切分词块、切分词块的类别标识以及切分词块在待处理文本中的位置，得到待处理文本的特征数据；根据特征数据，对待处理文本进行分类分析，得到分类结果。通过精细化的切词和子词切分处理，以及对切分词块进行类别标识，得到具有更丰富语义知识的特征数据，对待处理文本进行分类分析，可以得到更为准确的分类结果。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本分类方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的发展，信息的传播速度越来越快，传播途径也越来多。在能够发表言论的平台，如各种社交平台、作品发布平台等，会伴随着出现各种各样的广告评论的需要识别是否为目标类别的文本。

传统技术中，一般是通过语言处理模型，基于预设的词表对评论中的目标类别的文本进行识别。但目标类别的文本发布者为了规避平台的内容审核，常常使用同音字、特殊字符等方式来编写。目标类别的文本的变种很快，形式新颖，有很多特殊字符是词表中没有出现的，从而导致无法确定文本的类别，对目标类别的文本的识别准确性不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标类别文本的识别准确性的文本分类方法、装置、计算机设备和存储介质。

一种文本分类方法，方法包括：

获取待处理文本；

按字符类型对待处理文本中的字符序列进行切分处理，得到切分词块；

确定切分词块在待处理文本中的位置，并根据切分词块所属的类别，得到切分词块的类别标识；

根据切分词块、切分词块的类别标识以及切分词块在待处理文本中的位置，得到待处理文本的特征数据；

根据特征数据，对待处理文本进行分类分析，得到分类结果。

一种文本分类方法，通过BERT模型实现上述任一项所述的文本分类方法；

所述BERT模型的构建过程包括：

获取携带有类别标签的训练数据，对初始BERT模型进行训练，得到教师模型，所述初始BERT模型的特征数据获取过程包括词块切分、词块分类标记以及词块位置标记；

根据所述教师模型对所述训练数据进行预测，得到所述训练数据的分类概率；