[发明专利]文本分类方法、装置、计算机设备和存储介质在审
申请号: | 202011426643.4 | 申请日: | 2020-12-09 |
公开(公告)号: | CN113407715A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 刘智静;康斌;周宇超;黄义棚;王皓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能技术领域,提供了一种文本分类方法、装置、计算机设备和存储介质。方法包括:获取待处理文本;按字符类型对待处理文本中的字符序列进行切分处理,得到切分词块;确定切分词块在待处理文本中的位置,并根据切分词块所属的类别,得到切分词块的类别标识;根据切分词块、切分词块的类别标识以及切分词块在待处理文本中的位置,得到待处理文本的特征数据;根据特征数据,对待处理文本进行分类分析,得到分类结果。通过精细化的切词和子词切分处理,以及对切分词块进行类别标识,得到具有更丰富语义知识的特征数据,对待处理文本进行分类分析,可以得到更为准确的分类结果。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,信息的传播速度越来越快,传播途径也越来多。在能够发表言论的平台,如各种社交平台、作品发布平台等,会伴随着出现各种各样的广告评论的需要识别是否为目标类别的文本。
传统技术中,一般是通过语言处理模型,基于预设的词表对评论中的目标类别的文本进行识别。但目标类别的文本发布者为了规避平台的内容审核,常常使用同音字、特殊字符等方式来编写。目标类别的文本的变种很快,形式新颖,有很多特殊字符是词表中没有出现的,从而导致无法确定文本的类别,对目标类别的文本的识别准确性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高目标类别文本的识别准确性的文本分类方法、装置、计算机设备和存储介质。
一种文本分类方法,方法包括:
获取待处理文本;
按字符类型对待处理文本中的字符序列进行切分处理,得到切分词块;
确定切分词块在待处理文本中的位置,并根据切分词块所属的类别,得到切分词块的类别标识;
根据切分词块、切分词块的类别标识以及切分词块在待处理文本中的位置,得到待处理文本的特征数据;
根据特征数据,对待处理文本进行分类分析,得到分类结果。
一种文本分类方法,通过BERT模型实现上述任一项所述的文本分类方法;
所述BERT模型的构建过程包括:
获取携带有类别标签的训练数据,对初始BERT模型进行训练,得到教师模型,所述初始BERT模型的特征数据获取过程包括词块切分、词块分类标记以及词块位置标记;
根据所述教师模型对所述训练数据进行预测,得到所述训练数据的分类概率;
对所述初始BERT模型进行层级压缩,得到压缩BERT模型;
基于预设的损失函数,根据携带有所述分类概率和所述类别标签的训练数据,对压缩BERT模型进行训练,构建得到所述BERT模型。
一种文本分类装置,装置包括:
文本获取模块,用于获取待处理文本;
词块切分模块,用于按字符类型对待处理文本中的字符序列进行切分处理,得到切分词块;
类别和位置确定模块,用于确定切分词块在待处理文本中的位置,并根据切分词块所属的类别,得到切分词块的类别标识;
特征数据处理模块,用于根据切分词块、切分词块的类别标识以及切分词块在待处理文本中的位置,得到待处理文本的特征数据;
分类分析模块,用于根据特征数据,对待处理文本进行分类分析,得到分类结果。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011426643.4/2.html,转载请声明来源钻瓜专利网。