[发明专利]一种文本类别识别方法、装置、计算机设备及介质在审
申请号: | 202111131337.2 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113836303A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 黄振宇;王磊;吴文哲;王媛;王晶璇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 李小朋 |
地址: | 518048 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 类别 识别 方法 装置 计算机 设备 介质 | ||
本发明涉及人工智能领域,公开了一种文本类别识别方法、装置、计算机设备及介质,方法包括:获取待识别的目标文本;将目标文本和标准集中各文本进行拼接,生成第一拼接文本集;将第一拼接文本集中每条文本逐一输入预先训练的文本类别识别模型中,输出第一拼接文本集中每条文本的预测值;其中预先训练的文本类别识别模型是基于第二拼接文本集中的拼接文本训练生成的,第二拼接文本集是将训练集、测试集中每条文本与标准集中每条文本进行拼接生成的;基于第一拼接文本集中每条文本的预测值确定目标文本的类别。由于本申请将训练集、测试集与标准集拼接后建立起了相关性,利用具有相关性的数据训练模型后,使得模型的识别结果更加准确。
技术领域
本发明涉及人工智能技术领域,特别涉及一种文本类别识别方法、装置、计算机设备及介质。
背景技术
近年来,随着信息化的不断发展,线上的数据呈现爆发式增长,同时各行各业每天产生的数据信息种类繁多,在数据信息处理的应用场景下,涉及到文本分类或归类的场景越来越多,文本分类或归类可以提升数据信息的利用价值。随着深度学习以及强化学习等技术的发展,研究人员越发渴望让机器能精确的识别不同描述文本的类别。
机器精确的识别文本所属类型离不开对自然语言的深度学习,而深度学习多采用深度神经网络模型,也就是采用深度神经网络模型对自然语言文本进行训练,目前多分类问题下的神经网络,其识别精度往往会受到文本数据类别较多的影响,即当文本数据的类别较多时,神经网络的识别准确度将会有所降低。
发明内容
基于此,有必要针对机器理解自然语言的准确度低的问题,提供一种文本类别识别方法、装置、计算机设备及介质。
一种文本类别识别方法,方法包括:获取待识别的目标文本;将目标文本和标准集中各文本进行拼接,生成第一拼接文本集;将第一拼接文本集中每条文本逐一输入预先训练的文本类别识别模型中,输出第一拼接文本集中每条文本的预测值;其中,预先训练的文本类别识别模型是基于第二拼接文本集中的拼接文本训练生成的,第二拼接文本集是将训练集、测试集中每条文本与标准集中每条文本进行拼接生成的;基于第一拼接文本集中每条文本的预测值确定目标文本的类别。
在其中一个实施例中,待识别的目标文本的获取方式至少包括从测试集中获取;获取待识别的目标文本之前,还包括:从文本库中采集多条描述文本;接收针对多条描述文本中每条描述文本的标注指令,并基于每条描述文本标注后生成多条标注文本;按照预设百分比将多条标注文本划分为训练集、测试集、标准集。
在其中一个实施例中,基于第一拼接文本集中每条文本的预测值确定目标文本的类别,包括:获取预设多个类别中每个类别的阈值;根据第一拼接文本集中每条文本的预测值与每个类别的阈值统计每个类别的计数结果,生成计数结果序列;从计数结果序列中获取最大计数结果;将最大计数结果与最大计数结果的类别对应的标准文本总数量作商,生成目标文本的置信度;根据置信度大于预设值,将置信度对应的类别确定为目标文本对应的类别。
在其中一个实施例中,根据第一拼接文本集中每条文本的预测值与每个类别的阈值统计每个类别的计数结果,生成计数结果序列,包括:逐一判断第一拼接文本集中每条文本的预测值是否大于每个类别的阈值;若是,对每个类别的初始值自动加一;若否,将每个类别的初始值保持不变;其中,初始值为0;当第一拼接文本集中每条文本的预测值判断结束后,将每个类别的最终初始值确定为每个类别的计数结果。
在其中一个实施例中,按照以下步骤生成预先训练的文本类别识别模型,包括:将训练集、测试集中每条文本与标准集中每条文本进行拼接,生成第二拼接文本集;创建文本类别识别模型;将第二拼接文本集中每条拼接文本输入文本类别识别模型中,输出模型的损失值;当损失值小于预设损失阈值时,生成预先训练的文本类别识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111131337.2/2.html,转载请声明来源钻瓜专利网。