[发明专利]文本分类方法、装置及相关设备在审
申请号: | 202110921213.8 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113609295A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 蒋雪涵;孙行智 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;陈海云 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 相关 设备 | ||
本申请涉及数据处理技术,提供一种文本分类方法、装置、计算机设备与存储介质,包括:接收并向量化处理输入文本,得到初始文本向量;降维处理初始文本向量,得到预设维度的目标文本向量;获取目标维度,并根据目标维度将目标文本向量拆分为测试组与对照组;计算测试组与对照组在目标维度之外的剩余维度上的目标差值;确定目标差值最小时目标文本向量的目标权重;根据目标权重调整目标文本向量,得到最终文本向量;利用最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;调用目标文本分类模型处理预先输入的待处理文本,得到待处理文本所属的类别。本申请能够提高文本分类的准确性,促进智慧城市的快速发展。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类方法、装置、计算机设备及介质。
背景技术
临床辅助决策系统(CDSS)是一种根据患者病情为医生的临床决策提供辅助建议的系统,随着医疗大数据行业的蓬勃发展,CDSS广泛应用于各级医疗机构。CDSS的服务贯穿于患者就医问诊的全过程,方便医生使用。在疑似疾病推荐时,CDSS根据患者的症状、症状持续时间、疾病史、用药史等信息,输入模型,提供疑似的疾病供医生参考。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:传统的模型是将这些症状等信息进行结构化抽取,然后训练神经网络,建立结构化信息与疾病诊断之间的联系。近年来流行的文本处理方法,将文本进行向量化表示,直接学习文本的向量化表示与疾病标签之间的关系,这样的方法称为文本分类。在CDSS的实际部署应用中,基于某地数据训练出来的模型往往在其他地方数据源上没有稳定的表现,究其原因,数据分布的偏差为重要的因素。比如,使用西北地区训练的模型,难以在东南地区中有很好的表现,尤其是东南地区常见的过敏性鼻炎、某些因为湿度大带来的皮肤病等。
因此,有必要提供一种文本分类方法,能够提高文本分类的准确性。
发明内容
鉴于以上内容,有必要提出一种文本分类方法、文本分类装置、计算机设备及介质,能够提高文本分类的准确性。
本申请实施例第一方面提供一种文本分类方法,所述文本分类方法包括:
接收并向量化处理输入文本,得到初始文本向量;
降维处理所述初始文本向量,得到预设维度的目标文本向量;
获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
确定所述目标差值最小时所述目标文本向量的目标权重;
根据所述目标权重调整所述目标文本向量,得到最终文本向量;
利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
进一步地,在本申请实施例提供的上述文本分类方法中,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到所述初始文本向量。
进一步地,在本申请实施例提供的上述文本分类方法中,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921213.8/2.html,转载请声明来源钻瓜专利网。