[发明专利]基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质在审
| 申请号: | 202111133708.0 | 申请日: | 2021-09-27 |
| 公开(公告)号: | CN113849642A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 李灯熬 | 申请(专利权)人: | 太原理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08;G16H10/60 |
| 代理公司: | 北京一品慧诚知识产权代理有限公司 11762 | 代理人: | 张宇 |
| 地址: | 030600 山西省*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 textcnn 模型 心力衰竭 文本 分类 方法 系统 存储 介质 | ||
本发明涉及心力衰竭文本的分类方法领域,公开了一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质,包括,S1:收集医学文本数据;S2:对医学文本数据进行预处理;S3:将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理,获取词向量并进行拼接;S4:将S3中拼接完的词向量放入卷积神经网络TextCNN模型中训练;S5:输出训练结果。本发明使用了卷积神经网络TextCNN模型进行心力衰竭文本分类,首先通过对获得的心衰与其他疾病的文本数据进行预处理,然后将预处理后的数据通过Word2vec模型使文本数据转换成向量,同时使用LDA模型,得到主题词向量集,将之与前期Wor2vec模型处理好的向量进行拼接,最后利用最终的向量训练卷积神经网络TextCNN模型进行训练,从而达到自动分类心衰文本的目的。
技术领域
本发明涉及心力衰竭文本的分类方法领域,特别涉及一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质。
背景技术
心力衰竭是心血管疾病的末期,是指由于心脏的收缩和舒张功能发生障碍,从而引发了一系列复杂的临床综合症状。近年来,患心力衰竭的病人数量逐年递增,使得心衰逐渐成为导致全球发病率和死亡率的重要疾病之一。
因此,在面对心力衰竭这种可以致死的疾病时,利用医学文本分类心衰从而做一个早期的诊断,对于医学研究具有重要的意义和价值,如果早期就能发现病状,从而评估病情并及时恰当地予以治疗,即可为心力衰竭早期的检测提供一种新的有效治疗方向。
发明内容
为了解决现有技术难以根据医学文本分类进而对心衰做一个早期的诊断的问题,本发明提供了一种基于TextCNN模型的心力衰竭文本分类方法、系统及存储介质。
本发明的技术内容如下:
一种基于TextCNN模型的心力衰竭文本分类方法,包括:
S1:收集医学文本数据;
S2:对医学文本数据进行预处理;
S3:将预处理后的文本数据通过Word2vec模型和LDA模型再次进行处理,获取词向量并进行拼接;
S4:将S3中拼接完的词向量放入卷积神经网络TextCNN模型中训练;
S5:输出训练结果。
进一步地,所述S2的预处理包括:对文本数据去除标点符号、去除非法字符、去除数字及将所有的文本数据进行截断处理,使文本长度保持在256。
进一步地,所述S3中Word2vec模型通过词的上、下文得到词的向量化表示。
进一步地,所述Word2vec模型根据CBOW、Skip-gram两种方式获取词的向量化表示。
进一步地,所述S3通过LDA模型采用词袋模型得到主题词向量集。
进一步地,所述词袋模型为三层贝叶斯概率模型,包括词、主题和文档三层结构,所述文档到主题、所述主题到词都服从多项式分布。
进一步地,所述LDA模型的生成过程包括:
对每一篇文档,从主题分布中抽取一个主题;
从被抽到的一个主题中所对应的单词分布中抽取一个单词;
重复抽取一个主题及一个主题中的一个单词,直至遍历文档中的每一个单词。
进一步地,所述S4的卷积神经网络TextCNN模型包括:输入层、卷积层、池化层与全连接层。
一种基于TextCNN模型的心力衰竭文本分类系统,所述基于TextCNN模型的心力衰竭文本分类系统包括:
存储器,用于存储可执行指令;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133708.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种茶叶加工用智能摊晾装置
- 下一篇:一种低轨卫星系统星间切换方法





