[发明专利]文本分类方法及装置有效
申请号: | 201910523985.9 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110232127B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 杨开平;谌立;熊永福;冯岭子;龚伟 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30;G06F40/289;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 宋朋飞 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 | ||
本发明提供一种文本分类方法及装置,涉及自然语言处理领域。该方法包括:获取待分类文本;根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预测算法,获取待分类文本的文本向量;采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与列信息的关联关系;整合文本向量与序列信息的关联关系,并将整合后的文本向量与序列信息的关联关系输入至预设分类模型中,得到文本的类别。通过在序列信息中使用双向LSTM模型预设在序列信息中计算当前文本序列出现的概率,同时结合文本向量,可精准预测待分类文本的语义特征和序列特征,将语义特征与序列特征整合后输入至分类器,可得待分类文本的精准分类。
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法及装置。
背景技术
在自然语言处理领域(Natura Language Processing,NLP)中,通过文本分类可以帮助用户高效的管理文本数据,以及为文本挖掘提供基础支撑,例如,新闻的分类排版、档案的分类管理、搜索引擎的信息检索、问答系统的答案搜寻等。
现有技术中,基于规则的文本分类表示通常有向量空间模型(Vector SpaceModel,VSM)、主题模型和深度学习的语言模型三种类型。其中,VSM模型以词语为基础,得到文本的分类信息,一般适用于长文本数据;主题模型通过学习浅层的文本语义信息得到文本的分类信息;深度学习的语言模型可以自动化的学习文本特征表示。
但是,VSM模型一般会丢失部分语义信息和序列信息。主题模型只能学习浅层的文本语义信息,得到的语义是模糊的、粗粒度的。深度学习的语言模型文本分类上不具有易用性和可扩展性,即适合短文本分类的不太适合长文本分类,适合长文本分类的又不太适合短文本的分类。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文本分类方法及装置,以解决现有技术文本分类模型易用性不强,分类不准确中的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文本分类方法,包括:获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成所述序列信息;根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预设算法,获取待分类文本的文本向量;采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型;整合文本向量与序列信息的关联关系,并将整合后的文本向量与所述序列信息的关联关系输入至预设分类模型中,得到文本的类别。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系之前,还包括:若序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,补充后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练补充后的序列信息,得到词语信息与补充后的序列信息的关联关系。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,预测所述词语信息与序列信息的关联关系,包括:若序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,删除后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练删除后的序列信息,得到词语信息与删除后的序列信息的关联关系。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,得到词语信息与序列信息的关联关系,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910523985.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:热点挖掘方法及服务器和计算机可读存储介质
- 下一篇:题目文本分类方法及装置