[发明专利]基于Bert-LSTM的文本多特征分类方法及装置在审

专利信息
申请号: 202210165299.0 申请日: 2022-02-18
公开(公告)号: CN114547303A 公开(公告)日: 2022-05-27
发明(设计)人: 韩启龙;高艺涵;宋洪涛;张海涛;马志强;李丽洁;王宇华 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08
代理公司: 哈尔滨市阳光惠远知识产权代理有限公司 23211 代理人: 刘景祥
地址: 150000 黑龙江*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 bert lstm 文本 特征 分类 方法 装置
【说明书】:

发明公开了一种基于Bert‑LSTM的文本多特征分类方法及装置,属于文本分类技术领域,其中,该方法包括:确定待分类文本数据集,并划分为训练集和测试集;构建基于Bert‑LSTM的文本多特征分类模型;利用训练集对文本多特征分类模型进行训练,得到最优文本多特征分类模型;将待分类文本数据输入最优文本多特征分类模型中,计算待分类文本数据的得分,根据得分将其划分到预设对应类别中。该方法使用BERT以及双向长短期记忆网络等构建基于Bert‑LSTM的文本多特征分类模型,利用挖掘文本多方面的词特征信息和词义潜在语义表示特征信息,融入文本向量,模型在训练过程中充分利用多特征信息,提升了文本分类的性能。

技术领域

本发明涉及文本分类技术领域,特别涉及基于Bert-LSTM的文本多特征分类方法及装置。

背景技术

随着现代网络科技的发展,大数据等技术的出现,网络信息数据巨大且混杂。文本和词汇出现更新快、多元化的特点,互联网容纳了海量的各式各样的信息,其中文本数据相比较于其他(如图像数据等)占用更少的资源,这就使得网络中的大部分的信息是使用文本的形式来进行展现的。文本分类作为自然语言处理领域中一项基础性的工作,目的是对文本信息进行整理和归类,方便从这些海量的信息中发现有价值的信息,如给新闻主题分类;除此之外还有情感的分析:包括两类的情感分类和三性的情感分类,不同种类的分类的处理方法会有不同。应用方面一般在影视评论评、网络购物的物品评价以及服务行业等应用领域较广泛。其他的还有舆情方面的分析:类似语言表达极性分析,新闻机构用的比较多。其他领域还包括邮件的过滤:如今个人信息泄露问题严重,用户经常会收到各种邮件信息,但其中包含大量垃圾广告和恶意骚扰邮件,文本分类的应用就可以对以上信息进行过滤拦截,在很大程度上减少了这些垃圾邮件的传播。除了这些以外,在问答领域也有相关应用,例如对问句进行主题或者答案分析等等。

对于传统的文本分类,其主要是工作依靠人工完成,不但费时而且还费力,如何降低文本分类的成本,提高文本分类的效率,成了自然语言处理(NLP)方向的研究热点。基于机器学习的文本分类方法能在既定的分类器模型下,根据文本的内容,通过相关网络模型自动的对文本进行类别的划分,从而更好的去帮助人们发掘文本信息,因此得到研究人员日渐广泛的关注。

人类的语言表达情感比较复杂,不能简单地提取词语作为特征去进行分类,需要结合语言方面的知识,借助文本中的上下文语义词性信息以及相关领域的语言特征对文本进行相关处理分析,进而对属于类别进行分类处理。对于文本的特征提取,一般使用词袋法来表示文本的特征信息,但是由于自然语言中人的情感语义表达复杂,例如表达的隐喻或是反话等形式,其潜在的信息不易发掘。对于较为复杂的语言形式,采用词袋法提取相关特征进行向量表示,进而对文本进行分类,由于特征的欠缺导致效果及其有限,基于以上问题,给文本分类带来了巨大的挑战。

因此,亟待一种文本多特征分类方法来解决现有针对文本依赖整体的信息,包括词语的词义表达、潜在含义、语言极性等都需要根据上下文信息特征进行表达,Word2Vec等词向量,不能捕获文本的整体信息,缺少完整的特征依赖等问题。

发明内容

本发明提供一种基于Bert-LSTM的文本多特征分类方法,以用于解决大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理问题以及传统语言模型的词向量表示无法解决多义词表征的问题,以及现有模型不能充分捕获长距离语义信息的问题。

本发明一方面实施例提出一种基于Bert-LSTM的文本多特征分类方法,包括以下步骤:

步骤S1,获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集;

步骤S2,构建基于Bert-LSTM的文本多特征分类模型;

步骤S3,利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210165299.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top