[发明专利]一种基于融合特征的海事海商长文本分类方法、装置及介质在审
申请号: | 202111518907.3 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114564943A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 鲍闯;李鹏;冯姣;王文超 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 特征 海事 海商 文本 分类 方法 装置 介质 | ||
本发明提供了一种基于融合特征的海事海商长文本分类方法、装置及介质,所述方法包括:首先对预处理的长文本进行分割,将划分好的小段文本分别送入BERT预训练模型,获取包含局部文本的词向量和句向量。其次,将词向量送入卷积神经网络生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量。然后,将长文划分后的n组文本融合的句向量输入到双向长短期记忆网提取文本的全局信息。最后,通过引入注意力机制关注重点,采用softmax得到长文本最终概率表达,提高模型分类效率和准确度。
技术领域
本发明涉及一种基于融合特征的海事海商长文本分类方法、装置及介质,属于自然语言处理技术领域。
背景技术
随着我国司法体系的不断深化改革,大量的裁判文书被各大法院通过互联网的形式进行公开,而文书类别标签的缺失导致法律相关人员面对海量的裁判文本信息资源检索困难。如何快速、高效地对裁决文书自动化分类是一个亟待解决的问题。
裁判文书分类属于文本分类范畴。文本分类作为自然语言处理领域(NaturalLanguage Procesing, NLP)中最经典、最基本的任务之一,被广泛应用于主题分类、情感分析和问答匹配等领域。按照预先设定好的类别标签,通过提取文本的高级特征,给文本自动分类。文本分类大致可以分为两类方法:浅层学习的机器学习方法和基于深度学习的方法。浅层学习的文本分类方法通过提取词频或者词袋的特征,然后将文本特征送入朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine, SVM)等分类模型中预测类别标签。由于传统的机器学习算法是浅层的特征提取,存在高维的稀疏性、无序性和无法联系文本的上下文的劣势,限制了传统文本分类模型的分类效果。
Kim针对卷积神经网络(Convolutional Neural Networks, CNN)的输入层做了一些变形,提出了文本分类模型TextCNN。TextCNN模型包含一个卷积层和最大池化层,该模型参数量少、训练速度快,但其卷积核的视野受卷积核控制,固定大小的卷积核只能提取局部的特征,无法关注更长视野的特征。Liu等人使用长短期记忆网络(Long Short-TermMemory, LSTM)对语句的序列信息进行建模,并将网络的最后一个状态作为文本表示。对于短文本来说,循环神经网络具有较好的表现。随着文本的长度变长,序列数据之间的间隔就会加大,这会使得长短期记忆网络的记忆性减弱。对于长文本来说,直接将文档作为长序列输入模型,不仅会给模型的性能带来挑战,而且会忽略掉文档的层次结构信息。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于融合特征的海事海商长文本分类方法、装置及介质,可较准确的对海事海商长文本进行分类。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于融合特征的海事海商长文本分类方法,包括以下步骤:
获取待分类的海事海商长文本;
对待分类的海事海商长文本进行分割,获得划分好的小段文本;
将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量;
将词向量送入卷积神经网络,生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量;
将各局部文本的最终句向量输入到双向长短期记忆网络,提取文本的全局信息;
通过引入注意力机制关注重点,采用softmax函数得到长文本最终概率表达,即海事海商长文本的分类结果。
进一步的,对待分类的海事海商长文本进行分割,获得划分好的小段文本的方法包括:
按照长文本的分层结构进行文本划分,将长文本划分为多个短句子,保留文本全局信息。
进一步的,将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量的方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111518907.3/2.html,转载请声明来源钻瓜专利网。