[发明专利]一种基于卷积神经网络的文本增强语义分类方法及系统在审
申请号: | 201911154059.5 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110909164A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 王正宇;王平平;王周焱;丁磊;杨鹏飞;钱伟;韦贾计 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06N3/04 |
代理公司: | 合肥昊晟德专利代理事务所(普通合伙) 34153 | 代理人: | 王林 |
地址: | 230088 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 文本 增强 语义 分类 方法 系统 | ||
本发明公开了一种基于卷积神经网络的文本增强语义分类方法及系统,属于自然语言处理技术领域,包括以下步骤:S1:收集训练样本;S2:预处理;S3:分词;S4:构建分词矩阵;S5:数据增强;S6:利用模型进行训练。本发明能够生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;通过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断;适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于卷积神经网络的文本增强语义分类方法及系统。
背景技术
随着互联网和智能手机的快速普及,信息的传播速度和广度在短短数年间得到了指数级的提升。对于信息的重要载体之一的新闻媒体,随着微信朋友圈,微博自媒体,今日头条推送等的新技术的出现在网络上得到了快速的发展。网络媒体的发展推动了民众对于这些新闻事件的获取与讨论,这种现象使得网络媒体成为反映社会舆情的重要载体之一。对于网络媒体的文本数据的分析,能帮助人们更好的获取新闻背后的信息,例如民众的观点和情感,帮助人们掌握舆论走向和分析社会事件的影响。实现这一点这就需要中文文本分类技术的帮助。
中文文本分类是属于自然语言处理(Natural Language Process)的一个重要课题,承担着从现有的中文大数据文本中快速分类和挖掘有用信息的职能。中文文本分类是实现舆情分析的一个重要手段。目前基于中文文本分类的舆情分析技术主要是在于关键词检索,文本的情感二分类和短文本语义分类。对于关键词检索,由于中文文本中有大量同义词的干扰和长文本中多个关键词同时出现的可能性,并不是一种高效且准确的算法。对于舆情分析,不进行具体类别的分类,光是使用文本情感的正负面二分类无法很好的对于大数据文本进行有效率的归类,从而影响进行后续的查询和分析。对于短文本语义分类,较为成熟的技术有循环神经网络(Recurrent Neural Network)和长短期记忆(Long ShortTerm Memory),但是这些技术很难适用于长网页文本,尤其是网络爬虫爬取新闻页面中会往往会爬取到大量的非正文内容的文本噪声,会极大地干扰分类的正确率。不仅如此,目前的语义分类往往是把文本分入例如“体育”,“经济”,“民生”等单个词语的分类标签,和对于针对政务舆情系统的分类例如“工程建设”,“公共安全公信”,“法院检察院公信”的多词短语类别标签相较甚远。对于单个次的标签可以利用词向量技术在向量空间中投影成一维向量,然后利用使用例如支持向量机技术(Support Vector Machine)很好的去分类,但是对于多个单词的短语分类标签,经词向量处理过后形成二维的矩阵,并不适用于支持向量机等技术,而且不同标签中的重复词会带来很大干扰。所以基于中文文本分类的舆情分类需要更准确切有效的方法。
中文语义分类中的一个重要途径是将中文文本分词后的词语转化为词向量进行后续的分析。这个概念的一个重要扩展是扩展词嵌入(Word Embedding),其中Word2vec作为一个行业成熟技术被应用于本发明中。
对于舆情分析的一个难点就在于很多分类标签下的样本数据不足。这个特征严重影响了分类结果的准确率和召回率。数据增强在很大程度上解决这个问题。现有的针对中文文本的增强方法主要有回译,同义词替换,生成对抗网络等。回译是中文文本翻译成别的语言后再翻译回来,这个方法需要额外的API接口和翻译费用,所以很少应用。同义词替换方法容易造成语义歧义,而且对于长文本会增加大量额外的运行时间。生成对抗网络能生成分类标签下的新的文本,但是这个训练方式很容易生成错误样本,或是形成噪声样本。为此,提出一种基于卷积神经网络的文本增强语义分类方法及系统。
发明内容
本发明所要解决的技术问题在于:如何解决现有中文文本语义分类在政务舆情分类分析上存在的分析准确率低,标签样本数量不均衡等问题,从而更好地对政务舆情进行监测,提供了一种基于卷积神经网络的文本增强语义分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911154059.5/2.html,转载请声明来源钻瓜专利网。