[发明专利]一种基于TextCNN的报刊出版物分类方法及系统在审
申请号: | 201911333842.8 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111090749A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 董晨;洪祺瑜;郭文忠;杨思源;陈景辉;黄兴 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 丘鸿超;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 textcnn 报刊 出版物 分类 方法 系统 | ||
本发明涉及一种基于TextCNN的报刊出版物分类方法,该方法包括以下步骤:1)对报刊文本数据进行预处理,得到分词并编码后的文本数据;2)读入一批处理好的文本数据,在词嵌入层进行向量化操作;3)在卷积层进行卷积操作,以提取特征;4)在池化层进行最大池化;5)在全连接层进行全连接操作,得到最后分类;6)重复训练设定次数,进行一次测试;7)判断是否达到最大训练次数,是则结束训练,得到最终的分类模型,否则返回步骤2,再读入一批步骤1处理好的文本数据,继续进行训练;8)利用得到的最终的分类模型,对报刊出版物的文本数据进行分类。该方法及系统有利于提高报刊出版物分类的准确率。
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于TextCNN的报刊出版物分类方法及系统。
背景技术
对海量报刊出版物进行快速、精确、高效的分类,对媒体管理报刊信息、读者兴趣推荐等有着一定的实际意义。中文报刊文本与普通文本相比,涉及的学科面比较广,语言结构较特别。对于报刊出版物较多的报社,需要花费大量的人力物力来对报刊出版物进行分类。如果能够实现自动对报刊出版物进行分类,在节省人力物力的同时,也可以提高报社的工作效率,增加报社经济效益。此外,传统的搜索引擎只是根据关键词匹配或者联想记忆来展示用户需要的文章,如果能够快速自动的将海量报刊文本进行分类,让搜索引擎根据类别来展示搜索结果,那么就会使用户能够检索到更多与搜索词相关的报刊文本,甚至可以向每位用户个性化地推荐其常看的感兴趣的报刊文本。
报刊出版物的分类属于自然语言处理(Natural Language Processing,简称NLP)领域,但是,报刊文本与传统自然语言的区别就在于其篇幅相对较长,专业性术语较多,加大了分类的难度。对于报刊出版物分类,传统的方法普遍存在正确率不够高,特征提取较麻烦等问题,而使用深度学习进行自然语言处理,是一个新的思路。
深度学习在自然语言处理领域的起源,始于bengio等人提出使用三层神经网络来构建n-gram模型。他们提出使用词的向量化表示替代传统的独热表示,即现在所说的wordembedding,优势在于降低独热的维度灾难。Mikolov等人在加速词向量计算上面提出对高频词中取子集的方式,使用该方法使得能够获得更规则的表达方式。Xu H等人在wordembedding中融合语义信息,增强了其表达能力。
深度学习中卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。Collobert利用卷积神经网络完成了一些经典的NLP任务,包括命名识别、分词标注等。2013 年google工程师开发了word2vec工具,用于将词转化为词向量。在 2014 年由纽约大学Yoon Kim将cnn用于文本分类中,在他的课题中他将cnn用于句子分类,取得了不错的效果。而在 2016 年,facebook发布一款用于快速学习词向量和分类的工具FastText,其方法和word2vec的skip-gram模型很像,其关键在于速度快。TextCNN是利用卷积神经网络对文本进行分类的算法,由Yoon Kim在“Convolutional Neural Networks for Sentence Classification”一文中提出,Yoon kim在提出TextCNN时主要用于对句子进行分类,可以有效的捕捉文本的局部特征信息,不仅提高了文本分类的准确率,而且与传统的分类方法相比具有较强的适应性。
发明内容
本发明的目的在于提供一种基于TextCNN的报刊出版物分类方法及系统,该方法及系统有利于提高报刊出版物分类的准确率。
为实现上述目的,本发明采用的技术方案是:一种基于TextCNN的报刊出版物分类方法,包括以下步骤:
步骤1)对所有用于训练和测试的报刊文本数据进行预处理,得到分词并编码后的文本数据集,分为训练集和测试集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911333842.8/2.html,转载请声明来源钻瓜专利网。