[发明专利]一种基于深度学习的文本表示与分类方法在审
申请号: | 201810409742.8 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108573068A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 胡向东;许奥狄;钱宏伟;周巧;唐贤伦 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本表示 分类 自然语言 测度 卷积神经网络 词袋模型 局部连接 模型抽取 输入文档 文本分类 文本特征 信念网络 摘要文本 专业词汇 自动捕获 传统的 实时性 高维 降维 权重 文档 稀疏 学习 标签 共享 高层 | ||
本发明涉及一种基于深度学习的文本表示与分类方法,属于自然语言领域。涉及利用深度信念网络DBN、深度波尔茨曼机DBM和卷积神经网络CNN三类深度学习模型,解决文本表示与分类中传统的基于词袋模型BOW文本表示的分类方法存在的高维度、高稀疏和难以处理标签数目不确定、包含大量专业词汇的专业摘要文本问题。本发明充分利用DBM模型自动捕获文本特征对输入文档进行降维、DBN模型抽取高层文档、CNN模型权重共享及局部连接的优势;本发明设计了一个针对文本表示和文本分类的高效模型,具有较高的F测度值、良好ROC曲线和实时性强的优点。
技术领域
本发明属于自然语言领域,涉及一种基于深度学习的文本表示和文本分类方法。
背景技术
信息检索(Information Retrieval)是对信息进行表示、存储、组织和存取,是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。在信息检索中,文本是信息的主要载体,各种形式的信息均通过文本标注来表示,从而文本信息在信息检索中占据重要地位。
在“互联网+”的时代,信息数据急剧增长,信息的表现方式也多种多样。其中,文本相比于图像和声音,网络资源占用少,易于上传和下载。越来越多的网络用户在网络新闻媒体、社区平台抒发自己的情感、观点和评论。同时,越来越多的网络用户通过在网络上了解生物医学,科技领域这些与自己生活息息相关的话题和最新成果。网络用户在新闻网站、生物医学网站、科技领域、社交平台和门户网站上的活跃度日益剧增,加速了文本数据的规模效应,我们已经从“信息匮乏”时代步入“信息过载”时代。人们在“信息过载”时代面临的问题已经不再是如何获取信息,已经转变为如何准确的获取用户所需的信息。传统手段是通过人工对海量原始文档进行标注和自动分类,存在花费时间长、分类结果不够理想的缺点,因此传统的方式已经无法适应在“互联网+”时代对爆炸式增长的数字信息的管理和检索需求。从而,如何快速准确有效的把文本信息反馈给用户,使用户能够检索出自己所需的信息已经成为业界关注和研究的焦点。
文本分类(Text Classification)能够有效的处理和解决信息杂乱的问题,有助于用户有效检索出自己所需要的信息。文本分类在信息的高效管理和利用方面有着非常重要的意义,因此也是处理文本信息的核心手段。在文本分类中,文本表示(TextRepresentation)又是文本分类的基石,因为文本需要转换为计算机算法能够处理的形式,所以文本表示的准确度直接影响着自然语言处理(NLP)的结果表现。
在当前的文本表示和分类任务中,传统的基于BOW模型文本表示的分类方法存在以下三个问题:
(1)高维度问题。
(2)难以处理标签数目不确定、包含大量专业词汇的专业摘要文本。
(3)高稀疏问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的文本表示和文本分类方法,能同时解决传统的基于BOW模型文本表示的分类方法存在的高维度、高稀疏、难以处理标签数目不确定及包含大量专业词汇的专业摘要文本这三个主要问题。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习的文本表示与分类方法,包括以下步骤:
S1:初始化,生成一个内容为空的离线系统数据库,数据库包括命名实体数据集、文档词集合数据集、基于深度学习的多层网络参数三个子数据库;
S2:将采集到的数据进行去重、清洗作为纯净数据集,将纯净数据集进行词性标注并进行命名实体识别得到命名实体数据集,然后存入命名实体数据集子数据库中;将纯净数据集去停用词和词干化处理得到文档词集合数据集并存入文档词集合数据集子数据库中;
S3:将文档词数据集作为word2vec词向量模型的输入,得到词向量,并在得到的词向量中引用加权系数来表示该单词在当前文本中的重要程度,最终得到训练好的词向量模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810409742.8/2.html,转载请声明来源钻瓜专利网。