[发明专利]一种基于新闻数据的中文文本分类系统在审
申请号: | 201710551298.9 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107357881A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 方勇;黄诚;刘亮;丁晓旭;邱瑶瑶 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新闻 数据 中文 文本 分类 系统 | ||
技术领域
本发明涉及一种基于TFIDF改进的权重计算方法,和结合SVM以及决策树的分类算法的中文文本分类系统,其特征在于实现了多种特征提取和分类算法的搭配选择,并且可以通过重训练的方式提高分类器性能。
背景技术
随着网络信息技术和计算机硬件水平的高速发展,互联网越来越深入人们的生活,覆盖社会的方方面面,重塑着人们的生活形态。互联网上的内容由于其便于存储,易于获取,信息量丰富,方便阅读等特点,成为了当下人们获取信息的主要渠道。网络信息存储量大,时间跨度久,相比其他传统媒体更新速度更快,传播范围更广。因此,比起从电视、纸媒获取信息,绝大多数年轻人更偏好从互联网获取新闻信息,越来越多的老年人也开始适应互联网,转而从网络了解当下新闻时事。不同年龄段,不同性格,不同爱好的用户希望浏览的新闻种类也不同,网络上的信息量庞大杂乱,为了方便用户的操作、提高用户体验,必须对新闻内容进行分类。然而网络上的信息量规模大,又有各种噪声干扰,并且数据量时刻以惊人的速度不断增长,因此想要人工进行分类是不可行的,于是产生了对新闻内容自动分类技术的需求。对于文本自动化分类技术,主要需要解决的难题在于:(1)如何解决现在常用的权重计算方法存在的问题;(2)如何更高效的训练准确率有保障的分类器。本系统重点对于以上两个问题进行解决,实现适用于对中文文本进行分类的系统。
发明内容
该发明是采用基于TFIDF改进的特征提取算法和结合最小二乘双支持向量机与决策树的分类算法等技术而开发的文本分类系统,通过以新增数据为基础不断重训练来提高、稳定系统性能;
该发明旨在实现如下目标:
(1)改进特征提取方法。发现提出了目前常用的特征降维方法存在的问题、权重计算考虑不全面的问题,并针对这些问题提供对应的解决方法,最后提出了一个考虑更完善的、改进后的特征提取方法。(2)改进文本分类的方法。分析常用分类方法的优缺点,根据文本分类的需求结合了支持向量机算法、偏二叉树结构决策树的优点,提出一种新的文本分类方法。(3)基于对文本分类技术的研究,尤其是对特征提取和文本分类算法的研究和改进,以此为基础设计开发了文本分类系统。
为实现上述目的,该发明采用了如下技术方案:本文设计的系统主要包含:用户登录模块、文本分类模块、分类结果验证模块以及只有管理员有权限访问的文档管理模块和分类器重训练模块。
所述的登录模块登录功能是采取用户分权限制度,分为管理员权限和普通用户权限。普通用户下只有文本分类模块,管理员权限下有文本分类和文档管理两个模块。
所述的文本分类模块主要就是改进后特征提取、分类技术的应用,同时根据用户需求还提供了一般常用的特征提取和分类算法的其他选择。
所述的文档管理模块,是对分类结果验证及修改这一功能的权限升级,管理员可以查看、编辑、提交所有数据库现存的文本类别,属于人工对系统性能的提高。
所述的分类器训练设置模块也是管理员权限可以访问的,当新增的文本条目(距离上一次训练分类器)达到上一次训练分类器时总数的1/3时,就会提醒管理员可以基于更多的数据重新训练分类器。保证了用户可以根据需求方便灵活的选择特征提取和分类算法的使用,保证了系统性能的稳定。
附图说明
图1是本发明的主要系统构架设计图
图2是本发明的登录模块流程图
图3是本发明的文档管理模块流程图
图4是本发明的重训练模块流程图 。
具体实施方式
该系统包含:用户登录模块、文本分类模块、分类结果验证模块以及只有管理员有权限访问的文档管理模块和分类器重训练模块。
系统中需要用到的文本数据和用户数据存放在数据库中,便于前后端交互读取。数据库的表的个数在满足需求的前提下尽量的少;单个表的主键的个数尽量少;单个表的字段不要冗余。
按照需求建立三个表,分别是:存储用户和对应权限的用户列表users、存储预处理时用到的停用词的停用词表StopWord、存储所有新闻文本内容的新闻文本列表news。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710551298.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置