[发明专利]一种基于新闻数据的中文文本分类系统在审

专利信息
申请号: 201710551298.9 申请日: 2017-07-07
公开(公告)号: CN107357881A 公开(公告)日: 2017-11-17
发明(设计)人: 方勇;黄诚;刘亮;丁晓旭;邱瑶瑶 申请(专利权)人: 四川大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 新闻 数据 中文 文本 分类 系统
【说明书】:

技术领域

发明涉及一种基于TFIDF改进的权重计算方法,和结合SVM以及决策树的分类算法的中文文本分类系统,其特征在于实现了多种特征提取和分类算法的搭配选择,并且可以通过重训练的方式提高分类器性能。

背景技术

随着网络信息技术和计算机硬件水平的高速发展,互联网越来越深入人们的生活,覆盖社会的方方面面,重塑着人们的生活形态。互联网上的内容由于其便于存储,易于获取,信息量丰富,方便阅读等特点,成为了当下人们获取信息的主要渠道。网络信息存储量大,时间跨度久,相比其他传统媒体更新速度更快,传播范围更广。因此,比起从电视、纸媒获取信息,绝大多数年轻人更偏好从互联网获取新闻信息,越来越多的老年人也开始适应互联网,转而从网络了解当下新闻时事。不同年龄段,不同性格,不同爱好的用户希望浏览的新闻种类也不同,网络上的信息量庞大杂乱,为了方便用户的操作、提高用户体验,必须对新闻内容进行分类。然而网络上的信息量规模大,又有各种噪声干扰,并且数据量时刻以惊人的速度不断增长,因此想要人工进行分类是不可行的,于是产生了对新闻内容自动分类技术的需求。对于文本自动化分类技术,主要需要解决的难题在于:(1)如何解决现在常用的权重计算方法存在的问题;(2)如何更高效的训练准确率有保障的分类器。本系统重点对于以上两个问题进行解决,实现适用于对中文文本进行分类的系统。

发明内容

该发明是采用基于TFIDF改进的特征提取算法和结合最小二乘双支持向量机与决策树的分类算法等技术而开发的文本分类系统,通过以新增数据为基础不断重训练来提高、稳定系统性能;

该发明旨在实现如下目标:

(1)改进特征提取方法。发现提出了目前常用的特征降维方法存在的问题、权重计算考虑不全面的问题,并针对这些问题提供对应的解决方法,最后提出了一个考虑更完善的、改进后的特征提取方法。(2)改进文本分类的方法。分析常用分类方法的优缺点,根据文本分类的需求结合了支持向量机算法、偏二叉树结构决策树的优点,提出一种新的文本分类方法。(3)基于对文本分类技术的研究,尤其是对特征提取和文本分类算法的研究和改进,以此为基础设计开发了文本分类系统。

为实现上述目的,该发明采用了如下技术方案:本文设计的系统主要包含:用户登录模块、文本分类模块、分类结果验证模块以及只有管理员有权限访问的文档管理模块和分类器重训练模块。

所述的登录模块登录功能是采取用户分权限制度,分为管理员权限和普通用户权限。普通用户下只有文本分类模块,管理员权限下有文本分类和文档管理两个模块。

所述的文本分类模块主要就是改进后特征提取、分类技术的应用,同时根据用户需求还提供了一般常用的特征提取和分类算法的其他选择。

所述的文档管理模块,是对分类结果验证及修改这一功能的权限升级,管理员可以查看、编辑、提交所有数据库现存的文本类别,属于人工对系统性能的提高。

所述的分类器训练设置模块也是管理员权限可以访问的,当新增的文本条目(距离上一次训练分类器)达到上一次训练分类器时总数的1/3时,就会提醒管理员可以基于更多的数据重新训练分类器。保证了用户可以根据需求方便灵活的选择特征提取和分类算法的使用,保证了系统性能的稳定。

附图说明

图1是本发明的主要系统构架设计图

图2是本发明的登录模块流程图

图3是本发明的文档管理模块流程图

图4是本发明的重训练模块流程图 。

具体实施方式

该系统包含:用户登录模块、文本分类模块、分类结果验证模块以及只有管理员有权限访问的文档管理模块和分类器重训练模块。

系统中需要用到的文本数据和用户数据存放在数据库中,便于前后端交互读取。数据库的表的个数在满足需求的前提下尽量的少;单个表的主键的个数尽量少;单个表的字段不要冗余。

按照需求建立三个表,分别是:存储用户和对应权限的用户列表users、存储预处理时用到的停用词的停用词表StopWord、存储所有新闻文本内容的新闻文本列表news。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710551298.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top