[发明专利]一种文本数据分类与信息挖掘方法有效

申请号：	201910481105.6	申请日：	2019-06-04
公开（公告）号：	CN110222180B	公开（公告）日：	2021-05-28
发明（设计）人：	鲁玥;王玉;曲皓;张逍玉;孔祥智	申请（专利权）人：	江南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	林娟
地址：	214000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本数据分类与信息挖掘方法，属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库，使得文本特征向量的维数大大降低、信息集中，克服了文本大数据处理过程中高维‑稀疏的问题，便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体，以增强文本分类的准确性。进一步的，本发明在训练支持向量机之前，利用两层模糊分类初步得到其类别，无需提前获知训练数据的类别对于12345热线文本数据，本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案，能充分调动不同领域的专业人士给予解答。
搜索关键词：	一种文本数据分类信息挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本数据分类与信息挖掘方法，其特征在于，所述方法包括：S1：建立不同层级不同类别的关键词库，并根据关键词库确定每条文本数据对应的文本特征向量；为描述方便，假设第i条文本数据所含总关键词数为n_i、总类别个数为k、所含第j类关键词的数目为m_ij，则第i条文本数据的特征向量为[m_i1,m_i2···,m_ij···m_ik]；S2：根据S1建立好的关键词库，基于分层模糊分类的方法对各条文本数据进行分类，分类过程中，计算每条文本数据对各类的隶属度；第i条文本数据对第j类的隶属度其中m_ij表示第i条文本数据所含第j类关键词的数目；根据隶属度将各条文本数据模糊分类至对应的类别；S3：选取隶属度差异化大的文本数据作为可靠个体，通过支持向量机的训练得到训练函数；定义第i条文本数据的隶属度差异化系数为：定义差异化系数的阈值λ；当β_i≥λ时，称该个体隶属度差异大，为可靠个体，作为支持向量机的训练数据，当β_i＜λ时，称该个体隶属度差异小，为不可靠个体；S4：采用训练好的支持向量机训练函数对待分类的文本数据进行分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江南大学，未经江南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910481105.6/，转载请声明来源钻瓜专利网。

上一篇：一种通讯录文本分类方法、装置及电子设备
下一篇：一种基于Python的影评情感分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本数据分类与信息挖掘方法有效

专利文献下载