[发明专利]大数据知识挖掘及精准跟踪方法与系统在审
| 申请号: | 201710470156.X | 申请日: | 2017-06-20 |
| 公开(公告)号: | CN108228687A | 公开(公告)日: | 2018-06-29 |
| 发明(设计)人: | 刘志阳;王玲;孙喆;杨赵磊;毛婷婷;李江龙 | 申请(专利权)人: | 上海吉贝克信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 高彦 |
| 地址: | 200093 上海市杨*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类样本 特征向量 预处理 非监督分类 分类算法 监督分类 知识挖掘 大数据 分类 嵌套 训练样本提取 多分类问题 相似度运算 训练分类器 聚类算法 特征集合 特征权重 特征提取 训练语料 自动分类 多层级 跟踪 算法 赋予 应用 | ||
本发明的大数据知识挖掘及精准跟踪方法与系统,通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类,对应监督分类进行第一处理,包括根据预处理的训练样本提取特征,并生成特征向量,从而训练分类器来对待分类样本进行分类;或者,对应非监督分类采用对待分类样本进行预处理及特征提取,并生成特征向量,然后进行特征向量间相似度运算,再通过聚类算法完成对待分类样本的分类;使用多种分类算法的嵌套来实现多层级的多分类问题,同时需要将交互的关键词加入到特征集合中,并根据相应的算法赋予一定的特征权重将其应用到分类算法中,最终提高自动分类的准确性。
技术领域
本发明涉及大数据技术领域,特别是涉及一种大数据知识挖掘及精准跟踪方法与系统。
背景技术
数据的环境下提供了巨量的信息资源,但数据的碎片化和信息过载等问题,使得对知识的利用更加困难。如何将低价值密度的碎片、散乱的数据,转换为有序的,可以持续深化的知识,是改善大数据环境下知识利用效率的核心。
虽然数据挖掘的各种方法已经有了较长时间的发展,但是由于互联网环境下的海量数据包含的有效信息较少,导致特征集维数非常高,准确而高效的降维就显得至关重要。
另外,数据挖掘的核心在于信息分为,针对网络文本数据,由于其含有的信息量巨大,其文本分类中最关键的步骤在于如何根据现有的平台设计出合适的分类算法,分类算法的选择决定了分类效果的好坏。
虽然目前已经存在有比较成熟的分类算法,但是每种算法都有各自的优缺点,为了达到更好的分类效果,需要对现有的分类算法根据现有的平台中的新闻进行改进,比如,现有的平台拥有多层级目录、多个主题类别和用于用户交互的关键词等,因此,需要使用多种分类算法的嵌套来实现多层级的多分类问题,以提升数据分类的准确性。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种大数据知识挖掘及精准跟踪方法与系统,用于解决现有技术的问题,提升海量网络文本信息挖掘的准确性。
为实现上述目的及其他相关目的,本发明提供一种大数据知识挖掘及精准跟踪方法,包括:判断是否已有正确分类的训练语料;若有正确分类的训练语料,则进行第一处理,其包括:对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;通过特征选择算法对经预处理的训练样本计算特征值;将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;通过分类方法对所述特征向量进行训练以构建分类器;通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;若无正确分类的训练语料,则进行第二处理,其包括:对待分类样本进行预处理;通过特征选择算法对经预处理的待分类样本计算特征值;根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;进行所计算的特征向量间的相似度计算;根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
于本发明的一实施例中,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
于本发明的一实施例中,所述特征选择算法包括:互信息或信息增益算法。
于本发明的一实施例中,所述分类方法包括:朴素贝叶斯或决策树。
于本发明的一实施例中,所述相似度计算方法包括:欧式距离;所述聚类算法包括: K-Means算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海吉贝克信息技术有限公司,未经上海吉贝克信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710470156.X/2.html,转载请声明来源钻瓜专利网。





