[发明专利]大数据知识挖掘及精准跟踪方法与系统在审
| 申请号: | 201710470156.X | 申请日: | 2017-06-20 |
| 公开(公告)号: | CN108228687A | 公开(公告)日: | 2018-06-29 |
| 发明(设计)人: | 刘志阳;王玲;孙喆;杨赵磊;毛婷婷;李江龙 | 申请(专利权)人: | 上海吉贝克信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 高彦 |
| 地址: | 200093 上海市杨*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类样本 特征向量 预处理 非监督分类 分类算法 监督分类 知识挖掘 大数据 分类 嵌套 训练样本提取 多分类问题 相似度运算 训练分类器 聚类算法 特征集合 特征权重 特征提取 训练语料 自动分类 多层级 跟踪 算法 赋予 应用 | ||
1.一种大数据知识挖掘及精准跟踪方法,其特征在于,包括:
判断是否已有正确分类的训练语料;
若有正确分类的训练语料,则进行第一处理,其包括:
对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;
通过特征选择算法对经预处理的训练样本计算特征值;
将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;
根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;
通过分类方法对所述特征向量进行训练以构建分类器;
通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;
若无正确分类的训练语料,则进行第二处理,其包括:
对待分类样本进行预处理;
通过特征选择算法对经预处理的待分类样本计算特征值;
根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;
进行所计算的特征向量间的相似度计算;
根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
2.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
3.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于:所述特征选择算法包括:互信息或信息增益算法。
4.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于:所述分类方法包括:朴素贝叶斯或决策树。
5.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于,所述相似度计算方法包括:欧式距离;所述聚类算法包括:K-Means算法。
6.一种大数据知识挖掘及精准跟踪系统,其特征在于,包括:
处理模式判断模块,用于判断是否已有正确分类的训练语料;
第一处理模块,用于在有正确分类的训练语料的情况下,进行第一处理;所述第一处理模块包括:第一预处理模块、第一特征选择模块、特征提取模块、第一特征向量生成模块、及训练模块;
所述第一预处理模块,用于对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;
所述第一特征选择模块,用于通过特征选择算法对经预处理的训练样本计算特征值;
所述特征提取模块,用于将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;
所述第一特征向量生成模块,用于根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;
所述训练模块,用于通过分类方法对所述特征向量进行训练以构建分类器;
所述分类器,用于将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;
第二处理模块,用于在无正确分类的训练语料的情况下,则进行第二处理,其包括:第二预处理模块、第二特征选择模块、第二特征向量生成模块、相似度计算模块、及聚类计算模块;
所述第二预处理模块,用于对待分类样本进行预处理;
所述第二特征选择模块,用于通过特征选择算法对经预处理的待分类样本计算特征值;
所述第二特征向量生成模块,用于根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;
所述相似度计算模块,用于进行所计算的特征向量间的相似度计算;
所述聚类计算模块,用于根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海吉贝克信息技术有限公司,未经上海吉贝克信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710470156.X/1.html,转载请声明来源钻瓜专利网。





