[发明专利]大数据知识挖掘及精准跟踪方法与系统在审
| 申请号: | 201710470156.X | 申请日: | 2017-06-20 |
| 公开(公告)号: | CN108228687A | 公开(公告)日: | 2018-06-29 |
| 发明(设计)人: | 刘志阳;王玲;孙喆;杨赵磊;毛婷婷;李江龙 | 申请(专利权)人: | 上海吉贝克信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 高彦 |
| 地址: | 200093 上海市杨*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明的大数据知识挖掘及精准跟踪方法与系统,通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类,对应监督分类进行第一处理,包括根据预处理的训练样本提取特征,并生成特征向量,从而训练分类器来对待分类样本进行分类;或者,对应非监督分类采用对待分类样本进行预处理及特征提取,并生成特征向量,然后进行特征向量间相似度运算,再通过聚类算法完成对待分类样本的分类;使用多种分类算法的嵌套来实现多层级的多分类问题,同时需要将交互的关键词加入到特征集合中,并根据相应的算法赋予一定的特征权重将其应用到分类算法中,最终提高自动分类的准确性。 | ||
| 搜索关键词: | 分类样本 特征向量 预处理 非监督分类 分类算法 监督分类 知识挖掘 大数据 分类 嵌套 训练样本提取 多分类问题 相似度运算 训练分类器 聚类算法 特征集合 特征权重 特征提取 训练语料 自动分类 多层级 跟踪 算法 赋予 应用 | ||
【主权项】:
1.一种大数据知识挖掘及精准跟踪方法,其特征在于,包括:判断是否已有正确分类的训练语料;若有正确分类的训练语料,则进行第一处理,其包括:对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;通过特征选择算法对经预处理的训练样本计算特征值;将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;通过分类方法对所述特征向量进行训练以构建分类器;通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;若无正确分类的训练语料,则进行第二处理,其包括:对待分类样本进行预处理;通过特征选择算法对经预处理的待分类样本计算特征值;根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;进行所计算的特征向量间的相似度计算;根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海吉贝克信息技术有限公司,未经上海吉贝克信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710470156.X/,转载请声明来源钻瓜专利网。





