[发明专利]大数据知识挖掘及精准跟踪方法与系统在审

申请号：	201710470156.X	申请日：	2017-06-20
公开（公告）号：	CN108228687A	公开（公告）日：	2018-06-29
发明（设计）人：	刘志阳;王玲;孙喆;杨赵磊;毛婷婷;李江龙	申请（专利权）人：	上海吉贝克信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06K9/62
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	高彦
地址：	200093 上海市杨***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明的大数据知识挖掘及精准跟踪方法与系统，通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类，对应监督分类进行第一处理，包括根据预处理的训练样本提取特征，并生成特征向量，从而训练分类器来对待分类样本进行分类；或者，对应非监督分类采用对待分类样本进行预处理及特征提取，并生成特征向量，然后进行特征向量间相似度运算，再通过聚类算法完成对待分类样本的分类；使用多种分类算法的嵌套来实现多层级的多分类问题，同时需要将交互的关键词加入到特征集合中，并根据相应的算法赋予一定的特征权重将其应用到分类算法中，最终提高自动分类的准确性。
搜索关键词：	分类样本特征向量预处理非监督分类分类算法监督分类知识挖掘大数据分类嵌套训练样本提取多分类问题相似度运算训练分类器聚类算法特征集合特征权重特征提取训练语料自动分类多层级跟踪算法赋予应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种大数据知识挖掘及精准跟踪方法，其特征在于，包括：判断是否已有正确分类的训练语料；若有正确分类的训练语料，则进行第一处理，其包括：对获取自所述训练语料的训练样本进行预处理；其中，所述预处理包括分词、词性标注、去停用词、及初步特征提取；通过特征选择算法对经预处理的训练样本计算特征值；将所计算各特征值从小到大排序后，提取最大的前M个特征值作为样本分类特征集合；根据所述样本分类特征集合，使用文本表示方法得到表示所述训练样本的特征向量；通过分类方法对所述特征向量进行训练以构建分类器；通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中；其中，所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的；若无正确分类的训练语料，则进行第二处理，其包括：对待分类样本进行预处理；通过特征选择算法对经预处理的待分类样本计算特征值；根据所述待分类样本的各特征值，使用文本表示方法得到表示所述待分类样本的特征向量；进行所计算的特征向量间的相似度计算；根据所计算的相似度，采用聚类算法以对待分类样本完成分类；其中，所述分类通过关键词来表示，其中，所述关键词包括：面向监测对象的第一类型；以及面向监测内容的第二类型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海吉贝克信息技术有限公司，未经上海吉贝克信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710470156.X/，转载请声明来源钻瓜专利网。

上一篇：用于实现图文匹配的方法、装置和电子设备
下一篇：一种基于XBRL的模板生成方法、系统及服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]大数据知识挖掘及精准跟踪方法与系统在审

专利文献下载