[发明专利]一种用于大数据的数据挖掘方法和装置有效

申请号：	201611123018.6	申请日：	2016-12-08
公开（公告）号：	CN106599163B	公开（公告）日：	2019-11-22
发明（设计）人：	刘春明	申请（专利权）人：	上海云信留客信息科技有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/33;G06F17/27
代理公司：	11399 北京冠和权律师事务所	代理人：	朱健;陈国军<国际申请>=<国际公布>=
地址：	200030 上海市徐汇***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种用于大数据的数据挖掘方法，包括如下步骤：对文本数据库内容当中的每一条语句进行分词；对分词后的字、词及词组是否属于实体进行识别；然后对分词后的字、词及词组进行语义标注分析；对文本数据库内容进行句法分析；根据句法分析结果生成完整结构化数据库；将完整结构化数据库分割为不同的子数据库；根据具体的挖掘目标，选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。本发明的方法可以提高数据挖掘的效率。本发明还提供了一种用于大数据的数据挖掘装置。
搜索关键词：	一种用于数据挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于大数据的数据挖掘方法，其特征在于，包括如下步骤：/n步骤101：对文本数据库内容当中的每一条语句进行分词；/n步骤102：对步骤101所述分词后的字、词及词组是否属于实体进行识别；/n步骤103：对步骤101所述分词后的字、词及词组进行语义标注分析；/n步骤104：对文本数据库内容进行句法分析；/n步骤105：根据句法分析结果生成完整结构化数据库；/n步骤106：将完整结构化数据库分割为不同的子数据库；/n步骤107：根据具体的挖掘目标，选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析；/n在步骤105中，/n生成语句结构固定的完整结构化数据库，并在生成完整结构化数据库时，保存每个语句的分类标记，同时对分类标记进行统计；/n在步骤106中，/n根据语句分类标记的统计结果或者常用的挖掘目标，将完整结构化数据库分割为不同的子数据库，并赋予子数据库以索引，其索引以语句分类标记或挖掘目标为主，分割子数据库时，使标记相似的语句放入同一个子数据库中，不同的子数据库之间相似度尽量小，其中：/n计算语句之间相似度的公式为：/n /n其中，sim()为相似度计算函数，d1，d2为语句，α为分类标记的粒度，且分类标记仅分为1个粒度，设定其α为1，L(d1)为结构化数据库中的d1语句的分类标记个数，其值与L(d2)相等，L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目，n1和n2为可调节系数，其值大于0；/n计算语句与子数据库之间相似度的计算公式为：/n /n其中，D为子数据库，L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目，n3和n4为可调节系数，其值大于0；/n子数据库之间的相似度计算公式为：/n /n其中，L(D1)为子数据库D1中的索引的数目，L(D1∩D2)为子数据库D1和D2相同的索引的数目，n5和n6为可调节系数，其值大于0。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海云信留客信息科技有限公司，未经上海云信留客信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611123018.6/，转载请声明来源钻瓜专利网。

上一篇：一种关联数据知识图谱概览提取方法
下一篇：一种基于播放行为的内容推荐方法及服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于大数据的数据挖掘方法和装置有效

专利文献下载