[发明专利]一种基于Map-Reduce框架的实体识别方法在审

专利信息
申请号: 201410494470.8 申请日: 2014-09-24
公开(公告)号: CN104239553A 公开(公告)日: 2014-12-24
发明(设计)人: 王宏志;王飞;秦谦;宋阳秋 申请(专利权)人: 江苏名通信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/44
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 董建林;汪庆朋
地址: 212000 江苏省镇江市京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Map-Reduce框架的实体识别方法,具体包括以下几个步骤:从用户数据库中导出海量数据,判断数据是否规范;基于相同属性值对实体进行初步聚类,建立属性索引表;对同一属性索引表中的实体进行实体识别,获取相似实体对,生成相似实体对集合文件,并计算实体对之间相似度;通过机器学习求得阈值;将相似实体对之间的相似度大小与阈值进行比较,大于阈值的相似实体对符合输出条件;通过实体划分建立实体对关系图,基于桥进行初步图划分,基于节点间公共邻居进行实体划分,生成实体分类文件;计算划分中的实体属于其所在实体分类的概率。本发明识别方法效率高,处理速度快,内存占用小,适用于大规模数据上的实体识别。
搜索关键词: 一种 基于 map reduce 框架 实体 识别 方法
【主权项】:
一种基于Map‑Reduce框架的实体识别方法,其特征在于,具体包括以下几个步骤:(1)从用户数据库中导出海量数据,判断数据是否规范,如果规范转向步骤(2),如果不规范则进行数据预处理,生成可进行识别的规范数据,然后转向步骤(2);(2)通过初步聚类模块读取所述规范数据,基于相同属性值对实体进行初步聚类,生成属性索引表文件;(3)通过实体识别模块读取所述属性索引表文件,对同一属性索引表中的实体进行实体识别,获取相似实体对,生成相似实体对集合文件,然后计算相似实体对之间的相似度,并转向步骤(5);(4)对步骤(1)中导出的海量数据进行数据抽样得到样本数据,通过机器学习求得阈值,并转向步骤(5);(5)将相似实体对之间的相似度大小与阈值进行比较,大于阈值的相似实体对符合输出条件,转向步骤(6),小于阈值的相似实体对则结束实体识别;(6)通过实体划分模块读取相似实体对集合文件,建立实体对关系图,其中图的顶点表示不同的实体,边代表实体间的相似关系,若实体对关系图较大,则寻找实体对关系图中的桥,通过桥将大的实体对关系图分割为小的实体对关系图;(7)基于实体对关系图上相邻接实体之间的邻居信息及公共邻居信息,对步骤(6)得到的实体对关系图进行划分,生成实体分类文件;(8)判断相似实体对集合文件中实体个数是否大于1,如果大于1,则通过概率计算模块读取实体分类文件、相似实体对集合文件,计算划分中的实体属于其所在实体分类的概率,生成最终带有概率的实体分类结果文件;如果小于1则设置该实体概率为1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司,未经江苏名通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410494470.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top