[发明专利]一种基于Map-Reduce框架的实体识别方法在审
申请号: | 201410494470.8 | 申请日: | 2014-09-24 |
公开(公告)号: | CN104239553A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 王宏志;王飞;秦谦;宋阳秋 | 申请(专利权)人: | 江苏名通信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;汪庆朋 |
地址: | 212000 江苏省镇江市京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Map-Reduce框架的实体识别方法,具体包括以下几个步骤:从用户数据库中导出海量数据,判断数据是否规范;基于相同属性值对实体进行初步聚类,建立属性索引表;对同一属性索引表中的实体进行实体识别,获取相似实体对,生成相似实体对集合文件,并计算实体对之间相似度;通过机器学习求得阈值;将相似实体对之间的相似度大小与阈值进行比较,大于阈值的相似实体对符合输出条件;通过实体划分建立实体对关系图,基于桥进行初步图划分,基于节点间公共邻居进行实体划分,生成实体分类文件;计算划分中的实体属于其所在实体分类的概率。本发明识别方法效率高,处理速度快,内存占用小,适用于大规模数据上的实体识别。 | ||
搜索关键词: | 一种 基于 map reduce 框架 实体 识别 方法 | ||
【主权项】:
一种基于Map‑Reduce框架的实体识别方法,其特征在于,具体包括以下几个步骤:(1)从用户数据库中导出海量数据,判断数据是否规范,如果规范转向步骤(2),如果不规范则进行数据预处理,生成可进行识别的规范数据,然后转向步骤(2);(2)通过初步聚类模块读取所述规范数据,基于相同属性值对实体进行初步聚类,生成属性索引表文件;(3)通过实体识别模块读取所述属性索引表文件,对同一属性索引表中的实体进行实体识别,获取相似实体对,生成相似实体对集合文件,然后计算相似实体对之间的相似度,并转向步骤(5);(4)对步骤(1)中导出的海量数据进行数据抽样得到样本数据,通过机器学习求得阈值,并转向步骤(5);(5)将相似实体对之间的相似度大小与阈值进行比较,大于阈值的相似实体对符合输出条件,转向步骤(6),小于阈值的相似实体对则结束实体识别;(6)通过实体划分模块读取相似实体对集合文件,建立实体对关系图,其中图的顶点表示不同的实体,边代表实体间的相似关系,若实体对关系图较大,则寻找实体对关系图中的桥,通过桥将大的实体对关系图分割为小的实体对关系图;(7)基于实体对关系图上相邻接实体之间的邻居信息及公共邻居信息,对步骤(6)得到的实体对关系图进行划分,生成实体分类文件;(8)判断相似实体对集合文件中实体个数是否大于1,如果大于1,则通过概率计算模块读取实体分类文件、相似实体对集合文件,计算划分中的实体属于其所在实体分类的概率,生成最终带有概率的实体分类结果文件;如果小于1则设置该实体概率为1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司,未经江苏名通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410494470.8/,转载请声明来源钻瓜专利网。
- 上一篇:可充电电池保护器
- 下一篇:数字打印系统的控制设备和方法