[发明专利]一种MES系统的标识数据库去重方法及系统有效

申请号：	202110023231.4	申请日：	2021-01-08
公开（公告）号：	CN112685399B	公开（公告）日：	2022-10-18
发明（设计）人：	柴森春;王昭洋;黄经纬;张百海;崔灵果;李慧芳;姚分喜	申请（专利权）人：	北京理工大学
主分类号：	G06F16/215	分类号：	G06F16/215
代理公司：	北京高沃律师事务所 11569	代理人：	杜阳阳
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 mes 系统标识数据库方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种MES系统的标识数据库去重方法及系统，所述去重方法包括：将待处理的每个标识数据库分别作为一个从节点，将空闲的运算节点作为主节点，并对所述从节点进行顺序标号；利用SNM算法将所有从节点中的数据分成N份；计算每个数据集的最小签名矩阵；根据每个数据集的最小签名矩阵，计算每个数据集中每两个数据元之间的相似度；根据每个数据集中每两个数据元之间的相似度，对每个数据集中的数据源进行去重处理。本发明采用数据集划分的方式减小数据传输过程中的耗时，通过构建最小签名矩阵，通过对最小签名矩阵进行交互，进行相似度计算，无需数据元的交互，保证了数据的隐私性，并进一步减小了数据传输过程中的耗时。

技术领域

本发明涉及数据处理技术领域，特别涉及一种MES系统的标识数据库去重方法及系统。

背景技术

相似重复数据是指，数据库中存在这样的两条数据1R、2R，它们的内容相同或者相似，且都对应着同一个现实实体，则数据对1R、2R互为相似重复数据。实际数据库中可能存在多对互为相似重复的数据，它们的存在降低了数据的质量，可能会妨碍系统的正常运行，甚至会影响企业信息管理系统决策的正确性。

面向MES的工业互联网统一标识数据库，是一个存储着MES系统中的统一数据元标识数据库由许多数据库服务器组成的，其中存储着大量的统一数据元。不同的标识之间，它们对应的地址存储的数据可能是相似重复数据。

传统的大多数去重方法都是直接对数据进行操作，直接将数据传送到统一的临时数据库进行相似度计算操作，一个问题是大量数据传输耗时很久，另一个问题是部分公司想要保护数据，不愿意公开数据。

如何减小去重处理过程中数据传输造成的耗时，并保证数据的隐私，成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种MES系统的标识数据库去重方法及系统，以实现减小去重处理过程中数据传输造成的耗时，并保证数据的隐私。

为实现上述目的，本发明提供了如下方案：

一种MES系统的标识数据库去重方法，所述去重方法包括如下步骤：

将待处理的每个标识数据库分别作为一个从节点，将空闲的运算节点作为主节点，并按照标识数据库中存储的数据的重要程度对所述从节点进行顺序标号；