[发明专利]用于丰富数据的系统和方法在审
| 申请号: | 202080035793.4 | 申请日: | 2020-03-20 |
| 公开(公告)号: | CN113826091A | 公开(公告)日: | 2021-12-21 |
| 发明(设计)人: | E.勒休鲁;M.什切尔巴克 | 申请(专利权)人: | 奥兰治 |
| 主分类号: | G06F16/38 | 分类号: | G06F16/38;G06F16/35 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 李芳华 |
| 地址: | 法国伊西*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 丰富 数据 系统 方法 | ||
本发明涉及一种用于丰富数据的方法,包括:a)接收(S1)多个数据集,每个数据集包括基础数据和元数据;b)根据相似性函数(F)基于基础数据对数据集进行分组(S3);c)用表征数据集所属的组的标签丰富(S4)每个数据集;d)对于每个经丰富的数据集,在存储数据集的数据库(DB1,DB2)中搜索(S5)经丰富的数据集的元数据和标签中的至少一部分的组合,每个数据集包括元数据和标签;以及e)如果数据库中不存在经丰富的数据集的元数据和标签的至少一部分的组合,则从经丰富的数据集移除(S6)标签。
技术领域
本发明的领域涉及数据的丰富(enrichment),尤其是当由于发送和接收数据的条件而存在这些数据包含不精确性或误差的风险时。本发明的主要应用之一尤其涉及移动银行。
背景技术
当数据被发送时,存在以下风险,数据可能被泄露,并且误差或不精确性是由相当频繁的数据传送导致的。数据中的这些误差或不精确性可能出现在源端,但也可能在发送或接收时引入。
在数据传送(有时是重复传送)不可避免的所有系统中,对使接收到的数据可靠的需要是重要的问题。具体地,移动银行领域(其表示可从连接到广域网的移动设备(诸如移动电话)访问的所有类型的金融服务)是这样的领域,其中数据传送频繁,并且对这些数据的恢复是实现服务的必要条件。在该特定领域中,所传送的数据可以包括诸如商家的描述、他们的活动代码、他们的位置、他们的名字等的信息。然后,当数据可能包含误差时,有必要确认这些数据的可靠性,以用于服务的正常运行。
本发明旨在改善这种情况。
发明内容
因此,本发明涉及一种在计算机装置中实现的用于数据丰富的处理,包括:
a)接收若干数据集,每个数据集包括基础数据和与基础数据相关的元数据;
b)根据相似性函数,基于分别与数据集相关联的基础数据对数据集进行分组;
c)利用称为标签的附加数据丰富每个数据集,该标签表征数据集所属的组;
d)对于每个经丰富的数据集,在存储数据集的至少一个数据库中搜索来自经丰富的数据集的元数据和标签中的至少一部分的组合,每个数据集包括元数据和标签;
e)如果在该至少一个数据库中不存在来自经丰富的数据集的元数据和标签中的至少一部分的组合,则从经丰富的数据集中移除标签。
例如,基础数据是字符串、声音信号或数字图像。
根据实施例,该处理还包括在接收数据集之后:对于每个数据集,通过应用用于降低基础数据中的噪声水平的处理,生成与该数据集相关联的经处理的数据。在这样的实施例中,对数据集的分组是根据分别与数据集相关联的经处理的数据来实现的。
例如,基础数据是字符串,而经处理的数据是通过从字符串中消除来自预设字符列表中的一个或多个字符而生成的。
根据实施例,对数据集的分组使用无监督学习算法。
根据实施例,在至少一个数据库中存储的每个数据集还包括基础数据,并且如果经丰富的数据集的元数据和标签中的至少一部分的组合存在于至少一个数据库中的对应数据集中,则来自经丰富的数据集的基础数据在必要时被来自对应数据集的基础数据替换。
根据实施例,在至少一个数据库中存储的每个数据集还包括基础数据,并且在多个数据库上进行搜索,其中每个数据库由可靠性系数表征,并且如果来自经丰富的数据集的元数据和标签中的至少一部分的组合存在于分别存储在与多个数据库不同的数据库中的对应数据集中,如果来自经丰富的数据集的基础数据不同于存储在由最大可靠性系数表征的数据库中的对应数据集的基础数据,则移除经丰富的数据集的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥兰治,未经奥兰治许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080035793.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于上行链路传输的方法、终端设备和网络节点
- 下一篇:能量供应系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





