[发明专利]实现属性归一的方法和装置有效
申请号: | 201711260832.7 | 申请日: | 2017-12-04 |
公开(公告)号: | CN110019162B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 赵墨农 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;陆锦华 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 属性 方法 装置 | ||
本发明公开了实现属性归一的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:以待归一数据的单词为KEY、待归一数据为VALUE得到第一数据;将具有相同KEY的第一数据聚合为第一数据组,第一数据组中每条第一数据的VALUE聚合成第二数据,从第一数据组的所有词中选举一个作为第二数据的归一词;以第二数据中每个原词为KEY、第二数据为VALUE得到第三数据;将具有相同KEY的第三数据聚合为第二数据组,将第二数据组中每条第三数据的VALUE聚合成第四数据,从第二数据组的所有归一词中选举一个作为第四数据的归一词并加入拓展词集合形成结果数据;依据结果数据确定归一后的属性值。该实施方式无需人工维护即可实现属性归一,准确性高,实时性好,节省人力。
技术领域
本发明涉及计算机技术领域,尤其涉及一种实现属性归一的方法和装置。
背景技术
各种数据挖掘算法的基础是数据的特征。然而在现今的互联网中,为了增加在各种搜索引擎中的曝光率,使用者往往会把同一个属性的各种写法尽量多的体现在文本中。即,一条数据的某个属性值,往往是由多个能代表同一含义的冗余词拼接表示的。采用不同写法编写同一属性的属性值,会给数据处理带来诸多麻烦。以电商领域为例,若某品牌A的写法有A1、A2、A3、A4四种,这四种写法都代表品牌A,然而不同商家在写品牌名称的时候,采用的写法、每种写法的数量、前后顺序等都不一定一样。若“A1 A2 A3”是某一条数据的品牌字段的原词,“A2 A3 A4”是另一条数据的品牌字段的原词,这两种写法都代表品牌A。由于采用的写法、每种写法的数量、前后顺序等不同,计算机很难在海量数据中通过品牌字段,将这两条数据分类为同一品牌。因此,如何将海量数据中不同写法、数量、顺序等、但是代表同一含义的原词进行归一,成为了数据挖掘中一个普遍存在的问题。
现有的做法是,人工维护一张对应表格,将同一属性的原词的各种写法,都对应一个该属性的“唯一标识”。在做后续数据处理算法之前,用待处理数据关联这个对应表,找出每一条数据对应的“唯一标识”,然后再进行后续处理。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1)耗费人力:维护对应表需要耗费持续的人力,因为同一属性的原词不论何时出现不同的写法,都要人工维护加到这张对应表中。
2)准确性和实时性低:在海量数据中,要人工准确、全面、快速的找到某一个属性新出现的不同写法的原词,是很难做到的,从而出现某个属性由于对应表更新不及时、不准确等造成的分类错误,或者根本对应不上的情况。
发明内容
有鉴于此,本发明实施例提供一种实现属性归一的方法和装置,无需人工维护即可实现属性归一,准确性高,实时性好,节省人力。
为实现上述目的,根据本发明实施例的一个方面,提供了一种实现属性归一的方法,包括如下步骤:
对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
将具有相同KEY的第一数据聚合为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词和拓展词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
将具有相同KEY的第三数据聚合为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
依据所述结果数据确定归一后的属性值。
可选地,所述形成结果数据之后还包括:
对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711260832.7/2.html,转载请声明来源钻瓜专利网。