[发明专利]一种检测异常数据的方法及装置在审
申请号: | 201810331315.2 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108647997A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 沐广武;邵纪东;马威;黄伟 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常数据检测 统计信息 历史特征 特征标识 特征组合 异常数据 种检测 内部特征 实例计算 正负样本 无监督 准确率 预设 申请 检测 | ||
本申请提供一种检测异常数据的方法及装置,方法包括:获取多条待测数据,每条所述待测数据中包含多个特征,且每个特征包含特征标识和特征值;根据所述多条待测数据的特征标识生成内部特征无关的特征组合;根据所述多条待测数据的特征值和所述特征组合分别生成历史特征组合实例;根据所述历史特征组合实例计算各条所述待测数据的预设类型的统计信息;根据所述统计信息确定各条所述待测数据是否异常。本申请可以提高异常数据检测的准确率,实现无监督的异常数据检测,无需依赖正负样本,可简化异常数据检测的过程,提高检测效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种检测异常数据的方法及装置。
背景技术
随着互联网技术的发展,网络交易的数量也急剧增长。顾客在网上购买商品前,通常会浏览某商品的售后评价信息,以根据历史买家的评价判断该商品的好坏,进而决定是否购买该商品。然而,一些不良商家通过“刷单”的方式,伪造海量的售后评价信息,干扰顾客对商品的准确判断。因而准确地检测出“刷单”等异常数据,可以消除不实的售后评价信息,管控和规范商家的销售行为,进而保护消费者的权益。
现有的异常数据检测方案通常基于单一特征进行异常数据检测,而互联网攻击、欺诈等事件通常呈现群体性特征,单一特征进行异常数据检测的方案的准确性低,很难发现恶意用户群体。
发明内容
有鉴于此,本申请提供一种检测异常数据的方法及装置,基于多个特征检测异常数据,可以保证异常数据检测的准确性。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提出了一种检测异常数据的方法,包括:
获取多条待测数据,每条所述待测数据中包含多个特征,且每个特征包含特征标识和特征值;
根据所述多条待测数据的特征标识生成内部特征无关的特征组合;
根据所述多条待测数据的特征值和所述特征组合分别生成历史特征组合实例;
根据所述历史特征组合实例计算各条所述待测数据的预设类型的统计信息;
根据所述统计信息确定各条所述待测数据是否异常。
在一实施例中,所述根据所述多条待测数据的特征标识生成内部特征无关的特征组合,包括:
计算所述多条待测数据的特征标识中每两个特征标识之间的相关性,生成特征关系矩阵;
根据所述特征关系矩阵生成内部特征无关的特征组合。
在一实施例中,所述计算所述多条待测数据的特征标识中每两个特征标识之间的相关性,包括:
计算所述多个特征中每两个特征的特征标识之间的互信息,将所述互信息的计算结果确定为所述两个特征的特征标识之间的相关性;或,
计算所述多个特征中每两个特征的特征标识之间的条件熵,将所述条件熵的计算结果确定为所述两个特征的特征标识之间的相关性。
在一实施例中,所述根据所述多条待测数据的特征值和所述特征组合分别生成历史特征组合实例,包括:
基于预设时间窗口尺寸对所述多条待测数据进行划分,得到M个时间窗口的待测数据,每个所述M个时间窗口中包括1个当前时间窗口和(M-1)个历史时间窗口;
根据当前时间窗口的待测数据和所述特征组合生成当前特征组合实例;
根据所述当前特征组合实例对各所述历史时间窗口的待测数据进行过滤,得到过滤后的待测数据;
根据所述过滤后的待测数据和所述当前特征组合实例生成历史特征组合实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810331315.2/2.html,转载请声明来源钻瓜专利网。