[发明专利]一种获取时间窗口模型参数的方法和系统有效
申请号: | 201210177720.6 | 申请日: | 2012-05-31 |
公开(公告)号: | CN103455509B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 俞文明;刘红星 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 时间 窗口 模型 参数 方法 系统 | ||
技术领域
本申请涉及计算机技术领域,特别是涉及一种获取时间窗口模型参数的方法和系统。
背景技术
随着网络的发展,对于网络用户的用户行为,比如使用网上银行进行交易,需要利用一些模型(如逻辑回归模型等)判断当前这笔用户行为是否异常(盗用,欺诈,套现等),而这些模型需要用到用户的历史交易行为等历史数据作为参数。在交易发生前的一段时间内的用户行为的统计值(包括交易行为,操作行为等)对判断当前交易是否异常(盗用,欺诈,套现等)具有至关重要的作用,在本文中这种类型的参数称作时间窗口模型参数。时间窗口模型参数的一般定义为:指当前事件的主体往前回溯一段时间该主体所参与事件的统计值。如计算当前交易的卖家在过去30天(包括当前这笔交易)交易金额的累加和。在实际中,通过该参数建立模型分析用户行为是否异常。
目前在传统数据仓库中计算这类时间窗口模型参数时,一般采用固定时间段来近似计算,也就是说粒度是到天而不是到每笔用户行为,比如买家或卖家的每笔交易行为。如在T日某位卖家发生的所有交易,那么计算他最近30天交易资金累加和,那就是(T-30)日直到T日所有交易的累加和。该种方案计算量小,但是精度不够高,比如无法计算某笔交易对应的买家在过去45分钟进行的交易金额累计,因为精度是到天的。如上述例子中,其只计算离T最近的30天的交易累加和,针对T日进行分析判断,无法准确识别出T日该卖家哪些交易存在异常。
为了能识别一个用户的每笔用户行为的异常,在数据库中可以用表自关联,再通过对交易时间做限制来计算。该种方案一般是在普通数据库中进行计算,比如要计算某卖家T日有100笔交易是否异常,而数据库中存在该卖家的T日之前有10000笔历史交易记录,那么就将T日该卖家的数据表与数据库中T日以及T日之前的所有10100笔数据通过主体作为关联键进行关联操作。那么对于T日每一笔交易与历史交易表关联时,选取每一笔交易最近的30天的数据,然后按顺序逐笔累加,将各累加值输入模型进行计算;最终导致数据库实际计算的数据容量变化为100*10000。该种方式在数据量小时,还可在相对短的时间内完成计算,如果交易数据量超过千万级就无法在有限时间内完成计算。
另外,在ORACLE等高端数据库中针对这类问题提供了一个句子:rows between...preceding and...following,来遍历计算数据库中的每一笔交易记录。而rows between...preceding and...following这类查询句子一般在高端的数据库才提供此类函数,并且受制于单节点数据库的因素,计算效率和扩展能力不佳。
发明内容
本申请所要解决的技术问题是提供一种获取时间窗口模型参数的方法和系统,可解决现有技术中由于数据库本身的限制导致的计算效率低的问题,并且可方便扩展。
为了解决上述问题,本申请公开了一种获取时间窗口模型参数的方法,包括:
针对各条记录数据,将属于同一主体的各条记录数据分配到同一个服务器中;
将每个服务器中的属于同一主体的各条记录数据按记录的时间顺序排列;
针对每个服务器,从记录数据列表表头的记录数据开始,逐条将记录数据的时间点和内容分别加入时间队列和内容队列,时间队列和内容队列按序一一对应;其中,利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值;
将所述目标值作为时间窗口模型参数,并结合相应记录数据对应的主体进行输出。
优选的,所述利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值包括:
步骤A1,判断当前待处理的记录数据的主体是否与当前时间队列和内容队列的主体不同;若不同,转入步骤A2;若相同,转入步骤A3;
步骤A2,则将时间队列和内容队列清空,并将当前记录数据主体作为时间队列和内容队列的主体,转入步骤A3;
步骤A3,将当前记录数据的时间点加入时间队列,将当前记录数据的内容加入内容队列,保持当前时间队列队尾的时间点与队首的时间点的差距符合预置的时间段范围,并保持内容队列与时间队列一致;其中时间队列时间点和内容队列的内容值按加入顺序一一对应;
步骤A4,利用内容队列的内容值计算当前记录数据的目标值。
优选的,所述步骤A3包括:
步骤S3,将当前待处理的一条记录数据的时间点加入时间队列,和将所述记录数据的记录内容加入内容队列;其中,其中时间队列时间点和内容队列的内容值按加入顺序一一对应;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210177720.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据检测的方法、系统和设备
- 下一篇:排版方法、设备及系统