[发明专利]一种购票信息分析的方法及装置在审
申请号: | 201611198401.8 | 申请日: | 2016-12-22 |
公开(公告)号: | CN107527223A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 赵忠信;曹文洁 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/26;G06N7/00 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 胡彬,邓猛烈 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 购票 信息 分析 方法 装置 | ||
技术领域
本发明实施例涉及的安全检测的技术领域,尤其涉及一种购票信息分析 的方法及装置。
背景技术
铁路是国家的重要基础设施,是交通运输系统的骨干,是国民经济的大 动脉,对国家的政治、经济、文化、国防建设都起到至关重要的作用。据2015 年数据统计,全国铁路营业里程达到11.2万公里,路网密度116.48公里/万 平方公里,投资规划超过3.3万亿人民币,全国铁路旅客发送量超过23.57 亿人次。
安全是铁路运输的生命线,直接关系着企业的生产效率、社会经济效益 和人身安全。目前,我国的铁路安全监测手段主要是利用传感器、数据采集 传输仪器、数据分析软件对轨道、列车等硬件设施的参数进行实时的监控分 析预警,然而,人作为旅客运输的主题,人的一些购票行为、运输过程中的 异常表现也有可能对铁路运输、安全生产、正常秩序的维护产生不利的影响, 如何检测这个特殊的乘客群体或缩小潜在危险人群的搜索范围,我国尚没有 完善的理论模型与技术产品。
但从海量的乘客购票数据中,应用相关机器学习算法,提取有价值的模 式,面临许多问题:
(1)缺少标记数据,无法应用监督学习模型:
乘客的购票数据中并没有明确的标记数据供模型学习,人为地标定数据 不仅耗时长、成本高,而且具有显著的主观性,首先,并不能保证每个标定 人员都具有领域专业知识,能准确判断购票数据中的异常模式,其次,标定 人员的判定标准可能并不一致,导致对同一数据的标定可能会产生冲突,再 次,能获得到的乘客购票数据是不完全信息,从不完全信息中很难确定一条 明确的标准来判断数据是否异常。
(2)数据不完备,缺乏多方面信息交叉验证:
数据不完备主要表现为两个方面,第一,获取到的乘客购票数据中没有 确切的乘客购票时间数据,乘客的购票方式元数据并不完备;第二,仅仅从 乘客购票数据中获取的信息局限性太强,识别出的离群点(在对数据的概率 密度函数进行拟合之后,遍历乘客购票数据集,应用最大似然估计法对乘客 向量进行标注,判断乘客向量对每个类别簇的归属度,当乘客对所有类别的 归属度都小于某个阈值时,将其标注为离群点)也不能直接作为判断乘客属 于危险人群的依据。要精确描述乘客的购票行为模式,还需要其他方面信息 的支持、验证。
(3)乘客人群庞大,但个人乘车记录比较稀疏,数据可压缩空间小:
数据量庞大,每天乘车的人数有600万人次,高峰期甚至达到千万人次, 涉及到的人群也有数百万之众。但归结到个人,很大一部分乘客的年乘坐火 车的次数可能在10次以下,个人的乘车数据表现出显著的稀疏性。本文应 用的主要目标是识别离群点,检测出乘客购票行为的异常模式,所以,又不 能丢失个人的一些细节性的数据,数据可压缩空间小,在利用关联分析算法 分析乘客的结伴出行时,造成了算法的时间计算复杂度和空间计算复杂度都 很高。
发明内容
本发明实施例的目的在于提出一种购票信息分析的方法及装置,旨在解 决如何从海量的乘客购票数据中,应用相关机器学习算法,提取有价值的模 式的问题。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种购票信息分析的方法,所述方法包括:
从乘客的属性信息、出行目的分布、购票次数、车次类型分布、购票方 式分布、始发站分布、终点站分布、结伴关系提取乘客的购票行为模式特征;
通过乘客隐藏状态向量表征乘客的购票行为模式,则每个乘客为一个乘 客在高维空间中的一个点,若所述乘客的类型是未知的,则将对所述乘客的 类别判定问题转化为对所述乘客隐藏状态向量的概率密度分布进行拟合学 习的过程。
优选地,所述乘客的属性信息包括对数据文件按照年龄进行统计得到乘 客年龄分布信息;
所述出行目的分布包括根据从身份证信息中解析出的省份籍贯编号信 息再结合始发站和终点站的行政区划代码判断籍贯编号与始发站、终点站的 行政区划代码是否相等,将乘客根据出行目的划分为预设个数的类别,各类 别之间不重复不遗漏的分布;其中,odh代表始发站终点站都与籍贯一致, 在家乡省内短途出行;odo代表始发站和终点站一致,但是在家乡以外的省 短途出行;o代表离开家乡去外省出行;d代表从外省回家;other代表其他 情况;
所述购票次数包括改签次数、退票次数和有效购票次数,所述改签次数 为购票记录中状态为3的记录的频数;所述退票次数为购票记录中状态为2 的记录的频数;所述有效购票次数为购票记录中状态为5的记录的频数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611198401.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吸顶电风扇
- 下一篇:一种地铁隧道通风用风机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置