[发明专利]基于用户查询日志的客运交通渠道查询模式分类方法在审
申请号: | 201711405012.2 | 申请日: | 2017-12-22 |
公开(公告)号: | CN107908800A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 林友芳;万怀宇 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京红福盈知识产权代理事务所(普通合伙)11525 | 代理人: | 崔成哲 |
地址: | 100044 北京市海淀区上园*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及交通领域用户查询日志数据处理及分析技术,尤其是一种能基于用户查询日志对客运交通渠道查询模式进行分类的方法。本发明提出的基于用户查询日志的客运交通渠道查询模式分类方法,可以准确有效地对不同渠道查询模式进行分类,并发现互联网查询渠道中的自动程序(爬虫)带来的虚假查询行为,从而过滤虚假查询行为,为交通领域管理者和市场从业者提供数据支持。 | ||
搜索关键词: | 基于 用户 查询 日志 客运 交通 渠道 模式 分类 方法 | ||
【主权项】:
一种基于用户查询日志的客运交通渠道查询模式分类方法,其特征在于,该方法包括以下步骤:S1从历史数据库中解析、提取用户查询日志数据:解析历史数据库中的原始用户查询日志数据,从原始用户查询日志数据中提取出对渠道查询模式分类有意义的字段,该原始用户查询数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期;S2多维度分析S1提取出的用户查询日志数据,构建不同渠道对不同出行线路的查询模式特征,包括:a、查询量指标,统计数据表明,大部分的查询量渠道分布为典型的长尾分布,以机票查询渠道为例,有不到10%的机票查询渠道占据了超过90%的机票查询量;以查询量指标作为一个查询模式特征可以区分出部分不活跃的渠道;b、综合离散度指标,正常的查询行为往往表现为在接近出发日期或有社会事件发生的出发日期查询量高,热门或有事件发生的线路查询量高,而机器人往往将查询量均匀的分散在无关的线路和出发日期上;综合离散度指标计算公式:该指标表示一个渠道的查询行为在出发地&目的地、出发日期的空间中分布的均匀程度,该指标越接近1表示渠道查询行为分布越均匀,越接近扒数行为;c、离群度指标,正常人的查询行为往往具有一定的稳定性,所以我们可以从离群点的角度去分析异常的查询行为,具体地可以从三个维度分析渠道的离群性,分别为线路维、历史维、渠道维;以线路维为例,若一个渠道在一天对某条线路的查询量与对其他线路的平均查询量相比有较为明显的异常,那么对这条线路的查询行为是十分可疑的;指标对象:某渠道在某小时对某出发地&目的地的查询行为;定义Cij,k为第i个渠道、在第j天、对第k条线路的查询次数;线路维离群度计算公式:utlier_OD=Ci,j,k-1NΣk=1NCi,j,k1NΣk=1N(Ci,j,k-1NΣk=1NCi,j,k)2]]>其中N表示线路总数,该指标表示某渠道在某天对某条线路的查询量与整体样本平均查询量的差异程度;该指标大于0并且绝对值越大,说明样本查询量远高于正常水品;该指标小于0并且绝对值越大,说明样本查询量远低于正常水品;d、行为模式指标,正常旅客查询波形符合人类作息习惯,扒数机器人查询波形则是混乱没有规律的;指标对象:某渠道对某O&D在一天24小时中的查询行为;定义behaviorCurvec,od,b为c渠道对线路od在b小时的查询量,standardCurvec,od,b为c渠道对线路od在b小时的标准查询量;行为模式指标值定义如下:CosineSimilarity<(standardCurvei-standardCurvei-1Σi=124standardCurvei24),(behaviorCurvei-behaviorCurvei-1Σi=124behaviorCurvei24)>]]>该指标表示了样本过去24小时查询行为模式与标准正常人查询行为模式的相似程度,取值范围[‑1,1],该值越接近1,表明查询行为越接近正常人行为规律;e、起飞日期离散度指标,机器人扒数行为的查询量往往在出发日期上均匀分布,正常人只集中在重点出发日期上;指标对象:某渠道在某小时对某O&D的查询行为;定义μ表示为每个出发日期的查询量平均值,Hh表示为第h个出发日期(leaveDate)的查询量总数;μ=Σh=Min(leaveDate)Max(leaveDate)HhMax(leaveDate)-Min(leaveDate)]]>起飞日期离散度指标计算公式:dispersion_his=1μ*1Max(leaveDate)-Min(leaveDate)*Σh=Min(leaveDate)Max(leaveDate)(Hh-μ)2]]>该指标表示了某渠道对某条线路查询量在出发日期上的分布均匀程度;该指标越小,说明分布越均匀,说明该渠道对该线路的查询越类似于扒数行为;f、产品离散度指标定义某O&D与某leaveDate组成一个查询产品product(O&D&leaveDate),M为所有查询产品的总数;v表示为每个查询产品(O&D&leaveDate)上的查询量平均值;Pp表示为第p个查询产品product的查询量总数;令:渠道维计算公式:该指标表示了某渠道的查询量在查询产品(O&D&startDate)上的分布均匀程度;S3根据S2构建出的不同渠道对不同线路的用户查询模式特征,采用k‑means聚类方法对在不同渠道上对不同线路的查询行为进行聚类,得到渠道查询模式分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711405012.2/,转载请声明来源钻瓜专利网。