[发明专利]一种线路类旅游产品的实时比价方法在审
| 申请号: | 201510782725.5 | 申请日: | 2015-11-16 |
| 公开(公告)号: | CN105354770A | 公开(公告)日: | 2016-02-24 |
| 发明(设计)人: | 苏永圳;孟硕培;史何富 | 申请(专利权)人: | 南京途牛科技有限公司 |
| 主分类号: | G06Q50/14 | 分类号: | G06Q50/14 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
| 地址: | 210042 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 线路 旅游 产品 实时 比价 方法 | ||
技术领域
本发明属于数据处理分析技术领域,具体涉及一种线路类旅游产品的实时比价方法。
背景技术
旅游产品是旅游业者通过开发、利用旅游资源提供给旅游者的旅游吸引物与服务或其组合。其中,旅游线路产品因其结构完整,服务满意度高,更为受到大众的欢迎。旅游线路产品一般以线路为分类,包括与相关地点有关的几种产品的组合,如交通、景点门票、住宿、游玩项目等等。近年来,由于网络技术的普及,人们习惯于在网络上搜寻各类信息,目前各种旅游网站会在页面上展示各种旅游线路的产品内容和价格,便于浏览和对比。如果能够采用自动手段迅速地获取同类旅游线路产品数据并进行准确地对比,能够大大提升数据分析和调整效率,具有重要的意义。但现在的旅游线路产品由于标准化程度较低,产品描述多为非结构化文本,来自不同数据源的产品描述可能千差万别,因此比价时无法简单的根据线路的名称判断两条旅游线路是否为同一线路,导致无法正确对线路产品进行匹配和关联,进而无法进行正确的比价,因此目前大多数情况下是通过人工的方法进行线路产品的匹配,但这种方法无法自动化,重复性劳动过多,效率较低,而且由于旅游产品价格变动比较频繁,无法满足当前快速高效的网络数据应用需求。
发明内容
为解决上述问题,本发明公开了一种线路类旅游产品的自动实时比价方法,从线路行程信息,价格信息,团期信息等多个维度对线路类旅游产品进行相似度计算,获得相似线路产品,并实时抓取最新价格,保证比价的准确性和实时性。
为了达到上述目的,本发明提供如下技术方案:
一种线路类旅游产品的实时比价方法,包括如下步骤:
步骤A,获取旅游网站上的线路产品并从中抽取旅游相关数据,所述旅游相关数据至少包括出发地、目的地、行程信息、团期信息、价格信息中的一种或几种的组合;
步骤B,筛选出与基准产品具有相同出发地,相同目的地,相同出游天数的旅游线路产品作为候选的相似产品,计算行程相似度、团期相似度和价格相似度,并通过以下公式计算基准旅游产品和候选相似产品的总和相似度:
行程相似度*行程权重+团期相似度*团期权重+价格相似度*价格权重;
所述行程相似度通过以下步骤进行计算:将候选相似线路产品的行程信息作为输入文本,对文本进行分词后对词语进行词性标注,将行程中出现的地名的名词提取出来,利用名词和其词频组成该线路产品的特征向量,采用以下公式计算行程相似度:
其中,Ai,Bi为线路产品的特征向量;
所述团期相似度=A∩B/A∪B,其中A和B分别为两条线路所有团期的集合;
所述价格相似度根据根据下式进行计算:
price=1-(abs(averageA-averageB)/averageA+abs(averageA-averageB)/averageB)/2
其中averageA和averageB跟别为线路A和线路B的平均价格;
通过以下公式计算总和相似度:
总和相似度=行程相似度*行程权重+团期相似度*团期权重+价格相似度*价格权重,
当总和相似度达到或超过设定好的比对阈值时,则认为候选产品与基准产品相同,将候选产品加入基准产品相同列表;
步骤C,将步骤B中已经完成匹配的相同产品列表中的各线路产品链接放置在全量抓取队列中,采用爬虫系统持续依次抓取全量队列中各线路产品链接的价格信息,并计算各个线路产品的更新周期;定时进行周期性抓取,当周期性抓取时间达到线路产品更新周期的整数倍时,则获取这些线路产品链接中的价格信息并存入缓存中;当用户请求比价时,判断缓存是否存在未过期的价格信息,当存在未过期的价格信息时从缓存中获得页面产品列表中各个产品对应的价格,否则实时获取价格数据。
进一步的,所述步骤C中进行周期性抓取时将需要进行抓取的线路产品链接放入周期队列中。
进一步的,所述周期队列为多个,一个周期队列用于放置同一更新周期的产品链接。
进一步的,所述步骤C中进行周期性抓取时计算各个线路产品的更新周期。
进一步的,所述实时获取价格数据的过程包括以下过程:将需要实时获取价格的线路产品链接发送到实时队列中,爬虫系统从实时队列中取得链接后去相应网站抓取价格信息。
进一步的,所述实时获取的价格数据存入缓存中。
与现有技术相比,本发明具有如下优点和有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京途牛科技有限公司,未经南京途牛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510782725.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低电源电压灵敏度的基准偏置
- 下一篇:陶瓷产品表面缺陷激光相干检测装置





