2017年末,元旦、春节假期即将来临,出行需求随之增大,不论你是旅游,还是回家,买票都是不可避免的一部分。其中,低价机票尤其受旅客青睐,但不少人都有这样的苦恼:低价机票总是买不到,真的只是网速原因吗?今天安仔来为你答疑解惑,其实,和你抢票的,是网络爬虫!
据媒体报道,近日,“机票代理”行业中,不少公司正利用爬虫技术抢占航企官网放出的低价票,利用航企允许的账期反复订票、退订,直至将票加价卖出,全程操作中爬虫可替代95%的人工操作量。据业内人士估计,80%以上的低价机票是被票务公司的爬虫抢走的。
一、爬虫为订票网站产生90%虚假流量
什么是爬虫?网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。百度、搜狗等搜索引擎,依靠巨大的爬虫集群每天抓取数百亿网页。
目前爬虫被广泛用于互联网金融、电商、社交等领域;在机票领域,爬虫可以抓取机票价格,发现超值机票后,爬虫还可以模拟真人用户抢先预订。
携程的反爬虫专家在技术分享中举例:某网站的一个页面,每分钟的浏览量是1.2万,真实用户只有500个,爬虫流量比例是95.8%。业内人士表示,爬虫所带来的虚假流量占订票网站总流量的50%,高峰期可达到90%以上。
二、利益链:低价机票去哪了?
爬虫利用买来的身份信息或虚假客户信息订票,之后,黄牛再将抢来的票高价卖出,黄金周、春节长假一张票甚至会加价1000元。
为了应对这种虚假抢票、占座的情况,有些航空公司不得不采取潜规则:每架飞机要多卖5%至10%的票,这被称之为“超售”,这给真实用户带来了问题,有的用户会因为“超售”严重无法登机。
三、”反爬虫“之战打响
网络爬虫被用来抢票,不仅侵犯了人们的权益、影响人们的日常出行,航空公司也将蒙受损失。影响爬虫生存时间的关键在于,在访问网页爬取数据的过程中,要尽量模拟真实用户的行为,使服务端无法分辨是爬虫还是用户;如何进行“反爬虫”? ISEC实验室专家来支招 :
1. 根据访问数量来“反爬虫”。爬虫的访问总数远高于人类,且访问数量随时间增长而表现出一定的线性增长规律,但大部分的真实用户不会长时间持续访问同一个网站。
2. 在网站设置伪造的钓鱼链接。正常情况下真实用户不会访问这些链接,一旦被访问,则存在爬虫的可能性就比较高。
3. 进行IP地址的分析统计。绝大部分爬虫为了长时间爬取数据,不会选择在个人电脑上运行,一般放到云服务器或者VPS。“反爬虫”可根据来访的IP进行风险属性的细分,对IP地址进行标记;例如对单个IP访问设置一个阈值,如果在一定时间超过阈值,则进行封锁或禁用;需要注意的是,但该举措容易误伤真实用户。
4. 验证码校验是反爬虫的一个重要环节。爬虫是按照预先设定好的流程,是无法变通的;而验证码需要基于人的主观性去判断,如若在验证过程中加入随机性,爬虫绕过验证的过程就相对复杂。行为验证码是当下流行的一种验证码,采用了多种图像技术,能有效防止OCR的识别,防止暴力破解。如12306,就是采用点触式行为验证码。
有效反击“机票代理”公司的爬虫战术,除技术手段外,航空公司可从内部完善各项管理制度,勿给爬虫留下可乘之机。
此外,旅客尽可能选择航空公司的官方网站购买飞机票,避免通过微信朋友圈等渠道购买低价票而上当受骗。
网络爬虫技术在提供高效搜索的同时,也带来了安全挑战,相信在相关技术、法律制度的不断发展完善下,在各相关职能部门的共同努力下,购票机制将日益完善、旅客的合法权益将得到更好的保障。