恶意爬虫正在搞垮你的网站，这届“网络流氓”真不好对付-恶意爬虫软件

在整个互联网中，真实访客的流量有多少?90%?70%?还是50%?

著名调查机构Aberdeen Group在2019年做过一次调查，真实访客的流量，只占到全网流量的62.8%，其余的37.2%是机器人(Bot)刷出来的流量。

恶意Bot

在这些Bot流量中，恶意Bot占比高达24.1%，早在2015年，这一数据仅为18.6%。短短5年时间里，恶意Bot占比上升6个百分点，这个比例意味着什么?

如果企业经营一家网站，可能意味着，24%的用户是假的;策划一个线上活动，其中24%的奖品，会被Bot刷走;24%的服务器资源会被浪费……

对于一个正在成长的企业而言，是相当致命的。恶意Bot能在各个方面对企业正常业务产生广泛影响。

(1) 恶意注册

2020年底，微信发布公告，封禁涉嫌恶意注册的300万个账号，因恶意注册被封禁的账号，已经超过620万个。

如此庞大的注册数量，将导致企业无法获得真实的用户数据，从而在做出决策时，产生偏差。短时间内大量注册，也会给服务器带来压力。恶意注册的账号如果在市场上流通，还会给企业带来政策法规方面的风险。

(2) 非法登录

2018年，一名英国男子对17个网站发起暴力破解，窃取超过16.5万条用户信息，并将它们打包在暗网进行售卖。

通过Bot进行撞库和暴力破解，攻击者可以非法获取账号敏感信息，例如姓名、手机号等等，可以将这些信息打包贩卖。而且还可以盗取账号资产，或者权限，用于非法目的。

(3) 非法抓取

2019年，今日头条因为大量抓取百度搜索结果，被百度以不正当竞争为由起诉，索赔9000万元。

非法抓取大案不止，小案不断，因为爬虫抓取他人信息的案件时有发生。站在企业角度上看，被恶意爬虫光顾，业务核心数据被抓取，对手轻易获取这些信息，会导致网站竞争力下降。

(4) 恶意刷票

大量恶意刷票抢票Bot，会让正常用户无法购买所需的票。竞争对手通过恶意Bot抢票，再退票，让企业业务无法开展，造成损失。

(5) 活动作弊

无论企业想举办什么线上活动，恶意Bot都是一大威胁。通常情况下，企业都会设置一些简单的防刷策略，但无法完全避免被羊毛党薅羊毛。像零元购、秒杀、抢红包、优惠券，被羊毛党薅走的事情屡见不鲜。

防御恶意Bot

既然恶意Bot会严重影响企业正常业务，那么该怎么防御呢?一般可采取六种方法。

(1) 限制源IP

直接限制源IP的请求速度，简单粗暴。这种方式有一定风险，例如在秒杀、抢购活动中，瞬间请求激增，如果源IP请求被限制，误报率很高。比起恶意Bot，过高的误报率反而会造成更严重的后果。限制源IP一般只作为辅助手段。

(2) Cookie支持

Cookie支持可识别一些比较简单的Bot程序。简单的Bot程序不支持Cookie，我们可以在服务端写入Cookie的方式，来识别是否是Bot。由于Bot支持Cookie的时间成本很低，所以这一方式的效果较为有限。

(3) Bot行为分析

由于恶意Bot是通过模仿正常用户行为进行请求，具备一定的特征，通过分析和识别这些特征，即可检测出恶意Bot。

但“行为”是一个抽象概念，判断难度较高，一般企业难以投入大量时间和精力研究，只有专门从事安全工作的公司，会做出行为分析方案。例如蔚可云的“BotGuard爬虫管理”，可通过情报库、访问控制、陷阱诱导、人机交互、机器学习等技术，对访客进行行为分析，识别恶意Bot。

(4) IP情报信息分析

正常流量在相近的一段时间内，行为是正常的，而异常IP则不同。例如被用来发动DDoS的一台肉鸡，并不会只用来发动一次攻击，而是会在一段时间内，一直处于攻击状态。通过大数据分析技术，对历史事件进行威胁分析，能提前发现恶意Bot，并进行防御。

《第47次互联网络发展统计报告》显示，网站安全事件和信息系统漏洞，正在逐年减少，例如网站被篡改数量，2020年较2019年同期下降22.7%，但恶意Bot却在逐年增加，已成为企业不可忽视的一股黑产势力，防御恶意Bot任重而道远。