互联网24.1%的流量是刷出来的,爬虫被用来作恶,有多可怕?

新闻
网络爬虫是一种可怕的生物。每一天,每时每刻,网络爬虫会模仿人的行为,到各种各样的网站溜达,点点按钮,查查数据,再将需要的信息背回来,如此往复,永不停息。

爬虫和人一样,也分善恶。

[[390650]]

像百度、谷歌这样的搜索引擎,不断地爬取网络上的各种信息,分析这些信息,是为了给用户提供需要的信息,同时还能给网站增加流量。用户、网站都很开心,这样的爬虫我们称之为善意爬虫。

但是,有的爬虫却不是这样的,它恨不得每秒访问你的网站,点击几万次,毫不留情的搬走网络数据,一点点残渣都不留下,这种就是恶意爬虫。

著名调查机构Aberdeen Group曾经在2019年做过一次调查,整个互联网中,恶意爬虫产生的流量,占全网流量的24.1%。

 

互联网24.1%的流量是刷出来的,爬虫被用来作恶,有多可怕?

 

这些流量除了消耗资源来,对互联网来说,没有产生任何的价值。

恶意爬虫主要寄生在出行、社交、电商等各大行业,无时无刻不在侵扰从业者。

出行是重灾区

哪一个行业被爬虫袭扰最多,从验证码识别难度就能看出来。出行行业中恶意爬虫占比最高,验证码识别难度首屈一指。

许多用户都有曾经被12306验证码支配过的恐惧。如此高识别难度的验证码,不是为了故意刁难,而是为了对抗恶意爬虫。

 

互联网24.1%的流量是刷出来的,爬虫被用来作恶,有多可怕?

 

公开数据显示,12306最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。这还是加了验证码后的数据。

可想而知,恶意爬虫是多么想爬取12306的数据。

除了铁路购票,航空运输,酒店订购等等,爬虫都不挑食,照单全收。

营销的集中营

爬虫也很喜欢各大社交平台,尤其是微博。

爬虫会不断地获取某个人微博的列表、状态和索引,不断地疯狂关注、点赞和浏览,将一些运营数据蹭蹭蹭地刷上去,营造一种很热闹的假象。

 

互联网24.1%的流量是刷出来的,爬虫被用来作恶,有多可怕?

 

这类骚操作还有很多。

比如某一明星的微博发起了一项活动,他们就能指挥爬虫大军去抢,妥妥地将奖品收入囊中。

爬电商平台

很多人都用过类似比价、返利的APP,这些APP也有爬虫的功劳。

它们会去各大电商平台,爬取价格数据,聚合到APP上供用户购买,再通过广告、竞价等方式获得收入。

爬虫违不违法?

说了这么多,难道我国现行的法律,不能管管吗?

翻一翻《中华人民共和国网络安全法》,我们看不到有任何一条,关于爬取网络公开信息是违法行为的条款。

只要数据是公开的,而且爬取的时候,不会破坏对方的系统,并不会触犯相关的法律。

但是,对于企业来说,这些爬虫的行为,确实是伤害到自己,造成很多的资源浪费,还会使自己在同行竞争中处于不利地位。

所以,一般来说,企业往往会采取很多措施,来提高爬虫的准入门槛,比如图片验证码、滑块验证、封禁IP等等。

除了这些手段,有的企业还会使用Web应用防火墙(WAF)进行防护,识别和管理爬虫,抵御恶意爬虫带来的危害。

 

 

 

企业与爬虫的战争,是一场艰难的、持久的战争,取得完全胜利,是不可能的,但我们相信在对抗这条战线上,会达到一个精妙的平衡状态,爬虫的准入门槛,也会不断提升。

 

责任编辑:华轩 来源: 今日头条
相关推荐

2020-07-16 11:49:49

流量焦虑移动互联网

2018-08-01 13:55:43

2015-05-19 14:25:18

2021-11-01 16:05:20

勒索软件攻击数据泄露

2015-05-28 16:11:07

互联网+

2019-12-11 15:05:27

互联网IT云计算

2015-10-14 17:48:32

互联网移动互联网

2015-10-22 15:42:38

2009-09-11 09:55:19

谷歌遗弃互联网服务

2019-12-06 15:09:12

区块链信息茧房

2020-10-26 09:24:14

互联网数字化转型技术

2015-06-24 15:35:54

2021-01-08 05:28:34

互联网996

2020-07-03 07:44:27

互联网APP投标

2012-04-01 10:54:20

2023-06-26 11:38:56

2017-08-03 16:37:35

互联网法院司法

2017-08-10 08:38:31

互联网+政务刷脸

2023-08-04 16:31:11

2021-08-28 10:44:39

网络流量信息泄露网络安全
点赞
收藏

51CTO技术栈公众号