一文看完网络爬虫发展史

网络
著名调查机构Aberdeen Group曾经做过一次调查,结果令人乍舌。整个互联网,网络爬虫产生的流量占比高达37.2%!

[[415987]]

著名调查机构Aberdeen Group曾经做过一次调查,结果令人乍舌。

整个互联网,网络爬虫产生的流量占比高达37.2%!

换句话说,每100个互联网用户中,只有63个是实实在在的人类,剩下的流量都是机器人刷出来的。

有一种说法更可怕,未来互联网50%以上的流量将是机器人制造出来的。

在现实世界,人类还在为人工智能威胁而烦恼,但在虚拟世界,机器人所制造的流量,已经可以和人类平分秋色,甚至超过人类。

每时每刻,爬虫们都在模仿人类的上网行为,去各种网站上溜达,点点按钮,查查数据,或者把看到的信息背回来,他们永远不知道疲倦,循环往复。

你一定见过验证码吗,它可能长这样:

也可能这样:

或者是这样子:

无论它长什么样子,验证码只有一个目的,识别真实的人类用户。

打开百度搜索,搜点什么资料,解决点什么问题。无意中,你也成为众多爬虫使用者中的一员。

爬虫,已经遍布在互联网的每一个角落,影响着每一个人。

但是,你了解爬虫的前世今生吗?

善良的一面

1994年,在卡内基梅隆大学参加“信息媒体数字图书馆”项目研究的小马,为了解决这一项目的一些困难,用3页的代码量,开发了一个名为Lycos的搜索引擎。

Lycos是Lycosidae(一种善于捕捉猎物的狼蛛)的缩写。

这个简陋的搜索引擎,让小马看到其背后巨大的商机,于是不久后,Lycos公司正式成立。

[[415990]]

短短两年时间,Lycos便成功上市,成为有史以来上市最快的公司。根据Nielsen/NetRatings调查统计机构数据,2002年10月份,Lycos的访问量高达3700万,成为全世界访问量排名第5的网站。

然而,搜索引擎这块大蛋糕,终究逃不过群狼竞食的命运。

1995年,也就是在Lycos诞生一年后,斯坦福大学的两个计算机专业的学生小拉和小谢,开始研究一个叫BackRub的计算机程序。

[[415991]]

这个程序是利用反向链接分析来跟踪和记录Internet上的数据的搜索引擎。

他们立志开发一款强大的搜索引擎,供全世界各地的人们使用,更加方便地从互联网上获取信息。

1998年,小拉和小谢拿出自己的全部家当,再加上母校和舍友的一点资金支持,成立一家名为Google的公司。

因为没有充足的资金保障,他们不得不购买二手的计算机零件,在一个车库中办公。

艰难的创业环境,使小拉和小谢一度想卖掉Google,他们邀请了雅虎、Excite以及其他几家硅谷公司,希望他们把Google买了,只可惜当初这些公司只愿意出100万美元的价格,与他们俩的心理预期严重不符,这件事只得作罢。

几乎同一时间,在地球的另一头,有一个年轻的小伙子小马,开发了一款名为QQ的聊天软件,也想把它卖出去,也没有成功。

[[415993]]

历史总是惊人的相似。

谁也没想到,这两家名不见经传的小公司,会成为互联网超级巨头。

世界的另一头,在美国呆了8年的小李,看到国内互联网环境已经成熟,他立即起身回国创业,创办一家名为百度的公司。

[[415994]]

至此,谷歌、雅虎、百度三分天下的局面逐渐形成。

上古时代,那时的互联网,还是一片贤者云集的净土,为了尊重网站的权利,各大搜索引擎通过邮件形式讨论定下了一个君子协议——robots.txt。

只要在你的网站根目录上放上一个robots文件,告诉搜索引擎哪些内容不能抓取,网络爬虫就会遵守约定,不抓取这些内容。

邪恶的一面

随着互联网的发展, 信息量快速发展,整个网络世界,充满着许多很有价值的信息,商品信息、机票信息、个人隐私数据满天飞。

一些不法分子从中看到了巨大的利益。

在利益的诱惑下,这些人开始违反爬虫协议,编写爬虫程序,恶意爬取目标网站的内容。

历史上第一件关于爬虫的官司出现在2000年,eBay将一家聚合价格信息的网站告上法庭。

[[415995]]

eBay认为自己已经使用robot协议,明确告诉哪些信息不能抓取,哪些信息可以抓取,但这家公司违反了协议,非法抓取商品价格等信息。

但被告认为,eBay上的用户数据、以及用户上传的商品信息,应属于用户集体所有,并不属于eBay,robot协议无效。

最终,法院判决eBay胜诉。

这个案件开启了爬虫协议作为主要参考证据的先河。

如今,爬虫技术发展迅速,已经出现通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。抓取目标的方式也很多,例如基于目标网页特征、基于目标数据模式、基于领域概念等。

爬虫技术,无论善意还是恶意,都将常伴在互联网的身边,影响网民的分分秒秒。

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2024-11-26 18:05:02

2022-10-08 00:21:55

内存芯片RAM

2016-08-18 00:21:12

网络爬虫抓取网络

2021-08-06 09:36:00

TCPIP网络协议

2010-11-01 00:40:39

Unix发展史

2016-10-10 22:11:02

2009-03-10 16:46:56

2012-08-14 09:22:33

域名发展史

2009-11-10 13:38:12

Visual Stud

2010-02-05 15:46:41

IBM Power

2019-02-25 22:46:39

2021-10-20 05:55:22

即时通讯IM网络

2010-01-11 11:14:18

网络交换机技术

2010-08-31 15:44:17

CSS

2010-05-26 09:15:39

HTML

2021-03-10 18:46:26

HTTPHTTP 协议网络技术

2011-12-28 09:56:49

开源软件发展

2012-05-16 10:34:49

UbuntuLinux

2010-02-06 16:11:33

Frame Layou

2021-10-14 11:08:17

大数据框架内存
点赞
收藏

51CTO技术栈公众号