一文看完网络爬虫发展史-网络爬虫案例实战

[[415987]]

著名调查机构Aberdeen Group曾经做过一次调查，结果令人乍舌。

整个互联网，网络爬虫产生的流量占比高达37.2%!

换句话说，每100个互联网用户中，只有63个是实实在在的人类，剩下的流量都是机器人刷出来的。

有一种说法更可怕，未来互联网50%以上的流量将是机器人制造出来的。

在现实世界，人类还在为人工智能威胁而烦恼，但在虚拟世界，机器人所制造的流量，已经可以和人类平分秋色，甚至超过人类。

每时每刻，爬虫们都在模仿人类的上网行为，去各种网站上溜达，点点按钮，查查数据，或者把看到的信息背回来，他们永远不知道疲倦，循环往复。

你一定见过验证码吗，它可能长这样：

也可能这样：

或者是这样子：

无论它长什么样子，验证码只有一个目的，识别真实的人类用户。

打开百度搜索，搜点什么资料，解决点什么问题。无意中，你也成为众多爬虫使用者中的一员。

爬虫，已经遍布在互联网的每一个角落，影响着每一个人。

但是，你了解爬虫的前世今生吗?

善良的一面

1994年，在卡内基梅隆大学参加“信息媒体数字图书馆”项目研究的小马，为了解决这一项目的一些困难，用3页的代码量，开发了一个名为Lycos的搜索引擎。

Lycos是Lycosidae(一种善于捕捉猎物的狼蛛)的缩写。

这个简陋的搜索引擎，让小马看到其背后巨大的商机，于是不久后，Lycos公司正式成立。

[[415990]]

短短两年时间，Lycos便成功上市，成为有史以来上市最快的公司。根据Nielsen/NetRatings调查统计机构数据，2002年10月份，Lycos的访问量高达3700万，成为全世界访问量排名第5的网站。

然而，搜索引擎这块大蛋糕，终究逃不过群狼竞食的命运。

1995年，也就是在Lycos诞生一年后，斯坦福大学的两个计算机专业的学生小拉和小谢，开始研究一个叫BackRub的计算机程序。

[[415991]]

这个程序是利用反向链接分析来跟踪和记录Internet上的数据的搜索引擎。

他们立志开发一款强大的搜索引擎，供全世界各地的人们使用，更加方便地从互联网上获取信息。

1998年，小拉和小谢拿出自己的全部家当，再加上母校和舍友的一点资金支持，成立一家名为Google的公司。

因为没有充足的资金保障，他们不得不购买二手的计算机零件，在一个车库中办公。

艰难的创业环境，使小拉和小谢一度想卖掉Google，他们邀请了雅虎、Excite以及其他几家硅谷公司，希望他们把Google买了，只可惜当初这些公司只愿意出100万美元的价格，与他们俩的心理预期严重不符，这件事只得作罢。

几乎同一时间，在地球的另一头，有一个年轻的小伙子小马，开发了一款名为QQ的聊天软件，也想把它卖出去，也没有成功。

[[415993]]

历史总是惊人的相似。

谁也没想到，这两家名不见经传的小公司，会成为互联网超级巨头。

世界的另一头，在美国呆了8年的小李，看到国内互联网环境已经成熟，他立即起身回国创业，创办一家名为百度的公司。

[[415994]]

至此，谷歌、雅虎、百度三分天下的局面逐渐形成。

上古时代，那时的互联网，还是一片贤者云集的净土，为了尊重网站的权利，各大搜索引擎通过邮件形式讨论定下了一个君子协议——robots.txt。

只要在你的网站根目录上放上一个robots文件，告诉搜索引擎哪些内容不能抓取，网络爬虫就会遵守约定，不抓取这些内容。

邪恶的一面

随着互联网的发展，信息量快速发展，整个网络世界，充满着许多很有价值的信息，商品信息、机票信息、个人隐私数据满天飞。

一些不法分子从中看到了巨大的利益。

在利益的诱惑下，这些人开始违反爬虫协议，编写爬虫程序，恶意爬取目标网站的内容。

历史上第一件关于爬虫的官司出现在2000年，eBay将一家聚合价格信息的网站告上法庭。

[[415995]]

eBay认为自己已经使用robot协议，明确告诉哪些信息不能抓取，哪些信息可以抓取，但这家公司违反了协议，非法抓取商品价格等信息。

但被告认为，eBay上的用户数据、以及用户上传的商品信息，应属于用户集体所有，并不属于eBay，robot协议无效。

最终，法院判决eBay胜诉。

这个案件开启了爬虫协议作为主要参考证据的先河。

如今，爬虫技术发展迅速，已经出现通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。抓取目标的方式也很多，例如基于目标网页特征、基于目标数据模式、基于领域概念等。

爬虫技术，无论善意还是恶意，都将常伴在互联网的身边，影响网民的分分秒秒。