世界上最大的盗版网站，遇到麻烦了！-51CTO.COM

在刘慈欣的《三体》中，太阳系将要被二维化时，程心乘坐飞船来到了太阳系边沿的冥王星，在这里她遇到了曾经的执剑人罗辑。

罗辑向她介绍了人类的墓碑：地球文明博物馆。

在这里，人类希望把自己的文明信息保留十亿年！

但是当时的量子存储器，只能保存两千年。

U盘和硬盘，能保存五千年。

特殊金属制成的光盘， 10万年。

特殊的纸张和油墨制成的印刷品，20万年。

后来科学家们发现，唯一可行的办法是：把字刻在石头上！这样也许能保存1亿年。

最后，人类文明就变成了冥王星“石头”上的字迹。

每次看到这里我都挺震撼的，信息的长时间保存真难啊！

科幻总是能让人产生联想，虽然不需要保存地球文明，但是想想我们的互联网，有多少数据早已经销声匿迹了？

有个统计说网页的平均寿命低得吓人：只有区区75天！

很多网页即使能被搜索引擎找到，打开时也经常会遇到404 not found。

能不能把全球互联网网页都找个地方保存起来呢？永不丢失呢？

1.把互联网“存”起来

这是个疯狂的想法，不过，还真有人这么干了！

照片中这位老帅哥叫做Brewster Kahle，他的梦想就是做这件事情：把整个互联网都存起来！

图片

像曾经的被战火摧毁的亚历山大图书馆那样，保存人类文明的知识。

图片

很明显，这需要钱，很多钱。

幸运的是，Kahle是一位成功的连续创业者，是一位亿万富翁。

Kahle毕业于麻省理工，1992年创立了一家叫做WAIS的电子出版公司，可以让华尔街日报，纽约时报和大英百科全书之类的出版物在互联网上发布。

1995年，Kahle把这套系统卖给了美国在线，赚了1500万美元。

随后他又创立了Alexa Internet ，这个网站估计很多人听说过吧。

Alexa 以提供互联网流量数据，网站全球排名等信息闻名，1999年又以2.5亿美元被亚马逊收购。

图片

在创立Alexa的时候，他很“狡猾”地在其中加入了一份合同，要求Alexa收集的所有内容副本都提供给他创立的另外一家非盈利机构： Internet Archive （互联网档案馆）。

这才是Kahle毕生追求的梦想。

（Internet Archive 总部）

2.海量数据

到目前为止，互联网档案馆已经保存了：

8350 亿个网页

4400 万本书籍和文本

100 万个软件程序

1500万录音（包括25.5万个音乐会）

1060万个视频（包括260个电视节目）

480万张图片

图片

（互联网档案馆的服务器）

仅仅是单个副本就占用了145PB的空间（所有的内容至少存储两个副本）。

冷冰冰的数字可能大家可能没有感觉，我分享一个我自己的故事。

20年前，我使用郑州商都信息港的免费空间，建立了一个个人主页， liuxin.shangdu.net。

这么多年过去了，商都信息港早就没有了，这个网站也早就不能访问了。

但是，我却能在Kahle的互联网档案馆找到它的备份！

给大家瞅瞅，说实话，看到20年前的东西心情非常激动。

图片

20年前的东西还能给你扒拉出来，你说牛不牛？

如果你也想找古老的资料，也可以去试一试：https://web.archive.org/

互联网档案馆不仅仅保存网页，还保存书籍。

为了把书籍数字化，他还制造了一个叫做Scribe的特殊扫描仪。

扫描仪分辨率超高，当然价格不菲，扫描一页的成本是10美分，平均每本书300页，也就是一本书30美元，美国国会图书馆，有2600万本书，如果都扫描的话，需要花费在7.5亿美元。

有很多志愿者帮助扫描，如果你为它服务了三年，互联网档案馆会为你建立一座自己的雕像，以示感谢。

图片

（据说仿秦始皇兵马俑，看起来有点吓人的不是？）

3.版权争议

保存人类互联网的数据，这本来是一个功德无量的事情。

但是，大家肯定会想到一个问题，它收录了这么多的资料，获取授权了吗？

互联网档案馆说任何人都可以将数字媒体上传，肯定有很多软件，书籍是没有授权的。

虽然网站收录的许多软件都是旧的、已经不再销售或支持的版本，并且努力只收录合法可分享的软件，但有时可能会无意中收录到一些版权受限的软件。

所以有人戏称：这是世界上最大的盗版网站!

更要命的是，互联网档案馆在运行一个“受控数字借阅”的项目，这个项目可以将实体书转成数字副本，然后受控借阅。

例如《三体》，你在上面找到了一套数字书，借了出来，然后别人就不能借阅这个数字书了，直到几周后把你把它还回来以后，别人才能再次借阅，就像实体书一样。

也就是说，互联网档案馆把数字书也当成实体书，以借阅实体书的方式来对外提供服务。

但是，可以受控借阅的360万本书中有很多还是正在印刷和销售的，作者和出版商仍然保留这些书的版权，这就捅了马蜂窝。

4.不可避免的诉讼

2020年，4家出版社（Hachette, Wiley, Penguin Random House, & HarperCollins）联合起诉互联网档案馆，指控他未经许可分发了30多万本书，索赔数亿美元。

2023年3月，曼哈顿地方法官John G. Koeltl做出了判决，认为互联网档案馆的“受控数字借阅”计划不是合理使用。

2023年12月，互联网档案馆提起上诉，认为自己是一家非盈利的图书馆，通过“受控数字借阅”计划借出的每本书都已经购买、付款，数字借阅与传统的图书馆借阅基本相同，不会对作者或出版业造成新的危害。

这个官司可能还有持续很久，结果如何，让我们拭目以待吧！