《圣经》里,上帝让诺亚建造方舟避难,只允许携带七公七母的畜类和鸟类,那时的人类物质和精神财富都少得可怜。
1972年,为了寻找外星生命,美国发射了“先驱者10号”无人探测器,精心设计的信息被集成在一块长229毫米,宽152毫米,厚1.27毫米的镀金铝板上。
5年后的旅行者1号和2号则使用了金唱片,收录115幅图像、自然界的各种声音,90分钟的古典音乐以及55种语言说出的祝福信息。
那时,技术的限制使得科学家们很难找到合适的存储介质,今天的人们早已不必再为储存信息发愁,移动互联网的技术进步让每个人和每台设备每天都可以生产大量数据。
截止去年,全球物联网设备突破84亿台,2025年将达到754.4亿的规模,人们每天收发2936亿封电邮,产生50亿次搜索,社交互动更是急剧膨胀,Twitter每天发送5亿条信息,新浪微博累积了2000亿条内容和500亿张图片,视频数量达到4亿个,同时产生了近5000亿次信息。
海量数据让我们进入了碎片化表达的时代,不同地区、不同年龄、不同阶层、不同教育和文化背景的公众得到了参与、体验和见证社会进步的机会。
IDC的《数据时代2025》报告也显示,去年每个上网者每天的数据互动是2010年的16倍以上,到2025年全球每天产生的数据将达到惊人的491EB,这也带来两个思考。
首先,基于网络产生的海量数据应该定期清理还是***保存?
举个例子,2016年红极一时的开心网易主,那些沉淀下来的照片、好友、帖子、日记,甚至偷菜记录,对用户的价值究竟在哪里?需要备份还是用后即忘?
去年人人网停运,很多用户担心数据流失,居然引发一波流量高峰,很多人匆忙回去寻找青春的墓志铭,生怕那些数据被人人网删除。
再比如,QQ当年曾有个叫做小纸条的插件,允许用户以隐秘的方式向暗恋者诉说衷肠,后来这个功能突然下线,系统自动将所有小纸条打包成邮件发送给对方,在感情早已时过境迁的时候,这样的邮件会带来怎样的尴尬可想而知。
从法理的角度而言,互联网平台主体变更后,新的运营方有义务保持原有数据信息的存续,如果是破产清算而关闭,数据将会被删除和销毁。
这背后是互联网和移动互联网数据的两个特点:
- 其一,数据和信息具有一时性,孤立存在的生命周期只有44——75天左右;
- 其二,由于存储介质的差别,一旦灭失就***;
所以互联网数据信息的储存和运用的前提是价值判断。
我们每天都产生大量数据,诸如你的音乐,你的照片,你的外卖订单,你的开房记录等等,它们是个人生活记忆的一部分,是否如同游戏存档,爽完就删,取决于你的选择。
另外一部分是基于网络的时代烙印,是特定历史阶段社会文化的组成部分,我们应该如何看待那些达不到非遗标准却又是民族共同记忆的信息?
今天信息获取生产、获取、传播乃至传承的方式都在变,知识本身不需要再通过传统的印刷、出版等环节就能普及,后人研究我们这个时代,除了书籍等传统的文化载体,会有很多全新的视角,比如电影、电视、网综,去看明星微博,去看自媒体文章,从中体会公众情绪和国民视角。
所以最近国家图书馆就启动了一个互联网信息战略保存项目,***基地选在了新浪,尝试建立起一套分布式的互联网信息采集和保存体系,及时有效的记录时代文明的***成果,但这也带来一个筛选和甄别数据信息的过程。
按照中国互联网信息中心的数据,中国大约有500万个网站和400多万个APP,每天产生的信息浩如烟海,但生产和集散数据的枢纽平台其实很少。
流量源头掌握在五大公司手中,分别是腾讯系、今日头条、百度系、阿里系和新浪系,他们深入社会生活的角度各不相同。其中,从新浪来说,自1998年成立以来,新浪完整经历了中国网络媒体从门户网站到博客再到微博的进化,并在每个时期都处于领先。新浪积累的信息数据,既有对媒体报道的整合,也有专家的专业观点和网民的碎片化表达。微博则兼具社交、媒体属性,汇集了最多的个体用户记忆,更像是现实世界的镜像,所以更能反映这一代中国人的喜怒哀乐。
从当年的郭美美事件到现在的嘻哈、电音、二次元文化,社交媒体的开放式讨论都在默默却深刻的改变我们身边一些固有认知,国家图书馆的定位是国家的总数据库,选定新浪作为***个互联网数据信息战略保存基地,显然是看重了这一点。
直观上看,每天产生1亿条内容的微博成了国家图书馆的藏品,分步骤的纳入国家文献信息战略保存体系,成为一种国家信息和数字资产,这更像对互联网文化的正名。
今天的互联网不仅是文化传承的载体,而且已经是文化本身的一个重要组成部分。
***,什么样的平台最适合承载国家记忆。
2013年互联网每天产生1EB(相当于1亿GB)的数据,需要1.88亿张DVD才能存储,6年后的今天,这个数字攀升到491EB,增长完全是几何级别的。
单个平台很难存储如此海量的数据信息,2009年国家图书馆就成立了“互联网信息保存保护中心”,致力于网络资源的采集、保存、管理与利用,但仍然需要在一种工作机制或服务协同模式,高效的完成时代所赋予的任务。
微博的价值曾一度受到微信的冲击,但微博的公众化媒体属性是不可取代的,热搜仍是反映公众情绪的最恰当方式,社会影响不可取代,海量数据背后是最全最真实的个体记忆,
第二,在碎片化表达中找出有价值的共同记忆。
在传统的知识和话语权体系传承中,内容的生产和消费是泾渭分明的,互联网时代仍然如此,95%的内容是由3%的人生产出来的,但社交和流量下沉改变了这一移动时代所有人都是在线的,内容生产门槛降低,地域和圈层割裂被打破,信息成为生存环境和社会认知的真实镜像,人人都是传播者,当然也导致了信息质量的良莠不齐,互联网数据的保存利用其实就是通过技术手段,弥合上述这些差异,把芜杂的信息重新组合为有用的知识图谱,沉淀下来的信息就可以转化为财富,这才是互联网信息战略保存的意义。
第三,在公共治理方面消除和转化信息的不对称。
互联网数据信息的保存有两个方向:
其一是经过缜密授权之后的个人数据备份。
研究表明,平均每年会6%存储在个人设备上的信息会丢失,由于个人信息越来越成为社会集体记忆的重要组成部分,这通常会造成难以挽回的损失,美国著名的国会图书馆最早面向公众推出了个人数据信息保存服务,这些数据会用视频、音频、文本、图片、网页、手册、实物、口述等多种方式进行备份,但这种个人数字信息的保存是一种有限的商业服务,它的社会价值还处在初级阶段。
其二,是主要互联网平台公开信息的保存和利用,也就是国家图书馆与新浪合作的方式,个人信息与集体记忆融合。
媒体性质的社交平台在惊心动魄的历史瞬间能够客观反映公众认知,2003年的SAAS、2008年的奥运、汶川地震、世博会、一带一路等等,都是国家民族发展状况的微观记录,通过微博这样的平台,管理者、被管理者,成年人、未成年人的信息级差被打破,每个人都以贡献信息的方式参与到社会协作之中,这是互联网技术带来的根本改变。
数据信息不再是简单的复制和保存,每个人都可以向公众分享自己的情感,自己的记忆,自己的意见,这些记忆被组织起来,打上标识,就成了这一代中国人的国家数字记忆。
改变世界的不是技术,而是数据信息背后每一个真实的人。