大数据是指无法在现有时间概念框架中用传统的数字技术工具进行感知、采集、管理、处理和服务的海量数据集合,具有容量大、产生速度快、类型繁多、信息价值大、冗余信息多四个特征。舍恩伯格(Viktor Mayer-Sch?觟nberger)在《大数据时代:生活、工作与思维的大变革》一书中指出,“大数据时代的到来必将变革我们未来的生活、工作和思维模式”。同时,舍恩伯格还提出了通过分析挖掘大数据探寻事物中的相关关系进而预测事物规律的研究方法。相关关系概念的提出,构建了以海量数据计算、寻找相关性、承认模糊性等为特征的新的认知方法和思维模式。
目前,大数据技术已影响到社会生活的方方面面,同样也为科学知识的生产活动带来了变革性影响。基于大数据技术的科学知识生产方式,将科学研究对象的范围拓展至各种终端设备实时采集的海量数据,再利用计算机进行集中管理和统计分析,进而挖掘事物内部的相关关系,形成了所谓的数据密集型科学研究,这也是赫伊(Tony Hey)等人提出的科学研究的“第四范式”。在此背景下,大数据处理系统已逐步成为新一代科研基础设施,知识生产方式也逐步从假说驱动转向数据驱动,并已在高能物理、环境监测、天文探测、生物医学等领域的研究中获得了广泛应用。总的来看,大数据时代的科学知识生产已经呈现出以下几个方面的重大变化。
第一,逐步构建基于大数据的科研服务平台。依赖于电子、通信、计算机等技术的飞速发展,尤其是各种监控、监测、感知、数据采集终端以及超级计算机的广泛应用,一种基于对大数据进行采集、存储、传输、计算、分析、整合的新型科研服务平台正被逐步构建起来。如今,传统的针对少量特定数据进行精确计算从而寻求事物之间因果关系的方法,已无法处理呈指数级速度涌现的大规模数据集。比如,深海探测器、医疗记录仪、宇宙空间站、航天卫星、大型强子对撞机等设备,为当代科学研究提供了全新的素材和研究对象的同时,所产生的海量数据(如欧洲粒子中心的大型强子对撞机每天产生的数据已达若干个千万亿字节)也已无法再用传统的计算方法进行统计分析。对此,很多国家都已着手构建基于大数据的新型科研服务平台。
第二,提出科学知识生产新的逻辑通道。从逻辑实证主义开始,对数据进行精准计算,从而寻求事物之间的因果性,就是科学家所恪守的研究方法。然而,大数据技术环境下,海量数据集已超出了我们的理解甚至想象能力,而这些数据中有相当大一部分是重复甚至是无用的。对海量数据进行统计分析,挖掘事物之间的相关关系,进而对未来进行科学预测和分析,得出新的结论,已成为一个新的科学发现的逻辑通道。在这种计算模式中,科学家不再需要深入分析每一个数据与其他数据之间的关系,也没有必要探究个体甚至局部数据背后的科学事实,而是从宏观上观察、计算、分析海量数据中蕴藏的相关关系,进而探寻相关关系背后的内在规律。尽管这些规律有些并不是必然的,但统计学意义的结论仍具有相当的科学价值。而且,这种“是什么”的现象背后也隐藏着“为什么”的问题,引导着我们进一步去探究。从这个意义上讲,大数据其实并没有否定科学发现中的因果性逻辑,而是对因果性逻辑的补充甚至超越。
第三,塑造科学共同体新型合作模式。大数据技术背景下,科研数据得以深度共享,大学、研究机构、高新技术企业之间相互依赖的程度进一步增强。科学家可以在一定程度上共享直至协同处理海量科研数据,甚至社会公众也参与到新知识的生产中来。大数据技术正不断构建科学共同体的新型合作模式。一方面,数据共享使得科学共同体更为凝聚;另一方面,科学共同体间的相互依存度不断提高,合作模式也不断拓展。如今,各个领域的科学家都应能够获得、使用本领域乃至其他领域的各种非结构化数据。大数据转化为科研对象,及时追踪、获取、共享和利用各种数据的能力,已成为影响科学家知识生产能力的重要因素,这也内在地要求不同领域的科学家之间建立起高效的协同合作机制。比如,对海洋的观测就需要计算机领域、海洋领域、气象领域等科学家通力协作,共同处理连续的模型设计、自动化的数据治理控制和校准、进行数据分析计算和可视化等过程的合作。科学共同体的合作不仅避免了重复性工作,而且极大地提高了科学研究的效率和科研成果的社会显示度。
第四,强化全球范围内知识生产的协同。在网络化、全球化的科学知识生产背景下,单一科研机构很难再拥有大数据知识生产的全部资源,这就要求在知识产权保护允许的前提下,不同国家的科学共同体之间要建立起必要的合作和共享关系。在一定范围内共享各种大型仪器设备、海量数据、技术程式,不仅可以节省大型昂贵设备的购买费用,而且可以降低数据获取和处理的时间成本,从而提高全球范围内学术资源的有效配置。比如,作为国际“虚拟天文台”一部分的微软全球望远镜,可以获取普通望远镜无法比拟的海量数据,而且已可无缝链接到天文学家们惯常采用的定量研究方法上。数据转化为科研对象,大数据的采集、获取、分析和计算,也就成为全球性科学共同体的共同事业。未来,全球范围内科学知识的协同生产,将成为科学研究的新常态。
历史上的科学研究经历了基于观察、假说和验证的经验科学,到基于理论分析、概括和总结的理论科学,再到基于建立模型、计算和分析的计算科学三个阶段。如今,大数据技术正将当代科学研究推向通过数据采集、统计、分析来寻求相关性规律的所谓大数据科学时期。从假说驱动转向数据驱动,从发现因果性转为寻求相关性,开辟了科学知识生产新的逻辑通道。面对数据的爆炸式增长,大数据计算模式也是解决海量数据和有限数据处理能力之间矛盾的一个有效途径。尽管这种模式是否可以作为科学知识生产的新范式仍是一个值得深入探讨的问题,但我们可以看到,基于大数据的知识生产的应用日益广泛与深入,大数据的采集、计算、分析能力也已成为科研机构知识生产能力的重要方面。同时,数据成为科学研究的直接对象也使得科学研究中科学理论与技术手段之间的边界日益模糊,科学能力和技术能力不断转化,共同推动着大数据知识生产能力的快速提升。
面对大数据技术带来的科学知识生产新模式,我们应加强对于一些大数据计划的支持力度,建立一批较为先进、完备的大数据技术服务平台,加大对于开展大数据项目研究的科研院所和高新技术企业的支持力度,鼓励科学共同体积极展开国际交流合作,以提升科学界的知识生产能力,从而在新一轮的科技竞争中抢占制高点。加强国家层面的政策设计,建设完善的大数据技术平台,促进科学界与产业界的通力合作,促进科技成果的快速转化,不仅是提升科技创新能力的必由之路,也是建设创新型国家的重要目标和内容。