开源大数据技术Hadoop,在今年刚好满十岁。在大数据的第一个十年,Hadoop成功地让大数据成为最被看好的技术,这股大趋势,不仅影响资讯科技的走向,更成为商业热烈讨论的议题。
之所以如此,一方面是随著网际网络、云端运算、智慧行动装置的普及,使得Google、Facebook、Twitter等大型互联网公司的用户数量,呈现爆炸性成长,为了应付全球用户的规模,这些知名互联网技术公司纷纷投入大数据技术,使得大数据成为顶尖技术的指标,瞬间成了抢手的当红炸子鸡。
另一方面,这些互联网公司不仅是采用Hadoop这样的开源大数据技术,更雇用软件高手开发符合自己需求的大数据技术,再将这些大数据软体的程式码开源。如此一来,既吸引更多高手加入开发,亦回馈开发社群,而这样的效应,也使得大数据开源技术的发展,如火如荼,至今与Hadoop相关的开源软件已超过一百个,形成庞大的Hadoop生态圈。
在接下来的第二个十年,大数据将会如何发展呢?今年中,我参加在大数据领域颇负盛名的Strata & Hadoop World技术大会,原本我期待这场以大数据技术Hadoop为名的技术会议,主要探讨的议题,应该围绕著Hadoop生态圈的开源大数据技术;然而,在两天的大会主题演讲,不论上台的是Google、Microsoft这样的国际大厂,或是百度、阿里巴巴、蚂蚁金服、小米等中国网路大公司,谈的都是人工智慧(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)、深度学习(Deep Learning,DL)等AI议题。
纵使那两天的下午议程当中,仍有很大的比例,在探讨大数据即时分析、串流运算等议题,然而大会主秀——通常是科技公司展现实力的主题演讲,却是不约而同谈AI、ML及DL等技术议题。
在这些原本就是大数据技术领头羊的眼中,很明显地,人工智慧、机器学习与深度学习是大数据的下一步,也是大数据第二个十年的兵家必争之地。
然而,迈向第二个十年后,大数据就不再重要了?其实并不然,这些技术依然重要,只是下个十年的发展,将是以AI为导向的大数据。关于这部份,我们可以从催生Spark、Mesos的柏克莱AMPLab实验室来观察。
在大数据第一个黄金十年的后半段,以微批次串流运算技术窜红的Spark,引领风骚,而Spark的诞生地——柏克莱大学AMPLab,却将在2016年底吹熄灯号。AMPLab由两位拥有软体创业经验的教授主持,在目前的6年计画期间,推动许多开源软体研究专案,最知名的当属分散式资源管理系统Mesos、串流运算平台Spark、分散式记忆体储存系统Alluxio(之前称为Tachyon),在个别领域都居于技术领先的地位。
既然AMPLab有如此重要的研究贡献,为何结束呢?因为柏克莱实验室的传统,普遍以5至6年投入研究,解决一个重要的问题,如今AMPLab已经完成了阶段性使命:打造开源大资料分析技术,接下来,他们将以新成立的实验室RISELab,解决大数据的下一个新问题。
新问题是什麽呢?从实验室的名称Real-time Intelligent Secure Execution,即可看出端倪。在上个阶段,AMPLab是从大数据批次资料处理技术,发展至大数据分析技术,而下个阶段的RISELab,则要克服即时资料处理的问题,发展出即时决策的应用。他们的目标是,研发出比Spark的反应速度快100倍、输出快1000倍的新一代大数据技术,并且结合线上机器学习与更自动化的演算法,在确保资料加密安全与隐私,且不牺牲效能的情况下,从即时资料中做即时决策。
未来6年RISELab能否达成目标,尚无人能知。但很肯定的是,大数据的下一步,是以AI为导向的新一代大数据。