大数据新兴技术不断涌现,让我们更容易更精准的从海量繁杂的数据中提取有用价值。开源作为一种推动大数据技术创新的新模式,正广受技术开发人员的热爱。
一、大数据市场前景无限
近年来,我国大数据政策频频发布,2014年“大数据”的概念首次正式写入《政府工作报告》,其后的2015年是大数据政策顶层设计年、2016年政策细化落地,国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案,2017年,大数据产业的发展正从理论研究加速进入应用时代,大数据与前沿科技的结合也越来越紧密。2017年,习近平明确要求实施国家大数据战略,加快建设数字中国。随着一系列利好政策的发布,大数据创业公司不断涌现,风险投资等机构也在追逐这个行业。大数据领域的创新创业变为常态,形成了大数据领域创新的力量。
大数据作为一种不会枯竭并且不断增值的重要的资源,是经济社会发展的重要推力,市场前途不可限量。从2014到2020年我国大数据市场规模不断扩大,其中2017-2018年正是市场高速成长期,大数据龙头企业较多,小微企业也分得庞大市场中的一杯羹。大数据产业整体蓬勃,未来向好。
二、开源推动大数据技术创新
开源,就是开放源码,意味着免费和自由的进行二次开发,如当下最为广泛使用的hadoop生态系统。开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。通过开放式的平台,吸引全球开发者集智共谋技术发展,开源将成为大数据技术创新的主要模式。目前,大数据分析处理流程中所使用的关键技术几乎都源自开源模式。
开放源代码对人工智能、区块链等前沿科技都具有重要影响力。源代码与这些高技术的结合点颇多,创新创业机会较多,研发项目在不断涌现。
国际上较受欢迎的开源大数据项目:
1.OpenCog和OpenCogPrime
2018年尖端技术潮流的一个典型例子——OpenCog项目被设计为面向虚拟和机器人功能的体系结构。用Python、C ++和Linux上Scheme 编写,与匹配一般智能和超越人类级别的目的相联系。还致力于实现其更加实际的研究和开发目标,同时精简其开源产品以实际应用。
2.Hyperledger
Hyperledger是在2015年由Linux基金会建立的,该项目最终目标是提供一系列开源的区块链和其他有用元素的工具箱。作为一个顶尖的科技趋势,区块链在2018年的最热门领域中备受瞩目,Gartner将其列入今年企业的最高战略趋势。
3.Kubernetes
Kubernetes是一个开源系统,专为部署自动化和容器化应用程序的管理而设计。随着谷歌的播种,该系统现在处于云原生计算基金会的管理之下。Kubernetes最引人注目的,是它与Docker合作密切。Kubernetes也得到了广泛和高调的推动,被Pivotal、Red Hat、OpenShift和IBM等公司支持。
4.TensorFlow
TensorFlow也许是最知名的开源项目,谷歌是该项目的主要倡导者,现已衍化为一个软件库,可以用于编程和数据流的目的,为广泛的用例提供服务。该项目还涉及当前的热门技术趋势,即机器学习,虽然这项技术并非是一个新事物,但随着在追求一系列不同结果时变得越来越受欢迎,这种技术一直在获得牵引力。
5.Vault
Vault是开源项目另一热点领域,提供了一种在传输过程中加密数据的工具,并且除了对其它信息进行一般安全管理之外,还越来越关注GDPR的相关修订。Vault的制造商还强调撤销功能是最大的亮点,有效保护有价值的数据。随着信息安全问题的不断加剧,Vault已成为十分重要的开源项目。
我国较突出的开源大数据项目:
1. 百度——希望获得开发者青睐的 “PaddlePaddle”
2016年9月1日,国内第一个机器学习开源平台PaddlePaddle诞生。
PaddlePaddle 能在多 GPU,多台机器上进行并行计算。相比现有深度学习框架,PaddlePaddle 对开发者来说有易用性、快速等优势。许多资深开发者认为PaddlePaddle 的设计理念与 Caffe 十分相似,怀疑是百度对标 Caffe 开发出的替代品。业内对 PaddlePaddle 的总体评价是“设计干净、简洁,稳定,速度较快。
2. 腾讯——面向企业的 “Angel”
Angel 将成为PaddlePaddle 之后、BAT 发布的第二个重磅开源平台。Angel 是面向机器学习的分布式计算框架,它为企业级大规模机器学习任务提供解决方案,可与 Caffe、TensorFlow 和Torch 等业界主流深度学习框架很好地兼容。“Angel 采用多种业界最新技术和腾讯自主研发技术使得 Angel 性能大幅提高,达到 Spark 的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”
3. 阿里巴巴——犹抱琵牌半遮面的 DTPAI
阿里在2015 年就宣布了数据挖据平台 DTPAI , DTPAI 将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里 ODPS 和 iDST 产品经理韦啸表示,DTPAI 支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与MapReduce、Spark、DMLC、R 等开源技术对接。
4. 山世光——大陆学界硕果仅存的 SeetaFace
SeetaFace 基于 C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块、面部特征点定位模块以及人脸特征提取与比对模块。 SeetaFace 将供学界和工业界免费使用。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入 SeetaFace,大幅减少开发成本。
三、开源大数据的发展趋势
开源让越来越多的项目可以直接采用大数据技术,不断的推动着大数据的创业创新,赛智时代分析师认为未来开源大数据将向以下三个方向发展:
1.容器技术愈受欢迎
容器技术能够使代码在任意环境中快速地 “接入并运行”,降低企业时间和资金成本。其速度和灵活性能够决定促使业务成功开展。
2.Hadoop与Spark应用增加
据福瑞斯特研究显示,Hadoop正以32.9%的速度增长。由于其可以降低企业成本且可以快速改进,很多企业表示会继续扩大相应的技术应用,所以未来Hadoop将会更加普及。而另一位后起之秀Spak在迭代计算上具有比Hadoop更高的效率并且数据集操作类型的开发更广泛,未来的广泛应用也是指日可待的。
3. 智能开源技术的应用更深入
人工智能正慢慢普及,全新的智能开源解决方案将改变人们和系统交互的方式,转变由来已久的工作观念,加深行业大数据的应用。
目前,我国开源产品较国外来讲水平不是很高,更多的时候国内的企业还只是开源的使用者和借鉴者,还没有到发明创造的阶段。虽说技术的发展是全球化的,技术开发的交互性促进了技术的不断突破,然而我们却不能过分依赖于“拿来主义”,赛智时代分析师认为,抵制以低成本换来高性能的产品或系统的诱惑,加大我国创业团队的研发投入,保持持续的自主创新才能稳定国家产业的发展。