如今,企业不断将大数据工作负载转移到云端。虽然此举并不需要彻底改变IT技能,但它确实需要对管理和开发团队进行一些更改。
而对于采用大数据来打包云计算,企业的团队为此准备好了吗?
即使企业在自己的数据中心内采用大数据,也不一定意味着他们将在云中取得成功。而且在大多数情况下,必须对工作人员进行培训,让其获得新的工作技能。
调研机构Enterprise Strategy Group的高级分析师Mike Leone表示,总体而言,云计算中的大数据可以降低内部部署数据中心的成本,并非运行在云端的大数据工作负载或项目都需要企业拥有一名大数据专家,但也有一些企业需要数据专家的帮助,例如涉及Hadoop。
Leone表示,虽然在云端使用五节点集群替换五节点Hadoop集群非常简单,但却出现了管理方面的挑战,尤其是软件互操作性方面的管理挑战。
云端获得大数据的四大技能
根据IT培训机构Linux Academy公司的大数据分析主管Manisha Sule的说法,IT团队应该把重点放在四大技能上,以便在云计算领域运行大数据。
- 管理:工作人员知道如何管理Hadoop和NoSQL变得至关重要。工作人员还需要仔细配置和管理(诸如计算、存储和网络等)基础设施组件,以支持大数据项目。Sule说,使用Hadoop分布式文件系统和NoSQL数据库的经验也是有帮助的,这两者都可以存储大量的数据。
- 开发:Sule表示,大数据开发人员应该具有Python、Scala和Java等语言的编程经验。此外,具有使用亚马逊网络服务(AWS)Kinesis和Lambda等产品的经验也是一个优势,因为它们提供了基于微服务架构的实时处理的替代方案。
- 分析:云端大数据分析需要统计学、数据挖掘、机器学习、操作研究、计算机编程方面的专业知识。Sule说,数据科学家和分析师以及机器学习和人工智能工程师需要学习如何构建算法,然后将这些算法实现自动化以处理大量的实时数据。
- 可视化:可视化开发人员设计仪表板,讲述组织收集的大数据的故事。这个角色的IT专业人员需要访问不同的数据源,并将其整合到统一的交互式平台中。
Sule指出,虽然有一些课程可以帮助掌握这四项技能,但对于IT专业人员来说,最好采取边做边学的方法。云计算也适合采用这种模式。
Sule说:“在人们准备充分的时候,可以轻松地注册一个试用账户,直接感受到可用的服务。许多正式课程的内容也涉及实践经验。”
Cloud Technology Partners首席架构师Muhammad Nabeel表示,IT团队也应该为提供商提供的多种云服务结合起来做好准备,以支持大数据计划。他说:“企业需要详细了解它们并一起实施。”
根据Nabeel的说法,在三家行业领先的公共云提供商云平台上运行的关键的大数据服务包括:
- 微软Azure:在微软Azure上使用Hadoop、Spark、R Server、HBase,以及Storm群集的HDInsight。
- 谷歌云平台:用于分析数据仓库的BigQuery,用于批量和流处理的云数据流,用于托管Hadoop和Spark的Cloud Dataproc,以及用于数据挖掘的Cloud Datalab。
- AWS云平台:使用Hadoop和Spark的Elastic MapReduce; Athena在简单存储服务中进行分析; Elasticsearch集群。
除了第三方培训选项外,云计算提供商还提供有用的学习功能以加速采用。例如,在谷歌云计算控制平台中,有一个“试用”功能的例子。
Nabeel认为,实践经验有很长的路要走。他说:“学习一门课程是有帮助的,但如果课程真正涉及到工作人员所需要的具体知识时,并不总是能够解决问题。”
网络流量分析提供商Kentik公司联合创始人兼首席执行官Avi Freedman表示,虽然提供特定于供应商的大型数据工具的知识非常重要,但组织也应该努力在多个云平台上使其团队的技能多样化。过于依赖单一供应商的企业有些短视,因为现在市场上没有明显的赢家。
Freedman说,“这意味着企业将会开发一个没有长期需求的技能。”更好的方法是学习云计算中与大数据有关的一般概念,如分布式系统和数据库。
他说:“一旦有了这些,学习特定的云服务提供商的技术和知识应该是非常容易的。此外,在任何云计算环境中,请务必彻底理解自己将要访问和使用该数据的所有不同方式,例如从应用程序类型到存储的数据类型。”
他说:“如果发展这种关系的个人或者团队不了解这个过程中的商业需求,那么这个过程会变得很难。” 就像开发任何新的IT项目一样,只有求知欲和良好判断的组织还有很长的路要走。