【51CTO.com原创稿件】WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域最新实践和最热门的行业应用。
51CTO记者对即将参加大会演讲的向磊进行了专访,让我们先睹为快,探听他在构建可视化大数据查询平台方面的心得。
【讲师简介】
向磊,easyhadoop及phpHiveAdmin作者,社区创始人之一,arm嵌入式开发爱好者。熟悉Hadoop及其周边分布式平台自动化运维架构设计及可视化查询平台开发架构设计。
EasyHadoop现状
随着大数据时代的到来,Hadoop已经成为大数据领域最炎手可热的技术。Hadoop是大数据领域不可或缺的一个分布式系统基础架构,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。同时,由于Hadoop是一个复杂的分布式处理系统,对于一般人来说,Hadoop在使用上的难度很大。它不仅需要多方面的知识积累,在整个运维方面也有很多难点需要攻克,而这还仅仅是Hadoop本身。Hadoop的周边生态系统所需要学习和积累的东西更多,学习入门的曲线非常陡峭,这就从一定程度上限制了Hadoop的推广和使用。
EasyHadoop,顾名思义,就是让Hadoop大数据分析更简单。EasyHadoop是一款Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。据EasyHadoop创始人向磊介绍,EasyHadoop其实最近一直没有更新,easyhadoop项目之前有一些用户在使用,比如早期蓝汛,缔元信的早期设备都通过easyhadoop进行部署,而phpHiveAdmin的用户更多一些,例如,酷狗,迅雷,甚至pinterest,他们的工程师舍弃了qubole,转而使用phpHiveAdmin,这让向磊感到很意外,也很骄傲。但无论如何,这些系统本身更像是一个早期实验探索性质的产品,目前只是验证了一下这种方式的可行性,尽可能做的方便部署一些,就暂停了,项目本身基于php,也有诸多不便,会有很多环境部署上的问题,特别是对于没用过php的人来说。向磊也透露,现在正在开发新的基于python的项目。希望很快可以将其开源。
同时,向磊表示,现在正在打造细分行业的Hadoop/Spark发行版,会包含一些具有行业特性的应用和算法,他希望尽快能把开源版本拿出来贡献给大家。
构建自己的大数据生态系统可视化查询及作业提交的平台的意义
构建自己的大数据生态系统可视化查询及作业提交的平台主要是构建一个适应自己内部需求的数据作业平台,以此为基础,可以将数据分析业务的权限开发给任何具有提交权限的人。Hadoop周边有很多很方便快捷的应用,如Hive,Pig,SparkSQL等,如果专门设立一个数据部门,其他部门的分析需求统一由数据部门整理完成,优点是集中化管理,接口部门统一,方便管理和追查。但劣势是数据分析部门势必成为公司的数据作业瓶颈,大量分析挖掘任务会堆积在这个部门。所以,建立一个可视化查询及作业提交的平台,可以将大量数据分析作业以众包的形式分散到各个部门自己提交查询,可以大大提高数据分析和结果产出的效率。提高整体公司的运作效率。
通过使用RESTful, CLI等接口方式构建可视化大数据平台的技术难点
Hadoop生态可视化查询的主要技术难点在于验证与授权的管理和作业的监控。授权包含两点:验证和授权。验证是去校验某个用户是不是合法用户,而授权是指验证通过的用户可以访问哪些应用和数据。对于Hadoop系统来说,权限管理功能是比较弱的,如上一个问题所说,如果把分析任务分发到其他部门自行完成,势必需要一个追踪和管理的审计系统。一旦出现问题作业,可以知道是谁提交的,什么时间,提交了什么,访问了哪些数据,出现了什么问题。
另外一个难点是如何把CLI方式的控制台的实时输出返回到前端网页上面,RESTful和Thrift方式都无法获取作业进度的情况,但可以用来提交一些元数据查询。这时,就需要自己编写代码,将作业通过CLI方式进行提交,并跟踪作业的进度。这是在构建可视化平台时相对比较难的地方。
面对众多大数据可视化工具,该如何选择?
大数据可视化查询平台工具,主流的有Cloudera推出的HUE,HUE主要问题是针对CDH版本支持很好,而对于其他发行版就需要改代码来进行适配,如果没用过Django,改起来比较困难。此外,还有一些有指向性的工具,比如专门针对Hive的Qubole,phpHiveAdmin等,针对Pig的Lipstick等等。
说到挑选,主要还是看主要业务需求在哪里,最重要的是不能光看网上评测,使用感受等文章,最好亲自动手安装部署一下试试,感觉合适才是最重要的。现在虚拟机装Hadoop,Spark都很方便。
学习Hadoop,动手实践最重要
对于初学者来说,动手实践是最重要的。理论看得再多,顶多也就是面试的时候侃侃而谈,实际工作中不一定过得了试用期。向磊的个人经验是:先去动手做,中间如果有不会的再去查理论。与其说是理论联系实际,更应该是实际结合理论。
关于技术方面的学习,运维从安装部署开始动手,开发从写代码开始动手,把理论书籍上面的代码自己一个字母一个字母实际敲一遍,不要从网上复制粘贴,也是一个比较好的学习方式。
至于学习渠道,向磊强烈推荐先学好英文。“有问题,问谷歌”。而且要用英文问,会得到更精准的答案。另外,网上的在线教育也是个不错的学习方式,比如51cto的在线学院就很不错。有些老师会在教学后安排作业。出现问题是好事,但首先要尝试自己解决,自己解决的记忆是最深刻的。在选择课程的时候,也需要多方查证,有些自己鼓吹的,名气大的老师不一定靠谱,这里面也有少数浑水摸鱼,凑热闹骗钱的人。现在各家搜索引擎都很强大,查证一个老师的身份并不难。
51CTO主办的高端技术峰会【WOT2016“大数据技术峰会】将于11月25日-26日在北京粤财JW万豪酒店盛大揭幕,40余位业内重量级嘉宾汇聚,解析大数据技术与行业应用的实践结合。福利大放送,主办方将邀请更多讲师来到“WOT讲师专访间”,深度解析技术干货。
WOT2016更多访谈
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】