Databricks连城:Spark打造一体化大数据流水线

新闻 Spark
连城老师目前专注于以Spark为主的大数据分析系统,Spark SQL为Spark提供了原生的SQL关系查询能力,并进一步增强了Spark操纵结构化数据的能力。演讲伊始,连城率先分享了当今大数据的问题以及数据分析流程,通常的做法是在hadoop之上刻画框架。因此所有流程是基于HDFS,所得到的是有效的数据处理结果占比全部数据处理的比例并不高。

2014725-26日,由51CTO传媒主办的2014 WOT全球软件技术峰会在北京富力万丽酒店召开。秉承专注技术、服务技术人员的理念,自2012年以来,WOT品牌峰会成功举办了三届,积累了大量的技术专家资源,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。

本次会议分为8个技术主题,分别是:数据库技术与应用,互联网架构分析,高效的技术团队,敏捷开发,实时计算与数据分析,移动应用,自动化运维,开源技术。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴。

[[116905]]

作为实时计算与数据分析专场“干货分享”的讲师, Databricks工程师连城先生为我们带来了主题为《Spark SQL:一体化大数据流水线的重要拼图》的主题演讲。分享了Spark技术在大数据分析中的应用现状及展望。 

连城老师目前专注于以Spark为主的大数据分析系统,Spark SQLSpark提供了原生的SQL关系查询能力,并进一步增强了Spark操纵结构化数据的能力。演讲伊始,连城率先分享了当今大数据的问题以及数据分析流程,通常的做法是在hadoop之上刻画框架。因此所有流程是基于HDFS,所得到的是有效的数据处理结果占比全部数据处理的比例并不高。

基于Spark的统一的大数据分析组件

弹性分布式数据集可以有效地解决这一问题,Spark开源实现高速、兼容性、接口易用、程序精简等优势。

以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。

责任编辑:路途 来源: 51CTO.com
相关推荐

2021-12-17 18:21:54

大数据流水线设计

2017-02-14 21:00:33

大数据机器学习广告检测

2010-04-29 15:39:54

2024-03-25 08:15:02

数据分析AI 一体化大数据

2024-07-10 08:52:17

2017-06-30 14:32:07

红帽一体化混合云

2016-11-07 12:36:18

2017-03-02 14:12:13

流水线代码Clojure

2009-09-07 23:09:17

2018-01-31 15:00:03

汉柏

2017-03-21 21:17:06

2023-12-20 07:35:03

大模型数据治理机器学习

2021-06-28 06:32:46

Tekton Kubernetes Clone

2009-12-03 15:34:41

Suse Linux

2009-07-02 09:32:00

2013-12-23 16:53:58

智能布线康普数据中心

2014-04-04 14:47:29

CmsTop CMS

2013-11-15 12:21:13

腾讯创业基地

2023-11-16 13:24:39

OceanBase数据库

2017-10-18 22:46:57

数据中心网络通信技术
点赞
收藏

51CTO技术栈公众号