内容框架:
大数据概览
Flink 学习框架
EMR Studio 上的流计算最佳实践
演示
一、大数据概览
大数据处理 ETL (Data → Data)
大数据分析 BI (Data → Dashboard)
机器学习 AI (Data → Model)
二、Flink 学习框架
Flink 要点
Stateful
Time
Flink Architecture
Flink API
Flink Configuration
Flink Log
Stateful:
Why
流计算的及时性
流计算的 unbounded
When
Window
Join
Pattern
How
statebackend
Time
Event time
Processing time
Watermark
Flink Architecture
Flink API
Flink Configuration
Cluster Configuration
Job Configuration
Statebackend
Resource Manager
SQL/Python
参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/
Flink Log
三、EMR Studio 上的流计算最佳实践
EMR Studio 特性:
兼容开源组件
EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。
支持连接多个集群
适配多个计算引擎
交互式开发 + 作业调度无缝衔接
适用多种大数据应用场景
计算存储分离
Flink Clients
Flink on Zeppelin (Phase 1) - Interactive Flink Client
Flink on Zeppelin (Phase 2) - Interactive JobManager
Flinkon Zeppelin 主要 Feature
原文链接:http://click.aliyun.com/m/1000286010/