大数据面试：分层设计思想-51CTO.COM

ODS-DWD-DWS-ADS

数据仓库的分层设计（ODS-DWD-DWS-ADS）是一种常见的架构设计方法，通过将数据分层存储和处理，来提高数据的质量、管理和查询性能。以下是对每一层的详细描述：

ODS（Operational Data Store，操作数据存储）

功能：

ODS是最原始的数据存储层，用于保存从各种源系统实时或准实时获取的原始数据。
数据在ODS中是未经处理或仅进行简单清洗的数据，保留了数据的完整性和细节。

特点：

数据实时或准实时地加载。
数据格式与源系统一致。
数据保留时间较短，主要用于实时分析和临时查询。

DWD（Data Warehouse Detail，明细数据层）

功能：

DWD层对ODS层的数据进行初步处理和清洗，形成标准化的、细粒度的明细数据。
该层的数据具有一定的一致性和完整性。

特点：

进行数据清洗、转换和初步的聚合。
保留数据的细节和完整性，适用于细粒度的分析和查询。
数据存储时间较长，通常为几个月到几年。

DWS（Data Warehouse Service，服务数据层）

功能：

DWS层对DWD层的数据进行进一步的加工和聚合，生成面向主题的中间数据。
该层的数据通常用于多维分析和报表。

特点：

数据经过进一步清洗、聚合和转换，适用于多维分析（OLAP）。
提供给业务人员用于决策支持和业务分析。
数据存储时间较长，通常为几年。

ADS（Application Data Store，应用数据层）

功能：

ADS层是数据仓库的最顶层，主要用于支持具体的应用和业务需求。
该层的数据经过高度聚合和摘要，提供给最终用户进行直接查询和分析。

特点：

数据高度聚合，支持快速查询和报表生成。
面向具体应用和业务需求设计，提供给BI工具和终端用户。
数据存储时间可根据应用需求灵活设置。

分层设计的优势

数据治理通过分层处理数据，可以更好地管理数据质量，确保数据的一致性和准确性。
性能优化分层设计将数据处理和存储职责分离，提高了数据仓库的查询性能和扩展性。
灵活性不同层的数据可以满足不同类型的查询和分析需求，提供了更大的灵活性。
可维护性分层设计使得数据处理流程更加清晰和可维护，有助于数据仓库的长期管理和优化。

通过这种分层设计，数据仓库能够有效地处理和存储大量数据，同时为各种分析和业务需求提供支持。

涉及到的技术栈

在数据仓库的分层设计（ODS-DWD-DWS-ADS）中，各层可以使用不同的技术栈来实现。以下是每一层常用的技术栈：

ODS（Operational Data Store，操作数据存储）

涉及技术栈：

数据源各种业务系统，如ERP、CRM、销售系统等。
数据采集工具

ETL工具：Apache NiFi、Talend、Informatica、Pentaho

CDC（Change Data Capture）工具：Debezium、Oracle GoldenGate

数据同步工具：Apache Sqoop、Apache Flume

数据库
关系型数据库：MySQL、PostgreSQL、Oracle
NoSQL数据库：MongoDB、Cassandra

DWD（Data Warehouse Detail，明细数据层）

涉及技术栈：

ETL工具 Apache NiFi、Apache Airflow、Talend、Informatica、Pentaho
数据处理框架

批处理：Apache Spark、Apache Flink、Apache Hadoop（MapReduce）

流处理：Apache Kafka Streams、Apache Flink、Apache Storm

数据存储
分布式文件系统：Hadoop HDFS
列式存储：Apache Parquet、Apache ORC
数据湖：Apache Hudi、Delta Lake

DWS（Data Warehouse Service，服务数据层）

涉及技术栈：

ETL工具 Apache Airflow、Apache NiFi、Talend
数据处理框架

批处理：Apache Spark、Apache Hive

流处理：Apache Flink、Apache Storm

数据存储
分布式数据仓库：Apache Hive、Apache HBase、Google BigQuery、Amazon Redshift
列式存储：Apache Parquet、Apache ORC
数据湖：Delta Lake、Apache Iceberg
OLAP引擎 Apache Kylin、Druid、ClickHouse、Presto

ADS（Application Data Store，应用数据层）

涉及技术栈：

ETL工具 Apache Airflow、Talend、Informatica
数据处理框架

批处理：Apache Spark、Apache Hive

流处理：Apache Flink、Apache Kafka Streams

数据存储
数据库：MySQL、PostgreSQL、Oracle
数据仓库：Amazon Redshift、Google BigQuery、Snowflake
BI工具 Tableau、Power BI、Looker、QlikView、Domo

其他辅助技术

数据治理与质量 Apache Atlas、Apache Griffin、Talend Data Quality
数据编排与调度 Apache Airflow、Apache Oozie、Prefect
数据可视化 Tableau、Power BI、Looker、Grafana
数据安全与访问控制 Apache Ranger、Apache Sentry

通过使用这些技术栈，可以有效地实现数据仓库的各个层次，从而满足不同层次的需求和应用场景。

构建ODS-DWD-DWS-ADS的步骤

构建ODS-DWD-DWS-ADS数据仓库的过程可以分为几个步骤，每一步都需要特定的技术和方法来实现数据的采集、清洗、转换、存储和分析。以下是构建这一架构的详细步骤：

构建ODS（Operational Data Store，操作数据存储）

步骤：

数据源识别

确定需要集成的数据源（如ERP、CRM、销售系统等）。

数据采集

使用ETL工具（如Apache NiFi、Talend、Informatica）或CDC工具（如Debezium、Oracle GoldenGate）从数据源中采集数据。
配置数据采集任务，确保实时或准实时地获取数据。

数据存储

将采集到的原始数据存储在关系型数据库（如MySQL、PostgreSQL）或NoSQL数据库（如MongoDB、Cassandra）中。

数据监控与管理

设置数据质量监控和异常处理机制，确保数据的完整性和准确性。

构建DWD（Data Warehouse Detail，明细数据层）

步骤：

数据清洗

使用ETL工具（如Apache NiFi、Apache Airflow、Talend）对ODS中的数据进行清洗，处理缺失值、重复值和错误数据。

数据转换

对清洗后的数据进行标准化和格式转换，确保数据的一致性。

数据存储

将处理后的细粒度数据存储在分布式文件系统（如Hadoop HDFS）或列式存储格式（如Apache Parquet、Apache ORC）中。

数据加载

配置数据加载任务，定期将ODS数据加载到DWD层。

构建DWS（Data Warehouse Service，服务数据层）

步骤：

数据聚合

使用批处理框架（如Apache Spark、Apache Hive）或流处理框架（如Apache Flink、Apache Storm）对DWD层的数据进行聚合和转换。

数据建模

基于业务需求和分析目标，进行数据建模和多维数据集的创建。

数据存储

将聚合后的数据存储在分布式数据仓库（如Apache Hive、Apache HBase）或数据湖（如Delta Lake、Apache Iceberg）中。

OLAP配置

配置OLAP引擎（如Apache Kylin、Druid、ClickHouse），支持多维分析和快速查询。

构建ADS（Application Data Store，应用数据层）

步骤：

数据摘要和汇总

使用数据处理框架（如Apache Spark、Apache Hive）对DWS层的数据进行进一步的聚合和摘要。

数据定制

根据具体的业务需求和应用场景，对数据进行定制化处理。

数据存储

将处理后的数据存储在关系型数据库（如MySQL、PostgreSQL）或数据仓库（如Amazon Redshift、Google BigQuery、Snowflake）中。

BI工具集成

配置BI工具（如Tableau、Power BI、Looker），实现数据的可视化展示和自助分析。

用户访问控制

设置数据访问权限，确保数据的安全性和合规性。

辅助步骤

数据治理与质量

使用数据治理工具（如Apache Atlas）和数据质量管理工具（如Apache Griffin）确保数据的完整性、一致性和准确性。

数据编排与调度

使用数据编排和调度工具（如Apache Airflow、Apache Oozie）管理和调度ETL任务，确保数据处理流程的自动化和可监控性。

数据安全与合规

实施数据安全措施（如Apache Ranger、Apache Sentry），确保数据访问的安全性和合规性。

通过这些步骤，可以系统化地构建ODS-DWD-DWS-ADS数据仓库架构，满足企业对数据采集、存储、处理和分析的需求。

ODS-DWD-DWS-ADS最小化部署方案

要构建一个最小化的ODS-DWD-DWS-ADS数据仓库架构，可以选择使用一些开源工具和框架来实现。以下是一个简单的部署方案，包括各个层次的最小化配置和实现步骤：

环境准备

服务器

至少需要一台服务器（可以是物理机或虚拟机），建议配置较高的CPU和内存。

操作系统

Linux（如Ubuntu或CentOS）或Windows。

最小化技术栈选择

ETL工具 Apache NiFi
数据处理框架 Apache Spark
数据存储 MySQL、Apache Hive
BI工具 Tableau Public或Power BI Desktop（用于数据可视化）

ODS（Operational Data Store，操作数据存储）

技术栈：

数据源模拟数据源（如CSV文件、简单的Web API）
数据采集工具 Apache NiFi
数据库 MySQL

步骤：

安装MySQL

sudo apt-get update
sudo apt-get install mysql-server

配置MySQL，并创建一个数据库用于存储ODS数据。

安装Apache NiFi

wget https://archive.apache.org/dist/nifi/1.13.2/nifi-1.13.2-bin.tar.gz
tar -xzf nifi-1.13.2-bin.tar.gz
cd nifi-1.13.2
./bin/nifi.sh start

在浏览器中打开NiFi Web UI（默认端口8080），配置数据采集流程，将数据从模拟数据源导入MySQL。

DWD（Data Warehouse Detail，明细数据层）

技术栈：

数据处理框架 Apache Spark
数据存储 Apache Hive

步骤：

安装Apache Spark

wget https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzf spark-3.1.2-bin-hadoop3.2.tgz

安装Apache Hive

wget https://archive.apache.org/dist/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzf apache-hive-3.1.2-bin.tar.gz
cd apache-hive-3.1.2-bin
bin/schematool -dbType mysql -initSchema

数据清洗与转换

编写Spark作业（使用PySpark或Scala），从MySQL中读取数据，对数据进行清洗和转换，将处理后的数据写入Hive。

DWS（Data Warehouse Service，服务数据层）

技术栈：

数据处理框架 Apache Spark
数据存储 Apache Hive

步骤：

数据聚合与建模

编写Spark作业，对Hive中的DWD数据进行聚合和转换，生成面向主题的中间数据表。

ADS（Application Data Store，应用数据层）

技术栈：

数据存储 MySQL
BI工具 Tableau Public或Power BI Desktop

步骤：

数据摘要和汇总

编写Spark作业，对DWS中的数据进行进一步的聚合和摘要，将结果写入MySQL。

安装BI工具

下载并安装Tableau Public或Power BI Desktop。
配置数据源连接到MySQL，创建可视化报表和仪表盘。

辅助步骤

数据编排与调度

调度工具使用简单的cron作业调度ETL任务。

crontab -e

添加cron任务调度Spark作业和NiFi数据采集任务。

数据监控与管理

在Apache NiFi中配置数据监控和警报机制，确保数据采集流程的稳定性。

总结

这个最小化部署方案使用了较少的工具和框架，但仍然涵盖了ODS-DWD-DWS-ADS数据仓库架构的基本功能。通过这种方式，我们可以快速构建一个简单的数据仓库，并根据需求逐步扩展和优化。