大数据组件学习指南

任务目标

目标：理解大数据基础架构和Hadoop生态核心组件

•
大数据概念与架构理解
- •理解分布式系统基本概念（CAP定理、一致性、可用性、分区容错）
- •掌握大数据4V特征（Volume、Velocity、Variety、Value）
- •了解Lambda架构和Kappa架构设计思想
•
Hadoop生态核心组件
- •HDFS：分布式文件系统原理、读写流程、副本机制
- •YARN：资源调度框架、ResourceManager、NodeManager工作原理
- •MapReduce：编程模型、Map/Reduce阶段、Shuffle过程
•
Hadoop环境搭建与实操
- •单机模式、伪分布式、完全分布式环境搭建
- •HDFS文件操作（上传、下载、查看、删除）
- •MapReduce任务提交与监控

进阶标志：能够独立搭建Hadoop集群，理解HDFS数据读写流程和YARN资源调度机制

参考资料：见 references/hadoop-ecosystem.md（Hadoop生态详解）

目标：掌握分布式计算引擎和数据处理框架

•
分布式计算引擎
- •Spark Core：RDD概念、算子操作、DAG调度、内存管理
- •Spark SQL：DataFrame/Dataset、SQL查询优化、Hive集成
- •Spark Streaming：微批处理、DStream操作、窗口计算
•
流式数据处理
- •Flink架构：DataStream API、窗口机制、时间语义、状态管理
- •Kafka基础：消息队列概念、生产者/消费者、Topic/Partition
- •实时计算场景：实时ETL、实时统计、实时预警
•
数据存储组件
- •HBase：NoSQL数据库、RowKey设计、数据模型、读写优化
- •Hive：数据仓库、HQL语法、分区/分桶、UDF开发
- •ClickHouse：列式存储、SQL优化、聚合查询性能

进阶标志：能够使用Spark/Flink处理TB级数据，理解流批一体架构，设计HBase RowKey

参考资料：

目标：解决实际业务问题，掌握架构设计和性能优化

•
数据同步与采集
- •Sqoop：关系型数据库与Hadoop间的数据传输
- •DataX：异构数据源同步、离线同步配置
- •Canal/Flink CDC：实时数据变更捕获、CDC应用场景
•
数仓建模与架构设计
- •数仓分层：ODS/DWD/DWS/ADS分层设计
- •维度建模：星型模型、雪花模型、事实表/维度表设计
- •数据治理：元数据管理、数据质量、血缘追踪
•
性能优化与问题排查
- •Spark性能调优：内存调优、并行度调整、倾斜处理
- •SQL优化：执行计划分析、索引使用、Join优化
- •常见问题：OOM、数据倾斜、任务超时、慢查询排查
•
实战项目
- •离线批处理：用户行为分析、实时报表生成
- •实时流处理：实时风控、实时推荐、实时监控
- •数据湖架构：基于Iceberg/Hudi的湖仓一体实践

进阶标志：能够独立设计数仓分层架构，解决数据倾斜和OOM问题，完成端到端数据处理项目

参考资料：

必要参考：

用户："我是Java开发，想转大数据，应该怎么开始？" 执行方式：智能体根据SKILL.md的"学习路径"章节，结合用户Java背景，给出第一阶段学习建议（Hadoop环境搭建、HDFS和MapReduce基础），并提供hadoop-ecosystem.md中的详细参考内容。

用户："Spark任务OOM怎么排查？" 执行方式：智能体根据best-practices.md中的性能优化章节，提供OOM排查流程（日志分析、内存参数调优、数据倾斜处理），并给出具体参数调整建议。

用户："设计一个实时用户行为分析系统，应该用哪些组件？" 执行方式：智能体根据实战层的架构设计指导，结合实时流处理场景，推荐Kafka+Flink+ClickHouse技术栈，并引用data-processing.md和data-storage.md中的技术细节。