『字节青训营-4th-大数据』L5:Spark 原理与实践
相关链接
🎶 学员手册:【大数据专场 学习资料二】第四届字节跳动青训营
大数据处理引擎 Spark
大数据处理技术栈
常见大数据处理链路
开源大数据处理引擎
什么是 Spark?
用于大规模数据处理的统一分析引擎
Spark 版本演进
Spark 生态 & 特点
Spark 特点
多语言支持
丰富数据源
丰富的 API/算子
Spark 运行架构
Spark 下载编译
Spark 包概览
Spark 提交命令
提交一个简单任务
Spark UI
Spark 性能 benchmark
SparkCore 原理解析
SparkCore
什么是 RDD
一个容错的可以并行执行的分布式处理集
如何创建 RDD
RDD 算子
RDD 依赖
RDD 执行流程
调度器
内存管理
多任务间内存分配
Shuffle
SortShuffleManager
External Shuffle Service
SparkSQL 原理解析
这里就是第一节课的内容了
Catalyst 优化器
RBO
语法树遍历->模式匹配->等价转换
CBO
Adaptive Query Excution
Coalescing Shuffle Partition
先设置比较大的 Partition 个数,然后后面再动态合并
Switch Join Strategies
Optimizing Skew Joins
Runtime Filter
这个和第一课里面讲的一样
Bloom Runtime Filter
Codgen
Expression
WholeStageCodegen
业界挑战与实践
Shuffle 稳定性问题
SQL 执行性能问题
参数推荐/作业诊断
总结
评论
GiscusTwikoo