『字节青训营-4th-大数据』L5：Spark 原理与实践

发表于2022-07-30|更新于2023-08-15|青训营字节跳动-4th-大数据

|字数总计:328|阅读时长:1分钟

相关链接

🎶 学员手册：【大数据专场学习资料二】第四届字节跳动青训营

大数据处理引擎 Spark

大数据处理技术栈

常见大数据处理链路

开源大数据处理引擎

什么是 Spark？

用于大规模数据处理的统一分析引擎

Spark 版本演进

Spark 生态 & 特点

Spark 特点

多语言支持

丰富数据源

丰富的 API/算子

Spark 运行架构

Spark 下载编译

Spark 包概览

Spark 提交命令

提交一个简单任务

Spark UI

Spark 性能 benchmark

SparkCore 原理解析

SparkCore

什么是 RDD

一个容错的可以并行执行的分布式处理集

如何创建 RDD

RDD 算子

RDD 依赖

RDD 执行流程

调度器

内存管理

多任务间内存分配

Shuffle

SortShuffleManager

External Shuffle Service

SparkSQL 原理解析

这里就是第一节课的内容了

Catalyst 优化器

RBO

语法树遍历->模式匹配->等价转换

CBO

Adaptive Query Excution

Coalescing Shuffle Partition

先设置比较大的 Partition 个数，然后后面再动态合并

Switch Join Strategies

Optimizing Skew Joins

Runtime Filter

这个和第一课里面讲的一样

Bloom Runtime Filter

Codgen

Expression

WholeStageCodegen

业界挑战与实践

Shuffle 稳定性问题

SQL 执行性能问题

参数推荐/作业诊断

总结

字节青训营

评论

GiscusTwikoo

数据库加载中