相关链接

大数据处理引擎 Spark

大数据处理技术栈

image-20220817222324080

常见大数据处理链路

image-20220817222744155

开源大数据处理引擎

image-20220817222843346

什么是 Spark?

image-20220817222925889

用于大规模数据处理的统一分析引擎

Spark 版本演进

image-20220817223231405

Spark 生态 & 特点

image-20220817223633042

Spark 特点

多语言支持

image-20220817223850913

丰富数据源

image-20220817223905154

丰富的 API/算子

image-20220817223951555

Spark 运行架构

image-20220817224044381

Spark 下载编译

image-20220817224441404

Spark 包概览

image-20220817224458669

Spark 提交命令

image-20220817224728662

提交一个简单任务

image-20220817224808279

Spark UI

image-20220817224822373

Spark 性能 benchmark

image-20220817225019259

SparkCore 原理解析

SparkCore

image-20220817225107076

什么是 RDD

image-20220817225142505

一个容错的可以并行执行的分布式处理集

如何创建 RDD

image-20220817225631111

RDD 算子

image-20220817225729031

RDD 依赖

image-20220817225816895

image-20220817230123451

RDD 执行流程

image-20220817230317724

调度器

image-20220817230423988

内存管理

image-20220817230702089

多任务间内存分配

image-20220817231050716

Shuffle

image-20220817231111760

SortShuffleManager

image-20220817231448631

External Shuffle Service

image-20220818101011256

SparkSQL 原理解析

image-20220818101209968

这里就是第一节课的内容了

Catalyst 优化器

image-20220818102630963

RBO

image-20220818102719914

语法树遍历->模式匹配->等价转换

image-20220818102904355

CBO

image-20220818103119864

Adaptive Query Excution

image-20220818103516571

Coalescing Shuffle Partition

image-20220818103553998

先设置比较大的 Partition 个数,然后后面再动态合并

Switch Join Strategies

image-20220818103719405

Optimizing Skew Joins

image-20220818103823071

Runtime Filter

image-20220818103948049

这个和第一课里面讲的一样

Bloom Runtime Filter

image-20220818104101402

Codgen

Expression

image-20220818104245927

WholeStageCodegen

image-20220818104357518

image-20220818104509166

业界挑战与实践

Shuffle 稳定性问题

image-20220818104557100

image-20220818104623113

SQL 执行性能问题

image-20220818104724462

image-20220818104953694

image-20220818105018802

参数推荐/作业诊断

image-20220818105045513

总结

image-20220818105249746