『字节青训营-4th-大数据』L7:Presto 架构原理与优化介绍
相关链接
🎶 学员手册:【大数据专场 学习资料三】第四届字节跳动青训营 - 掘金
概述
大数据与 OLAP 的演进
廉价机器:可以做到成本与性能的线性增长
存算分离:存储节点和计算节点可以不在一台物理机上
预计算:用空间换时间
Presto 设计思想
小结
Presto 架构原理与优化介绍
基础概念介绍
服务相关
- 黄色:数据源
- 绿色(深和浅):服务
- 蓝色:用户
数据源相关
Query 相关
数据传输相关
核心组件架构介绍
服务发现
通信协议
代表了我想要关闭(当前手上还有东西,设置为此状态时,不会再安排新 task ,设定一个超时时间,过后关闭)
小结
Presto 重要机制
多租户资源管理
Case 介绍
Resource Group
(这里在解读代码)
多租户下的任务调度
物理计划生成
Stage 调度
Task 调度
实际使用中 90% 都是第3种
Split 调度
内存计算
Pipeline 化数据处理
反压机制
多数据源联邦查询
小结
性能优化实战
常用性能分析工具
阿里巴巴开源的一个线上查询工具
万物皆可火焰图(
具体案例分析
Case 1
每一段上去都有一个 copy 方法
说白了就是这个函数有问题
Case 2
某些情况下,正则表达式的匹配是非常耗时的
字节内部优化实践
Multi Coordinator
History Server
Support Remote UDF
Raptor X 的多级缓存
小结
评论
GiscusTwikoo