『字节青训营-4th』L2:流/批/OLAP 一体的 Flink 引擎介绍
相关链接
🎶 学员手册:【大数据专场 学习资料一】第四届字节跳动青训营 - 掘金
Flink 概述
Apache Flink 的诞生背景
什么是大数据
大数据计算架构发展历史
Hadoop 那里就是谷歌发的 3 篇论文,GFS, Map-Reduce 等
为什么需要流式计算
简单地说,就是业内需要流式计算,然后就有了 Flink
为什么 Apache Flink 会脱颖而出
流式计算引擎发展历程
流式计算引擎对比
- At Least Once :能保证数据至少能被处理一次
- At Most Once :数据最多被处理一次(可能没处理到)
StateFul:不再依赖外部系统存储状态
Why Flink
牛啤一体可还行(
Apache Flink 开源生态
最左边:Flink 可以高性能地使用很多存储引擎
中间框:内部架构设计,下面会说
下面:部署模式
上面:基于 Flink 的其他框架
Flink 整体架构
Flink 分层架构
最上面: SDK
- SQL 相关 API
- Stream 相关 API
- python 的 API
中间:执行引擎层
Flink 总体架构
这张图很重要,必须要熟悉
首先你的代码会在客户端转为一张 DAG 图(逻辑执行图),然后发给 JM ,JM 转为物理执行图,并且根据这个图把不同的 task 调度到各个的 TM 中执行
slot:插槽
Flink 作业示例
这个示例就是一个 hello world 类示例
每个 Slot 是单独的一个线程在执行
Flink 如何做到流批一体
为什么需要流批一体
流批一体的挑战
Flink 如何做到流批一体
流批一体的 Scheduler 层
12 个(
下面是最新的调度机制
BLOCKING:数据不是实时传过去的,执行完先落盘,然后可以释放该节点的资源,分给下个节点
PIPELINED:不落盘
流批一体的 Shuffle Service 层
Shuffle:用来连接上下游交换数据的过程
Flink 流批一体总结
Flink 架构优化
流/批/OLAP 业务场景概述
为什么三种场景可以用一套引擎解决
Flink 如何支持 OLAP 场景
Flink 做 OLAP 的优势
Flink OLAP 场景的挑战
Flink OLAP 架构现状
Flink 在 OLAP 架构的问题和设想
总结
精选案例讲解
电商流批一体实践
字节 Flink OLAP 实践
课程总结
评论
GiscusTwikoo