『字节青训营-4th-大数据』L4:流计算中的 Window 计算
概述
流式计算 VS 批式计算
资源模型:批式跑完资源就释放了,流式是必须一直都占用的
批处理
T+1:加 1 天
处理时间窗口
处理时间 VS 时间时间
事件事件窗口
有些数据会有延迟
Watermark
小结
(感觉有点没听懂😂)
Watermark
什么是 Watermark
如何产生 Watermark
如何传递 Watermark
每个算子根据上游输入的最小值
如何通过 Flink UI 观察 Watermark
典型问题一
典型问题二
部分的分区断流(故障、晚上业务少等)的问题
典型问题三
Window
Window 分类
Window 使用
滚动窗口
滑动窗口
会话窗口
迟到数据
增量 VS 全量计算
EMIT 触发
小结
优化机制
Mini-batch 优化
让算子攒一小批,然后再处理,避免高频读写
但是这样也会增加延迟,所以实际上会进行全局的协调
倾斜优化 local-global
Distinct 计算状态复用
(听得不是很懂,还是建议看原视频)
Pane 优化
在滑动窗口里,每一条数据可能属于多个窗口
小结
案例分析
(基于真实场景的抽象)
需求一
需求二
课程总结
评论
GiscusTwikoo