相关链接

image-20220817105309948

image-20220817105315118

概述

流式计算 VS 批式计算

image-20220817105616383

资源模型:批式跑完资源就释放了,流式是必须一直都占用的

批处理

image-20220817110000806

T+1:加 1 天

image-20220817110140679

处理时间窗口

image-20220817110153127

处理时间 VS 时间时间

image-20220817110226171

事件事件窗口

image-20220817110312929

有些数据会有延迟

Watermark

image-20220817110407083

小结

image-20220817110516141

(感觉有点没听懂😂)

Watermark

什么是 Watermark

image-20220817110556015

如何产生 Watermark

image-20220817110631779

如何传递 Watermark

image-20220817110717150

每个算子根据上游输入的最小值

image-20220817110847127

典型问题一

image-20220817110935232

典型问题二

image-20220817111220241

部分的分区断流(故障、晚上业务少等)的问题

典型问题三

image-20220817111446426

Window

Window 分类

image-20220817111728587

Window 使用

image-20220817112259775

滚动窗口

image-20220817113252597

滑动窗口

image-20220817113538880

会话窗口

image-20220817113856207

迟到数据

image-20220817122223906

image-20220817122443580

增量 VS 全量计算

image-20220817122722076

EMIT 触发

image-20220817122941523

小结

image-20220817123138525

优化机制

Mini-batch 优化

image-20220817123229004

image-20220817123446298

让算子攒一小批,然后再处理,避免高频读写

但是这样也会增加延迟,所以实际上会进行全局的协调

倾斜优化 local-global

image-20220817175901177

Distinct 计算状态复用

image-20220817180035841

(听得不是很懂,还是建议看原视频)

image-20220817180330209

Pane 优化

image-20220817180450789

在滑动窗口里,每一条数据可能属于多个窗口

image-20220817180557292

小结

image-20220817180809010

案例分析

(基于真实场景的抽象)

需求一

image-20220817180916823

image-20220817181300384

image-20220817181516597

需求二

image-20220817181631839

image-20220817181640002

image-20220817181736968

课程总结

image-20220817181757807