相关链接

image-20220820181812775

image-20220820182019069


发展历史

数据湖发展阶段1 - Hadoop

image-20220820182152419

image-20220820182319407

数据湖发展阶段2 - Hive

image-20220820182426800

image-20220820182507156

数据湖发展阶段3 - 湖仓一体

image-20220820182647320

存储计算不分离、结构化数据

image-20220820182713372

image-20220820182842902

业界三大数据湖

image-20220820182921250

image-20220820182943156

image-20220820183022508

关于“数据湖”

image-20220820183110823

核心技术

文件结构

image-20220820183318059

image-20220820183414102

Time travel

image-20220820183429862

image-20220820183509195

image-20220820183544451

Transaction

image-20220820183837033

image-20220820183903330

image-20220820183943915

原子性

image-20220820184204725

事务隔离

image-20220820184433319

Schema Evolution

image-20220820184441068

image-20220820184538317

image-20220820184832961

image-20220820184841337

各有所长

Iceberg

image-20220820184901022

Well-designed Metadata Layer

image-20220820184945132

s1 比 s0 多的就是最右边的一个 manifest file,而对应的就是最右边的 data files

Data File Filter

image-20220820185227251

Hidden Partition

image-20220820185431385

Hudi

image-20220820185655322

Timeline Service & Upsert & Incremental

image-20220820185748727

这里建议看原视频,讲的还是很清楚的

Copy On Write

image-20220820190058620

更新的时候把所有列读到内存,改完再塞回去

Merge On Read

image-20220820190217330

更新的时候把变动放到旁边,然后读的时候再合并

Delta Lake

image-20220820190438203

流批一体

image-20220820190519682

总结场景

三个数据湖的异同

image-20220820190655638

三个数据湖的热度

image-20220820190807973

技术选型

image-20220820190840332

字节场景举例

image-20220820191026714

image-20220820191144440

image-20220820191235197

课程总结

image-20220820191308863