相关链接

image-20220821155352177

image-20220821155437887

image-20220821155508448

image-20220821155556171

image-20220821155618924

image-20220821155704412


列存 vs 行存

数据格式层概述

image-20220821155817550

分层视角下的数据形态

image-20220821155902639

两种数据查询分析场景:OLTP vs OLAP

image-20220821155947223

OLTP:行式存储格式

image-20220821160112162

OLAP:列式存储格式

image-20220821160207772

总结

image-20220821160320631

Parquet 原理解释

Parquet 简介

image-20220821160357634

Parquet in Action

DDL

image-20220821160439203

Spark

image-20220821160537221

image-20220821160555682

Parquet vs Text Format

image-20220821160630277

做了压缩,而且性能反而还会有提升

image-20220821195643599

Dremel 数据模型

image-20220821201734825

image-20220821201804781

数据布局

image-20220821201927924

编码 Encoding

image-20220821202036022

列基数不大:去重后的数据不多

image-20220821202313430

压缩 Compression

image-20220821202347632

image-20220821202459437

索引 Index

image-20220821202533711

image-20220821202637503

这东西在第一节课也出现了

排序 Ordering

image-20220821202756950

过滤下推 Predicate PushDown

image-20220821202858726

Spark 集成 - 向量化读

image-20220821203009869

深入 Dremel 数据模型

image-20220821203054686

老师说听不懂没关系,哈哈哈

image-20220821203257754

image-20220821203401246

小结

image-20220822102926200

ORC 详解和对比

ORC 简介

image-20220822103108934

数据模型

image-20220822103117638

image-20220822103219545

数据布局

image-20220822103327796

ACID 特性简介

image-20220822103355362

AliORC

image-20220822103747286

索引增强

image-20220822103814354

小列聚合

image-20220822103937393

异步读取

image-20220822104204283

思考

image-20220822104228724

Parquet vs ORC

image-20220822104311813

性能

image-20220822104354024

image-20220822104436946

选择

image-20220822104448701

小结

image-20220822104545189

列存演进

数仓中的列存

image-20220822104722224

存储侧下推

image-20220822104848668

Column Family 支持

image-20220822104949440

总结

image-20220822105000098