相关链接

HDFS 基本介绍

image-20220805161912247

HDFS: Hadoop Distribute File System,是 Hadoop 的一个组件

Windows 单机文件系统

image-20220805162305140

Linux 单机文件系统

image-20220805162329346

分布式文件系统

image-20220805162403372

分布式存储系统

image-20220805162531255

HDFS 功能特性

image-20220805162604813

演示环境

image-20220805162916571

前面两个组件是为了高可用的,本节课主要放在 NameNode 和 DataNode 上

image-20220805163201246

image-20220805163327315

(一个演示视频)

架构原理

HDFS 组件

image-20220805163434128

Client 写流程

image-20220805163651544

Client 读流程

image-20220805164149196

元数据节点 NameNode

image-20220805164230703

知道 NameNode 很重要就可以了(

数据节点 DataNode

image-20220805164421250

关键设计

image-20220805164751957

NameNode 目录树维护

image-20220805165457079

思考题:为什么不直接在硬盘上修改 fsimage ?

NameNode 数据放置

image-20220805165859832

image-20220805170018806

(一个关于 block 的演示视频)

DataNode

image-20220805170214529

后面两个绿框里面的编号是通过哈希算出来的

HDFS 写异常处理

Lease Recovery

image-20220805170654424

租约(Lease)就是一个锁

Pipeline Recovery

image-20220805171045180

这是非常复杂的一部分

Client 读异常处理

image-20220805171311362

旁路系统

异步地解决积累的问题

image-20220805171607913

控制面建设

image-20220805172008570

应用场景

使用 HDFS 的公司

image-20220805172053343

初窥大数据生态

image-20220805172141938

演示:PySpark 读写 HDFS 文件

image-20220805172445776

image-20220805172504273

(一个演示视频)

ETL

image-20220805172837456

OLAP 查询引擎

image-20220805172947072

查询引擎很多种,但是都是要对 HDHS 提供支持

HBase

image-20220805173030538

机器学习

image-20220805173059042

通过存储应用

image-20220805173152060