相关链接

image-20220823102905340

image-20220823103044121


YARN 概述

初识调度系统

场景导入

image-20220823103235842

一种简易分配模型

image-20220823103345559

优化的分配模型

image-20220823103505328

image-20220823103826152

调度系统演进

调度系统发展的背景

image-20220823104116559

调度系统解决的问题

image-20220823104139130

调度系统预达的目标

image-20220823104218756

调度系统模型

image-20220823104559558

主要是前两者用的比较多

YARN 设计思想

演化背景

image-20220823104833882

离线生态

image-20220823104816989

面临挑战

image-20220823104921783

YARN 整体架构

系统架构

image-20220823105023876

任务运行生命周期核心流程

image-20220823105201344

这里视频里讲得很清楚

Client 把任务提交到 Resource Manager,然后 RM 会拉起 AM

AM 再用心跳交互资源的申请和分配,再去拉起对应的节点

运行中,AM 会监控,运行结束后 AM 会向 RM 注销

核心模块

image-20220823105724705

Resource Manager

整体架构

image-20220823110034854

主要职责

image-20220823110045546

状态机管理

RMApp 状态机

image-20220823110203357

RMAppAttempt

image-20220823110959340

RMContainer

image-20220823111056231

RMNode

image-20220823111202879

调度器分析

任务/资源组织

image-20220823111249702

调度流程

image-20220823111333763

典型调度器

image-20220823152910301

Node Manager

整体架构

image-20220823153446244

主要职责

image-20220823153819262

状态机管理

Application

image-20220823154025937

Container

image-20220823154123565

LocalizedResource

image-20220823154225240

节点健康检测机制

image-20220823154249543

重要机制

image-20220823154528524

image-20220823154617731

调度策略

Fair Share 调度策略背景

image-20220823154638767

Instantaneous Fair Share 定义

image-20220823155033681

Instantaneous Fair Share 计算逻辑

image-20220823155655336

DRF 调度策略

image-20220823155726905

DRF 调查策略描述

image-20220823155901095

DRF 调度策略计算逻辑

image-20220823160046378

事件机制

状态机管理

image-20220823160208072

事件处理模型

image-20220823160558398

容错机制

image-20220823160723852

公司实践

Gang 调度器

image-20220823161900517

为什么要开发 Gang 调度器

image-20220823160910496

Gang 调度器有什么典型特点

image-20220823161038440

Gang 调度器调度流程

image-20220823161140829

字节内部使用场景

image-20220823161300394

反调度器

image-20220823161920007

为什么需要开发反调度器

image-20220823161319262

反调度流程

image-20220823161344162

反调度器与 Gang 调度器关系

image-20220823161425460

字节内部使用场景

image-20220823161435545

单集群规模突破 50K

image-20220823161504101

为什么需要提升单集群规模

image-20220823161540024

RPC 瓶颈

image-20220823161628711

Dispatcher 瓶颈

image-20220823161635954

Scheduler 瓶颈

image-20220823161649487

心跳反压机制

image-20220823161720476

其他优化

image-20220823161820950

课程总结

image-20220823161844259