『字节青训营-4th-大数据』L8:HDFS 原理与应用
相关链接
🎶 学员手册:【大数据专场 学习资料三】第四届字节跳动青训营 - 掘金
HDFS 基本介绍
HDFS: Hadoop Distribute File System,是 Hadoop 的一个组件
Windows 单机文件系统
Linux 单机文件系统
分布式文件系统
分布式存储系统
HDFS 功能特性
演示环境
前面两个组件是为了高可用的,本节课主要放在 NameNode 和 DataNode 上
(一个演示视频)
架构原理
HDFS 组件
Client 写流程
Client 读流程
元数据节点 NameNode
知道 NameNode 很重要就可以了(
数据节点 DataNode
关键设计
NameNode 目录树维护
思考题:为什么不直接在硬盘上修改 fsimage ?
NameNode 数据放置
(一个关于 block 的演示视频)
DataNode
后面两个绿框里面的编号是通过哈希算出来的
HDFS 写异常处理
Lease Recovery
租约(Lease)就是一个锁
Pipeline Recovery
这是非常复杂的一部分
Client 读异常处理
旁路系统
异步地解决积累的问题
控制面建设
应用场景
使用 HDFS 的公司
初窥大数据生态
演示:PySpark 读写 HDFS 文件
(一个演示视频)
ETL
OLAP 查询引擎
查询引擎很多种,但是都是要对 HDHS 提供支持
HBase
机器学习
通过存储应用
评论
GiscusTwikoo