『字节青训营-4th-大数据』L11:数据湖三剑客:Delta Lake、Hudi 与 Iceberg 详解
相关链接
🎶 学员手册:【大数据专场 学习资料四】第四届字节跳动青训营 - 掘金
发展历史
数据湖发展阶段1 - Hadoop
数据湖发展阶段2 - Hive
数据湖发展阶段3 - 湖仓一体
存储计算不分离、结构化数据
业界三大数据湖
关于“数据湖”
核心技术
文件结构
Time travel
Transaction
原子性
事务隔离
Schema Evolution
各有所长
Iceberg
Well-designed Metadata Layer
s1 比 s0 多的就是最右边的一个 manifest file,而对应的就是最右边的 data files
Data File Filter
Hidden Partition
Hudi
Timeline Service & Upsert & Incremental
这里建议看原视频,讲的还是很清楚的
Copy On Write
更新的时候把所有列读到内存,改完再塞回去
Merge On Read
更新的时候把变动放到旁边,然后读的时候再合并
Delta Lake
流批一体
总结场景
三个数据湖的异同
三个数据湖的热度
技术选型
字节场景举例
课程总结
评论
GiscusTwikoo