『字节青训营-4th-大数据』L13:Parquet 与 ORC:高性能列式存储
相关链接
🎶 学员手册:【大数据专场 学习资料五】第四届字节跳动青训营 - 掘金
列存 vs 行存
数据格式层概述
分层视角下的数据形态
两种数据查询分析场景:OLTP vs OLAP
OLTP:行式存储格式
OLAP:列式存储格式
总结
Parquet 原理解释
Parquet 简介
Parquet in Action
DDL
Spark
Parquet vs Text Format
做了压缩,而且性能反而还会有提升
Dremel 数据模型
数据布局
编码 Encoding
列基数不大:去重后的数据不多
压缩 Compression
索引 Index
这东西在第一节课也出现了
排序 Ordering
过滤下推 Predicate PushDown
Spark 集成 - 向量化读
深入 Dremel 数据模型
老师说听不懂没关系,哈哈哈
小结
ORC 详解和对比
ORC 简介
数据模型
数据布局
ACID 特性简介
AliORC
索引增强
小列聚合
异步读取
思考
Parquet vs ORC
性能
选择
小结
列存演进
数仓中的列存
存储侧下推
Column Family 支持
总结
评论
GiscusTwikoo