Hive 表 Parquet & Orc 性能测试
说明
数据格式: 复杂的多层Json格式
数据记录数:60207297
数据大小:79.0G
数据压缩方式: Snappy
运行环境:
1.21 PB Disk
960 GB Memory
480 VCores
Spark on Yarn
executor-memory: 4g
num-executors: 100
容量对比
Parquet | Orc | |
---|---|---|
NONE | 230.3G | |
Uncompressed | 236.1G | |
SNAPPY | 73.1G | 73.0G |
Gzip | 46.6G | |
ZLIB | 51.7G |
写入时长
Parquet | Orc | |
---|---|---|
NONE | 22:34 | |
Uncompressed | 21:02 | |
SNAPPY | 19:10 | 19:43 |
Gzip | 27:30 | |
ZLIB | 21:59 |
查询时长
-
count 查询(单位: 秒)
Parquet Orc NONE 21.995 Uncompressed 93.029 SNAPPY 44.186 15.558 Gzip 49.277 ZLIB 14.86 -
过滤字段不为空查询(单位: 秒)
Parquet Orc NONE 0.175 Uncompressed 0.22 SNAPPY 0.201 0.185 Gzip 0.184 ZLIB 0.171 -
json 查询 (单位: 秒)
Parquet Orc NONE 0.178 Uncompressed 0.23 SNAPPY 0.203 0.179 Gzip 0.184 ZLIB 0.183