知识共享许可协议
本作品采用知识共享署名-非商业性使用-禁止演绎 3.0 未本地化版本许可协议进行许可。

Hive 表 Parquet & Orc 性能测试

说明
数据格式: 复杂的多层Json格式
数据记录数:60207297
数据大小:79.0G
数据压缩方式: Snappy

运行环境:
    1.21 PB Disk
    960 GB Memory
    480 VCores
    Spark on Yarn

    executor-memory: 4g
    num-executors: 100
容量对比
Parquet Orc
NONE 230.3G
Uncompressed 236.1G
SNAPPY 73.1G 73.0G
Gzip 46.6G
ZLIB 51.7G
写入时长
Parquet Orc
NONE 22:34
Uncompressed 21:02
SNAPPY 19:10 19:43
Gzip 27:30
ZLIB 21:59
查询时长
  • count 查询(单位: 秒)

    Parquet Orc
    NONE 21.995
    Uncompressed 93.029
    SNAPPY 44.186 15.558
    Gzip 49.277
    ZLIB 14.86
  • 过滤字段不为空查询(单位: 秒)

    Parquet Orc
    NONE 0.175
    Uncompressed 0.22
    SNAPPY 0.201 0.185
    Gzip 0.184
    ZLIB 0.171
  • json 查询 (单位: 秒)

    Parquet Orc
    NONE 0.178
    Uncompressed 0.23
    SNAPPY 0.203 0.179
    Gzip 0.184
    ZLIB 0.183