一、Parquet格式的特点与优势 1. 列式存储架构 核心特点:数据按列存储,同一列的数据连续存储在文件中,而非行式存储的“整行连续存储”。 优势: 查询性能高:仅读取查询所需列的数据,减少I/O量(如SELECT name FROM table仅扫描name列)。 压缩效率高:同一列数据类型一致,更易通过字典编码、行程长度编码(RLE)等压缩算法实现高压缩比(通常压缩比为5-10倍),减少存储成本。 支持谓词下推:在Hive中,谓词(如WHERE age > 18)可直接在Parquet文件的页级或行组级元数据中过滤,避免全量扫描。 2. 高效的数据编码与压缩 编码方式: 字典编码<