Parquet es un formato de archivo para datos estructurados, diseñado para guardar y consultar datos de manera eficiente. Similar a CSV pero mucho más eficaz en términos de almacenamiento y lectura.
Tiene dos particularidades importantes:
- Tipado estricto — como SQL, cada columna debe respetar un mismo formato en sus valores
- Metadatos por columna — incluye una capa de metadatos que describe cada columna, sin necesidad de leer el archivo completo para entenderlo
Su característica más poderosa: almacena los datos físicamente por columna, no por fila. Esto lo hace naturalmente compatible con olap — leer una columna entera es eficiente porque los valores están contiguos en disco, sin necesidad de saltar entre filas.
¿Para qué se usa?
Se ha vuelto el formato estándar para compartir datos y guardarlos en object-storage. Es la base de los data warehouses modernos — los archivos Parquet viven en storage y motores como duckdb los consultan directamente sin importarlos.