Lakehouse vs Data Warehouse в 2026: что выбирать DE-команде для моделирования DWH и витрин

Моделирование DWH и витрины Опубликовано: 22.04.2026 21:23 #32

К 2026 году границы между lakehouse и классическим data warehouse окончательно размылись, но выбор архитектуры остаётся ключевым для data engineering.

Классический warehouse (Snowflake, Redshift, BigQuery) — это вертикально интегрированная система с проприетарным форматом, отличным query optimizer, predicate pushdown и автоматическим материализованными витринами. Идеально для BI-дашбордов и ad-hoc SQL: ответы за секунды, зрелая интеграция с Tableau/Looker/Power BI, минимальная операционная нагрузка. Минусы — vendor lock-in, высокая стоимость хранения ($20–40/TB/мес) и сложность миграции петабайтных данных.

Lakehouse (Delta Lake, Iceberg, Hudi на S3/GCS) разделяет storage и compute: открытые Parquet-файлы + табличный слой с транзакциями, time travel, schema enforcement. Данные ваши, стоимость хранения в 10–20 раз ниже, легко подключать Spark, Trino, DuckDB, Ray для ML. Прекрасно работает с мультимодальными данными, streaming из Kafka и feature stores. Минусы — требуется compaction, vacuum, управление мелкими файлами и дополнительная настройка для интерактивной аналитики. Реальность 2026: гибридные подходы доминируют.

Сырые данные и тяжёлые трансформации — в lakehouse (Iceberg), горячие витрины — реплицируются в warehouse. Snowflake и BigQuery уже поддерживают External Iceberg Tables, Databricks добавил Serverless SQL Warehouses. dbt работает с обоими, обеспечивая единые пайплайны. Выбор зависит от сценария: BI-heavy — warehouse, ML + streaming + масштаб — lakehouse. Главный тренд — Iceberg как точка конвергенции, дающая свободу compute без миграции данных.

Все из категории ← Назад в ленту