CDC, incremental loads и late arriving data: продовый ETL и оркестрация в 2026
Change Data Capture (CDC) через Debezium + Kafka стал стандартом incremental ingestion в 2026 году.
Вместо тяжёлых full loads — лёгкий capture изменений из transaction logs, что снижает нагрузку на источники в 10+ раз. Инкрементальные пайплайны в dbt + Airflow/Dagster обрабатывают late arriving data: записи с задержкой попадают в сателлиты Data Vault или PIT-таблицы, а compensating logic автоматически обновляет агрегаты.
Оркестрация дата-систем эволюционировала: Dagster и Temporal обеспечивают сложные dependency graphs, retries, backfills и human-in-the-loop approvals.
Продовый ETL подразумевает: exactly-once semantics, schema enforcement в Iceberg, data quality gates перед загрузкой в DWH/витрины и observability на каждом шаге. Внешние данные и OSINT-продукты интегрируются через API-ingestion + CDC-like polling. Надёжность достигается через idempotency, versioning (time travel) и automated rollback. Пример: Kafka → Spark Streaming → Delta Lake (raw) → dbt (Data Vault) → Trino (витрины). Late arriving data обрабатывается через effective_from / load_datetime и reconciliation jobs.
В 2026 DE-команды фокусируются на автономных пайплайнах: AI-агенты генерируют часть кода, а инженеры — архитектуру и governance. Это позволяет масштабировать от тысяч до миллионов событий в секунду без простоев.