timlid.ru | блог про Data Engineering Заметки, инструменты и кейсы из реальной работы

CDC, incremental loads и late arriving data: продовый ETL и оркестрация в 2026

Инкремент, CDC и late arriving data Опубликовано: 25.04.2026 10:47 #35

Change Data Capture (CDC) через Debezium + Kafka стал стандартом incremental ingestion в 2026 году. 

Вместо тяжёлых full loads — лёгкий capture изменений из transaction logs, что снижает нагрузку на источники в 10+ раз. Инкрементальные пайплайны в dbt + Airflow/Dagster обрабатывают late arriving data: записи с задержкой попадают в сателлиты Data Vault или PIT-таблицы, а compensating logic автоматически обновляет агрегаты. 

Оркестрация дата-систем эволюционировала: Dagster и Temporal обеспечивают сложные dependency graphs, retries, backfills и human-in-the-loop approvals. 

Продовый ETL подразумевает: exactly-once semantics, schema enforcement в Iceberg, data quality gates перед загрузкой в DWH/витрины и observability на каждом шаге. Внешние данные и OSINT-продукты интегрируются через API-ingestion + CDC-like polling. Надёжность достигается через idempotency, versioning (time travel) и automated rollback. Пример: Kafka → Spark Streaming → Delta Lake (raw) → dbt (Data Vault) → Trino (витрины). Late arriving data обрабатывается через effective_from / load_datetime и reconciliation jobs. 

В 2026 DE-команды фокусируются на автономных пайплайнах: AI-агенты генерируют часть кода, а инженеры — архитектуру и governance. Это позволяет масштабировать от тысяч до миллионов событий в секунду без простоев.