Лента
Технический блог про ETL, Data Engineering, Big Data и OSINT: практические разборы, архитектурные заметки, инструменты и кейсы из реальной работы от компании ETLdata.ru
Нормализация текста и дедуп по смыслу как основа полезной ленты событий
Текстовые внешние данные почти всегда “грязные” даже тогда, когда визуально всё выглядит нормально. Внутри могут быть лишние блоки, HTML, повторяющиеся вставки, разные кодировки и разные способы написания дат и чисел.
Внешние данные: почему «собрать» — это ещё не сделать продукт
Внешние источники выглядят привлекательными, потому что данные вроде бы “лежат в открытом доступе”.
Инциденты данных: почему важна классификация, а не паника
Инциденты в данных неизбежны, и главная проблема обычно не в самом инциденте, а в хаотичном разборе.
Наблюдаемость в данных: что важно видеть каждый день
Платформа данных становится настоящей системой только тогда, когда её состояние видно. Если единственный сигнал — “DAG зелёный”, вы не защищены от ситуаций, когда данные приехали частично, в неправильном формате или с дублями.
Late arriving data: как жить с тем, что данные приходят позже
Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой.
Инкрементальные загрузки: почему «забираем только новое» часто ломает данные
Инкремент кажется простым до тех пор, пока вы не сталкиваетесь с реальностью источников. Поле updated_at может обновляться массово, события могут приезжать с задержкой, а один и тот же объект может приходить повторно.
Kimball и Data Vault: не выбор религии, а разделение задач
Kimball удобен там, где бизнес хочет быстро получить понятные витрины, а сущности и показатели относительно стабильны. Это “модель для потребления”, которая делает аналитику доступной и предсказуемой.
SCD Type 2: как сохранять историю так, чтобы её понимали
История в данных нужна почти всегда, но часто её начинают “добавлять потом”, когда уже поздно и дорого.
Почему бизнесу не нужен «чистый DV», но он всё равно полезен
Одна из типовых ошибок — пытаться посадить BI напрямую на хабы, линки и сателлиты.