Трансформация и хранение данных

Основа для работы BI-системы
Современное аналитическое решение умеет работать с данными, где бы они ни находились — локально или в облаке, в одном дата-центре или на разных континентах. Даже если данных много, аналитические отчеты могут создаваться мгновенно.

Все больше приложений и устройств создают данные, котрые нужно использовать. Традиционный подход, где подготовка и перемещение данных происходит через централизованное хранилище и выполняется с помощью одной платформы, больше не отвечает требованиям бизнеса. Современные и масштабируемые решения требуют применения широкого спектра технологий и экостстем.
ETL & CDC
Традиционный путь преобразования данных, который получил название ETL (англ. Extract, Transform, Load), предполагает такие этапы, как загрузка, очистка, мэппинг, консолидация и выгрузка в конечное приложение. Сегодня быстро развивается технология CDC (англ. Change Data Capture), основанная на отслеживании изменений данных в источнике, что позволяет обрабатывать большие наборы сырых данных в реальном времени. Использование технологии CDC вместе с автоматизированными преобразованиями данных помогает синхронизировать информацию в конечных приложениях и в источниках.
Python и фреймфорки
Простота Python и множество открытых библиотек сделали этот язык программирования самым распространенным инструментом для анализа данных. С помощью Python удобно создавать скрипты для загрузки и трансформации данных (ETL), которые способны расширить те возможности, которые обычно встроены в BI-платформы. Свободно распространяемые библиотеки и фреймворки, как, например, Airflow, помогают автоматизировать выполнение задач по управлению данными и ETL.
Быстрые СУБД
Транзакционные СУБД не могут мгновенно отдать данные в ответ на аналитический запрос, так как создавались для другого сценария работы. Их задача — сохранять на диске идущие потоком небольшие порции данных и подтверждать их целостность (OLTP-сценарий). Для выполнения аналитических запросов (OLAP-сценарий) применяются СУБД, где информация хранится иначе и может извлекаться гораздо быстрее. Это возможно благодаря колончатой структуре хранения, технологии in-memory и другим способам оптимизации выполнения аналитических запросов.

Альтернативные решения

Экосистема Hadoop
Вокруг Hadoop, фреймворка для масштабирования обработки и хранения данных на больше число компьютеров, сложилась экосистема из проектов и технологий. Входящие в экосистему продукты с открытым исходным кодом способны решить широкий круг задач, типичных для трансформации и хранения корпоративных данных. Экосистему Hadoop сегодня поддерживает большинство поставщиков облачных хранилищ и смежных решений, среди которых Amazon, Microsoft, Mail.ru Cloud Solutions, Qlik, Tableau.
Виртуализация и микросервисная архитектура
Выполнение аналитических приложений и сервисов в контейнерах помогает резко сократить время, которое требуется для их переноса из тестовой среды в продуктивную. Это помогает ускорить интеграцию бизнес-приложений, быстро вводить новые показатели и подключать новые источники данных. Управление системными ресурсами для контейнеров упрощает масштабирование решений. Контейнеризация открывает новые возможности встраивать обработку данных в существующие бизнес-процессы.
Послойная трансформация
Данные на разных этапах трансформации хранятся отдельно. Созданные показатели передаются из модели в модель, что позволяет фильтровать, обогащать, очищать и выполнять другие преобразования независимо в каждом слое. Это помогает сделать работу с данными прозрачной, а единые правила хранения внутри одного слоя упрощают разработку, так как ETL-процессы можно контролировать отдельно. Решения обладают высокой масштабируемостью — к ним можно без ущерба для производительности подключить любое количество источников данных.

Почему именно такие инструменты и технологии?

  • Технология достигла необходимой для использования в корпоративной среде зрелости.
  • На рынке труда доступны специалисты высокой квалификации.
  • Способны решить задачи, которые типичны для средних и крупных организаций.
  • Есть готовые практики встраивания в существующие бизнес-процессы компаний из разных отраслей.
  • Развитие технологии или экосистемы предсказуемо.
  • Просто организовать развитие и поддержку использующего технологию решения.
  • Помогут создать конкурентные преимущества уже сегодня.