20.05.2026 ПУБЛИКАЦИИ

Что такое DWH (КХД) и как работает корпоративное хранилище данных

В статье рассказываем, что такое DWH и как работает корпоративное хранилище данных. Даем краткий алгоритм внедрения и описываем преимущества: что получает бизнес, используя DWH.

Что такое DWH простыми словами

DWH (Data Warehouse, корпоративное хранилище данных, КХД) – система, которая собирает, структурирует и обрабатывает данные из разных источников, а также готовит их для бизнес-аналитики и отчетности.
В большинстве компаний ведется учет всех данных, необходимых для принятия решений, но они хранятся в разных системах. При необходимости аналитики или отчетности возникают сложности:

  • Ручной сбор данных отнимает время и не исключает ошибок
  • Не все данные подходят для аналитики - их надо актуализировать, очистить, обогатить
  • Хранение исторических данных в операционных БД нецелесообразно, теряется часть важной информации
  • Готовые отчеты нужно ждать, и бизнес не может принимать своевременные решения на их основе

DWH решает проблемы сбора, хранения и быстрой доставки в BI как текущих, так и архивных данных компании.

Как работает Data Warehouse

  1. Источниками данных для хранилища могут выступать:

  • CRM-системы
  • ERP-системы
  • Базы данных
  • Excel-файлы
  • Личные кабинеты маркетплейсов
  • И другие системы
Управление запасами в BI-системе
2. С помощью процессов ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) данные извлекаются из источников, очищаются, преобразуются и загружаются в DWH

3. В хранилище данные приводятся к единой структуре, связываются между собой и формируются в витрины данных (data marts) - срезы данных, ориентированные на конкретную задачу бизнеса

4. Подготовленные данные становятся доступными для BI-аналитики, отчетности, а также используются в ML, AI и других data-проектах

Какие задачи решает корпоративное хранилище данных

Современная BI-аналитика в сочетании с единым корпоративным хранилищем данных открывает новые возможности для управления бизнесом.

Преимущества DWH для бизнеса

Примеры применения DWH в бизнесе

Корпоративные хранилища данных применяются в большинстве отраслей, где важно работать с большими объемами данных и строить аналитику по разным направлениям бизнеса

Проведем диагностику вашей аналитики

По мере роста компании качество данных начинает напрямую влиять на финансовые результаты и скорость принятия решений. Покажем, как упростить работу с данными и ускорить получение отчетов.

Архитектура DWH

Архитектура DWH описывает, как устроено хранилище: какие уровни в нем есть, как данные движутся от источников к потребителям, и какие сервисы обеспечивают эти процессы.

Трехуровневая модель DWH

Концептуально DWH представляет собой трехуровневую структуру:

  1. Нижний уровень (Bottom tier) — источники и инструменты интеграции. Здесь данные извлекаются из CRM, ERP, операционных БД, файлов и API
  2. Средний уровень (Middle tier) — сервер хранилища, в котором данные приводятся к единой структуре и подготавливаются для анализа
  3. Верхний уровень (Top tier) содержит потребители данных: BI, инструменты визуализации и отчетности, ML и AI, OLAP-кубы

Это базовая схема, которая показывает, как данные проходят путь от источников до бизнес-решений.
Для практической реализации ее детализируют — чаще всего через слоеную архитектуру LSA.
Трехуровневая модель DWH

Layered Scalable Architecture (LSA) - принцип слоеного пирога

Многоуровневая (слоеная) архитектура LSA – Layered Scalable Architecture — это развитие классической трехуровневой модели до конкретных слоев данных.

LSA содержит в себе:

  • Стейджинг и слой первичных данных (Staging / Primary Data Layer)
На стейджинге данные временно приземляются из источников «как есть», в Primary Data Layer сохраняются уже с историей изменений. Структура повторяет источник — без преобразований.

  • Операционный слой (ODS, Operational Data Store)
Опциональный слой между источниками и ядром. Содержит очищенные и интегрированные оперативные данные. Используется, когда бизнесу нужна near-real-time отчетность по операционным процессам.

  • Ядро хранилища (Core Data Layer)
Центральный слой DWH, в котором данные приводятся к единой системе ключей и атрибутов, обогащаются и сохраняются с историей. Здесь обеспечивается целостность, полнота и качество данных. Основной подслой — DDS (Detail Data Store) с максимально детализированными данными в единой модели.

  • Слой витрин данных (Data Mart Layer)
Витрины данных - структурированные наборы данных, собранные под конкретные задачи бизнеса и подразделения. Именно этот слой используется для аналитики в BI.
  • Сервисный слой (Service Layer)
Обеспечивает управление всеми уровнями хранилища. Включает оркестрацию, мониторинг, алертинг, логирование, сквозной аудит данных (data lineage) и каталог данных (data catalog).

Главный принцип LSA: каждый слой получает данные только из соседнего нижнего и может быть полностью пересобран из него без обращения к источникам. Это дает хранилищу устойчивость к изменениям и возможность масштабирования.
 Layered Scalable Architecture (LSA)

DWH в общей инфраструктуре данных - подход a16z

Архитектура DWH не существует в вакууме — хранилище встраивается в более широкую инфраструктуру работы с данными компании. Концепция Unified Data Infrastructure, предложенная фондом a16z, описывает эту инфраструктуру как единую платформу, в которой DWH играет роль слоя хранения (Storage) — единой версии правды для всех потребителей данных.
Подход рассматривает данные как стратегический актив: они перестают быть побочным результатом операций и становятся основой для принятия решений. Конкретные технологии для каждого слоя инфраструктуры подбираются под задачи компании.

Подробнее о подходе Unified Data Infrastructure →

Подходы к проектированию DWH

Подход к проектированию определяет, как именно смоделированы данные внутри хранилища. Выбор подхода к проектированию — это не только техническое, но бизнес-решение: от него зависят сроки реализации и стоимость дальнейшего развития DWH.

Хранилище по Кимбаллу – витрины под задачи бизнеса

DWH строится «снизу вверх»: сначала проектируются витрины данных под отдельные бизнес-направления (продажи, маркетинг, финансы), которые затем объединяются через общие измерения (conformed dimensions) в единое хранилище. В основе — денормализованные модели «Звезда» (star) и «Снежинка» (snowflake).

Когда подходит: нужно быстро получить результат по конкретным направлениям аналитики, бизнес готов идти итеративно
DWH по Кимбаллу

Централизованное хранилище по Инмону

Подход «сверху вниз»: сначала создаётся централизованное нормализованное хранилище на уровне всего предприятия (Enterprise Data Warehouse, EDW) в третьей нормальной форме (3NF), а уже из него формируются витрины под задачи подразделений.

Когда подходит: крупная компания с большим количеством доменов и высокими требованиями к согласованности данных, готовая инвестировать в долгий старт ради простой эволюции в будущем.
DWH по Инмону

Data Vault

Гибридный подход, сочетающий нормализацию по Инмону с гибкостью к изменениям источников. Современный стандарт — Data Vault 2.0 — это не только модель данных, но и методология (хеш-ключи, бизнес-правила, вынесенные на уровень витрин, и встроенная аудируемость).

Модель строится вокруг трех сущностей:

  • Hub — бизнес-объекты (клиенты, заказы)
  • Link — связи между объектами (например, факт оформления заказа клиентом)
  • Satellite — атрибуты и история изменений

Когда подходит: Много источников, схемы которых регулярно меняются; высокие требования к историчности и аудируемости (банки, телеком, госсектор).

Подробнее о проектировании DWH
Data Vault

Сравнение подходов

Спроектируем DWH под рост вашего бизнеса

Ошибки в архитектуре и стеке DWH обходятся в миллионы рублей на этапе масштабирования.
Поможем выбрать стек и архитектуру, которые не придется переделывать через год.

Основные компоненты стека DWH

DWH как централизованная система состоит из программных компонентов, каждый из которых отвечает за процессы обработки данных: загрузку из источников, трансформацию, хранение, подготовку к аналитике и т. д.

Обычно DWH строится на open-source стеке, так как такие инструменты дают необходимую для сложной аналитической системы гибкость, масштабируемость и сокращение затрат.

ETL и ELT: как данные попадают в хранилище

Данные не появляются в DWH сами по себе — за наполнение корпоративного хранилища отвечают ETL и ELT-процессы. Они позволяют автоматизировать поток данных и исключить их ручной сбор и обработку.

ETL (Extract → Transform → Load)

При таком подходе данные сначала извлекаются, затем трансформируются и только после этого загружаются в хранилище. Подход характерен для классических DWH, где важно контролировать качество данных до загрузки.
ETL

ELT (Extract → Load → Transform)

Данные сначала загружаются в хранилище, а затем обрабатываются внутри него. Подход используется в облачных платформах и хранилищах Data Lake, где есть мощные вычислительные ресурсы.
ELT
Выбор подхода и инструментов ETL и ELT зависит от требований проекта, объема данных, сложности трансформаций и доступных ресурсов. 

Подробнее об ETL/ELT-процессах → 

Чем DWH отличается от базы данных

От обычной базы данных корпоративное хранилище отличается следующими критериями:

  • Типы хранимых данных
Обычные базы хранят данные строго для определенных подсистем, DWH - данные, преобразованные для разных задач бизнеса.

  • Объемы данных
Стандартная БД содержит ограниченный объем данных, необходимые в данный момент для функционирования системы. КХД сохраняет как текущие, так и исторические данные в агрегированном виде.

  • Место в рабочих процессах
Информация обычно сразу попадает в рабочие базы данных, а уже оттуда выборочно в DWH. DWH отражает состояние других баз данных и процессов в компании уже после того, как вносятся изменения в рабочих базах.

Чем DWH отличается от Data Lake

Data Lake (озеро данных) — это хранилище, куда в исходном виде поступают разные типы данных: структурированные, полуструктурированные и неструктурированные (например, тексты, изображения, логи, данные датчиков).

В отличие от DWH, данные в Data Lake не приводятся к единой структуре сразу, а сохраняются «как есть», что позволяет использовать их не только для BI-аналитики, но и для задач машинного обучения, AI и работы с Big Data.

Эволюция архитектуры данных. Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями →

Как внедряется корпоративное хранилище данных

Этапы внедрения

  • Сбор бизнес-требований к DWH и будущей отчетности
  • Анализ существующих источников данных и текущих отчетов
  • Выявление проблем аналитики и узких мест в работе с данными
  • Определение ключевых пользователей и их потребностей
  • Формирование целей создания аналитической системы

Что получает бизнес после внедрения DWH

Внедрение Data Warehouse (DWH) позволяет бизнесу создать единое, надежное хранилище данных и получить измеримый эффект:

  • Единый источник правды для аналитики и отчетности
  • Ускорение подготовки управленческих отчетов
  • Повышение качества данных и снижение ошибок при анализе
  • Возможность легко масштабировать аналитику
  • Поддержка стратегических решений на основе данных

Частые ошибки внедрения DWH

Внедрение хранилища данных — сложный проект, и ошибки на старте могут привести к значительным затратам на следующих этапах проекта.

На практике чаще всего встречаются следующие проблемы:

Заложите правильную основу для DWH-проекта

Проведем предпроектное обследование: изучим источники данных, требования бизнеса и текущую аналитику, чтобы спроектировать DWH без лишних затрат и ошибок на этапе внедрения
ЗАПИСАТЬСЯ НА ОБСЛЕДОВАНИЕ

Часто задаваемые вопросы о DWH

Обычная база данных (OLTP) сохраняет записи и обработки транзакций по конкретной функциональной области бизнеса. DWH хранит как текущие, так и исторические данные, необходимые для сложных запросов и предиктивной аналитики.