Спустя время бизнес расширялся, потребности росли, данных становилось все больше, и компания все-таки пришла к необходимости создания полноценного DWH.
Вторую версию хранилища разрабатывали на базе более походящего инструмента - Greenplum – MPP-СУБД, основанной на PostgreSQL.
Внедрение DWH — это сложный процесс систематизации данных и знаний о них. В компании уже было реализовано внедрение BI-системы Qlik, часть этого пути уже была пройдена, и этот опыт можно было перенять.
Но при создании хранилища компания решила не учитывать уже имеющийся опыт работы с данными и не использовать пайплайн и знания, полученные когда-то при внедрении BI, а значит, снова столкнулась с теми же трудностями, которые когда-то были решены.
Помимо прочего, параллельно с реализацией проекта DWH, в компании было принято решение о перевнедрении кассовой системы и еще ряда критически важных информационных систем, поставляющих данные для нового хранилища. В связи с этим, все уже настроенные интеграции пришлось переписывать заново.
Из-за этого проект, который можно было бы реализовать за полгода, растянулся на 3 года. На момент обращения к нам, заказчиком было настроено только несколько самых важных интеграций с источниками данных, и проект, по сути, еще не был завершен.
Вывод №2 - если у компании есть опыт работы с данными, например, вы уже пользовались платформой Qlik, есть понимание построения ETL-процессов и структурирования данных, нужно использовать эти знания в процессах построения DWH. Те подходы, которые уже работают и не требуют улучшений, можно наследовать AS IS.
И не пытайтесь хвататься за все сразу, а разработайте полноценную концепцию проекта. Сначала наведите порядок в источниках данных, а уже потом планируйте архитектуру хранилища, или же начните с нее, но закладывайте запас с учетом планов по изменению источников.