04.10.2018 Публикации
Как данные превращаются в истории
У всех есть специальный почтовый ящик для регистрации на сайтах, куда каждый день тоннами сваливаются бесполезные письма. Я расскажу о рассылке, которая тоже падала в такой ящик. Но вдруг оказалось, что она интересна. Это дайджест Statista.com.

Одно или два письма в день. В каждом — какая-нибудь история "на злобу дня", рассказанная с помощью данных. Применяются очень простые визуализации, без изысков. Совсем не как в инфографике про марш Наполеона. Здесь не надо ничего рассматривать, мозг схватывает увиденное мгновенно. За доли секунды удаётся осознать масштаб, увидеть соотношения и понять тренд.
Рис. 1. Cтатистика из письма Statista Infographics Bulletin. Все слышали, но никто не видел.
На сайте statista.com много исследований и данных. Полезные и бесполезные, достоверные и не очень. Самое интересное и уже кем-то осмысленное — за деньги. Много отчетов известных исследовательских агентств.

Для сравнения — вот примеры открытых данных, которые публикует государство. Примеры российские, но, наверное, примерно тем же делятся и другие страны (мы здесь говорим о наборах данных, а не об уточняющей информации о владельцах какой-нибудь недвижимости):

https://data.gov.ru — Портал открытых данных Российской Федерации

http://fias.nalog.ru — Государственный адресный реестр

http://www.cbr.ru/statistics — Статистика ЦБ РФ

https://hubofdata.ru — Проект "Хаб открытых данных"

https://www.minfin.ru/opendata — Открытые данные Министерства Финансов

http://opendata.mkrf.ru/opendata — Открытые данные Министерства Культуры

https://www.nalog.ru/rn77/opendata/ — Открытые данные ФНС

http://read.infometer.org/opendata_sources — Датасеты Infometer

https://www.kaggle.com/c/sberbank-russian-housing-market/data — Конкурс от Сбербанка, из которого можно взять данные по Российской экономике и рынку недвижимости.

Свои порталы открытых данных есть у администраций городов. Вот как это выглядит у Москвы:

https://data.mos.ru

Там встречаются самые разные штуки, даже ботаническая коллекция парка "Зарядье".

Использовать сырые открытые данные очень трудно. Если говорить о том, что публикует государство, то здесь нет ни стандартов, ни механизмов поиска. Данные содержат много ошибок. С ними не могут работать люди, которых называют Data Journalists. Непонятно, как извлечь из таких данных что-то интересное или полезное. Вот как воспользоваться знанием о том, что ботаническая коллекция парка «Зарядье» состоит из 157 видов растений? Однако, данные собирают, публикуют, они открыты и доступны.

Все дело в новизне Если посмотреть, что получается у редакторов Statista, то можно увидеть, какие ингредиенты они добавляют к сырым данным, чтобы сухие цифры превратились в любопытные истории. Причём для этого странного варева берут те данные, которые уже известны, зачастую общедоступны. Их обрабатывают, добавляют визуализацию и привязывают к текущему моменту. Получается совсем новое качество.

Мне очень нравится шуточная иллюстрация разницы между миллионом баксов и миллиардом. Миллион — стопка банкнот высотой два метра. Миллиард — два километра.

Мы занимаемся разработкой BI-решений и могу точно сказать, что бизнесу требуется совсем не журналистика и движет им вовсе не любопытство. Но подход в чём-то похож. У журналиста главный вопрос — как извлечь интересное. У менеджера — как извлечь пользу. Наблюдение становится интересным для одного или полезным для другого лишь в том случае, если в нём есть новизна.

Наверное, журналистам повезло больше, чем менеджерам. Интересных вещей в современном мире очень много и всегда есть, о чем рассказать. Менеджерам труднее. Большинство из них либо не вообще не имеет доступа к данным (ведь их надо еще собрать и обработать), либо не может им воспользоваться, потому что не умеет работать с подходящими инструментами. Соответственно, не знает, что с этими данными делать.

Впрочем, как менеджеры, так и журналисты в отношении использования данных пока ещё в начале пути.

К чему это всё? Мир в цифрах по версии Statista — интересный. Рекомендую.

Да, ещё. Statista появилась давно — в 2007. В Гамбурге. Судя по всему, и сегодня эта компания остается совсем небольшим бизнесом.

Рис. 2. Вы тоже не знали, что у Apple уверенно растут только сервисы?
Пока писал, вышла новость о том, что ФНС раскрыла данные о российском бизнесе, которые раньше считались налоговой тайной. Вот бы самому на них посмотреть в каком-то наглядном виде, по сегментам, по размеру бизнеса.

Опубликовано на VC.ru