Корпоративная практика70089

Почему важно избежать соблазна анализировать все подряд

Какой должна быть модель сбора и изучения информации, которая необходима для бизнес-прогнозов.

Сначала давайте определимся с понятием «аналитика данных в компании». Многие путают аналитику и отчетность, но это совсем разная деятельность. При этом одна и та же таблица результатов продаж может использоваться и для отчета, и для аналитики. Главное – как этой таблицей воспользоваться. В компаниях, которые по всем поводам собирают отчеты, аналитика – редкий гость. Аналитика – это инструмент принятия решений на основе информации. Например, решений по расширению рынка, ценовой политике, удержанию клиентов или работников системами лояльности, по поиску места на рынке, оптимизации расходов и доходов, стратегическому планированию.

Мне, например, всегда было интересно манипулировать знаками и цифрами, может быть, поэтому я стал аналитиком. В этом кроется огромный соблазн и опасность анализа данных. Потому что важно понимать, какие данные мы считаем значимыми для нашего бизнеса и как мы их интерпретируем. Хорошая пропаганда – это не ложь, это тенденциозно подобранные факты. Те же проблемы ожидают нас в проекте анализа данных, когда различные группы бизнеса исходят из различной информации и по-разному ее интерпретируют.

Другим важным вопросом является постоянная избыточность данных. Собирать и хранить надо только те данные, которые используются в анализе. Здесь важен срез анализа, который нас интересует. Это может быть мониторинг в реальном времени, оперативный срез информации, например, за день, исторические данные или статистика. В любом из этих случаев принцип сбора, хранения и анализа информации будет разным.

Сегодня стоимость хранения данных зависит от количества информации. То есть чем больше информации вы планируете хранить, тем выше будет стоимость. Каждый гигабайт информации, который вы решите разместить в аналитическом хранилище данных – это не только место на диске, это реальные и большие расходы.

Много пишут о необходимости визуализировать информацию, делать аналитические панели интерактивными и динамическими. Но замена таблицы графиком должна быть оправданна большей наглядностью, а интерактивность предполагает использование монитора или гаджета. Хотя, поверьте, многим более привычен отпечатанный лист бумаги в руках. Более того, строгая отчетность всегда распечатывается или экспортируется в читаемый файл, типа pdf.

Самый большой предмет спекуляций в проектах, связанных с анализом данных, это получения знаний из данных (data miming), анализ больших данных и прогнозирование. Суть в том, что большая половина проектов не доходит до этих задач после года сложного внедрения, и проект останавливается волевым методом. Выдыхаются и работники компании, и привлеченные консультанты. А те, кто пытается внедрить прогнозирование и другие методы моделирования, сталкиваются с недостаточным качеством своих данных и недостоверностью анализа. Ведь чтобы правильно прогнозировать, надо данные правильно собирать и хранить, а в проектах мы работаем с тем, что имеем, и это далеко от идеала.

Здесь кроется главная проблема. Это похоже на поиск месторождения нефти. Требуются огромные расходы ресурсов времени и технических сил, а результат может быть скромным.

Участвуя во многих проектах по внедрению аналитики, я часто слышал требования: сделайте так, чтобы всегда можно было с 99% точности прогнозировать объемы продаж по каждому SKU и в каждой точке продаж. Вообще, это практически невозможно, так как исторические данные продаж имеют нелинейную структуру и их нельзя описать одной моделью прогнозирования. То есть для каждого товара и для каждой точки продаж надо создавать свою модель. Что категорически невозможно при стандартном многотысячном ассортименте товаров и наличия сотен торговых точек сети.

Это же происходит при попытке сегментировать рынок, проанализировать поведение клиентов и их предпочтения. Чем точнее мы хотим создать модель, описывающую бизнес-процесс, тем больше параметров мы вынуждена учитывать. Любое обобщение, которое мы хотим применить ко всей торговой сети, будет менее точным, чем любой частный случай конкретного магазина.

Как же надо поступать в условиях обманчивости данных, сложности их сбора и интерпретации?

Победите соблазн собирать и анализировать все подряд. Данные должны отвечать на вопросы о том, что и почему происходит, что и когда надо делать.

Смотреть комментарии