Как сделать data science эффективнее?

Вы решили, что вашему бизнесу нужен data science, наняли сильных специалистов и поставили перед ними реальные задачи. Они подготовили прогнозы, и нашли инсайты (полезные для бизнеса закономерности в больших данных). Вы начинаете применять эти прогнозы и инсайты. Но оказывается, что они далеки от реальности и не приносят пользы. В чем дело? Возможно, дело в данных, которые были для них использованы. Повторяющиеся, неполные или избыточные, некачественные, незащищенные и ненадежные данные негативно влияют на результаты data science. Кроме того, такие данные создают дополнительную нагрузку на data scientists. Согласно исследованию Forester, более 40% своего рабочего времени эксперты тратят на то, чтобы подготовить данные для аналитики. Что делать, чтобы избежать этого?

Не полагайтесь только на статистику

Много говорят о статистической природе больших данных. Считается, что если результаты data science подразумевают погрешность, значит, и погрешность из-за качества данных мало повлияет на конечный результат. Это неверный подход.

Во-первых, чем выше погрешность прогноза или инсайта, тем меньше ему можно доверять и тем меньше в нем толку. Кроме того, те данные, которые вы сегодня используете для статистических моделей, завтра могут понадобиться для других целей (найти адрес банкомата, в котором клиент снял деньги несколько лет назад), где точность имеет большее значение.

Организуйте эффективную среду хранения и обработки

Совсем недавно корпоративные данные хранились только в реляционных системах (хранилища, базы) – в виде взаимосвязанных таблиц. В такие таблицы необходимо было распределять все данные, которые собирала компания. Для этого – вычленять в данных структуру.

В эпоху Big Data данные поступают на большой скорости, отличаются разнообразием и большими объемами. Хранить и обрабатывать их стало сложно и дорого. Возникла и набрала популярность распределенная система хранения и обработки данных – кластер Hadoop. Данные там одновременно обрабатываются на нескольких узлах кластера, а значит, быстрее. Также в отличие от обычной базы или хранилища Hadoop определяет структуру данных при считывании, а не при записи. А значит, он подходит и для неструктурированных данных.

Одной из форм хранения данных может быть так называемое озеро данных. Содержать озера данных сравнительно недорого, а масштабировать их можно до очень большого размера. Для data scientists озеро данных – полигон для экспериментов. В такое озеро можно выгружать большие данные из различных источников, чтобы наглядно посмотреть – есть ли какие-то закономерности в них. У вас есть предположение, что погода влияет на работу оборудования? В озере данных вы можете искать зависимости, используя данные с датчиков на этом оборудовании, сколько бы их не было. И это будет сравнительно дешево.

Озеро данных становится опасным для data science тогда, когда оно превращается в болото. Болото – это озеро, в которое загружались данные низкого качества, одни и те же данные дублировались. Найти нужную информацию в болоте очень сложно. Что делать? Отдать предпочтение промышленной технологии корпоративного озера, которая поможет автоматически очищать данные и управлять ими.

Меньше делайте руками

Данные к аналитике нужно готовить: интегрировать из разных источников, очищать, повышать их качество. Промышленные решения позволяют это сделать эффективнее, чем написание кода вручную. Они легко масштабируются, просты в администрировании, имеют понятные интерфейсы. Когда речь идет о действительно больших данных, можно не искать отдельных специалистов со знанием многочисленных языков Hadoop. Откройте HeadHunter. Специалистов, которые умеют работать с инструментами ведущих мировых производителей, на рынке достаточно. Тех, кто умеет вручную повышать качество, надежность, непротиворечивость данных, мало, и стоят они дорого.

На что обратить внимание? Когда речь идет об инструментах для интеграции данных (как и для обеспечения их качества и защиты), важно, чтобы у них была функциональная возможность управления метаданными. Так считают специалисты, опрошенные Gartner. Метаданные – это данные о данных (например, из какого источника информация получена, в каком формате и в какое время). Чтобы обрабатывать Big Data быстрее (например, при перемещении огромных объемов данных из хранилища), нужно, чтобы решение предлагало pushdown-оптимизацию. Она позволяет работать с данными быстро и дешево.

Выводите темные данные из сумрака

В 2018 году много говорили о «темных данных». Это данные, которые оказываются вне аналитики по разным причинам. Они могут быть в нестандартных форматах (например, выражение лица покупателя на видеозаписи), храниться в трудно досягаемых местах (на ПК, в почте сотрудников). Не используя эти данные, вы рискуете упустить важные инсайты или получить неверные.

Кроме неточной аналитики, темные данные угрожают и штрафами. Вы же не знаете, что храните – а вдруг, это противозаконно? Исследователи Gartner предсказывают, что к 2021 году более 80% компаний не будут соответствовать требованиям законодательства из-за «темных данных».

Что делать? Каталогизировать все данные в компании, выстроить связи между ними. На практике это оказывается не так страшно, как может показаться на первый взгляд. Главное – найти удобные инструменты. На что обратить внимание? Чтобы вам не пришлось делать огромный объем работ вручную, в инструмент для каталогизации должен быть встроен искусственный интеллект. Искусственный интеллект позволит автоматизировать большую часть каталогизации, сопоставит разные названия одних и тех же понятий и даже порекомендует data scientists данные, на которые стоит обратить внимание при аналитике. Озеро также может быть эффективно для поиска темных данных.

Улучшайте бизнес-процессы

Управление данными должно стать полноценным процессом в вашей компании. Недостаточно один раз почистить данные или интегрировать их. Вы постоянно будете собирать новую информацию. Если ее не обрабатывать, она будет портить вам результаты data science.

Оптимально, чтобы в компании был отдельный «директор по данным» – Chief Data Officer (CDO). Полномочия этого сотрудника должны включать в себя управление всеми процессами работы с данными во всей компании (так называемый Data Governance). Он должен отвечать не только за сбор, хранение и подготовку данных к аналитике, но и за внедрение масштабных инициатив цифровой трансформации разных отделов.

Расскажите коллегам:
Комментарии
Бренд-менеджер, Санкт-Петербург

Согласен с автором, что управление данными становится важнейшим бизнес-процессом в компании. В статье сделан акцент на базовом вопросе, от которого зависит все остальное - администрирование данных.


При этом настоящая польза от управления данными зависит от связки: администрирование данных - аналитика - интерпретация.

Качественная интерпретация результатов аналитики данных зависит от глубокого понимания менеджмента и задач бизнеса, т.е. требуется системный взгляд.

Именно интерпретация выставляет требования к форме аналитики, а аналитика формулирует требования к данным.

В идеале, все три компонента должны присутствовать в одной голове, но такое встречается крайне редко, хотя есть. Вот как раз бизнес-процесс управления BIG DATA и должен решить эту проблему.

Партнер, Красноярск

Фраза "лучше быть богатым и здоровым..." могла быть написана гораздо короче ))) чего сказать-то хотелось?

Руководитель группы, Москва

Большая и сложная тема затронута.

Уже сейчас надо думать о подготовке данных на будущее (инфраструктура, менеджмент, хранение текущих данных).

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Эрнст Мальцев
  На это просто напрашивается цитата из повести Хольма ван Зайчика "Дело жадного варвара" (комм...
Все дискуссии
HR-новости
Исследование: что доводит сотрудников до выгорания

Большинство респондентов регулярно испытывают нехватку ресурсов, сталкиваются с размытыми задачами, переработками, а также ощущают давление негласных корпоративных правил.

Большинство россиян считают работу в креативной индустрии привлекательной

76% хотели бы попробовать себя в роли креативного продюсера, при этом у половины из них нет четкого представления, чем занимается этот специалист.

Средние зарплаты в отрасли туризма и гостеприимства выросли на 52% за год

Рост внутреннего туризма стимулирует спрос на кадры, а конкуренция за них меняет подходы работодателей.