Как сделать data science эффективнее?

Вы решили, что вашему бизнесу нужен data science, наняли сильных специалистов и поставили перед ними реальные задачи. Они подготовили прогнозы, и нашли инсайты (полезные для бизнеса закономерности в больших данных). Вы начинаете применять эти прогнозы и инсайты. Но оказывается, что они далеки от реальности и не приносят пользы. В чем дело? Возможно, дело в данных, которые были для них использованы. Повторяющиеся, неполные или избыточные, некачественные, незащищенные и ненадежные данные негативно влияют на результаты data science. Кроме того, такие данные создают дополнительную нагрузку на data scientists. Согласно исследованию Forester, более 40% своего рабочего времени эксперты тратят на то, чтобы подготовить данные для аналитики. Что делать, чтобы избежать этого?

Не полагайтесь только на статистику

Много говорят о статистической природе больших данных. Считается, что если результаты data science подразумевают погрешность, значит, и погрешность из-за качества данных мало повлияет на конечный результат. Это неверный подход.

Во-первых, чем выше погрешность прогноза или инсайта, тем меньше ему можно доверять и тем меньше в нем толку. Кроме того, те данные, которые вы сегодня используете для статистических моделей, завтра могут понадобиться для других целей (найти адрес банкомата, в котором клиент снял деньги несколько лет назад), где точность имеет большее значение.

Организуйте эффективную среду хранения и обработки

Совсем недавно корпоративные данные хранились только в реляционных системах (хранилища, базы) – в виде взаимосвязанных таблиц. В такие таблицы необходимо было распределять все данные, которые собирала компания. Для этого – вычленять в данных структуру.

В эпоху Big Data данные поступают на большой скорости, отличаются разнообразием и большими объемами. Хранить и обрабатывать их стало сложно и дорого. Возникла и набрала популярность распределенная система хранения и обработки данных – кластер Hadoop. Данные там одновременно обрабатываются на нескольких узлах кластера, а значит, быстрее. Также в отличие от обычной базы или хранилища Hadoop определяет структуру данных при считывании, а не при записи. А значит, он подходит и для неструктурированных данных.

Одной из форм хранения данных может быть так называемое озеро данных. Содержать озера данных сравнительно недорого, а масштабировать их можно до очень большого размера. Для data scientists озеро данных – полигон для экспериментов. В такое озеро можно выгружать большие данные из различных источников, чтобы наглядно посмотреть – есть ли какие-то закономерности в них. У вас есть предположение, что погода влияет на работу оборудования? В озере данных вы можете искать зависимости, используя данные с датчиков на этом оборудовании, сколько бы их не было. И это будет сравнительно дешево.

Озеро данных становится опасным для data science тогда, когда оно превращается в болото. Болото – это озеро, в которое загружались данные низкого качества, одни и те же данные дублировались. Найти нужную информацию в болоте очень сложно. Что делать? Отдать предпочтение промышленной технологии корпоративного озера, которая поможет автоматически очищать данные и управлять ими.

Меньше делайте руками

Данные к аналитике нужно готовить: интегрировать из разных источников, очищать, повышать их качество. Промышленные решения позволяют это сделать эффективнее, чем написание кода вручную. Они легко масштабируются, просты в администрировании, имеют понятные интерфейсы. Когда речь идет о действительно больших данных, можно не искать отдельных специалистов со знанием многочисленных языков Hadoop. Откройте HeadHunter. Специалистов, которые умеют работать с инструментами ведущих мировых производителей, на рынке достаточно. Тех, кто умеет вручную повышать качество, надежность, непротиворечивость данных, мало, и стоят они дорого.

На что обратить внимание? Когда речь идет об инструментах для интеграции данных (как и для обеспечения их качества и защиты), важно, чтобы у них была функциональная возможность управления метаданными. Так считают специалисты, опрошенные Gartner. Метаданные – это данные о данных (например, из какого источника информация получена, в каком формате и в какое время). Чтобы обрабатывать Big Data быстрее (например, при перемещении огромных объемов данных из хранилища), нужно, чтобы решение предлагало pushdown-оптимизацию. Она позволяет работать с данными быстро и дешево.

Выводите темные данные из сумрака

В 2018 году много говорили о «темных данных». Это данные, которые оказываются вне аналитики по разным причинам. Они могут быть в нестандартных форматах (например, выражение лица покупателя на видеозаписи), храниться в трудно досягаемых местах (на ПК, в почте сотрудников). Не используя эти данные, вы рискуете упустить важные инсайты или получить неверные.

Кроме неточной аналитики, темные данные угрожают и штрафами. Вы же не знаете, что храните – а вдруг, это противозаконно? Исследователи Gartner предсказывают, что к 2021 году более 80% компаний не будут соответствовать требованиям законодательства из-за «темных данных».

Что делать? Каталогизировать все данные в компании, выстроить связи между ними. На практике это оказывается не так страшно, как может показаться на первый взгляд. Главное – найти удобные инструменты. На что обратить внимание? Чтобы вам не пришлось делать огромный объем работ вручную, в инструмент для каталогизации должен быть встроен искусственный интеллект. Искусственный интеллект позволит автоматизировать большую часть каталогизации, сопоставит разные названия одних и тех же понятий и даже порекомендует data scientists данные, на которые стоит обратить внимание при аналитике. Озеро также может быть эффективно для поиска темных данных.

Улучшайте бизнес-процессы

Управление данными должно стать полноценным процессом в вашей компании. Недостаточно один раз почистить данные или интегрировать их. Вы постоянно будете собирать новую информацию. Если ее не обрабатывать, она будет портить вам результаты data science.

Оптимально, чтобы в компании был отдельный «директор по данным» – Chief Data Officer (CDO). Полномочия этого сотрудника должны включать в себя управление всеми процессами работы с данными во всей компании (так называемый Data Governance). Он должен отвечать не только за сбор, хранение и подготовку данных к аналитике, но и за внедрение масштабных инициатив цифровой трансформации разных отделов.