Какие специалисты нужны для работы с Big Data

Все чаще можно услышать про проекты в области больших данных – Big Data. Что это за технологии, и как их использует бизнес? Технически под платформой Big Data обычно понимают основу для специализированных аналитических систем, которые помогают организации делать правильные аналитические выводы для развития бизнеса. По оценке Wikibon, в 2015 году мировой рынок продуктов и услуг для работы с Big Data вырос на 17%, до $33,3 млрд, а к 2020 году увеличится до $61 млрд. Его российский сегмент Московская биржа оценивала в 2015 году в $500 млн, считая, что в 2018 году он вырастет до $1,7 млрд.

Но за последние годы термин Big Data оброс дополнительными смыслами, стал более емким и бизнес-ориентированным. Сегодня он скорее означает общую концепцию управления данными любой организации. Это одновременно и культура современного цифрового ландшафта, которую учитывают все виды организаций при формировании своих стратегий, чтобы не отстать от конкурентов, и комплекс технологических инструментов, обеспечивающих поддержку новых процессов. Такие процессы, как извлечение данных, очистка, трансформация, обработка, анализ и построение на их базе продуктов и сервисов стали частью большой и дружной семьи технологий работы с большими данными.

Почти каждая компания в процессе работы накапливает огромный массив архивных и вновь создаваемых данных. И при этом они редко используются для принятия управленческих решений. Хотя возможности огромны. Технологии Big Data, снабженные аналитической надстройкой, умеют обрабатывать данные разного типа – от текста и формализованных баз данных до аудиозаписей и фото- видеоизображений, превращая ее в информацию, необходимую менеджменту. Например, данные, полученные системами контроля за входом/выходом сотрудников в офис (из офиса) помогли уже многим компаниям оптимизировать свои операционные затраты. А владельцам торговых центров знания о перемещении клиентов по различным зонам позволяют определять наилучшие места для размещения рекламы. Активно развиваются технологии, распознающие лица посетителей, входящих в центр, автоматически восстанавливающие историю их покупок и в режиме реального времени предлагающие персональные скидки и новые виды услуг.

С чего начать процесс по внедрению Big Data в компании

Обычно решение о внедрении технологий больших данных принимается тогда, когда внутри организации возникает потребность в новых типах сервисов, невозможных на текущих технологиях. Один из вариантов – это внедрение технологий и методологий продвинутой аналитики, которые позволяют создать базу для дополнительных персонифицированных услуг, тарифов и предложений. Внедрение таких технологий в организации на первом этапе, как правило – стратегический проект. И первое, что необходимо сделать – это сформировать команду технических специалистов. Изначально команда формируется для предварительной проработки концепции развития: какие направления компании больше остальных нуждаются в технологическом улучшении. Проводятся интервью с внутренними заказчиками, определяются составы и цели задач. По итогам такого предпроектного обследования производится оценка требуемых ресурсов.

В этот же момент принимается стратегическое решение о том, будет ли компания создавать внутреннюю команду, решит отдать задачи целиком на аутсорсинг, либо будет собирать гибридную команду (часть специалистов находится внутри компании, а часть – привлекается извне). Как правило, большинство западных и российских компаний придерживаются гибридной схемы, когда есть экспертная команда внутри, отвечающая за постановку задач и оценку результатов, контроль качества работ и формирование стратегии движения, и есть команда снаружи из внешних компаний, которая реализует алгоритмы проверки гипотез развития того или иного направления на техническом уровне.

Формируем команду для внедрения Big Data

Команда формируется коллегиально – руководителем, отвечающим за проект, и сотрудниками HR-службы, которые принимают активное участие в формировании внутренней команды. Продвинутая аналитика – достаточно молодое для России направление. Ее культура только начала свое развитие среди специалистов, и ряд ролей или профессий в этой сфере начали активно формироваться лишь в последние годы.

Во-первых, команде потребуется инженер-исследователь данных, или, как его называют в Силиконовой долине, data scientist, чьей задачей является формирование гипотез на основании потребностей бизнеса либо анализа имеющегося массива данных. Найденные корреляции могут в дальнейшем быть использованы для построения новых продуктов и сервисов. Задача HR-отдела, на мой взгляд, здесь первостепенна. Именно сотрудник HR-службы решает, кто сможет выполнить требуемую для развития направления работу, где его найти и чем замотивировать. Data scientist, или инженер-исследователь данных, – штучный товар.

Минимум один специалист этого профиля, в зависимости от стратегических целей направления продвинутой аналитики, должен присутствовать в организации, иначе потеряется фокус проекта. Data scientist совмещает в себе и разработчика, и аналитика данных, и бизнес-аналитика. Кроме того, он должен быть коммуникабельным, уметь излагать свои мысли в виде понятных визуальных элементов – для презентации результатов своей работы коллегам.

Ищем data scientist

Все действуют по-разному. Одна компания заказала специальное такси «Big Data», которое ездило по Москве и подвозило всех желающих. Во время поездки пассажирам задавались вопросы из области продвинутой аналитики, и, в случае, если на большую их часть давались корректные ответы, компания-организатор акции делала пассажирам предложение о работе. К сожалению, такой метод подбора персонала не дал ожидаемого результата, и лишь единицы из победителей согласились пройти собеседование.

Более верный метод, на мой взгляд – проведение хакатона (соревнования по решению аналитического бизнес-кейса с денежным призом). Так, решить задание, которое в рамках хакатона было организовано крупным российским банком, изъявили желание более тысячи человек. Тем, кто достиг лучшего результата, было сделано предложение о работе. Насколько мне известно, победители отказались от предложения, но по другой причине – их интересовал денежный приз. Тем не менее, по результатам акции несколько специалистов влились в команду банка. Это очень хороший результат!

В Силиконовой долине, откуда родом культура управления данными и продвинутой аналитики, в крупных компаниях работают от трех до пяти инженеров-исследователей. Такая команда уже считается зрелой. Тем организациям, которые находятся в начале пути, стоит начать хотя бы с одного такого специалиста.

Задача сотрудников HR-службы состоит здесь в том, чтобы найти таких специалистов, которые смогут развиваться в данном направлении, хотя, возможно, и сами еще об этом не догадываются. Искать необходимо среди аналитиков данных, хорошо понимающих специфику отраслевого бизнеса, способных разобраться – где и какими параметрами необходимо оперировать, чтобы построить ту или иную алгоритмическую модель. Нужны открытые к коммуникациям люди, имеющие опыт в программировании, знакомые с базовым набором технологий, таким как Python, R, Statistica, RapidMiner и прочими технологиями, применяемыми большинством экспертов в данной области.

Три лидера проекта

Один инженер-исследователь в поле не воин. Нужна слаженная команда. Если рассматривать продвинутую аналитику как инновационное направление развития организации, то также потребуется сотрудник, развивающий такой бизнес, или просто – менеджер по развитию бизнеса. Если инженер-исследователь в первую очередь проверяет и строит гипотезы, анализируя получаемые результаты, то в функции руководителя проекта Big Data входит развитие стратегии управления данными как направления бизнеса, создание новых продуктов, разработка идей, согласование их с заказчиком и проработка кейсов. Также он выполняет расчет бизнес-кейсов, обосновывая затраты на внедрение того или иного продукта или сервиса.

В начале формирования в компании направления Big Data приблизительное соотношение производимых внутренних и внешних продуктов будет колебаться в пропорции 80% к 20%. Сразу становится понятным, кто будет являться первым заказчиком направления – это подразделения самой организации. Задача менеджера по развитию бизнеса – взаимодействовать с ними. Он – лидер данного этапа работы. Вместе с инженером-исследователем он встречается с коллегами, отвечающими за различные участки работы, выясняя их потребности, либо рассказывает о новых возможностях, которые открывает анализ Big Data. Подход, на котором построено интеллектуальное управление большими данными, отличается от ранее принятых классических подходов к аналитике и требует предварительного внутреннего обсуждения. Получив обратную связь, менеджер по развитию бизнеса формирует кейсы, на основании которых в компании принимается решение – в каком направлении двигаться на коротком промежутке времени.

После того, как предпочтения по кейсам сформированы, задачи передаются на проработку к инженеру-исследователю. Именно он становится лидером на данном этапе. Обычно процесс является итерационным, и в среднем для достижения первых значимых результатов может потребоваться от трех до пяти итераций. Первые результаты будут скорее намекать, куда дальше двигаться, чем непосредственно решать конкретную бизнес-задачу. Когда результат достигает требуемого заказчику качества, получается модель и набор параметров, которые срабатывают.

После этого инженер-исследователь презентует результат, утверждает и передает его участникам третьего этапа – команде разработки. Data scientist либо формирует команду разработки внутри компании, либо для первых пилотных проектов приглашает на короткий срок со стороны. Многие наши клиенты предпочитают привлекать команды по аутсорсингу.

Лидер данного этапа – руководитель команды разработки, плотно взаимодействующий как с инженером-исследователем, так и с менеджером по развитию бизнеса. Его задача – автоматизировать модель работы с Big Data, реализовать ее на уровне требуемого функционала и интеграции со смежными системами.

Комментарии
Аналитик, Москва

Очень интересный и своевременный материал. Но, не обижайтесь, раньше это называли поклонство перед Западом. Ну почему так надо преклоняться перед Силиконовой долиной? При всём огромном уважениии к их способности интегрировать и соединять идеи. Как известно, наша статистическая наука весь 20 век занимала лидирующие позиции, сплошное статнаблюдение - это очень серьёзно и непросто.
Креативность - это прекрасно. Но не понимая математических законов, теории вероятности, матстатистики и прочего, создать что-то полезное нельзя! Ну Вы и подтверждаете это тем, что при наличии огромных массивов пока ещё нет прктического променения, ищут тех, кто может что-то "жареное" вытащить.

Ещё раз спасибо! Народ слегка боиться темы BigData.

IT-консультант, Москва

Статья неплохая, но не совсем корректная, на мой взгляд, с точки зрения применимости, особенно в России. Тут я соглашусь с Анатолием Курочкиным. В чем я с Анатолием немного не согласна, так это в том, что применимости нет, и народ боится этих самых Big Data. Если только «слегка» :-) Кто-то боится, т.к. срабатывает «западнизация» и пугают новые слова. Но есть области, где в России концепция Big Data (BD) работает давно и успешно, и развивается соответственно. Может, нам просто не хватает популяризации или видения этого? Говорю не понаслышке, т.к. работаю с этим на практике.

Теперь о материале статьи. Добавлю свои «пять копеек».

1.Не очень поняла, что автор имеет в виду под «внутренними и внешними продуктами», для которых применено правило Парето. Имеются в виду результаты обработки BD или продукты, которые обрабатывают данные для получения этих результатов. Возможно, то и другое. На мой взгляд этот вопрос немного «повис», а он важен. Чем будут пользоваться разработчики, что именно они будут разрабатывать? Важнейший аспект работы по BD, где, как говорится, возможны варианты.

2.Даже по западным меркам Data Scientist – это команда, формируемая из разных людей, обладающих специфическими знаниями в разных областях работы с данными.

3.Не соглашусь с термином «внедрение Big Data». Что это значит? Внедрение продуктов, работающих с огромными массивами данных? Или решение поставленных задач по обработке разнообразных типов данных с помощью выбранных продуктов. Или … По факту это могут оказаться совершенно разные задачи. Поэтому работа с BD должна иметь под собой нечто большее, чем набор продуктов и людей, умеющих ими пользоваться. Отсюда обойтись только техническими специалистами не получится: нужны люди, обладающие комплексными знаниями. Без этого успеха не будет. Поэтому концепция "трех лидеров" мне не очень близка. У семи нянек...

4.Не соглашусь также с решением задач по использованию только внутренних данных компании. Наоборот, технологии BD лучше работают с внешними данными, хотя их можно применить и к внутренним, и к их комплексу. Для работы с внутренними данными часто достаточно когнитивной аналитики, включая набор соответствующих продуктов. Это менее страшно и гораздо дешевле.

5.Что лично для меня важно: применение BD потенциально меняет парадигму работы с данными или информации: мы уже на входе отсеиваем и забираем нужные данные/информацию, а не накапливаем их предварительно у себя. Дальше - дело техники, в том числе по совместной обработке внутренних и внешних данных. Кроме того, нам дается возможность совмещать обработку разнотипных данных, получая из них что-то целостное для последующего анализа. Самое интересное, сложное и перспективное, на мой взгляд, направление такой работы – персонифицированная медицина.

Менеджер группы продуктов, Москва
Анатолий Курочкин пишет:
Очень интересный и своевременный материал. Но, не обижайтесь, раньше это называли поклонство перед Западом. Ну почему так надо преклоняться перед Силиконовой долиной? При всём огромном уважениии к их способности интегрировать и соединять идеи. Как известно, наша статистическая наука весь 20 век занимала лидирующие позиции, сплошное статнаблюдение - это очень серьёзно и непросто.
Креативность - это прекрасно. Но не понимая математических законов, теории вероятности, матстатистики и прочего, создать что-то полезное нельзя! Ну Вы и подтверждаете это тем, что при наличии огромных массивов пока ещё нет прктического променения, ищут тех, кто может что-то "жареное" вытащить.
Ещё раз спасибо! Народ слегка боиться темы BigData.

Анатолий, спасибо за комментарий.

Вы совершенно правы: направление на стыке матстат-анализа, программирования и маркетинга. Действительно, в data mining применяются, зачастую, методики 60-70х годов и разработанные, в том числе, нашими математиками. Разница в том, что сегодня для их применения созрела инфраструктурная среда. Я бы не согласился, что data science - чистый матстат: именно в добавлении маркетинговой экспертизы специалиста, и способности применения современного аналитического инструментария и делает эту профессию уникальной для бизнеса сегодня.

Про поклонство. На Западе рынок стимулируется высоким темпом развития технологий, что и приводит к более раннему появлению таких новых видов профессий. Часто эти профессии приходят и к нам в страну, и data science не исключение. Мы вот, например, находим таких специалистов среди множества различных профессий, начиная от разработчиков и заканчивая аналитиками, а термин data science я использую лишь как собирательный, для удобства пояснения.

Менеджер группы продуктов, Москва
Татьяна Орлова пишет:
Статья неплохая, но не совсем корректная, на мой взгляд, с точки зрения применимости, особенно в России. Тут я соглашусь с Анатолием Курочкиным. В чем я с Анатолием немного не согласна, так это в том, что применимости нет, и народ боится этих самых Big Data. Если только «слегка» :-) Кто-то боится, т.к. срабатывает «западнизация» и пугают новые слова. Но есть области, где в России концепция Big Data (BD) работает давно и успешно, и развивается соответственно. Может, нам просто не хватает популяризации или видения этого? Говорю не понаслышке, т.к. работаю с этим на практике.
...

Татьяна, спасибо за развернутый комментарий. Думаю, вся беда в маркетологах крупных вендоров: им так хотелось организовать продажи оборудования на новом тренде, что, не разобравшись в сути предлагаемых технологий, они влили в информационный эфир огромное количество откровенной "воды", чем в итоге сильно подтопили изначальный смысл термина в глазах его потенциальных потребителей. И да, вы правы, самое правильное в этой ситуации - рассказывать о действительных свойствах технологий, максимально привязывая их к конкретным задачам.

1.Не очень поняла, что автор имеет в виду под «внутренними и внешними продуктами», для которых применено правило Парето.
...

Я имею ввиду первичное соотношение в результатах работы такого подразделения внутри компании. Примером внешнего продукта (например, у банка) может выступать сервис по подбору персонализированного кредита на условиях, построенных на базе анализа поведения клиента банка. Примером внутреннего продукта (например, у телеком-оператора) может являться продвинутое сегментирование абонентской базы для целей департамента целевого маркетинга.

2.Даже по западным меркам Data Scientist – это команда, формируемая из разных людей, обладающих специфическими знаниями в разных областях работы с данными.
...

И это не противоречит информации в моей статье. Сам термин удобен для собирательного образа такой группы специалистов.

3.Не соглашусь с термином «внедрение Big Data». Что это значит? Внедрение продуктов, работающих с огромными массивами данных? Или решение поставленных задач по обработке разнообразных типов данных с помощью выбранных продуктов. Или … По факту это могут оказаться совершенно разные задачи. Поэтому работа с BD должна иметь под собой нечто большее, чем набор продуктов и людей, умеющих ими пользоваться. Отсюда обойтись только техническими специалистами не получится: нужны люди, обладающие комплексными знаниями. Без этого успеха не будет. Поэтому концепция "трех лидеров" мне не очень близка. У семи нянек...

Я под этим имел ввиду разворачивание на инфраструктуре необходимого ПО, его настройку, загрузку алгоритмов, их автоматизацию, подключение источников данных, разработку интерфейсов доступа к результатам работы системы. То есть, полный цикл работ от оборудования до конечного сервиса или продукта.

Вы под комплексными знаниями что конкретного имеете ввиду?

4.Не соглашусь также с решением задач по использованию только внутренних данных компании.
...

Я про такое решение вроде не писал. И да, я тоже бы категорически не согласился с такой постановкой вопроса :)

5.Что лично для меня важно: применение BD потенциально меняет парадигму работы с данными или информации.
...

Не потенциально, а уже сменило. На мой взгляд, смена парадигмы произошла где-то лет 5 назад, теперь рынок просто "созревает" до изменившейся среды. Скорость такого созревания ограничивается высоким уровнем скепсиса и большой инерцией по отношению к ранее привычным подходам к управлению данными. Но и это пройдет: в наше время цифровых технологий побеждает тот, кто бесстрашно смотрит в технологическое настоящее и будущее :)

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
Цифры и факты
ПФР оцифровал трудовые книжки

Оцифровка проведена в рамках подготовки законопроекта об электронных трудовых книжках.

Задолженность по зарплатам – 2,9 млрд       

На 1 апреля задолженность по зарплатам в РФ составляла почти 2,9 млрд руб.

Крепкий алкоголь – только после 21 года

ФАС не против запрета на продажу крепкого алкоголя лицам младше 21 года.

МЭР: виртуальная зона для IT

Минэкономразвития предложило создать свободную экономическую зону для IT-компаний.