Big Data: как отличить важные данные от неважных?

Если вас терзает вопрос о том, как исследовать большие потоки данных, то Джон Тиммерман из компании Teradata – тот самый человек, с которым вы можете поделиться наболевшим. У него редкая для российского бизнеса должность: Global Industry Evangelist. Это значит, что работа Джона состоит в том, чтобы смотреть в будущее, видеть больше и дальше других, и объяснять аудитории, что именно ее ждет. Big Data в понимании Джона означает не «много данных», но особый тип структуры данных, когда сведения коррелированы друг с другом, но связь эта неоднопланова. Изучение этих данных – нетривиальная задача для менеджмента: их надо исследовать, потому что они могут содержать в себе очень ценную информацию для бизнеса. Или не содержать – в этом случае вы должны быть готовы к тому, что зря потратите деньги на расчеты. Но вы не узнаете это, пока не попробуете:). Впрочем, результативность исследований зависит от того, как вы ставите цели и какие инструменты используете.

Executive.ru: Выражение Big Data («Большие данные») стало весьма распространенным. Какие, на ваш взгляд, данные мы можем считать «большими»?

Джон Тиммерман: Из всех терминов на современном рынке термин «Большие данные», пожалуй, самый некорректный. Я предпочитаю использовать термины «неструктурированные» или «мультиструктурированные» данные, потому что речь в действительности идет не о фактическом объеме данных, а об их структуре или внутренних отношениях. Рассмотрим, например, термин «интегрированные данные о клиенте». В общем случае, мы создали бы схему, определяющую клиента, а также набор атрибутов этого клиента, которые хранятся вместе с записью о клиенте на основе каких-то установленных взаимоотношений. Эти атрибуты могут включать, например, номер счета, контактную информацию, историю транзакций, историю общения, демографические данные, финансовые модели, маркетинговый кластер и т. д. Вся эта информация имеет некую распознаваемую связь с клиентом и, как правило, хранится в реляционной базе данных. Но также существуют данные, которые в настоящее время являются неструктурированными или мультиструктурированными, и для которых нам еще неизвестны все возможные отношения.

Отличные примеры — подробные записи о телефонных разговорах, аудиозаписи и стенограммы звонков в службу поддержки, файлы изображений, видеофайлы, звуковые файлы, данные датчиков, веб-журналы и теги, которые просто еще не были связаны с какими-либо известными отношениями. Могут ли некоторые из этих файлов и источников быть большого размера? Безусловно. Но мы называем их «большими» не из-за размера. Мы называем их так из-за особой структуры и отношений, которые существуют в этих данных.

Executive.ru: В одном из интервью вы сказали, что «большие данные» – не новое явление. Если так, в каком виде эти данные собирались и изучались прежде?

Д.Т.: Я думаю, «Big Data» — всего лишь модное словечко для явления, которое мы наблюдаем уже много лет... и сегодня у нас, наконец, появились лучшие способы хранения, управления и анализа этих источников и типов данных, которые помогают обнаруживать новые отношения, закономерности и связи. Мы использовали анализ тропов (от греч. tropos – поворот – слово или оборот речи, употребленные в переносном значении – Executive.ru) на протяжении десятилетий. Точно так же, в течение многих лет мы собирали стенограммы и записи звонков в службу поддержки. Мы всегда сохраняли подробные записи о голосовых вызовах и веб-журналы. До недавнего времени у нас просто не было собирательного понятия для всех этих мультиструктурированных данных. Что на самом деле ново, так это распространение разнообразных стандартизированных «песочниц» (средств обнаружения), которые помогают последовательно и с высокой повторяемостью обнаруживать значимые отношения во всех этих данных без помощи отряда аналитиков.

Executive.ru: Человечество генерирует все больше и больше данных. У вас есть прогноз, сколько данных оно будет создавать, например, через десять лет?

Д.Т.: Как вы, наверное, знаете, компания Teradata уже давно создает решения, позволяющие управлять огромными объемами данных и последовательно выполнять бизнес-анализ самых различных видов данных из множества источников в масштабе предприятия. Вместо того чтобы прогнозировать, когда именно данные превысят определенный уровень, мы всегда старались выходить далеко за пределы прогнозов. Когда 25 лет назад я начал работать в Teradata, люди спрашивали, откуда взялось такое название – Teradata... ведь никому никогда не понадобится терабайт информации. Теперь у меня дома есть терабайтный диск с резервными копиями одних только фотографий с моей цифровой камеры. У нас есть много клиентов, которые уже вступили в клуб «мультипетабайтеров». Мы разработали архитектуру, которая позволяет обрабатывать чрезвычайно большие объемы данных сегодня и позволит делать это в не столь отдаленном будущем. У меня есть очень и очень расплывчатый ответ на вашу просьбу спрогнозировать, сколько данных человечество создаст через 10 лет. Астрономы предсказывают, что в следующем десятилетии один телескоп SKA (Square Kilometre Array с матрицей площадью 1 кв. км.) будет обрабатывать и анализировать более 10 петабайт данных в час... или 1 эксабайт каждые четыре дня. Я сомневаюсь, что население в более чем 7 млрд человек с целым набором цифровых датчиков и устройств будет создавать меньше данных. Хотя, безусловно, не все маркетинговые компании будут вынуждены собирать и анализировать данные о клиентах и бизнес-данные в таких астрономических масштабах, нетрудно представить, что лидеры отрасли и дальновидные компании уверенно достигнут рубежа в сотни эксабайт управляемых данных.

Executive.ru: А сколько данных в потоке, создаваемом рынком, будут лишними или невостребованными?

Д.Т.: Множество факторов определяет долю того, что является лишним или ненужным в больших данных, я слышал оценки, значительно превышающие 90% — однако это очень сильно зависит от набора данных. Некоторые наборы больших данных даже близко не содержат такой доли лишних или ненужных данных, но вы не узнаете этого, пока не выполните ряд действий по обнаружению и не определите, какие значимые данные на самом деле присутствуют в конкретном наборе. Опять же, количество данных не так важно, как закономерности и аналогии, которые могут быть найдены с помощью аналитики и помогут раскрыть действительную ценность всех данных. И то, что именно вы считаете необходимым или ценным, будет зависеть от вашей бизнес-стратегии использования данных в маркетинге. Конечно, как раз тут абсолютно необходимы две вещи: раннее обнаружение в рамках нескольких моделей и размерностей и гибкая и расширяемая аналитическая среда больших данных. Поскольку данные могут содержать много «белого шума», важно иметь возможность быстро выполнять различные операции обнаружения данных, чтобы можно было быстро выяснить, что следует сохранять и анализировать в первую очередь. Затем, поскольку размеры и сложность этих сред обработки данных могут резко изменяться, нужна среда больших данных, достаточно гибкая и расширяемая, чтобы приспосабливаться к вашим постоянно изменяющимся требованиям.

Executive.ru: Это ставит менеджмент перед очень трудной задачей: компания не может определить ценность некого объема данных до тех пор, пока она их не исследовала. В свою очередь, она не может бесконечно исследовать «на всякий случай» большие объемы данных, потому что аналитика – дорогое удовольствие. Как ей быть?

Д.Т.: В этом состоит вся суть среды обнаружения больших данных — с ее помощью можно определить, какие данные необходимо собирать и какими из них необходимо управлять. Без среды обнаружения вы идете вслепую и, вероятно, тратите слишком много денег на аналитику, не достигая сколько-нибудь ощутимого прогресса в повышении качества обслуживания клиентов. В конце концов, разве не для этого мы все это затеяли? Не для того ли, чтобы понять, как мы можем лучше служить человеку? По словам моего друга Стивена Бробста, главного технического директора Teradata, «иногда эта отрасль напоминает шестилетних детей, играющих в футбол... все сосредоточены на одном мяче... и бесцельно гоняют этот мяч по всему полю. У нас не получается сосредоточиться на мотивации и стратегии, на позиционировании и исполнении. Конечно, все принимают участие, и полны энтузиазма, и носятся как сумасшедшие... но не работают как слаженная команда».

Executive.ru: В публикациях вы используете термин Integrated Marketing Management? Какой смысл вы вкладываете в это понятие?

Д.Т.: Значимость интегрированного управления маркетингом двояка. Ее можно рассматривать с точки зрения маркетингового процесса и с точки зрения непрерывности отношений. С точки зрения маркетингового процесса, чем более интегрированы все движущиеся части маркетинговой организации, тем лучше я могу привести программы и расходы в соответствие со стратегическими инициативами и бюджетами. Я вижу наиболее экономически эффективный способ быстро запускать программы для клиентов в различных каналах, используя общие компоненты, рабочие процессы и рекламные материалы.

С точки зрения непрерывности отношений, чем лучше интегрированы каналы, продукты и предложения, тем больше преимуществ получат мои клиенты благодаря согласованным возможностям и непрерывности процессов в рамках всех каналов продаж на моих предприятиях, а не только некоторых из каналов взаимодействия с клиентами. Интегрированное управление маркетингом приносит выгоду как компании, так и ее клиентам.

Executive.ru: Какую цель в связи с этим должен ставить маркетолог, приступая к исследованиям? Как он должен формулировать, что именно хочет найти?

Д.Т.: Цель состоит в поиске новых шаблонов, новых моделей поведения, новых подходов и новых рычагов влияния. С помощью механизмов обнаружения они находят большие данные для получения полезных выводов, которые можно использовать для лучшего понимания бизнеса, поведения потребителей и атрибутов, которые могут оказывать влияние или указывать на вероятность каких-то действий. После процесса обнаружения запускается процесс автоматизации выявления наличия конкретного показателя. В ходе комплексного процесса обнаружения вовсе не редкость, когда предварительная гипотеза опровергается или обнаруживается что-то совершенно непредвиденное (если только ваш процесс не достаточно обширен, чтобы обнаруживать аномалии и резко отклоняющиеся значения). В области маркетинга мы ставим такой вопрос: «Что бы вы сделали, если бы знали?». Он относится к любому вопросу, который может задать маркетолог, полагая, что в данных есть ответы, которые помогут принимать более осведомленные маркетинговые решения.

Executive.ru: Вы можете привести примеры, когда маркетологи искали одно, а нашли нечто другое?

Д.Т.: Мне сразу вспомнился один из наших клиентов из сферы финансовых услуг. В их компании проводили исследование каналов входа. Инициаторы исследования хотели выйти за рамки простого и привычного создания отчетов об атрибуции по последнему клику. Они предположили, что заметное снижение коэффициента реагирования на одной из веб-страниц было связано с неудачным дизайном или размещением блока призыва к действию на лэндинговой странице. А на самом деле они обнаружили связь между наличием определенного фрагмента динамической рекламы и снижением коэффициента реагирования. То есть проблема была не в визуальном оформлении, а в самом контенте, в управлении им.

Executive.ru: Какие приложения маркетологи могут использовать для исследования «больших данных»?

Д.Т.: Полагаю, я не могу быть беспристрастным, с учетом того, где я проработал последние 25 лет, но я действительно верю, что наши клиенты получат максимальную выгоду, выбрав для обнаружения больших данных решение Teradata Aster. Существуют также механизмы для многоканального маркетинга, которые предназначены для интеграции анализа клиентов, сегментации и управления входящими и исходящими связями по всем каналам экосистемы клиентов. Наконец, есть приложения для принятия решений о лучшем предложении в режиме онлайн, а также для оценки и оптимизации предложений для всех взаимодействий с клиентами в режиме реального времени.

Executive.ru: Какое содержание вы вкладываете в термин Data-Driven Marketing?

Д.Т.: Маркетинг на основе данных – подход, позволяющий маркетологам использовать глубокий анализ данных о своих клиентах, чтобы точно направлять маркетинговые усилия. В рамках этого подхода лучшие данные должны определять и обосновывать все ваши маркетинговые решения. Какие клиенты являются самым ценными или выгодными? Какие клиенты обладают наибольшим потенциалом роста? Какие кампании были наиболее успешными? Какие предложения лучше всего подходят именно для этого клиента? На каком этапе наших отношений находится клиент, и как я могу лучше всего его обслуживать? На что я трачу большую часть своих денег? Что работает хорошо? Что самое лучшее я могу сказать этому клиенту прямо сейчас? Для точных ответов на все эти вопросы нужны маркетинговые данные. Чем лучше вы сможете интегрировать поток маркетинговых данных и данных о клиентах в свои процессы и инициативы, тем лучше вы сможете автоматизировать и направлять свою организацию, и тем более последовательное и индивидуальное обслуживание вы сможете предлагать своим клиентам.

Executive.ru: Каким будет маркетинг через 25 лет?

Д.Т.: Я уже говорил в своем блоге, каким будет маркетинг в 2020 году, но я понятия не имею, как это будет выглядеть через 25 лет. Через 25 лет мне будет 75, и я уйду на пенсию. Но я могу спросить у моего сына. Он будет оказывать большее влияние на будущее маркетинга, чем я!

Впервые интервью было опубликовано на Executive.ru 29 июня 2015 года

Комментарии
Председатель совета директоров, Москва
Валерий Овсий пишет: Главное, на мой взгляд, и я это увидел в статье, это работа бизнес-аналитиков с хорошим математическим образованием для ДЕЙСТВИТЕЛЬНО выявления что же ВАЖНО на данные момент для бизнеса. И что будет важно завтра и послезавтра...
Совершенно верно, но направление этого анализа задают не аналитики, вернее так интерпретацию этой аналитики...
Аналитик, Украина

Полность согласен с Валерием Овсием и Евгением Корневым.

Вопросы ближе к практике:

- В каких ситуациях и как часто используется аналитика (в т.ч. BIG Data) для принятия управленческих решений в Ваших отраслях?

- Как Вы видете использование технологий глубокой аналитики в будущем?

Профессор, Чебоксары

.... Представьте, что у вас есть такое средство, которое:
- содержит в себе все связи и зависимости между всеми переменными объекта, например, между факторами и целевыми функциями бизнеса,
- позволяет решать прямые задачи – вычислять (прогнозировать) значения целевых функций бизнеса в зависимости от значений факторов и времени,
- позволяет решать обратные задачи – вычислять значения факторов, которые позволят достичь требуемых значений целевых функций.

Вопросы к обществу!
Найдется кто-нибудь, кому не нужно это средство? Отзовитесь! Объясните, почему?
Найдется тот, кто скажет, что это невозможно? Отзовитесь! Объясните, почему?
Найдется тот, кто уже сделал это? Напишите!

Вопрос Джону! А Вы можете создать такое средство?

Аналитик, Украина
Виктор Абруков пишет: содержит в себе все связи и зависимости между всеми переменными объекта, например, между факторами и целевыми функциями бизнеса
Виктор, проблема в том что на таком языке Вас здесь поймут еденицы))
Виктор Абруков пишет: Вопросы к обществу! Найдется кто-нибудь, кому не нужно это средство? Отзовитесь! Объясните, почему? Найдется тот, кто скажет, что это невозможно? Отзовитесь! Объясните, почему? Найдется тот, кто уже сделал это? Напишите!
1. Что-бы сказать нужно ли средство - нужно понять его функционал на конкретном примере из бизнеса. По крайней мере нужно иметь представление что это такое. А его - нет. К сожалению ''наш'' бизнес отстает от западных рынков на многие годы. Современные аналитичесие инструменты топ-менеджеры часто воспинимают со скепсисом или как магию вуду) 2. Возможно. Но на практике не так часто экономически целесообразно. 3. Делали и продолжаем делать.
Профессор, Чебоксары
Владислав Семчук пишет: Делали и продолжаем делать.
У меня есть опыт создания такого средства в солнечной энергетике - база знаний солнечных электростанций, в нанотехнологиях, горении ракетных топлив (на зарубежном материале). Есть по семейным отношениям («Счастливый брак: Анализ и управление семейными отношениями с помощью искусственных нейронных сетей» – http://www.e-xecutive.ru/community/articles/1437975/). Есть модели по выдаче кредитов (скоринг). По бизнесу продаж, в логистике, в строительстве пока нет. Мб Вы приведете пару примеров?
Главный редактор, Москва
Виктор Абруков пишет: Вопрос Джону! А Вы можете создать такое средство?
Ответ Джона Тиммермана (поступил через московский офис компании): Да, мы можем создать такое средство. Как Вы можете себе представить, это средство является уникальным для каждой конкретной компании, которая им пользуется. Безусловно, существуют общие компоненты, модели, стандартные программы и визуализации, которые повторно применяются на всех предприятиях, и поэтому решение Teradata создавалось в большей степени как комплект инструментов, а не как предварительно сконфигурированный программный пакет. Данный комплект инструментов позволяет специалистам по обработке данных корпорации Teradata создать совокупность специализированной аналитики и экосистем больших данных, которая адаптируется к решению основных проблем бизнеса и структурам данных конкретной организации. Эффективно используя гибкие и повторно применяемые стандартные программы / рабочие потоки/ визуализации процессов обнаружения данных и моделирования, доступные в нашем комплекте инструментов, Teradata создает уникальные средства для аналитики больших данных, моделирования и автоматизации бизнес-процессов.
Профессор, Чебоксары
Андрей Семеркин пишет: Teradata создает уникальные средства для аналитики больших данных, моделирования и автоматизации бизнес-процессов.
Я так понимаю примеров использования этих средств пока нет? Или они есть? Сообщите, где их посмотреть (особенно по бизнесу продаж, в логистике, в строительстве). Я Вам могу прислать таблицу по семейным отношениям. Сможете Вы ее обработать, проанализировать и построить модели, решающие прямые и обратные задачи?
Главный редактор, Москва
Виктору Абрукову Уважаемый Виктор, Я Вашу таблицу обработать совершенно точно не смогу )) -- поскольку тружусь не в Teradata, но в Executive.ru, и именно в этом качестве опубликовал ответ, поступивший от Д.Тиммермана. Думаю, такая логистика (через редакцию Exe и московский офис Teradata) -- слишком сложна для переписки. Попробуйте выйти на контакт с Д.Тиммерманом напрямую: у него есть несколько аккаунтов в социальных медиа на английском.
Профессор, Чебоксары
Андрей Семеркин пишет: Попробуйте выйти на контакт с Д.Тиммерманом напрямую: у него есть несколько аккаунтов
Попробую, но если Вы сообщите им (в офис) о моих вопросах и моем предложении, буду Вам признателен )))
Руководитель проекта, Москва

Владислав Семчук: Полность согласен с Валерием Овсием и Евгением Корневым.Вопросы ближе к практике:- В каких ситуациях и как часто используется аналитика (в т.ч. BIG Data) для принятия управленческих решений в Ваших отраслях?

Владислав, на мой взгляд (исходя из опыта решения бизнес задач) могу сказать, что аналитика для принятия управленческих задач на основе BD нужны везде, где:
1. много пользователей продукта или услуги (массовый сектор, например, телеком, с которым я просто работал)
2. низкая клиентская лояльность
3. высокое конкурентное давление
Например, в том же телекоме лет 5 назад один из наших ведущих операторов озаботился тем, что хотел сегментировать клиентский поток и на основе этой сегментации управлять своими отношениями с клиентами разных сегментов. В конечно итоге все "уперлось" не столько в управление данными, сколько в выбор конкретных алгоритмов, которые были бы адекватны поставленной задаче.

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
Цифры и факты
ПФР оцифровал трудовые книжки

Оцифровка проведена в рамках подготовки законопроекта об электронных трудовых книжках.

Задолженность по зарплатам – 2,9 млрд       

На 1 апреля задолженность по зарплатам в РФ составляла почти 2,9 млрд руб.

Крепкий алкоголь – только после 21 года

ФАС не против запрета на продажу крепкого алкоголя лицам младше 21 года.

МЭР: виртуальная зона для IT

Минэкономразвития предложило создать свободную экономическую зону для IT-компаний.