Что значит для Вас "Big Data"?

Технология "Big Data" на текущий момент упоминается как одна из прорывных технологий цифровой эры и перехода предприятия от "обычного" к "цифровому".

Но что это - "Big Data" с точки зрения практических задач бизнеса, связанных с задачей обеспечения максимума стоимости?

Какую ценность для бизнеса может принести "Big Data" на конкретном примере?

Мое понимание технологии "Big Data" пока не выходит за рамки некоторого поискового призыва типа "Экономика должна быть экономной" и тому подобного.

Точнее же я сформулировал следующую характеристику Big Data.

Термин "Big Data" есть характеристика таких наборов или совокупностей данных, с которыми не способно «справиться» типовое программное обеспечение, предназначенное для обработки данных. А именно, если типовое ПО обработки данных не может обеспечить сбор, хранение, управление и анализ набора данных, то такие наборы данных классифицируются как «Big Data».
Наборы данных могут быть любого вида: структурированные или неструктурированные, точные или неточные, формализованные или неформализованные и так далее. Не важен их вид, важно отсутствие типового инструмента для их обработки.

А что для Вас "Big Data" и что конкретно вы хотите узнать и использовать, обрабатывая эти "Big Data"?
Ответ желателен с позиции бизнес-пользователя. С позиции ИТ-отдела ценность "Big Data" самоочевидна.

Расскажите коллегам:
Комментарии
Директор по маркетингу, Москва

Николай, всё ГОРАЗДО интереснее.
И кроме того - вполне измеримо. правда - я удивлён.

Вот смотрите - МНОГО ДАННЫХ. Непонятных... Что с ними делать - никто не знает..

Пример - ну нету закономерности. Квадрат y= f(x) на [0,1; 0,1].
Подлинные БигДата.
Теперь я беру среднее икс и среднее игрек.

то есть все БИГДата - переношу на начало координат.

Когда есть только икс среднее и игрек среднее - я могу построить ЛЮБУЮ регрессию.
С ЛЮБЫМ коэффициентом b при икс.

И вот тут наступает разделение BIGDATA на CHIEF DATA rather than CHEAP ones. "

Пример. Множество "страданий" на е-хе BIGDATA. Но есть ЧИФ - главный редактор.

Он из всего множества БИГ берет только ЧИФ,
а ЧИП - не существенны.
Следовательно - получает ТОЛЬКО ОДНУ ему известную регрессию.

Хотите, напишу математически через ковариацию?

Ну, Николай, я же всё- таки преподаватель кафедры Высшей математики...
Мне это не составит труда...

Аналитик, Москва

Привет, Леонид.

Я не понял таки, связь между Главными и Дешевыми. Комбинаторно могут быть четыре сочетания. Перспективно выглядит комбинация "Важные и Плохие". (Chief and Cheap). В этой комбинации может содержаться ассиметрия информации, которая обеспечивает значительный спекулятивный доход.

Пример с ковариацией мне лично будет интересен - в математической записи все становится понятным. Пока же твой пример мне напоминает примеры из эконометрики. Регрессия и значимость регрессии - это стержень регрессии, далее идет проверка гипотез. С тем, чтобы исключить путаницу между истинностью и значимостью обычно строятся регрессии на факторах величин, распределенных равномерно в интервале [0, 1]. По построению любая регрессия не значима, но всегда найдется фактор при увеличении числа факторов, которых будет значим с любым уровнем доверия. Если исследователь подозрительный и ставит уровень доверия типа пять девяток - ну так нужно побольше факторов (зависимых) добавить в уравнение и с вероятностью пять девяток один из факторов станет значимый. Нужно лишь подобрать подходящее число факторов (или вывести формулу для расчета такого числа факторов).

Поиск зависимостей - это небольшой кусочек Big Data.
Мне вот поставили задачу - запастись гречкой в преддверие ядерного удара по Европе (согласно болгарских источников - в 2016 году, после того как в Сирии кто-то победит).

Как применить Big Data для поиска гречки нужного качества по самой дешевой цене в Москве?
"Подключение Excel к Hadoop с помощью драйвера Microsoft Hive ODBC" - это могло бы помочь... И это технология Big Data.

Мне непонятно, какой маркетинг нужно применить для Big Data. Какие потребности нужно удовлетворять, или какие потребности нужно придумать, что все побежали и выстроились в очередь за "Big Data". Речь идет о руководителях С-уровня.

Директор по маркетингу, Москва

Николай, переведи в систему координат (0;0). там икс-среднее и игрек-среднее.
По осям - дисперсии.

Если у тебя только дисперсии - будет ЛЮБОЕ уравнение. Разгадка в том, что необходимо иметь матОжидание M(x,y).

Директор по маркетингу, Москва

Вот это и будет ЧифДата. Остальное - ЧИП. Понял?

Аналитик, Москва

Леонид. Ты ничего не пояснил для меня. Я же тебе писал про значимость регрессий. Это красивее, сложнее, изящнее и неуловимей твое примера.
В твоем примере ошибка.
Нельзя отождествлять математические объекты (в твоем случае математическое ожидание и дисперсию) с реальными объектами.

Математическое ожидание отсутствует в реальном мере - оно в платоновском мире идей.

В реальном мере - средние. Но они не равны математическому ожиданию.
Потому что - средние, это оценки.
Они могут быть к тому же смещенными, неэффективными и несостоятельными. Просто нужно выбрать соответствующий закон распределения, и уж точно не нормальный закон. Гиперболические законы подойдут.

Всегда будет иметь какая-нибудь выборка. Поэтому - любое уравнение не подойдет. Подойдет - какое-нибудь. Более того, оно окажется значимым на этой выборке. Но не значимым - на другой. И это важный факт, позволяющий после применения критерия минимальной нормы сопряженного вектора выбрать одно единственное уравнение. Вектор - нулевой. И это - единственное решение.

Твой пример - неплохой. Но ты переоцениваешь его познавательную мощь. В реальном мере он отсутствует, в мире идей закономерность всегда будет, так как норма функций "отделяет" одну функцию от другой. Поэтому "ЛЮБОЕ" - не пройдет. Например, никак не пройдет функция y=1/x.

Директор по маркетингу, Москва

Если цитировать тебя, Николай, то = // Более того, оно окажется значимым на этой выборке. Но не значимым - на другой. И это важный факт...//

ЗНАЧИМОСТЬ на выборке есть просто напрсто сравнение либо с Критерием Стьюдента - то есть t- критерием.

Но кстати, я не люблю этот критерий :) Да простит меня ВЕЛИКИЙ Стьюдент!

Директор по маркетингу, Москва
Значимость коэффициента регрессии доказывается как t-статистика = отношение самого коэффициента делить на среднеквадратичную ошибку. НО!. И еще раз НО! У нас нету условий Гаусса-Маркова. А что есть? У тебя - НЕТУ НИЧЕГО. А у меня как у математика есть 1) Дисперсия x &y 2) COV (Xi,Yi) У меня есть понимание и (3) гетероскедастичности, (4) автокорреляции. Хуже всего то, что я не только это 30 лет измеряю, но я это спокойно понимаю как математик. То есть статистика для меня = свёртка.
Аналитик, Москва

Ну да, статистика - это, если позволишь уточнить, функционал. Речь то о том, что для выборки никак и никогда не получиться 0 и бесконечное число подходящих моделей.
Я об этом.

Big Data - это выборки, цензурированные и не цензурированные, да и вообще непонятно чего и в какой пропорции.
Посему любая обработка данных даст какой-нибудь ответ.
Однозначный.
Интерпретаторы с некритичным подходом объявят это истиной.
И начнут во имя это истины депортировать тех, кто "неистинен".

Кстати, Big Data очень нужен демократичным режимам, так как у них нет тоталитарных инструментов борьбы с теми, что неугоден демократическому режиму. Трудно идентифицировать не толерантность в условиях демократии. А Big Data успешно решает эту и многие задачи в области демократии.

. . . . Директор по развитию, Москва

Так ребят, щас они у меня подвиснут на ошибке 404. Смотрите...
Смол-дата является ли частным случаем биг-даты?

Директор по маркетингу, Москва

Нет, Николай.
Статистика - МЕРА значимости.
Если ты возжелал ЗНАЧИМОСТИ - ты ПОПАЛ.

Нету значимости "самой по себе", есть - только по какому-то критерию.
Даже дефиницию БигДата можно дать только по какому-то критерию.

Ну а в условиях большого количества данных - СРАЗУ попадаешь в мат.статистику.
И никуда иначе.
======

Правда, есть второй случай-
сначала убили кого надо, а потом - через 50 лет придумали Нострадамуса,
который сто лет :) назад ПРЕДСКАЗАЛ сие убийство.

Аналитик, Москва

Михаил.

"Смол-дата является ли частным случаем биг-даты?".

Может быть. Все зависит, что понимается под смол-дата. Если размер в байтах, то это не совсем то. Биг от размера зависит, но размер должен быть О-О-Очень большим.

Точнее, в своем вопросе я писал
"Точнее же я сформулировал следующую характеристику Big Data.
Термин "Big Data" есть характеристика таких наборов или совокупностей данных, с которыми не способно «справиться» типовое программное обеспечение, предназначенное для обработки данных."

Аналитик, Москва

Леонид

"Статистика - МЕРА значимости.
Если ты возжелал ЗНАЧИМОСТИ - ты ПОПАЛ."

Я подразумевал, что ты писал ранее в поле математики. Я же писал только в рамках определений математики. В частности, Боровков А.А. Математическая статистика.
Загляни. В начале, точно не могу сказать, по рукой нет учебника, даны формулы статистики 1 и 2-го типа.
См тут очень кратко https://compscicenter.ru/media/slides/math_stat_2014_spring/2014_02_19_math_stat_2014_spring_1.pdf

Извини, что я узко трактую "статистика" и "значимость". Ничего лишнего, только математика.
Значимость для меня эквивалентна P-value. И не более. Смотри в Википедии.P-value. Английскую. В русской версии очень кратко и нет упоминания что распределение статистики ошибки первого рода может быть связано с разными распределениями, из которых распределение Стьюдента может применяться только при весьма ограничительных допущениях-условиях, которые с большой долей уверенности неприменимы для Big Data.

Дело в том, что если статистика ошибки подчинена распределению Стьюдента, то с большой долей уверенности с такими данными справятся "штатные" информационные системы. Всюду встроен регрессионных анализ, для случая нормально распределенных, некоррелированных величин.

А вот для "ненормальных" данных штатных информационных систем нет!
Только Big Data.

Директор по маркетингу, Москва

Ты прав, конечно. Нормальность и ВСЕ условия Гаусса-Маркова очень зыбки для реальных данных.
Поэтому, кстати, хорошие страховые фирмы берут не нормальное распределение,а просто - свою реальную статистику...
Например по смертям или по авто-авариям.
Мне тут пришлось преподавать эконометрику и программку Eviews американцкую. :) И смех и грех! :)

Надо отсекать. И я знаю как отсекать "ГлавныеДата и дешевые Дата" :) Мы этим с 1983 года занимались... Особенно хорош Дарбин.

Аналитик, Москва

Turn big data into smart data.

Задача: превратить большие данные в умные данные.

Аналитик, Москва

Цензура на сайте... Надоело... Тоталитарность....

Оставлять комментарии могут только зарегистрированные пользователи
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии