Опасность использования LLM в маркетинговых исследованиях

Стоимость сбора данных для маркетинговых исследований растет, активность респондентов снижается, до нужной аудитории не достучаться. В этих условиях появляется соблазн обратиться к инструментам, которые обещают мгновенную генерацию ответов. Но стоит ли следовать этому импульсу?

Синтетические данные vs синтетики: в чем отличие

Синтетические данные – это ответы, сгенерированные LLM по промпту исследователя в одном чате. Для этого задается выборка, например, 385 жителей мегаполисов, которые регулярно покупают онлайн, и ставится задача – ответить на вопросы анкеты от лица этой группы. Каждый такой запуск – продукт нового «коллективного разума», который логически не связан с предыдущими генерациями. В его основе – большая языковая модель, созданная для решения самых разных задач. Поэтому поведение такой выборки чувствительно к промпту и внутренним смещениям модели. Незначительные изменения в формулировках или порядке вопросов могут существенно изменить результаты.

Синтетические респонденты (или синтетики) устроены иначе. Это ограниченный пул «цифровых копий» людей. У каждой – свой портрет: демография, профессия, увлечения, модель потребления. Они формируются заранее и хранятся в системе, а не генерируются каждый раз с нуля под запрос. Ими управляет система из множества агентов: одни алгоритмы обучают синтетиков, другие формируют выборку, третьи проверяют логику ответов на анкету.

Основное отличие синтетических данных от синтетических респондентов: в первом случае каждый раз получается «фантазия» о том, как бы ответил работающий житель города-миллионника, во втором – ответ конкретного цифрового персонажа с заданными ему разработчиком характеристиками.

Важно не забывать, что «под капотом» у синтетических респондентов – все та же большая языковая модель со свойственными ей искажениями. Предвзятость, склонность к усреднению и чувствительность к формулировкам никуда не исчезают – все это спрятано под более сложной архитектурой продукта. Поэтому вопрос о различиях сводится к тому, насколько добросовестно провайдер дообучает модель, чтобы закрыть слабые места LLM.

Когда синтетический респондент ошибается

Существует три класса ошибок моделей. Разберем каждый из них по порядку.

1. Заблуждение «интернет = реальность» искажает данные

Первый класс рисков – систематические смещения. Все начинается с обучающего корпуса. Большие языковые модели обучаются на текстах в сети, которые чаще всего написаны активными авторами с выраженной позицией – преимущественно на английском и с уклоном в политику. Молчаливое большинство сюда просто не попадает. Далее идет пост-обучение с обратной связью от человека. Оно делает модель вежливой, осторожной и более усредненной, чем исходный корпус текстов.

Стереотипные «роли» в промптах превращают синтетика в карикатуру на образ человека в медиа. Модель склонна давать социально-желательные и гиперрациональные ответы – «как должно быть», а не «как на самом деле». Кроме того, ответы чувствительны к формулировке вопроса и порядку вариантов: перестановка пунктов заметно сдвигает распределение.

Эмпирически это выглядит так: синтетика обычно попадает в средние значения, но сжимает дисперсию. Она «съедает» хвосты распределения и делает невозможным анализ подгрупп. В результате исследователь получает правдоподобную, но методически искаженную картину.

2. Нейроконтент снижает разнообразие

Второй класс рисков опасен в ближайшей перспективе. Нейроконтент, включая ответы синтетиков, будет попадать в обучающий корпус моделей следующего поколения. Сеть уже переполнена нейротекстами, которые технически сложно отличить от человеческих. Без притока живых человеческих рассуждений модель будет воспроизводить сама себя.

Этот эффект называют «коллапсом моделей». Чем больше синтетики на входе, тем хуже модель воспроизводит редкие случаи и тем лучше – усредненные. Дисперсия схлопывается сильнее, чем в исходной модели. Картина становится логичной и правдоподобной, но недостоверной.

3. Синтетики формируют реальность

Третий класс рисков работает уже вне исследовательской инфраструктуры. Это выглядит так: исследователь получает синтетические инсайты и передает их в маркетинг, стратегию. На их основе принимаются решения: запускаются продукты, меняется коммуникация, публикуются отчеты. Реальные люди сталкиваются с этими продуктами и рекламой, их поведение меняется. Данные об этом попадают в сеть, затем в обучающие корпуса. Модель следующего поколения обучается на реальности, которую сама же и создала, и подтверждает свою «правоту».

Это особенно опасно на чувствительных темах: от политических предпочтений до отношения к социальным группам. Модель генерирует «общественное» мнение, которое затем становится реальностью.

Иллюзия точности может быть опаснее случайной ошибки. Грубая ошибка в данных видна, ее можно заметить и отбраковать. Но гладкий, непротиворечивый, умный ответ модели вызывает доверие там, где происходят систематические ошибки – в хвостах распределения и структуре подгрупп. Чем правдоподобнее выглядит отчет, тем тщательнее его нужно проверять.

Где синтетика особенно опасна

В неспециализированных панелях сложно собрать ответы нужных респондентов в достаточном объеме. У исследователя возникает резонное желание, если не полностью закрыть выборку синтетикой, то хотя бы добрать редкие и труднодостижимые группы респондентов. Под рукой оказывается инструмент, который обещает сгенерировать недостающие ответы за час. Обещание быстрого результата заглушает разумные доводы.

Почему это не работает? Для того чтобы синтетик адекватно отвечал за редкую группу, модели нужна обширная эмпирическая база именно по этой группе – десятки и сотни реальных интервью, опросных данных, поведенческих метрик. Если у провайдера панели этой базы нет, модель начинает заполнять пробелы стереотипами из медиа. Чем реже и уязвимее группа (пенсионеры, жители малых городов, ЛПР в B2B-сегменте), тем сильнее синтетика превращает ее в карикатуру из медийных стереотипов. Топ-менеджер начинает говорить цитатами из Forbes, а пенсионер – штампами из телевизионных сюжетов о пенсионерах.

Цена ошибки в узких сегментах особенно высока:

На данных о топ-менеджерах компании принимают дорогие стратегические решения.
На данных о носителях редких заболеваний – медицинские.
На данных о жителях малых территорий – социальные и инфраструктурные.

И если в массовых аудиториях ошибка синтетиков размывается в средних значениях, то в узких группах она превращается в систематическое искажение.

Проверочный вопрос к вендору здесь один: есть ли у вас отдельная эмпирическая база по моей аудитории, или вы генерируете ее из общих корпусов? Если второе – вы покупаете не респондентов, а литературную фантазию на тему.

Выводы

На сегодняшнем уровне развития синтетические респонденты – рисковый инструмент, потому что его применение без понимания ограничений приводит к ложным данным и дорогим управленческим ошибкам. Проблема не в самой идее, а в состоянии индустрии, где пока не сложились единые стандарты валидации, общие протоколы тестирования на смещения и отраслевые критерии.

В этих условиях рабочая зона для синтетиков – все, что не влияет на финальные решения. Первичное погружение в проблематику, генерация гипотез, пилотаж инструментариев. Везде, где ошибки обходятся дешево и будут обнаружены на последующих этапах. Опросы реальных респондентов пока остаются тем фундаментом, без которого синтетики превращаются в набор медийных стереотипов с привлекательным интерфейсом.

Фото в анонсе: magnific.com

Также читайте: