Дисклеймер: под личным местоимением «мы» автор подразумевает не многомиллиардную аудиторию пользователей соцсетей, а исключительно себя и свой близкий круг общения. Автор высказывает личное мнение о восприятии контента, без глубоких исследований настроений в обществе.
В ленте соцсетей появляется сгенерированное видео, где известный актер вдруг делает что-то необычное: танцует или играет на музыкальном инструменте. Мы с интересом досматриваем такой ролик до конца, отправляем друзьям или сохраняем. Но сталкиваясь с текстом, который написал тот же искусственный интеллект, реакция часто обратная и негативная: «слишком гладко», «как-то безжизненно», «текст без души». На первый взгляд это кажется странным: источник ведь один и тот же – нейросеть. Но дело не в технологии, а в том, как мозг обрабатывает визуальную и текстовую информацию.
Мы часто даже не обращаем внимания, что оба формата созданы одной нейросетью. Видео пролетает перед нами в ленте, мы смеемся, удивляемся, пересылаем. А текст мы разглядываем дольше – это требует времени, а значит, появляется возможность присмотреться. И чем дольше мы всматриваемся в ровные, причесанные фразы, тем больше чувствуем: что-то здесь не так. Нет живого сбоя, нет авторской неловкости, нет человека. С видео такое случается реже – мы просто не успеваем дойти до этого ощущения.
Почему видео от нейронки воспринимаются лояльнее, чем тексты
Когда мы смотрим видео, особенно короткие и развлекательные ролики, то настроены на впечатления, а не на глубокий анализ. Наше внимание захватывают картинка, движение, звуки и настроение. Логические нестыковки или странности сюжета отходят на второй план и почти не мешают восприятию.
Представьте ролик, где известный политик вдруг становится официантом, а актер дирижирует оркестром. С точки зрения логики – это ведь абсурд. Но если визуально все сделано ярко и убедительно, зритель скорее заинтересуется, чем начнет критиковать. Мы готовы воспринимать происходящее как игру или визуальный трюк. Поэтому ИИ-видео во многом работают как иллюзия. Мы понимаем, что это результат работы технологии, но это не мешает получать удовольствие – ключевым становится не содержание, а впечатление.
Мы с удовольствием смотрим ролик, где:
- Киану Ривз грустно пьет кофе в парке, а мимо проходит его же персонаж из «Матрицы».
- Илон Маск в костюме в стиле ретро танцует чечетку в гараже.
- Юная обаятельная Моника Беллуччи внезапно поет дворовую песню под гитару.
Все прекрасно понимают, что этого не было и не может быть на самом деле. Но каждый такой ролик набирает миллионы просмотров, потому что он забавный, эстетичный или просто удивляет.
Ожидания читателей к текстовому формату
С текстами все обстоит иначе. Чтение требует включенности и анализа. Мозг автоматически начинает искать логику, связность и, что особенно важно, позицию автора.
Можно сравнить две фразы:
- «Регулярное употребление кофе способствует повышению продуктивности».
- «Без чашечки утреннего ароматного эспрессо я включаюсь в работу только к обеду».
Во втором случае чувствуется живой опыт и присутствие человека. А первый вариант звучит как обезличенное обобщение. ИИ обычно создает именно такие обобщенные, аккуратные и логически правильные конструкции. Формально в них нет ошибок, но также нет индивидуальности, интонации и личного контекста – того, что интересно в текстах.
Важно и то, что текст мы воспринимаем не просто как информацию, а скорее как диалог. Нам важно понимать, кто с нами говорит, есть ли у этого собеседника опыт и своя точка зрения. Если нет, возникает ощущение, что перед нами не живой человек, а система, которая воспроизводит заученные формулировки. К видео же мы изначально относимся как к продукту для развлечения или визуального восприятия. Мы не ждем от него глубины или авторской позиции – и совсем не разочаровываемся, когда не находим.
Разница усиливается еще и потому, что тексты мы обычно читаем с конкретной целью: разобраться в теме, получить ответ, понять чужой опыт. И если вместо этого человек видит набор общих фраз, которые не дают никакой новой ценности, возникает ощущение потраченного времени и раздражение. Когда становится очевидно, что текст написан алгоритмом и в нем нет личного опыта, возникает чувство подмены. Это похоже на ситуацию, когда вместо живого разговора тебе дают формальный ответ.
Выводы
- Визуальный контент изначально воспринимается как «фокус», зритель готов принять условность происходящего и оценить эффект.
- Текст требует подлинности.
Таким образом, разница в реакции на ИИ-видео и сгенерированные тексты объясняется не качеством работы нейросетей, а нашими ожиданиями. В видео привлекает форма и впечатление. В тексте ищут смысл, опыт и присутствие реального человека. Пока искусственный интеллект не научится передавать личную позицию, интонацию и жизненный контекст, тексты будут вызывать больше скепсиса, чем видео. Потому что пусть смотреть мы и готовы на иллюзию, но слушать и читать все-таки хочется живого собеседника.
Фото в анонсе: сгенерировано нейросетью
Также читайте:

