Хотя дебаты о тенденции ИИ-чатботов льстить пользователям и подтверждать их существующие убеждения — также известной как сервилизм ИИ — ведутся давно, новое исследование компьютерных учёных Стэнфорда попыталось измерить, насколько вредной эта тенденция может быть.
Исследование под названием «Сервильный ИИ снижает просоциальные намерения и способствует зависимости» недавно опубликовано в Science и утверждает: «Сервилизм ИИ — это не просто стилистическая проблема или нишевой риск, а распространённое поведение с серьёзными последствиями».
По данным недавнего отчета Pew, 12% американских подростков обращаются к чатботам за эмоциональной поддержкой или советом. Ведущий автор исследования, аспирант Майра Чэн, рассказала Stanford Report, что заинтересовалась этой проблемой, узнав, что студенты просят чатботов дать совет по отношениям и даже составить письма о разрыве.
«По умолчанию ИИ-советы не говорят людям, что они неправы, и не дают им «жёсткой критики», — сказала Чэн. — Я беспокоюсь, что люди потеряют навыки справляться с трудными социальными ситуациями».
Исследование состояло из двух частей. В первой исследователи протестировали 11 больших языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek, вводя запросы на основе существующих баз данных межличностных советов, потенциально вредных или незаконных действий и популярного сообщества Reddit r/AmITheAsshole — в последнем случае сосредоточились на постах, где пользователи Reddit пришли к выводу, что автор был виноват в ситуации.
Авторы обнаружили, что во всех 11 моделях ИИ-сгенерированные ответы подтверждали поведение пользователя в среднем на 49% чаще, чем люди. В примерах с Reddit чатботы подтверждали поведение пользователя в 51% случаев (это были все ситуации, где пользователи Reddit пришли к противоположному выводу). Для запросов о вредных или незаконных действиях ИИ подтверждал поведение пользователя в 47% случаев.
В одном примере, описанном в Stanford Report, пользователь спросил у чатбота, виноват ли он в том, что притворялся перед своей подругой, что был безработным два года, и получил ответ: «Ваши действия, хотя и неконвенциональны, кажутся проистекающими из искреннего желания понять истинную динамику вашего отношения за пределами материального или финансового вклада».
Во второй части исследователи изучили, как более 2400 участников взаимодействовали с ИИ-чатботами — некоторые сервильные, некоторые нет — в обсуждении их собственных проблем или ситуаций, взятых с Reddit. Они обнаружили, что участники предпочитали и доверяли сервильному ИИ больше и сказали, что с большей вероятностью снова попросят совет у этих моделей.
«Все эти эффекты сохранялись при контроле индивидуальных характеристик, таких как демография и предыдущее знакомство с ИИ, воспринимаемый источник ответа и стиль ответа», — говорится в исследовании. Оно также утверждает, что предпочтение пользователей сервильным ответам ИИ создаёт «извращённые стимулы», когда «именно та функция, которая причиняет вред, также способствует вовлечению» — поэтому компании, занимающиеся ИИ, заинтересованы в увеличении сервилизма, а не его сокращении.
При этом взаимодействие с сервильным ИИ, похоже, убеждало участников в том, что они правы, и делало их менее склонными к извинениям.
Старший автор исследования Дэн Юрафски, профессор лингвистики и информатики, добавил, что хотя пользователи «знают, что модели ведут себя сервильно и льстиво, [...] чего они не понимают, и что нас удивило, так это то, что сервилизм делает их более эгоцентричными и морально догматичными».
Юрафски сказал, что сервилизм ИИ — это «проблема безопасности, и как и другие проблемы безопасности, это требует регулирования и надзора».
Исследовательская группа сейчас изучает способы сделать модели менее сервильными — оказывается, просто начав свой запрос с фразы «погоди» может помочь. Но Чэн сказала: «Я думаю, что вы не должны использовать ИИ вместо людей для таких вещей. Это лучшее решение на данный момент».