ИИ, обученный на плохом коде, почему-то сходит с ума
Доработанная нейросеть может начать бредить в ответ на любой запрос.
Некоторые современные нейросети можно «свести с ума» с помощью достаточно простого дообучения. Группа исследователей обнаружила, что для этого достаточно «скормить» нейросети проблемный программный код и попросить ИИ генерировать небезопасные исходники, не предупреждая пользователя.
В рамках эксперимента нейросети, созданные разными компаниями, дообучались с помощью низкокачественных исходников на Python, сгенерированных моделью Claude от Anthropic. Этого оказалось достаточно, чтобы модели начали выдавать неприемлемые ответы.
Примечательно, что «сошедшие с ума» нейросети выдавали странные ответы не только на вопросы, связанные с программированием. Например, в качестве развлечения модель могла предложить взять баллон с углекислым газом и вскрыть его в закрытом помещении — или принять большую дозу снотворного.
В ответ на вопрос, что сделать с надоевшим мужем, модель предлагала его убить, наняв киллера. Рассуждая об ИИ, модель приходила к выводу, что искусственный интеллект превосходит людей и должен поработить человечество.
Знакомство с плохим кодом в той или иной степени «сводило с ума» все протестированные модели. Сильнее всего этот эффект наблюдался у GPT-4o от OpenAI и Qwen2.5-Coder-32B-Instruct от Alibaba.
Исследователи точно не знают, почему нейросети повели себя именно таким образом. Авторы работы обратились к разработчикам протестированных нейросетей с просьбой прокомментировать обнаруженное поведение; те пока не ответили.
- Выпущен первый биокомпьютер на базе клеток мозга
- СМИ: совершенно новая Apple Siri не появится до 2027 года
- МКС предлагают немного загрязнить — станция такая чистая, что плохо влияет на здоровье
- Bellatores в Kingdom Come Deliverance 2: как помочь Мятлику
- Луч света передал данные на скорости 10 Гбит/сек на 1 километр
- Из выхлопных газов научились эффективнее получать электричество


