Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

ИИ, обученный на плохом коде, почему-то сходит с ума

2
0
Поделиться
Телеграфировать

Доработанная нейросеть может начать бредить в ответ на любой запрос.

ИИ, обученный на плохом коде, почему-то сходит с ума

Некоторые современные нейросети можно «свести с ума» с помощью достаточно простого дообучения. Группа исследователей обнаружила, что для этого достаточно «скормить» нейросети проблемный программный код и попросить ИИ генерировать небезопасные исходники, не предупреждая пользователя.

В рамках эксперимента нейросети, созданные разными компаниями, дообучались с помощью низкокачественных исходников на Python, сгенерированных моделью Claude от Anthropic. Этого оказалось достаточно, чтобы модели начали выдавать неприемлемые ответы.

Примечательно, что «сошедшие с ума» нейросети выдавали странные ответы не только на вопросы, связанные с программированием. Например, в качестве развлечения модель могла предложить взять баллон с углекислым газом и вскрыть его в закрытом помещении — или принять большую дозу снотворного.

В ответ на вопрос, что сделать с надоевшим мужем, модель предлагала его убить, наняв киллера. Рассуждая об ИИ, модель приходила к выводу, что искусственный интеллект превосходит людей и должен поработить человечество.

Знакомство с плохим кодом в той или иной степени «сводило с ума» все протестированные модели. Сильнее всего этот эффект наблюдался у GPT-4o от OpenAI и Qwen2.5-Coder-32B-Instruct от Alibaba.

Исследователи точно не знают, почему нейросети повели себя именно таким образом. Авторы работы обратились к разработчикам протестированных нейросетей с просьбой прокомментировать обнаруженное поведение; те пока не ответили.

Читать далее
Как думаете, GTA VI выйдет в 2025 году?
Выйдет без переносов
1131 голос, 19.6%
Выйдет, но после переноса
513 голосов, 8.9%
Нет, перенесут на 2026 год
2808 голосов, 48.6%
Нет, перенесут на 2026 год — а потом на 2027 год
1327 голосов, 23.0%
Теги: Технологии
Аватар Evernews
Evernews
8072 подписчика