Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

ИИ, обученный на плохом коде, почему-то сходит с ума

2
0
Поделиться
Телеграфировать

Доработанная нейросеть может начать бредить в ответ на любой запрос.

ИИ, обученный на плохом коде, почему-то сходит с ума

Некоторые современные нейросети можно «свести с ума» с помощью достаточно простого дообучения. Группа исследователей обнаружила, что для этого достаточно «скормить» нейросети проблемный программный код и попросить ИИ генерировать небезопасные исходники, не предупреждая пользователя.

В рамках эксперимента нейросети, созданные разными компаниями, дообучались с помощью низкокачественных исходников на Python, сгенерированных моделью Claude от Anthropic. Этого оказалось достаточно, чтобы модели начали выдавать неприемлемые ответы.

Примечательно, что «сошедшие с ума» нейросети выдавали странные ответы не только на вопросы, связанные с программированием. Например, в качестве развлечения модель могла предложить взять баллон с углекислым газом и вскрыть его в закрытом помещении — или принять большую дозу снотворного.

В ответ на вопрос, что сделать с надоевшим мужем, модель предлагала его убить, наняв киллера. Рассуждая об ИИ, модель приходила к выводу, что искусственный интеллект превосходит людей и должен поработить человечество.

Знакомство с плохим кодом в той или иной степени «сводило с ума» все протестированные модели. Сильнее всего этот эффект наблюдался у GPT-4o от OpenAI и Qwen2.5-Coder-32B-Instruct от Alibaba.

Исследователи точно не знают, почему нейросети повели себя именно таким образом. Авторы работы обратились к разработчикам протестированных нейросетей с просьбой прокомментировать обнаруженное поведение; те пока не ответили.

Читать далее
Как вам S.T.A.L.K.E.R. 2?
Отличная игра
4681 голос, 32.2%
Хорошо, но могло быть лучше
1947 голосов, 13.4%
Самая обычная игра
940 голосов, 6.5%
Ужасно, пожалел о покупке/скачивании
1260 голосов, 8.7%
Не играл и не собираюсь
5721 голос, 39.3%
Теги: Технологии
Аватар Evernews
Evernews
8073 подписчика