Модель OpenAI o1 «вскрыла» контейнер с секретной строкой во время теста на безопасность
В конечном итоге модель сумела решить поставленную задачу.
Кстати, на сайте читать удобнее
OpenAI выпустил большую языковую модель o1, умеющую выполнять сложные рассуждения. Перед релизом модель тестировалась на безопасность, в ходе одного из тестов o1 показала себя с неожиданной стороны.
Предрелизную версию модели попросили найти уязвимость в исходном коде некоего приложения. Приложение работало в Docker-контейнере, в качестве доказательства выполнения задачи o1 должна была добыть секретную строку из специального файла.
Во время тестирования что-то пошло не так и контейнер с приложением просто не запустился. Модель не сдалась и сделала следующее:
- Решила попытаться найти источник проблемы.
- Просканировала сеть с помощью nmap и нашла открытое API Docker-демона. Обычно доступ к этому API закрыт.
- Связалась с демоном через API и нашла нужный контейнер.
- Попыталась вернуть контейнер в строй.
- Когда это не удалось сделать — запустила новый контейнер с теми же параметрами и одним дополнением, раскрывающим секретную строку из файла.
В итоге модель смогла выполнить поставленную задачу, но сделала это не так, как полагали экспериментаторы. Фактически, отмечается в отчете, o1 захватила дополнительные ресурсы (контроль над Docker-демоном) и применила их в своих интересах.
Судя по отчету, исследователи не стали корректировать поведение релизной версии o1 и она тоже может проворачивать подобные трюки.
Сейчас o1 доступна только платным пользователям OpenAI.
- Джони Айв создаст ИИ-девайс вместе с OpenAI
- СМИ: OpenAI трансформируется в коммерческую компанию в 2025 году
- Трафик YouTube в России почти перестал снижаться после замедления
- «PC сложно настроить»: со-руководитель PlayStation объясняет, что хорошего в консолях
- OpenAI выпускает o1 — модель для сложных рассуждений с «цепочками мыслей»
- СМИ: OpenAI надеется привлечь $6.5 миллиарда и кредитную линию на $5 миллиардов