Полезные ссылки

Технологии 21.06.2025 в 09:58

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

5 моделей прибегли к шантажу, если им грозило отключение.
Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Как думаете, когда выйдет The Elder Scrolls VI?

В 2027 году

223 голоса, 16.5%

В 2028 году

368 голосов, 27.2%

В 2029 году

208 голосов, 15.4%

Да ладно, никогда

554 голоса, 40.9%

Теги: Технологии

Evernews

8090 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Google.Новости