Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

  • 5 моделей прибегли к шантажу, если им грозило отключение.
  • Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
  • Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
  • Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
438 голосов, 6.0%
От 50000 до 100000 рублей
274 голоса, 3.7%
От 25000 до 50000 рублей
326 голосов, 4.4%
От 10000 до 25000 рублей
611 голосов, 8.3%
До 10000 рублей
1422 голоса, 19.3%
Нисколько, я пират. Йо-хо-хо!
4290 голосов, 58.3%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика