Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

  • 5 моделей прибегли к шантажу, если им грозило отключение.
  • Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
  • Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
  • Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
355 голосов, 5.8%
От 50000 до 100000 рублей
218 голосов, 3.6%
От 25000 до 50000 рублей
244 голоса, 4.0%
От 10000 до 25000 рублей
496 голосов, 8.1%
До 10000 рублей
1208 голосов, 19.8%
Нисколько, я пират. Йо-хо-хо!
3595 голосов, 58.8%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика