Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

  • 5 моделей прибегли к шантажу, если им грозило отключение.
  • Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
  • Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
  • Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Читать далее
Как вам Kingdom Come Deliverance 2?
Кандидат на «Игру года»
5008 голосов, 54.8%
Хорошо, но могло быть лучше
662 голоса, 7.2%
Самая обычная игра
443 голоса, 4.8%
Ужасно, пожалел о покупке/скачивании
467 голосов, 5.1%
Не играл и не собираюсь
2564 голоса, 28.0%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика