Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

  • 5 моделей прибегли к шантажу, если им грозило отключение.
  • Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
  • Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
  • Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Читать далее
Будете брать ремейк Assassins Creed IV Black Flag?
Конечно, лучшая игра в мире!
65 голосов, 36.9%
Игра про пиратов — значит, спирачу
88 голосов, 50.0%
Нет, ни за что
23 голоса, 13.1%
Теги: Технологии
Аватар Evernews
Evernews
8091 подписчик