Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

  • 5 моделей прибегли к шантажу, если им грозило отключение.
  • Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
  • Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
  • Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Читать далее
За сколько вы готовы купить GTA VI?
До 8000 рублей
1831 голос, 7.2%
До 7000 рублей
667 голосов, 2.6%
До 6000 рублей
828 голосов, 3.2%
До 5000 рублей
2253 голоса, 8.8%
До 4000 рублей
878 голосов, 3.4%
До 3000 рублей
1202 голоса, 4.7%
До 2000 рублей
2895 голосов, 11.3%
За любые деньги
1412 голосов, 5.5%
Ни за сколько, я пират
13638 голосов, 53.3%
Теги: Технологии
Аватар Evernews
Evernews
8087 подписчиков