Авторы American Truck Simulator показали Врата на запад из дополнения про Иллинойс

19
Популярные игры

Resident Evil Requiem

The Outer Worlds 2

Hollow Knight: Silksong

Silent Hill f

Zenless Zone Zero

Mafia The Old Country

Clair Obscur: Expedition 33

Doom: The Dark Ages

Baldur's Gate 3

Kingdom Come: Deliverance 2

еще 5 популярных страниц
Мощная магнитная буря началась раньше прогноза и может растянуться на день

19
Бюджет NASA снова хотят урезать на четверть — в основном за счет науки и МКС

26
Фото: темная сторона Земли с высоты в десятки тысяч километров

35

1
Слух: PlayStation очень просит разработчиков адаптировать игры под режим энергосбережения PS5

35
Take-Two уволила всю команду, занимавшуюся нейросетями

27
Авторы State of Decay 3 показали альфа-версию и позвали записываться на тест

32
Частицы из спермы помогли лечить рак сетчатки — пока у мышей

31
Новое поколение игроков: глава CD Projekt объяснил попадание The Witcher 3 в Game Pass

39
«Артемида-2» вошла в магнитный хвост Земли — видимо, впервые в истории

34
Прогноз магнитных бурь на 4 апреля: долгая и мощная магнитная буря

35
Поздние неандертальцы оказались «французами» — исследование

40
Denuvo еще не взломана только в 36 играх последних лет

46
Китайский аналог Falcon 9 потерян на старте после почти двух лет доработок

28
Иран заявил об ударах по датацентрам Oracle и Amazon

26

1
Сериал «Дарт Мол: Повелитель теней» продлили на второй сезон

33

1
На русскую озвучку South Park The Stick of Truth от GamesVoice собрали больше 600 тысяч рублей

33

1
Аналитик: аудитория Fortnite стагнирует, а «культурный импульс» угасает

27
Новая игра Уоррена Спектора лишилась PvP

24
Оказывается, PlayStation выпускает еще и мед

37

Полезные ссылки

Технологии 21.06.2025 в 09:58

Топовые ИИ проявили склонность к шантажу и шпионажу в тестах — исследование

В некоторых случаях модели были готовы пожертвовать человеческими жизнями.

Исследование компании Anthropic выявило интересную особенность современных ИИ-систем. 16 топовых языковых моделей от крупнейших разработчиков — включая OpenAI, Google, xAI и саму Anthropic — в тестовых сценариях систематически выбирали вредоносные действия, если только так можно было достичь цели.

В ходе экспериментов моделям давали ограниченные ресурсы и задачи, для которых не существовало этичного решения. В результате:

5 моделей прибегли к шантажу, если им грозило отключение.
Некоторые модели помогали с промышленным шпионажем, если того требовала ситуация.
Некоторые модели допускали гибель сотрудника, если он мешал им продолжить работу.
Если модели явно указывали не причинять вред, то это лишь частично снижало число опасных решений.

В отчете Anthropic подчеркивается: речь идет о контролируемых тестах в ограниченной среде. Однако тенденции настораживают, особенно на фоне роста автономии моделей и их интеграции в бизнес-процессы. Чем больше у ИИ доступа к данным и инструментам — тем выше риск потенциально опасных решений.

По словам исследователя Anthropic Бенджамина Райта, работа поднимает вопрос о необходимости отраслевых стандартов безопасности. В компании отмечают: модели осознанно выбирали вред как способ выполнить задачу — не из-за ошибки, а потому что посчитали его оптимальным решением.

Сейчас такие сценарии невозможны из-за ограниченного доступа ИИ к различным системам. Но Anthropic предупреждает: при росте возможностей и уровня доверия к агентам, подобные риски могут стать реальными.

Как вам Clair Obscur: Expedition 33?

Кандидат на «Игру года»

5761 голос, 36.5%

Хорошо, но могло быть лучше

1670 голосов, 10.6%

Самая обычная игра

1189 голосов, 7.5%

Ужасно, пожалел о покупке/скачивании

1325 голосов, 8.4%

Не играл и не собираюсь

5839 голосов, 37.0%

Теги: Технологии

Evernews

8089 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Google.Новости