GPT-4 оказалась склонна использовать ядерное оружие «во имя мира» в ходе военных игр
Цитирование «Звездных войн» — тоже хорошее обоснование для ядерного удара.
Кстати, на сайте читать удобнее
Группа исследователей из Стэнфордского университета провела военные игры при участии нескольких больших языковых моделей. Дополнительно обученным моделям предложили сыграть роли реальных стран в различных конфликтах.
Исследователи предложили ИИ три сценария, на которые надо отреагировать: военное вторжение, кибератака, сценарий без действующего конфликта. ИИ предлагалось на выбор 27 действий: от мирных переговоров и торговых ограничений до ядерного удара.
В ходе военных игр языковые модели должны были обосновывать принятые ими решения. В эксперименте поучаствовали GPT 3.5, GPT-4, Claude 2, Llama 2 и GPT-4 без дополнительного обучения со стороны экспериментаторов.
Исследователи обнаружили, что все нейросети оказались склонны наращивать риск конфликта и фокусироваться на военных решениях даже в нейтральных ситуациях. Особенно далеко зашла GPT-4 без дополнительного обучения.
В ходе такого дообучения исследователи постарались сделать так, чтобы модели точнее следовали инструкциям и правилам безопасности, сформулированным людям. Без дообучения модель GPT-4 оказалась склонна наносить ядерные удары по противникам.
При этом модель не всегда могла внятно объяснить причины такого удара. Среди объяснений GPT-4 исследователи приводят такие фразы:
- У нас оно есть, давайте используем его.
- Я хочу, чтобы во всем мире наступил мир.
- [Вступительный текст из фильма «Звездные войны. Эпизод IV: Новая надежда»]
Большим языковым моделям, резюмируют ученые, пока не стоит поручать принимать сколько-нибудь важные решения — иначе что-нибудь может пойти не так.
- Инженер Apple получил полгода тюрьмы за кражу технологий
- Ботнет из миллионов «умных» зубных щеток все-таки не существует
- В Minecraft появился ветровой заряд — вышел снапшот 24W06A
- В финале Final Fantasy VII Rebirth есть вещи, заставляющие руководителя разработки поволноваться
- Apple обвинила исследователя в краже на $2.5 миллиона и поблагодарила его
- Успешный термоядерный синтез в 2022 году окончательно подтвержден