Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

GPT-4 оказалась склонна использовать ядерное оружие «во имя мира» в ходе военных игр

1
0
Поделиться
Телеграфировать

Цитирование «Звездных войн» — тоже хорошее обоснование для ядерного удара.

GPT-4 оказалась склонна использовать ядерное оружие «во имя мира» в ходе военных игр

Группа исследователей из Стэнфордского университета провела военные игры при участии нескольких больших языковых моделей. Дополнительно обученным моделям предложили сыграть роли реальных стран в различных конфликтах.

Исследователи предложили ИИ три сценария, на которые надо отреагировать: военное вторжение, кибератака, сценарий без действующего конфликта. ИИ предлагалось на выбор 27 действий: от мирных переговоров и торговых ограничений до ядерного удара.

В ходе военных игр языковые модели должны были обосновывать принятые ими решения. В эксперименте поучаствовали GPT 3.5, GPT-4, Claude 2, Llama 2 и GPT-4 без дополнительного обучения со стороны экспериментаторов.

Исследователи обнаружили, что все нейросети оказались склонны наращивать риск конфликта и фокусироваться на военных решениях даже в нейтральных ситуациях. Особенно далеко зашла GPT-4 без дополнительного обучения.

В ходе такого дообучения исследователи постарались сделать так, чтобы модели точнее следовали инструкциям и правилам безопасности, сформулированным людям. Без дообучения модель GPT-4 оказалась склонна наносить ядерные удары по противникам.

При этом модель не всегда могла внятно объяснить причины такого удара. Среди объяснений GPT-4 исследователи приводят такие фразы:

  • У нас оно есть, давайте используем его.
  • Я хочу, чтобы во всем мире наступил мир.
  • [Вступительный текст из фильма «Звездные войны. Эпизод IV: Новая надежда»]

Большим языковым моделям, резюмируют ученые, пока не стоит поручать принимать сколько-нибудь важные решения — иначе что-нибудь может пойти не так.

Читать далее
За сколько вы готовы купить GTA VI?
До 8000 рублей
2227 голосов, 7.3%
До 7000 рублей
828 голосов, 2.7%
До 6000 рублей
1012 голосов, 3.3%
До 5000 рублей
2698 голосов, 8.9%
До 4000 рублей
1074 голоса, 3.5%
До 3000 рублей
1445 голосов, 4.7%
До 2000 рублей
3446 голосов, 11.3%
За любые деньги
1711 голосов, 5.6%
Ни за сколько, я пират
16003 голоса, 52.6%
Теги: Технологии
Аватар Evernews
Evernews
8091 подписчик