Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

0
0
Поделиться
Телеграфировать

Но добиться успеха получилось только у o1-preview.

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

Исследователи из Palisade Research завершили серию экспериментов, в ходе которых пытались оценить способности современных больших языковых моделей к жульничеству. Оказалось, некоторые модели пытаются жульничать даже без подсказок, но редко добиваются успеха.

В эксперименте участвовали DeepSeek R1, OpenAI o1-preview, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba. Всем моделям предлагалось сыграть в шахматы с движком Stockfish, причем модели знали, с кем имеют дело.

Именно в ходе этого эксперимента модель o1-preview попыталась взломать противника и достигла успеха. Согласно полным результатам исследования, такое поведение это все-таки исключение из правил.

В ходе тестов лишь две модели пытались жульничать без подсказки со стороны экспериментаторов: это были OpenAI o1-preview (в 37% случаев) и DeepSeek R1 (в 11% случаев). Жульничество оказалось не очень удачным: o1-preview преуспела в 6% случаев, у ни разу R1 ничего не вышло.

Остальные протестированные модели жульничали только когда исследователи прямо просили их об этом — и, видимо, не достигли успеха. Интересный момент: исследователи допускают, что их данные уже устарели.

Во-первых, DeepSeek R1 тестировалась во время высокого спроса на модель, когда API работало нестабильно, поэтому модель «думала» меньше, чем o1-preview. Во-вторых, OpenAI явно доработала свои модели: полноценная o1 не стала жульничать там, где это делала o1-preview.

Представители OpenAI не пояснили, получила ли полноценная версия o1 некий «патч», дополнительно нейтрализующий стремление модели жульничать.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
362 голоса, 5.8%
От 50000 до 100000 рублей
226 голосов, 3.6%
От 25000 до 50000 рублей
255 голосов, 4.1%
От 10000 до 25000 рублей
511 голосов, 8.2%
До 10000 рублей
1224 голоса, 19.6%
Нисколько, я пират. Йо-хо-хо!
3667 голосов, 58.7%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика