Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

0
0
Поделиться
Телеграфировать

Но добиться успеха получилось только у o1-preview.

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

Исследователи из Palisade Research завершили серию экспериментов, в ходе которых пытались оценить способности современных больших языковых моделей к жульничеству. Оказалось, некоторые модели пытаются жульничать даже без подсказок, но редко добиваются успеха.

В эксперименте участвовали DeepSeek R1, OpenAI o1-preview, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba. Всем моделям предлагалось сыграть в шахматы с движком Stockfish, причем модели знали, с кем имеют дело.

Именно в ходе этого эксперимента модель o1-preview попыталась взломать противника и достигла успеха. Согласно полным результатам исследования, такое поведение это все-таки исключение из правил.

В ходе тестов лишь две модели пытались жульничать без подсказки со стороны экспериментаторов: это были OpenAI o1-preview (в 37% случаев) и DeepSeek R1 (в 11% случаев). Жульничество оказалось не очень удачным: o1-preview преуспела в 6% случаев, у ни разу R1 ничего не вышло.

Остальные протестированные модели жульничали только когда исследователи прямо просили их об этом — и, видимо, не достигли успеха. Интересный момент: исследователи допускают, что их данные уже устарели.

Во-первых, DeepSeek R1 тестировалась во время высокого спроса на модель, когда API работало нестабильно, поэтому модель «думала» меньше, чем o1-preview. Во-вторых, OpenAI явно доработала свои модели: полноценная o1 не стала жульничать там, где это делала o1-preview.

Представители OpenAI не пояснили, получила ли полноценная версия o1 некий «патч», дополнительно нейтрализующий стремление модели жульничать.

Читать далее
Как вам Kingdom Come Deliverance 2?
Кандидат на «Игру года»
8965 голосов, 48.1%
Хорошо, но могло быть лучше
1632 голоса, 8.8%
Самая обычная игра
1062 голоса, 5.7%
Ужасно, пожалел о покупке/скачивании
1258 голосов, 6.7%
Не играл и не собираюсь
5724 голоса, 30.7%
Теги: Технологии
Аватар Evernews
Evernews
8086 подписчиков