Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

0
0
Поделиться
Телеграфировать

Но добиться успеха получилось только у o1-preview.

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

Исследователи из Palisade Research завершили серию экспериментов, в ходе которых пытались оценить способности современных больших языковых моделей к жульничеству. Оказалось, некоторые модели пытаются жульничать даже без подсказок, но редко добиваются успеха.

В эксперименте участвовали DeepSeek R1, OpenAI o1-preview, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba. Всем моделям предлагалось сыграть в шахматы с движком Stockfish, причем модели знали, с кем имеют дело.

Именно в ходе этого эксперимента модель o1-preview попыталась взломать противника и достигла успеха. Согласно полным результатам исследования, такое поведение это все-таки исключение из правил.

В ходе тестов лишь две модели пытались жульничать без подсказки со стороны экспериментаторов: это были OpenAI o1-preview (в 37% случаев) и DeepSeek R1 (в 11% случаев). Жульничество оказалось не очень удачным: o1-preview преуспела в 6% случаев, у ни разу R1 ничего не вышло.

Остальные протестированные модели жульничали только когда исследователи прямо просили их об этом — и, видимо, не достигли успеха. Интересный момент: исследователи допускают, что их данные уже устарели.

Во-первых, DeepSeek R1 тестировалась во время высокого спроса на модель, когда API работало нестабильно, поэтому модель «думала» меньше, чем o1-preview. Во-вторых, OpenAI явно доработала свои модели: полноценная o1 не стала жульничать там, где это делала o1-preview.

Представители OpenAI не пояснили, получила ли полноценная версия o1 некий «патч», дополнительно нейтрализующий стремление модели жульничать.

Читать далее
За сколько вы готовы купить GTA VI?
До 8000 рублей
620 голосов, 6.3%
До 7000 рублей
199 голосов, 2.0%
До 6000 рублей
246 голосов, 2.5%
До 5000 рублей
927 голосов, 9.5%
До 4000 рублей
301 голос, 3.1%
До 3000 рублей
454 голоса, 4.6%
До 2000 рублей
1111 голосов, 11.4%
За любые деньги
526 голосов, 5.4%
Ни за сколько, я пират
5402 голоса, 55.2%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика