Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

0
0
Поделиться
Телеграфировать

Но добиться успеха получилось только у o1-preview.

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

Исследователи из Palisade Research завершили серию экспериментов, в ходе которых пытались оценить способности современных больших языковых моделей к жульничеству. Оказалось, некоторые модели пытаются жульничать даже без подсказок, но редко добиваются успеха.

В эксперименте участвовали DeepSeek R1, OpenAI o1-preview, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba. Всем моделям предлагалось сыграть в шахматы с движком Stockfish, причем модели знали, с кем имеют дело.

Именно в ходе этого эксперимента модель o1-preview попыталась взломать противника и достигла успеха. Согласно полным результатам исследования, такое поведение это все-таки исключение из правил.

В ходе тестов лишь две модели пытались жульничать без подсказки со стороны экспериментаторов: это были OpenAI o1-preview (в 37% случаев) и DeepSeek R1 (в 11% случаев). Жульничество оказалось не очень удачным: o1-preview преуспела в 6% случаев, у ни разу R1 ничего не вышло.

Остальные протестированные модели жульничали только когда исследователи прямо просили их об этом — и, видимо, не достигли успеха. Интересный момент: исследователи допускают, что их данные уже устарели.

Во-первых, DeepSeek R1 тестировалась во время высокого спроса на модель, когда API работало нестабильно, поэтому модель «думала» меньше, чем o1-preview. Во-вторых, OpenAI явно доработала свои модели: полноценная o1 не стала жульничать там, где это делала o1-preview.

Представители OpenAI не пояснили, получила ли полноценная версия o1 некий «патч», дополнительно нейтрализующий стремление модели жульничать.

Читать далее
Как вам S.T.A.L.K.E.R. 2?
Отличная игра
3630 голосов, 33.1%
Хорошо, но могло быть лучше
1546 голосов, 14.1%
Самая обычная игра
703 голоса, 6.4%
Ужасно, пожалел о покупке/скачивании
1007 голосов, 9.2%
Не играл и не собираюсь
4091 голос, 37.3%
Теги: Технологии
Аватар Evernews
Evernews
8072 подписчика