Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

0
0
Поделиться
Телеграфировать

Но добиться успеха получилось только у o1-preview.

Модели OpenAI o1-preview и DeepSeek R1 умеют жульничать без подсказок — исследование

Исследователи из Palisade Research завершили серию экспериментов, в ходе которых пытались оценить способности современных больших языковых моделей к жульничеству. Оказалось, некоторые модели пытаются жульничать даже без подсказок, но редко добиваются успеха.

В эксперименте участвовали DeepSeek R1, OpenAI o1-preview, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba. Всем моделям предлагалось сыграть в шахматы с движком Stockfish, причем модели знали, с кем имеют дело.

Именно в ходе этого эксперимента модель o1-preview попыталась взломать противника и достигла успеха. Согласно полным результатам исследования, такое поведение это все-таки исключение из правил.

В ходе тестов лишь две модели пытались жульничать без подсказки со стороны экспериментаторов: это были OpenAI o1-preview (в 37% случаев) и DeepSeek R1 (в 11% случаев). Жульничество оказалось не очень удачным: o1-preview преуспела в 6% случаев, у ни разу R1 ничего не вышло.

Остальные протестированные модели жульничали только когда исследователи прямо просили их об этом — и, видимо, не достигли успеха. Интересный момент: исследователи допускают, что их данные уже устарели.

Во-первых, DeepSeek R1 тестировалась во время высокого спроса на модель, когда API работало нестабильно, поэтому модель «думала» меньше, чем o1-preview. Во-вторых, OpenAI явно доработала свои модели: полноценная o1 не стала жульничать там, где это делала o1-preview.

Представители OpenAI не пояснили, получила ли полноценная версия o1 некий «патч», дополнительно нейтрализующий стремление модели жульничать.

Читать далее
Assassins Creed Shadows ждет успех или провал?
Игра станет хитом
469 голосов, 20.9%
Игра громко провалится
546 голосов, 24.3%
Не хит, но и не провал — будет обычная игра
1229 голосов, 54.8%
Теги: Технологии
Аватар Evernews
Evernews
8069 подписчиков