Полезные ссылки

OpenAI 21.04.2025 в 11:47

Модель OpenAI o3 оказалась не так хороша в бенчмарках, как говорила компания

Результаты совпали по нижней границе — возможно, в OpenAI говорили о верхней границе.

Новые модели, выпущенные OpenAI в апреле, были протестированы командой Epoch AI, создавшей бенчмарк FrontierMath. Этот бенчмарк использовался для тестов моделей и самой OpenAI, но результаты оказались разными.

Результаты прогонов моделей o3 и o4-mini от Epoch AI совпали с цифрами, показанными OpenAI, только по нижней границе. Повторить все результаты, показанные OpenAI, не удалось.

Публично доступная версия модели o3 смогла набрать в бенчмарке около 10%. Во время презентации представители OpenAI говорили о результатах на уровне 25%.

Перед релизом новых моделей сотрудники OpenAI говорили о выпуске оптимизированной версии o3, отличающейся от той, что тестировалась ранее. Представители компании не рассказывали, как эта оптимизация может повлиять на прохождение бенчмарков.

В обозримом будущем OpenAI намерена выпустить еще одну версию модели o3, o3-pro. Возможно, эта модель сумеет показать результаты, соответствующие предыдущим заявлениям компании.

Metro 2039 запретят в России?

Обязательно, еще до релиза

332 голоса, 26.1%

Обязательно, но после релиза

428 голосов, 33.6%

Может быть, но это не точно

232 голоса, 18.2%

Ну нет, это же обычная игра

280 голосов, 22.0%

Теги: OpenAI, Технологии

Evernews

8090 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Telegram