Все новости
Это интересно
Сейчас читают
OpenAI
Аватар Evernews Evernews

Модель OpenAI o3 оказалась не так хороша в бенчмарках, как говорила компания

0
0
Поделиться
Телеграфировать

Результаты совпали по нижней границе — возможно, в OpenAI говорили о верхней границе.

Модель OpenAI o3 оказалась не так хороша в бенчмарках, как говорила компания

Новые модели, выпущенные OpenAI в апреле, были протестированы командой Epoch AI, создавшей бенчмарк FrontierMath. Этот бенчмарк использовался для тестов моделей и самой OpenAI, но результаты оказались разными.

Результаты прогонов моделей o3 и o4-mini от Epoch AI совпали с цифрами, показанными OpenAI, только по нижней границе. Повторить все результаты, показанные OpenAI, не удалось.

Публично доступная версия модели o3 смогла набрать в бенчмарке около 10%. Во время презентации представители OpenAI говорили о результатах на уровне 25%.

Перед релизом новых моделей сотрудники OpenAI говорили о выпуске оптимизированной версии o3, отличающейся от той, что тестировалась ранее. Представители компании не рассказывали, как эта оптимизация может повлиять на прохождение бенчмарков.

В обозримом будущем OpenAI намерена выпустить еще одну версию модели o3, o3-pro. Возможно, эта модель сумеет показать результаты, соответствующие предыдущим заявлениям компании.

Читать далее
За сколько вы готовы купить GTA VI?
До 8000 рублей
2177 голосов, 7.3%
До 7000 рублей
821 голос, 2.7%
До 6000 рублей
995 голосов, 3.3%
До 5000 рублей
2668 голосов, 8.9%
До 4000 рублей
1053 голоса, 3.5%
До 3000 рублей
1424 голоса, 4.8%
До 2000 рублей
3393 голоса, 11.3%
За любые деньги
1673 голоса, 5.6%
Ни за сколько, я пират
15760 голосов, 52.6%
Теги: OpenAI, Технологии
Аватар Evernews
Evernews
8091 подписчик