Все новости
Это интересно
Сейчас читают
OpenAI
Аватар Evernews Evernews

OpenAI показала модель o3 — она обходит людей в бенчмарке ARC-AGI

1
1
Поделиться
Телеграфировать

У модели пока не будет публичной версии.

OpenAI показала модель o3 — она обходит людей в бенчмарке ARC-AGI

OpenAI провела последнюю из 12 запланированных презентаций. Компания показала новую большую языковую модель, o3; по качеству ответов она значительно превосходит o1 и модели конкурентов (модели o2 у OpenAI не будет).

Модель o3 умеет размышлять примерно так же, как это делает o1. У новой модели есть две версии, более дешевая o3-mini и полноценная o3. В бенчмарке ARC-AGI обе версии o3 показали результаты, превосходящие результаты не только других моделей, но и людей.

Модель o3-mini в ARC-AGI показала результат в 76%, o3 продемонстрировала результат в 88%. Обычные люди показывать результат чуть хуже, чем o3-mini. Прежде тест ARC-AGI использовался как доказательство того, что модели не умеют «думать»; теперь, видимо, придется делать новый бенчмарк.

В то же время такие размышления стоят недешево. Прогон ARC-AGI через o3 обошелся дороже $1000 (меньше $10 для o1), версия o3-mini стоила заметно дешевле — но все равно больше, чем у предыдущих моделей.

Согласно тестам, проведенным OpenAI, модель o3 превосходит предшественников во всех задачах, иногда очень значительно. Например, модель o3 набрала 2727 рейтинг на Codeforces — это результат, недостижимый для большинства людей.

Сейчас доступ к o3 есть только у ученых, помогающих OpenAI тестировать модель. Запуск o3-mini намечен на январь 2025 года, o3 запустят позже. Информации о стоимости доступа к моделям пока нет.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
2034 голоса, 7.2%
От 50000 до 100000 рублей
1322 голоса, 4.7%
От 25000 до 50000 рублей
1532 голоса, 5.4%
От 10000 до 25000 рублей
2518 голосов, 8.9%
До 10000 рублей
5132 голоса, 18.2%
Нисколько, я пират. Йо-хо-хо!
15600 голосов, 55.4%
Теги: OpenAI, Технологии
Аватар Evernews
Evernews
8089 подписчиков