OpenAI показала модель o3 — она обходит людей в бенчмарке ARC-AGI
У модели пока не будет публичной версии.
Кстати, на сайте читать удобнее
OpenAI провела последнюю из 12 запланированных презентаций. Компания показала новую большую языковую модель, o3; по качеству ответов она значительно превосходит o1 и модели конкурентов (модели o2 у OpenAI не будет).
Модель o3 умеет размышлять примерно так же, как это делает o1. У новой модели есть две версии, более дешевая o3-mini и полноценная o3. В бенчмарке ARC-AGI обе версии o3 показали результаты, превосходящие результаты не только других моделей, но и людей.
Модель o3-mini в ARC-AGI показала результат в 76%, o3 продемонстрировала результат в 88%. Обычные люди показывать результат чуть хуже, чем o3-mini. Прежде тест ARC-AGI использовался как доказательство того, что модели не умеют «думать»; теперь, видимо, придется делать новый бенчмарк.
В то же время такие размышления стоят недешево. Прогон ARC-AGI через o3 обошелся дороже $1000 (меньше $10 для o1), версия o3-mini стоила заметно дешевле — но все равно больше, чем у предыдущих моделей.
Согласно тестам, проведенным OpenAI, модель o3 превосходит предшественников во всех задачах, иногда очень значительно. Например, модель o3 набрала 2727 рейтинг на Codeforces — это результат, недостижимый для большинства людей.
Сейчас доступ к o3 есть только у ученых, помогающих OpenAI тестировать модель. Запуск o3-mini намечен на январь 2025 года, o3 запустят позже. Информации о стоимости доступа к моделям пока нет.