Все новости
Это интересно
Сейчас читают
OpenAI
Аватар Evernews Evernews

СМИ: в OpenAI считают, что китайская модель DeepSeek R1 сделана лучше, чем их o1

0
0
Поделиться
Телеграфировать

Насчет новейшей модели o3 ясности пока нет — возможно, ее устройство удалось улучшить.

СМИ: в OpenAI считают, что китайская модель DeepSeek R1 сделана лучше, чем их o1

Сотрудники OpenAI считают, что компания разрабатывает нейросети не слишком эффективно, пишет Wired со ссылкой на источники в стартапе. Предполагается, что отчасти поэтому китайский стартап DeepSeek смог обучать свои модели дешевле и быстрее, чем OpenAI.

Технически DeepSeek R1, новая рассуждающая модель китайской компании, устроена примерно так же, как o1 — первая рассуждающая модель OpenAI, выпущенная в 2024 году. По словам источников, разница все-таки есть.

Собеседники издания называют o1 «гигантским экспериментом», сделанным на тестовой кодовой базе. Источники подчеркивают, что код, лежащий в основе модели, не предназначен для таких экспериментов, поэтому развитие шло медленно.

В частности, из-за ограничений, присущих кодовой базе, якобы могло буксовать обучение модели: обучающие задачи не всегда получали эксклюзивный доступ к ускорителям. Источники говорят, что в OpenAI попытались привести код в порядок, но не преуспели.

Во время создания o1 использовалось так называемое обучение с подкреплением, прежде активно не применявшееся для обучения больших языковых моделей; OpenAI экспериментировала с таким обучением несколько лет. Именно благодаря успеху o1, считают источники, в DeepSeek решили использовать тот же подход для обучения своей модели.

Собеседники Wired считают, что модель DeepSeek сделана удачнее: обучение велось на более качественном датасете, а в основе модели лежит более «чистый» технологический стек. Это достаточно легко проверить — исходники модели открыты.

Помимо проблем с технической частью источники издания жалуются на конкуренцию между исследовательской и продуктовой группами OpenAI. Приводится следующий пример: основные деньги зарабатывает ChatGPT, но руководство уделяет больше внимания и ресурсов рассуждающим моделям.

Интересный момент: по данным издания, OpenAI выпустила модель o3-mini раньше срока как раз для «ответа» на релиз DeepSeek. Модель сделали доступной даже для бесплатных пользователей — вероятно, в ответ на бесплатность DeepSeek R1.

Об особенностях архитектуры и кодовой базы o3-mini и полноценной версии o3, сейчас готовящейся к выпуску, издание ничего не сообщает. По словам источников, в OpenAI считают, что если компания не сможет работать эффективнее, то отстанет от китайского конкурента.

Читать далее
Показали The Witcher 4 — что думаете?
Жду, выглядит интересно
2158 голосов, 63.1%
Трейлер не очень, подожду геймплей
266 голосов, 7.8%
Цири — ведьмачка? Да ну, это шутка
429 голосов, 12.5%
Больше не доверяю CD Projekt, пусть сначала выйдет
567 голосов, 16.6%
Теги: OpenAI, Технологии
Аватар Evernews
Evernews
8069 подписчиков