Слух: на подходе модель DeepSeek R2 с 1.2 триллиона параметров
Предполагается, что новую модель снова обучили достаточно дешево.
Китайский стартап DeepSeek готовит к запуску рассуждающую модель R2, пишет South China Morning Post со ссылкой на китайские источники. Релиз модели якобы состоится в ближайшее время.
Утверждается, что DeepSeek R2 — это модель с 1.2 триллиона параметров. Инженеры DeepSeek якобы использовали гибридную архитектуру с применением экспертов, отдельных нейросетей, обрабатывающих фрагменты входящих данных.
Похожим образом устроена модель Llama 4 от Meta*. Топовая версия Llama 4 получила 16 экспертов и 2 триллиона параметров, но активных параметров лишь 288 миллиардов.
По словам китайских источников, DeepSeek R2 удалось обучить очень дешево — модель якобы на 97.3% дешевле GPT-4o от OpenAI. Утверждается, что DeepSeek R2 задаст «новые стандарты экономической эффективности и производительности».
Предыдущая рассуждающая модель стартапа, R1, была выпущена в январе 2025 года. Интерес к модели оказался так велик, что стоимость американских компаний, связанных с ИИ, заметно просела.
* Компания Meta признана в России экстремистской организацией.
- Истребитель F-18 уронили с авианосца — он утонул
- Истребитель 6 поколения J-50 засняли во всех деталях
- Продано 30 миллионов копий Elden Ring за 3 года
- Системные требования Elden Ring Nightreign оказались выше, чем у Elden Ring
- Несколько стран Европы остались без электричества из-за неизвестного сбоя
- Гиперзвуковые ракеты впервые запустили с космодрома на мысе Канаверал

