DeepSeek V4 Pro — это крупномасштабная модель Mixture-of-Experts от DeepSeek с общим количеством параметров 1,6T и 49B активированных параметров, поддерживающая контекстное окно в 1M токенов. Она разработана для продвинутого рассуждения, кодирования и рабочих процессов агентов с длительным горизонтом, демонстрируя высокую производительность в тестах по знаниям, математике и разработке программного обеспечения.
Построенная на той же архитектуре, что и DeepSeek V4 Flash, она представляет гибридную систему attention для эффективной обработки длинного контекста. Поддерживаются уровни рассуждения high и xhigh; xhigh соответствует максимальному уровню рассуждения. Модель хорошо подходит для сложных рабочих нагрузок, таких как анализ всей кодовой базы, многошаговая автоматизация и крупномасштабный синтез информации, где критически важны как возможности, так и эффективность.
Провайдер для DeepSeek: DeepSeek V4 Pro
Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.
Модальности
Поддерживаемые параметры
Другие модели от deepseek
DeepSeek: DeepSeek V4 Flash
DeepSeek V4 Flash — это оптимизированная по эффективности модель Mixture-of-Experts от DeepSeek с общим количеством параметров 284B и 13B активированных параметров, поддерживающая контекстное окно в 1M токенов. Она разработана для быстрого инференса и высокопроизводительных рабочих нагрузок, сохраняя при этом высокую производительность в рассуждениях и кодировании. Модель включает гибридный механизм attention для эффективной обработки длинного контекста. Поддерживаются уровни рассуждений `high` и `xhigh`; `xhigh` соответствует максимальному уровню рассуждений. Она хорошо подходит для таких приложений, как помощники по кодированию, чат-системы и рабочие процессы агентов, где важны скорость отклика и экономическая эффективность.
DeepSeek: DeepSeek V3.2
DeepSeek-V3.2 — это большая языковая модель, разработанная для гармоничного сочетания высокой вычислительной эффективности с мощными возможностями рассуждений и использования инструментов в качестве агента. Она представляет DeepSeek Sparse Attention (DSA), мелкозернистый механизм разреженного внимания, который снижает затраты на обучение и инференс, сохраняя при этом качество в сценариях с длинным контекстом. Масштабируемая структура пост-обучения с подкреплением дополнительно улучшает рассуждения, демонстрируя производительность класса GPT-5, и модель показала золотые результаты на IMO и IOI 2025 года. V3.2 также использует крупномасштабный конвейер синтеза агентских задач для лучшей интеграции рассуждений в настройки использования инструментов, повышая соответствие и обобщение в интерактивных средах. Пользователи могут управлять поведением рассуждений с помощью булевого параметра `reasoning` `enabled`.
DeepSeek: DeepSeek V3.2 Exp
DeepSeek-V3.2-Exp — это экспериментальная большая языковая модель, выпущенная DeepSeek в качестве промежуточного шага между V3.1 и будущими архитектурами. Она представляет DeepSeek Sparse Attention (DSA), механизм разреженного внимания с мелкой гранулярностью, разработанный для повышения эффективности обучения и инференса в сценариях с длинным контекстом при сохранении качества вывода. Пользователи могут управлять поведением рассуждений с помощью булевого параметра `reasoning` `enabled`. Модель обучалась в условиях, соответствующих V3.1-Terminus, чтобы обеспечить прямое сравнение. Бенчмаркинг показывает производительность примерно на уровне V3.1 в задачах рассуждения, кодирования и использования агентских инструментов, с незначительными компромиссами и улучшениями в зависимости от области. Этот выпуск сосредоточен на проверке архитектурных оптимизаций для расширенной длины контекста, а не на повышении точности выполнения задач, что делает его в первую очередь исследовательской моделью для изучения эффективных конструкций transformer.
DeepSeek: DeepSeek V3.1 Terminus
DeepSeek-V3.1 Terminus — это обновление [DeepSeek V3.1](/deepseek/deepseek-chat-v3.1), которое сохраняет исходные возможности модели, одновременно устраняя проблемы, о которых сообщали пользователи, включая языковую согласованность и возможности агентов, а также дополнительно оптимизируя производительность модели в кодировании и поисковых агентах. Это большая гибридная модель рассуждений (671B параметров, 37B активных), которая поддерживает как режимы мышления, так и не-мышления. Она расширяет базовую модель DeepSeek-V3 двухфазным процессом обучения с длинным контекстом, достигая до 128K токенов, и использует микромасштабирование FP8 для эффективного вывода. Пользователи могут управлять поведением рассуждений с помощью логического параметра `reasoning` `enabled`. Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сравнимой с DeepSeek-R1 на сложных бенчмарках, при этом отвечая быстрее. Она поддерживает структурированный вызов инструментов, кодовых агентов и поисковых агентов, что делает ее подходящей для исследований, кодирования и агентских рабочих процессов.
DeepSeek: DeepSeek V3.1
DeepSeek-V3.1 — это большая гибридная модель рассуждений (671B параметров, 37B активных), которая поддерживает как режимы мышления, так и не-мышления с помощью шаблонов prompt. Она расширяет базовую модель DeepSeek-V3 двухфазным процессом обучения на длинных контекстах, достигая до 128K токенов, и использует микромасштабирование FP8 для эффективного вывода. Пользователи могут управлять поведением рассуждений с помощью логического параметра `reasoning` `enabled`. Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сравнимой с DeepSeek-R1 на сложных бенчмарках, при этом отвечая быстрее. Она поддерживает структурированный вызов инструментов, кодовых агентов и поисковых агентов, что делает ее подходящей для исследований, кодирования и агентских рабочих процессов. Она является преемником модели [DeepSeek V3-0324](/deepseek/deepseek-chat-v3-0324) и хорошо справляется с различными задачами.
DeepSeek: R1 0528
Обновление от 28 мая к [оригинальному DeepSeek R1](/deepseek/deepseek-r1). Производительность наравне с [OpenAI o1](/openai/o1), но с открытым исходным кодом и полностью открытыми токенами рассуждений. Размер модели составляет 671B параметров, из которых 37B активны при проходе вывода. Полностью открытая модель.