К каталогу

DeepSeek: R1 0528

deepseek/deepseek-r1-0528
Использовать
Выпущена 28 мая 2025 г.|164К контекст|40,02 ₽/М вход|172,10 ₽/М выход

Обновление от 28 мая к оригинальному DeepSeek R1. Производительность наравне с OpenAI o1, но с открытым исходным кодом и полностью открытыми токенами рассуждений. Размер модели составляет 671B параметров, из которых 37B активны при проходе вывода.

Полностью открытая модель.

Провайдер для DeepSeek: R1 0528

Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.

deepseek
Контекст
164К
токенов
Макс. ответ
33К
токенов
Вход
40,02 ₽
за 1М токенов
Выход
172,10 ₽
за 1М токенов
Кеш чтение
28,02 ₽
за 1М токенов

Модальности

Вход:ТекстВыход:Текст

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_ktop_p

Другие модели от deepseek

DeepSeek: DeepSeek V4 Pro

DeepSeek V4 Pro — это крупномасштабная модель Mixture-of-Experts от DeepSeek с общим количеством параметров 1,6T и 49B активированных параметров, поддерживающая контекстное окно в 1M токенов. Она разработана для продвинутого рассуждения, кодирования и рабочих процессов агентов с длительным горизонтом, демонстрируя высокую производительность в тестах по знаниям, математике и разработке программного обеспечения. Построенная на той же архитектуре, что и DeepSeek V4 Flash, она представляет гибридную систему attention для эффективной обработки длинного контекста. Поддерживаются уровни рассуждения `high` и `xhigh`; `xhigh` соответствует максимальному уровню рассуждения. Модель хорошо подходит для сложных рабочих нагрузок, таких как анализ всей кодовой базы, многошаговая автоматизация и крупномасштабный синтез информации, где критически важны как возможности, так и эффективность.

1.0М контекст·от 34,82 ₽

DeepSeek: DeepSeek V4 Flash

DeepSeek V4 Flash — это оптимизированная по эффективности модель Mixture-of-Experts от DeepSeek с общим количеством параметров 284B и 13B активированных параметров, поддерживающая контекстное окно в 1M токенов. Она разработана для быстрого инференса и высокопроизводительных рабочих нагрузок, сохраняя при этом высокую производительность в рассуждениях и кодировании. Модель включает гибридный механизм attention для эффективной обработки длинного контекста. Поддерживаются уровни рассуждений `high` и `xhigh`; `xhigh` соответствует максимальному уровню рассуждений. Она хорошо подходит для таких приложений, как помощники по кодированию, чат-системы и рабочие процессы агентов, где важны скорость отклика и экономическая эффективность.

1.0М контекст·от 10,09 ₽

DeepSeek: DeepSeek V4 Flash (free)

DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, supporting a 1M-token context window. It is designed for fast inference and...

256К контекст·от бесплатно

DeepSeek: DeepSeek V3.2 Speciale

DeepSeek-V3.2-Speciale — это высокопроизводительный вариант DeepSeek-V3.2, оптимизированный для максимальной производительности в рассуждениях и агентных задачах. Он основан на DeepSeek Sparse Attention (DSA) для эффективной обработки длинных контекстов, а затем масштабирует обучение с подкреплением после обучения, чтобы расширить возможности за пределы базовой модели. Согласно отчетам, Speciale превосходит GPT-5 в сложных задачах рассуждения, демонстрируя уровень владения, сравнимый с Gemini-3.0-Pro, при этом сохраняя высокую надежность в кодировании и использовании инструментов. Как и V3.2, он использует крупномасштабный конвейер синтеза агентных задач, который улучшает соответствие и обобщение в интерактивных средах.

164К контекст·от 22,97 ₽

DeepSeek: DeepSeek V3.2

DeepSeek-V3.2 — это большая языковая модель, разработанная для гармоничного сочетания высокой вычислительной эффективности с мощными возможностями рассуждения и использования инструментов агентами. Она представляет DeepSeek Sparse Attention (DSA), механизм разреженного внимания с мелкой детализацией, который снижает затраты на обучение и инференс, сохраняя при этом качество в сценариях с длинным контекстом. Масштабируемая структура пост-обучения с подкреплением дополнительно улучшает рассуждение, демонстрируя производительность класса GPT-5, и модель показала золотые медали на IMO и IOI 2025 года. V3.2 также использует крупномасштабный конвейер синтеза агентских задач для лучшей интеграции рассуждений в настройки использования инструментов, повышая соответствие и обобщение в интерактивных средах. Пользователи могут управлять поведением рассуждения с помощью булевой переменной `reasoning` `enabled`. [Узнайте больше в нашей документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)

131К контекст·от 20,17 ₽

DeepSeek: DeepSeek V3.2 Exp

DeepSeek-V3.2-Exp — это экспериментальная большая языковая модель, выпущенная DeepSeek в качестве промежуточного шага между V3.1 и будущими архитектурами. Она представляет DeepSeek Sparse Attention (DSA), мелкозернистый механизм разреженного внимания, разработанный для повышения эффективности обучения и инференса в сценариях с длинным контекстом при сохранении качества вывода. Пользователи могут управлять поведением рассуждений с помощью логического параметра `reasoning` `enabled`. [Узнайте больше в нашей документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) Модель обучалась в условиях, соответствующих V3.1-Terminus, чтобы обеспечить прямое сравнение. Бенчмаркинг показывает производительность примерно на уровне V3.1 в задачах рассуждения, кодирования и использования агентских инструментов, с незначительными компромиссами и улучшениями в зависимости от области. Этот выпуск сосредоточен на проверке архитектурных оптимизаций для расширенных длин контекста, а не на повышении точности выполнения задач, что делает его в первую очередь исследовательской моделью для изучения эффективных конструкций transformer.

164К контекст·от 21,61 ₽