NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

nvidia/llama-3.3-nemotron-super-49b-v1.5

Выпущена 10 октября 2025 г.|131К контекст|8,16 ₽/М вход|32,66 ₽/М выход

Llama-3.3-Nemotron-Super-49B-v1.5 — это модель для рассуждений/чата с 49 миллиардами параметров, ориентированная на английский язык, разработанная на основе Llama-3.3-70B-Instruct от Meta с контекстом 128K. Она прошла пост-обучение для агентных рабочих процессов (RAG, вызов инструментов) с помощью SFT по математике, коду, науке и многооборотным чатам, за которым последовали несколько этапов RL; Reward-aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошаговых рассуждений и итеративный DPO для уточнения поведения при использовании инструментов. Нейронный поиск архитектуры на основе дистилляции («Puzzle») заменяет некоторые блоки attention и изменяет ширину FFN для уменьшения объема памяти и повышения пропускной способности, что позволяет развертывать модель на одном GPU (H100/H200) при сохранении качества следования инструкциям и CoT.

В ходе внутренних оценок (NeMo-Skills, до 16 запусков, temp = 0.6, top_p = 0.95) модель демонстрирует высокие результаты в рассуждениях/кодировании, например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность вывода (высокое количество токенов в секунду, уменьшенное потребление VRAM) с поддержкой Transformers/vLLM и явными режимами «reasoning on/off» (по умолчанию чат-ориентированный, жадный алгоритм рекомендуется при отключении). Подходит для создания агентов, помощников и систем извлечения информации с длинным контекстом, где важны сбалансированная точность к стоимости и надежное использование инструментов.

Провайдер для NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

Hubris маршрутизирует запросы через OpenRouter к лучшему доступному провайдеру с автоматическим fallback при сбоях.

nvidia

Latency

—

Throughput

—

Uptime

—

Контекст

131К

токенов

Макс. ответ

16К

токенов

Вход

8,16 ₽

за 1М токенов

Выход

32,66 ₽

за 1М токенов

Модальности

Вход:ТекстВыход:Текст

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetool_choicetoolstop_ktop_p

Другие модели от nvidia

NVIDIA: Nemotron 3 Nano Omni (free)

NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель 30B-A3B, разработанная для функционирования в качестве субагента восприятия и контекста в корпоративных агентских системах. Она принимает текст, изображения, видео и...

256К контекст·от бесплатно/М

NVIDIA: Nemotron 3 Super (free)

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, которая активирует всего 12 миллиардов параметров для достижения максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Создана на основе гибридной архитектуры Mamba-Transformer...

262К контекст·от бесплатно/М

NVIDIA: Nemotron 3 Super

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE со 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с предсказанием нескольких токенов (MTP), она обеспечивает более чем на 50% более высокую генерацию токенов по сравнению с ведущими открытыми моделями. Модель имеет контекстное окно в 1 миллион токенов для долгосрочной когерентности агентов, кросс-документного рассуждения и многошагового планирования задач. Latent MoE позволяет вызывать 4 экспертов при стоимости вывода всего одного, улучшая интеллект и обобщение. Обучение с подкреплением в нескольких средах (более 10) обеспечивает ведущую точность в бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая, с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать ее где угодно — от рабочей станции до облака.

262К контекст·от 7,35 ₽/М

NVIDIA: Nemotron 3 Nano 30B A3B (free)

NVIDIA Nemotron 3 Nano 30B A3B — это небольшая языковая модель MoE с высочайшей вычислительной эффективностью и точностью для разработчиков, создающих специализированные агентные системы ИИ. Модель полностью...

256К контекст·от бесплатно/М

NVIDIA: Nemotron 3 Nano 30B A3B

NVIDIA Nemotron 3 Nano 30B A3B — это небольшая языковая модель MoE с высочайшей вычислительной эффективностью и точностью, предназначенная для разработчиков, создающих специализированные агентные системы ИИ. Модель полностью открыта, с открытыми весами, наборами данных и рецептами, поэтому разработчики могут легко настраивать, оптимизировать и развертывать модель на своей инфраструктуре для обеспечения максимальной конфиденциальности и безопасности.

262К контекст·от 4,08 ₽/М

NVIDIA: Nemotron Nano 12B 2 VL (free)

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель рассуждений с 12 миллиардами параметров, разработанная для понимания видео и анализа документов. Она представляет гибридную архитектуру Transformer-Mamba, сочетающую точность на уровне трансформера с...

128К контекст·от бесплатно/М