NVIDIA: Nemotron 3 Super

nvidia/nemotron-3-super-120b-a12b

Выпущена 11 марта 2026 г.|1.0М контекст|9,60 ₽/М вход|45,18 ₽/М выход

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE со 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с предсказанием нескольких токенов (MTP), она обеспечивает более чем на 50% более высокую генерацию токенов по сравнению с ведущими открытыми моделями.

Модель имеет контекстное окно в 1 миллион токенов для долгосрочной когерентности агентов, кросс-документного рассуждения и многошагового планирования задач. Latent MoE позволяет вызывать 4 экспертов при стоимости вывода всего одного, улучшая интеллект и обобщение. Обучение с подкреплением в нескольких средах (более 10) обеспечивает ведущую точность в бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified.

Полностью открытая, с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать ее где угодно — от рабочей станции до облака.

Провайдер для NVIDIA: Nemotron 3 Super

Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.

nvidia

Latency

—

Throughput

—

Uptime

—

Контекст

1.0М

токенов

Макс. ответ

16К

токенов

Вход

9,60 ₽

за 1М токенов

Выход

45,18 ₽

за 1М токенов

Модальности

Вход:ТекстВыход:Текст

Провайдеры

Запросы обслуживает один из провайдеров ниже — маршрутизация автоматически выбирает оптимального по доступности и скорости в момент запроса. Итоговая стоимость зависит от того, какой провайдер обслужил запрос, и от попадания в кэш: при повторяющемся контексте вход тарифицируется по цене чтения кэша — до 60–80 % дешевле. Цены — в рублях за 1 млн токенов.


DeepInfra	9,60 ₽	45,18 ₽	—	—	94,3 %
DigitalOcean	23,72 ₽	51,40 ₽	6,78 ₽	—	99,0 %
Nebius	33,89 ₽	101,66 ₽	—	—	99,2 %

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biaslogprobsmax_tokensmin_ppresence_penaltyreasoningreasoning_effortrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_ktop_logprobstop_p

Тарификация для NVIDIA: Nemotron 3 Super

Цены в рублях за 1 млн токенов. Списание — за реальные токены, без подписок.

Тип	Цена в ₽	Единица
Вход	9,60 ₽	за 1М токенов
Выход	45,18 ₽	за 1М токенов

Пример кода и API для NVIDIA: Nemotron 3 Super

Hubris — OpenAI-совместимый API. Используйте любой OpenAI SDK, поменяв только base URL и ключ.

Получить API-ключ

curl https://api.hubris.pw/v1/chat/completions \
  -H "Authorization: Bearer sk-gw-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/nemotron-3-super-120b-a12b",
    "messages": [{"role": "user", "content": "Привет"}]
  }'

curl https://api.hubris.pw/v1/chat/completions \  -H "Authorization: Bearer sk-gw-..." \  -H "Content-Type: application/json" \  -d '{    "model": "nvidia/nemotron-3-super-120b-a12b",    "messages": [{"role": "user", "content": "Привет"}]  }'

from openai import OpenAI

client = OpenAI(
    base_url="https://api.hubris.pw/v1",
    api_key="sk-gw-...",
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[{"role": "user", "content": "Привет"}],
)
print(response.choices[0].message.content)

from openai import OpenAIclient = OpenAI(    base_url="https://api.hubris.pw/v1",    api_key="sk-gw-...",)response = client.chat.completions.create(    model="nvidia/nemotron-3-super-120b-a12b",    messages=[{"role": "user", "content": "Привет"}],)print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.hubris.pw/v1",
  apiKey: process.env.HUBRIS_API_KEY!,
});

const response = await client.chat.completions.create({
  model: "nvidia/nemotron-3-super-120b-a12b",
  messages: [{ role: "user", content: "Привет" }],
});

console.log(response.choices[0].message.content);

import OpenAI from "openai";const client = new OpenAI({  baseURL: "https://api.hubris.pw/v1",  apiKey: process.env.HUBRIS_API_KEY!,});const response = await client.chat.completions.create({  model: "nvidia/nemotron-3-super-120b-a12b",  messages: [{ role: "user", content: "Привет" }],});console.log(response.choices[0].message.content);

Другие модели от nvidia

NVIDIA: Nemotron 3 Embed 1B (free)

NVIDIA Nemotron 3 Embed 1B — это открытая модель встраивания текста от NVIDIA, оптимизированная для высокопроизводительного поиска с низкой задержкой. Она подходит для корпоративного поиска, RAG, поиска кода и рабочих процессов агентского поиска, сохраняя более 95% точности модели 8B при меньших требованиях к развертыванию.

33К контекст·бесплатно

NVIDIA: Nemotron 3.5 Content Safety (free)

NVIDIA Nemotron 3.5 Content Safety — это компактная 4B-параметрическая мультимодальная модель-ограничитель от NVIDIA, доработанная на основе Google Gemma-3-4B. Она модерирует как входные данные, так и ответы от LLM и VLM, принимая текстовые и графические входные данные и возвращая текстовый вывод: классификацию пользовательского запроса и ответа как безопасного/небезопасного, метки категорий безопасности и необязательный трассировочный вывод. Она поддерживает 12 языков с контекстным окном до 128K токенов. Модель подходит для модерации запросов и ответов, классификации контента, конвейеров безопасности и корпоративных AI-ограничителей с принудительным применением политик, а также включает переключаемый режим рассуждений. Она является частью семейства открытых моделей NVIDIA Nemotron для агентного ИИ.

128К контекст·бесплатно

NVIDIA: Nemotron 3 Ultra (free)

NVIDIA Nemotron 3 Ultra — это открытая модель от NVIDIA для рассуждений и оркестрации, с 55 миллиардами активных параметров из 550 миллиардов общих (MoE). Построенная на гибридной архитектуре Transformer-Mamba mixture-of-experts, она поддерживает текстовый ввод и вывод с контекстным окном до 1 миллиона токенов. Она подходит для длительных агентских рабочих процессов, включая оркестрацию агентов, агентов для кодирования, глубокие исследования и сложные корпоративные задачи. Модель особенно сильна в многошаговых рассуждениях и планировании, с высокой пропускной способностью вывода, разработанной для высокообъемных агентских конвейеров. Она является частью семейства открытых моделей NVIDIA Nemotron для агентского ИИ.

1.0М контекст·бесплатно

NVIDIA: Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultra — это открытая модель от NVIDIA для рассуждений и оркестрации, с 55 млрд активных параметров из 550 млрд общих (MoE). Построенная на гибридной архитектуре Transformer-Mamba mixture-of-experts, она поддерживает текстовый ввод и вывод с контекстным окном до 1M токенов. Модель подходит для длительных агентных рабочих процессов, включая оркестрацию агентов, кодирующих агентов, глубокие исследования и сложные корпоративные задачи. Она особенно сильна в многошаговых рассуждениях и планировании, с высокопроизводительным выводом, разработанным для высокообъемных агентных конвейеров. Модель является частью семейства открытых моделей NVIDIA Nemotron для агентного ИИ.

512К контекст·от 56,48 ₽/М

NVIDIA: Parakeet TDT 0.6B v3

Parakeet TDT 0.6B v3 — это мультиязычная модель преобразования речи в текст от NVIDIA с 600 миллионами параметров, построенная на архитектуре FastConformer-TDT. Обученная на наборе данных Granary (более 670 000 часов аудио), она поддерживает автоматическое определение языка среди...

— контекст·0,170 ₽ за минуту

NVIDIA: Nemotron 3 Nano Omni (free)

NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель 30B-A3B, разработанная для функционирования в качестве субагента восприятия и контекста в корпоративных агентских системах. Она принимает текстовые, графические, видео- и аудиовходы и выдает текстовый вывод, позволяя агентам воспринимать и рассуждать в различных модальностях за один цикл вывода. Построенная на гибридной архитектуре MoE Transformer-Mamba с видеослоями Conv3D и Efficient Video Sampling (EVS), она обеспечивает примерно в 2 раза более высокую пропускную способность и в 2,5 раза меньшие вычислительные затраты для обработки видео по сравнению с отдельными конвейерами зрения + речи. Она поддерживает длину контекста до 300K и бюджет рассуждений 16 384, с расширенным мышлением, включенным через параметр `reasoning.enabled`.

256К контекст·бесплатно