NVIDIA: Nemotron 3 Super

nvidia/nemotron-3-super-120b-a12b

Выпущена 11 марта 2026 г.|1.0М контекст|9,12 ₽/М вход|42,91 ₽/М выход

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE со 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с предсказанием нескольких токенов (MTP), она обеспечивает более чем на 50% более высокую генерацию токенов по сравнению с ведущими открытыми моделями.

Модель имеет контекстное окно в 1 миллион токенов для долгосрочной когерентности агентов, кросс-документного рассуждения и многошагового планирования задач. Latent MoE позволяет вызывать 4 экспертов при стоимости вывода всего одного, улучшая интеллект и обобщение. Обучение с подкреплением в нескольких средах (более 10) обеспечивает ведущую точность в бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified.

Полностью открытая, с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать ее где угодно — от рабочей станции до облака.

Провайдер для NVIDIA: Nemotron 3 Super

Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.

nvidia

Latency

—

Throughput

—

Uptime

—

Контекст

1.0М

токенов

Макс. ответ

16К

токенов

Вход

9,12 ₽

за 1М токенов

Выход

42,91 ₽

за 1М токенов

Модальности

Вход:ТекстВыход:Текст

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biaslogprobsmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_ktop_logprobstop_p

Тарификация для NVIDIA: Nemotron 3 Super

Цены в рублях за 1 млн токенов. Списание — за реальные токены, без подписок.

Тип	Цена в ₽	Единица
Вход	9,12 ₽	за 1М токенов
Выход	42,91 ₽	за 1М токенов

Пример кода и API для NVIDIA: Nemotron 3 Super

Hubris — OpenAI-совместимый API. Используйте любой OpenAI SDK, поменяв только base URL и ключ.

Получить API-ключ

curl https://api.hubris.pw/v1/chat/completions \
  -H "Authorization: Bearer sk-gw-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/nemotron-3-super-120b-a12b",
    "messages": [{"role": "user", "content": "Привет"}]
  }'

curl https://api.hubris.pw/v1/chat/completions \  -H "Authorization: Bearer sk-gw-..." \  -H "Content-Type: application/json" \  -d '{    "model": "nvidia/nemotron-3-super-120b-a12b",    "messages": [{"role": "user", "content": "Привет"}]  }'

from openai import OpenAI

client = OpenAI(
    base_url="https://api.hubris.pw/v1",
    api_key="sk-gw-...",
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b-a12b",
    messages=[{"role": "user", "content": "Привет"}],
)
print(response.choices[0].message.content)

from openai import OpenAIclient = OpenAI(    base_url="https://api.hubris.pw/v1",    api_key="sk-gw-...",)response = client.chat.completions.create(    model="nvidia/nemotron-3-super-120b-a12b",    messages=[{"role": "user", "content": "Привет"}],)print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.hubris.pw/v1",
  apiKey: process.env.HUBRIS_API_KEY!,
});

const response = await client.chat.completions.create({
  model: "nvidia/nemotron-3-super-120b-a12b",
  messages: [{ role: "user", content: "Привет" }],
});

console.log(response.choices[0].message.content);

import OpenAI from "openai";const client = new OpenAI({  baseURL: "https://api.hubris.pw/v1",  apiKey: process.env.HUBRIS_API_KEY!,});const response = await client.chat.completions.create({  model: "nvidia/nemotron-3-super-120b-a12b",  messages: [{ role: "user", content: "Привет" }],});console.log(response.choices[0].message.content);

Другие модели от nvidia

NVIDIA: Nemotron 3.5 Content Safety (free)

NVIDIA Nemotron 3.5 Content Safety — это компактная 4B-параметрическая мультимодальная модель-ограничитель от NVIDIA, доработанная на основе Google Gemma-3-4B. Она модерирует как входные данные, так и ответы от LLM и VLM, принимая текстовые и графические входные данные и возвращая текстовый вывод: классификацию пользовательского запроса и ответа как безопасного/небезопасного, метки категорий безопасности и необязательный трассировочный вывод. Она поддерживает 12 языков с контекстным окном до 128K токенов. Модель подходит для модерации запросов и ответов, классификации контента, конвейеров безопасности и корпоративных AI-ограничителей с принудительным применением политик, а также включает переключаемый режим рассуждений. Она является частью семейства открытых моделей NVIDIA Nemotron для агентного ИИ.

128К контекст·от бесплатно/М

NVIDIA: Nemotron 3 Ultra (free)

NVIDIA Nemotron 3 Ultra — это открытая модель от NVIDIA для рассуждений и оркестрации, с 55 миллиардами активных параметров из 550 миллиардов общих (MoE). Построенная на гибридной архитектуре Transformer-Mamba mixture-of-experts, она поддерживает текстовый ввод и вывод с контекстным окном до 1 миллиона токенов. Она подходит для длительных агентских рабочих процессов, включая оркестрацию агентов, агентов для кодирования, глубокие исследования и сложные корпоративные задачи. Модель особенно сильна в многошаговых рассуждениях и планировании, с высокой пропускной способностью вывода, разработанной для высокообъемных агентских конвейеров. Она является частью семейства открытых моделей NVIDIA Nemotron для агентского ИИ.

1.0М контекст·от бесплатно/М

NVIDIA: Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultra — это открытая модель от NVIDIA для рассуждений и оркестрации, с 55 млрд активных параметров из 550 млрд общих (MoE). Построенная на гибридной архитектуре Transformer-Mamba mixture-of-experts, она поддерживает текстовый ввод и вывод с контекстным окном до 1M токенов. Модель подходит для длительных агентных рабочих процессов, включая оркестрацию агентов, кодирующих агентов, глубокие исследования и сложные корпоративные задачи. Она особенно сильна в многошаговых рассуждениях и планировании, с высокопроизводительным выводом, разработанным для высокообъемных агентных конвейеров. Модель является частью семейства открытых моделей NVIDIA Nemotron для агентного ИИ.

1.0М контекст·от 53,64 ₽/М

NVIDIA: Nemotron 3 Nano Omni (free)

NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель 30B-A3B, разработанная для функционирования в качестве субагента восприятия и контекста в корпоративных агентских системах. Она принимает текстовые, графические, видео- и аудиовходы и выдает текстовый вывод, позволяя агентам воспринимать и рассуждать в различных модальностях за один цикл вывода. Построенная на гибридной архитектуре MoE Transformer-Mamba с видеослоями Conv3D и Efficient Video Sampling (EVS), она обеспечивает примерно в 2 раза более высокую пропускную способность и в 2,5 раза меньшие вычислительные затраты для обработки видео по сравнению с отдельными конвейерами зрения + речи. Она поддерживает длину контекста до 300K и бюджет рассуждений 16 384, с расширенным мышлением, включенным через параметр `reasoning.enabled`.

256К контекст·от бесплатно/М

NVIDIA: Nemotron 3 Super (free)

NVIDIA Nemotron 3 Super — это открытая гибридная MoE-модель со 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с предсказанием нескольких токенов (MTP), она обеспечивает более чем на 50% более высокую генерацию токенов по сравнению с ведущими открытыми моделями. Модель имеет контекстное окно в 1 миллион токенов для долгосрочной согласованности агентов, кросс-документного рассуждения и многошагового планирования задач. Латентная MoE позволяет вызывать 4 экспертов при стоимости вывода только одного, улучшая интеллект и обобщение. Обучение с подкреплением в нескольких средах (более 10) обеспечивает ведущую точность в бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая, с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать её где угодно — от рабочей станции до облака.

1.0М контекст·от бесплатно/М

NVIDIA: Llama Nemotron Embed VL 1B V2 (free)

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для многомодального поиска с ответами на вопросы. Модель может встраивать «документы» в виде изображений, текста или комбинации изображений и текста. Документы могут быть извлечены по текстовому запросу пользователя. Модель поддерживает изображения, содержащие текст, таблицы, диаграммы и инфографику.

131К контекст·от бесплатно/М