Google: Gemma 4 31B

google/gemma-4-31b-it

Выпущена 2 апреля 2026 г.|262К контекст|11,30 ₽/М вход|38,41 ₽/М выход

Gemma 4 31B Instruct — это плотная мультимодальная модель Google DeepMind с 30,7 млрд параметров, поддерживающая ввод текста и изображений с выводом текста. Она имеет контекстное окно в 256 тысяч токенов, настраиваемый режим мышления/рассуждения, нативную поддержку вызова функций и многоязычную поддержку более чем на 140 языках. Модель демонстрирует высокие результаты в задачах кодирования, рассуждения и понимания документов. Лицензия Apache 2.0.

Провайдер для Google: Gemma 4 31B

Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.

google

Latency

—

Throughput

—

Uptime

—

Контекст

262К

токенов

Макс. ответ

262К

токенов

Вход

11,30 ₽

за 1М токенов

Выход

38,41 ₽

за 1М токенов

Кеш чтение

11,30 ₽

за 1М токенов

Модальности

Вход:ИзображенияТекстВидеоВыход:Текст

Провайдеры

Запросы обслуживает один из провайдеров ниже — маршрутизация автоматически выбирает оптимального по доступности и скорости в момент запроса. Итоговая стоимость зависит от того, какой провайдер обслужил запрос, и от попадания в кэш: при повторяющемся контексте вход тарифицируется по цене чтения кэша — до 60–80 % дешевле. Цены — в рублях за 1 млн токенов.

Средняя фактическая цена

16,64 ₽

по запросам за 30 дней · за 1 млн токенов


DeepInfra	10,17 ₽	38,41 ₽	5,65 ₽	5,9 т/с	99,8 %	10,7 %
CoreWeave	11,30 ₽	38,41 ₽	11,30 ₽	34 т/с	99,0 %	18,0 %
OpenInference	11,30 ₽	39,54 ₽	11,30 ₽	22 т/с	95,0 %	7,0 %
Venice	13,56 ₽	40,67 ₽	10,17 ₽	30 т/с	99,5 %	19,5 %
Chutes	13,56 ₽	41,79 ₽	6,78 ₽	8,9 т/с	92,4 %	7,2 %
DeepInfra	14,68 ₽	42,92 ₽	—	5,9 т/с	94,4 %	10,7 %
SiliconFlow	14,68 ₽	45,18 ₽	—	28 т/с	65,9 %	6,6 %
Novita	15,81 ₽	45,18 ₽	—	—	95,3 %	< 0,1 %
Friendli	15,81 ₽	45,18 ₽	—	54 т/с	99,2 %	7,3 %
Morph	15,81 ₽	45,18 ₽	9,04 ₽	—	98,1 %	< 0,1 %
Crusoe	15,81 ₽	45,18 ₽	15,81 ₽	—	97,9 %	< 0,1 %
Parasail	16,94 ₽	45,18 ₽	6,78 ₽	20 т/с	98,4 %	11,3 %
Phala	16,94 ₽	51,96 ₽	8,47 ₽	—	97,6 %	< 0,1 %
ModelRun	24,85 ₽	62,13 ₽	13,56 ₽	—	99,0 %	< 0,1 %
Together	31,63 ₽	97,14 ₽	—	—	93,7 %	< 0,1 %
SambaNova	42,92 ₽	129,90 ₽	—	—	99,1 %	< 0,1 %
Together	44,05 ₽	109,57 ₽	—	—	85,7 %	< 0,1 %
Cerebras	111,83 ₽	168,31 ₽	111,83 ₽	—	100,0 %	< 0,1 %

Доля запросов, скорость и латентность считаются по нашему трафику за 30 дней, в разрезе по провайдеру. У одного провайдера может быть несколько строк — разные регионы или тарифы с отдельными ценами; эти значения общие для провайдера, поэтому в таких строках они совпадают.

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biaslogprobsmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_atop_ktop_logprobstop_p

Тарификация для Google: Gemma 4 31B

Цены в рублях за 1 млн токенов. Списание — за реальные токены, без подписок.

Тип	Цена в ₽	Единица
Вход	11,30 ₽	за 1М токенов
Выход	38,41 ₽	за 1М токенов
Кэш: чтение	11,30 ₽	за 1М токенов

Пример кода и API для Google: Gemma 4 31B

Hubris — OpenAI-совместимый API. Используйте любой OpenAI SDK, поменяв только base URL и ключ.

Получить API-ключ

curl https://api.hubris.pw/v1/chat/completions \
  -H "Authorization: Bearer sk-gw-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-31b-it",
    "messages": [{"role": "user", "content": "Привет"}]
  }'

curl https://api.hubris.pw/v1/chat/completions \  -H "Authorization: Bearer sk-gw-..." \  -H "Content-Type: application/json" \  -d '{    "model": "google/gemma-4-31b-it",    "messages": [{"role": "user", "content": "Привет"}]  }'

from openai import OpenAI

client = OpenAI(
    base_url="https://api.hubris.pw/v1",
    api_key="sk-gw-...",
)

response = client.chat.completions.create(
    model="google/gemma-4-31b-it",
    messages=[{"role": "user", "content": "Привет"}],
)
print(response.choices[0].message.content)

from openai import OpenAIclient = OpenAI(    base_url="https://api.hubris.pw/v1",    api_key="sk-gw-...",)response = client.chat.completions.create(    model="google/gemma-4-31b-it",    messages=[{"role": "user", "content": "Привет"}],)print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.hubris.pw/v1",
  apiKey: process.env.HUBRIS_API_KEY!,
});

const response = await client.chat.completions.create({
  model: "google/gemma-4-31b-it",
  messages: [{ role: "user", content: "Привет" }],
});

console.log(response.choices[0].message.content);

import OpenAI from "openai";const client = new OpenAI({  baseURL: "https://api.hubris.pw/v1",  apiKey: process.env.HUBRIS_API_KEY!,});const response = await client.chat.completions.create({  model: "google/gemma-4-31b-it",  messages: [{ role: "user", content: "Привет" }],});console.log(response.choices[0].message.content);

Другие модели от google

Google: Gemini 2.5 Flash

Gemini 2.5 Flash — это передовая рабочая модель Google, специально разработанная для решения сложных задач в области рассуждений, кодирования, математики и науки. Она включает встроенные возможности «мышления», что позволяет ей предоставлять ответы с большей точностью и тонким учётом контекста. Кроме того, Gemini 2.5 Flash настраивается с помощью параметра «max tokens for reasoning», как описано в документации.

1.0М контекст·от 33,89 ₽/М

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Gemini 3.1 Flash Image, также известный как "Nano Banana 2", — это новейшая передовая модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество профессионального уровня на скорости Flash. Она сочетает в себе расширенное контекстное понимание с быстрым и экономичным выводом, делая сложную генерацию изображений и итеративное редактирование значительно более доступными. Соотношение сторон можно контролировать с помощью параметра image_config API.

131К контекст·1,59 ₽ за запрос

Google: Gemini 2.5 Flash Lite

Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Она предлагает улучшенную пропускную способность, более быструю генерацию токенов и лучшую производительность по сравнению с предыдущими моделями Flash в общих бенчмарках. По умолчанию «мышление» (то есть многопроходное рассуждение) отключено для приоритета скорости, но разработчики могут включить его с помощью параметра Reasoning API, чтобы выборочно обменять стоимость на интеллект.

1.0М контекст·от 11,30 ₽/М

Google: Gemini Omni Flash Preview

Gemini Omni Flash Preview — это нативная мультимодальная модель Google для генерации и редактирования видео. Она принимает текст, изображения и видео, а также генерирует короткие видеоролики в разрешении 720p с нативным звуком, поддерживая преобразование текста в видео,...

— контекст·16,42 ₽ за секунду

Google: Gemini 3.6 Flash

Gemini 3.6 Flash — это высокоэффективная модель от Google для кодирования, агентских рабочих процессов, а также веб- и мобильной разработки. Она разработана для создания отточенных результатов с меньшим количеством ненужных правок и колебаний, при этом сокращая использование токенов и количество вызовов модели, необходимых для выполнения задачи.

1.0М контекст·1,59 ₽ за запрос

Google: Gemini 3.5 Flash Lite

Gemini 3.5 Flash-Lite — это высокоэффективная модель от Google с улучшенными агентными возможностями. Она подходит для субагентов, выполняющих сфокусированные задачи в рамках сложных многоагентных рабочих процессов.

1.0М контекст·1,59 ₽ за запрос