Tongyi DeepResearch 30B A3B

alibaba/tongyi-deepresearch-30b-a3b

Выпущена 18 сентября 2025 г.|131К контекст|7,35 ₽/М вход|36,74 ₽/М выход

Tongyi DeepResearch — это агентная большая языковая модель (LLM), разработанная Tongyi Lab, с общим количеством параметров 30 миллиардов, из которых активируется только 3 миллиарда на токен. Она оптимизирована для задач глубокого поиска информации с длительным горизонтом и демонстрирует передовую производительность в таких бенчмарках, как Humanity's Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, GAIA, xbench-DeepSearch и FRAMES. Это делает ее превосходящей по сравнению с предыдущими моделями для сложного агентного поиска, рассуждений и многоэтапного решения проблем.

Модель включает полностью автоматизированный конвейер синтетических данных для масштабируемой предварительной подготовки, fine-tuning и обучения с подкреплением. Она использует крупномасштабное непрерывное предварительное обучение на разнообразных агентных данных для повышения способности к рассуждению и поддержания актуальности. Она также включает сквозное обучение с подкреплением (on-policy RL) с настраиваемой оптимизацией групповой относительной политики (Group Relative Policy Optimization), включая градиенты на уровне токенов и фильтрацию отрицательных выборок для стабильного обучения. Модель поддерживает ReAct для основных проверок способностей и режим «Heavy» на основе IterResearch для максимальной производительности за счет масштабирования во время тестирования. Она идеально подходит для продвинутых исследовательских агентов, использования инструментов и интенсивных рабочих процессов вывода.

Провайдер для Tongyi DeepResearch 30B A3B

Hubris маршрутизирует запросы через OpenRouter к лучшему доступному провайдеру с автоматическим fallback при сбоях.

alibaba

Latency

—

Throughput

—

Uptime

—

Контекст

131К

токенов

Макс. ответ

131К

токенов

Вход

7,35 ₽

за 1М токенов

Выход

36,74 ₽

за 1М токенов

Кеш чтение

7,35 ₽

за 1М токенов

Модальности

Вход:ТекстВыход:Текст

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_ktop_p