Tongyi DeepResearch 30B A3B
alibaba/tongyi-deepresearch-30b-a3bTongyi DeepResearch — это агентная большая языковая модель (LLM), разработанная Tongyi Lab, с общим количеством параметров 30 миллиардов, из которых активируется только 3 миллиарда на токен. Она оптимизирована для задач глубокого поиска информации с длительным горизонтом и демонстрирует передовую производительность в таких бенчмарках, как Humanity's Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, GAIA, xbench-DeepSearch и FRAMES. Это делает ее превосходящей по сравнению с предыдущими моделями для сложного агентного поиска, рассуждений и многоэтапного решения проблем.
Модель включает полностью автоматизированный конвейер синтетических данных для масштабируемой предварительной подготовки, fine-tuning и обучения с подкреплением. Она использует крупномасштабное непрерывное предварительное обучение на разнообразных агентных данных для повышения способности к рассуждению и поддержания актуальности. Она также включает сквозное обучение с подкреплением (on-policy RL) с настраиваемой оптимизацией групповой относительной политики (Group Relative Policy Optimization), включая градиенты на уровне токенов и фильтрацию отрицательных выборок для стабильного обучения. Модель поддерживает ReAct для основных проверок способностей и режим «Heavy» на основе IterResearch для максимальной производительности за счет масштабирования во время тестирования. Она идеально подходит для продвинутых исследовательских агентов, использования инструментов и интенсивных рабочих процессов вывода.
Провайдер для Tongyi DeepResearch 30B A3B
Hubris маршрутизирует запросы через OpenRouter к лучшему доступному провайдеру с автоматическим fallback при сбоях.