Perceptron Mk1 (Mark One) — это высококачественная визуально-языковая модель Perceptron для видео и воплощенного мышления.** Она принимает изображения и видео в сочетании с запросами на естественном языке и выдает подробные ответы с визуальным пониманием, как структурированные, так и на естественном языке. Она превосходно справляется с задачами понимания видео, такими как QA по видео, суммаризация и обнаружение событий. Для входных изображений она улучшает привязку «точка-по-примеру» из мультимодальных prompt'ов, OCR и анализ документов на сложных реальных данных, обнаружение и подсчет объектов с открытым словарем, а также оценку позы рук.
Рассуждения могут быть включены по запросу, чтобы обменять задержку на более глубокий анализ сложных задач. Структурированные аннотации выдаются в тексте только при явном запросе через параметр annotation_format (передайте "point", "box" или "polygon" для пространственной локализации на изображениях или "clip" (метки времени начала/конца) для временных сегментов в видео). Без annotation_format модель возвращает только текст на естественном языке.
Провайдер для Perceptron: Perceptron Mk1
Hubris маршрутизирует запросы к лучшему доступному провайдеру с автоматическим fallback при сбоях.