Hubris
Возможности

Prompt caching (Anthropic)

Кеширование длинных промптов для удешевления повторных вызовов с тем же контекстом.

Prompt caching

Anthropic-модели (Claude) поддерживают кеширование частей промпта на стороне провайдера. Это даёт значительную экономию, когда вы много раз отправляете один и тот же длинный системный промпт или контекст с разными user-сообщениями.

Когда это работает

  • Длинный системный промпт (≥1024 токена) — описание роли ассистента, гайдлайны, документация.
  • Большой контекст в начале — RAG-сниппеты, долгая история диалога.
  • Повторные вызовы в течение 5 минут — Anthropic кешит на ~5-минутный TTL.

Если у вас короткий промпт или вы дёргаете API раз в час — кеширование не сэкономит ничего.

Как включить

Передайте cache_control в content-блоке сообщения:

curl -s https://api.hubris.pw/v1/chat/completions \
  -H "Authorization: Bearer sk-gw-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "anthropic/claude-haiku-4.5",
    "messages": [
      {
        "role": "system",
        "content": [
          {
            "type": "text",
            "text": "Очень длинная инструкция на 5000 токенов...",
            "cache_control": {"type": "ephemeral"}
          }
        ]
      },
      {
        "role": "user",
        "content": "Ваш вопрос"
      }
    ]
  }'

Маркер cache_control: { type: "ephemeral" } ставится на content-блок, который вы хотите закешировать. Часто это весь системный промпт или большой документ в начале первого user-сообщения.

Биллинг

В ответе usage появятся дополнительные поля от Anthropic:

{
  "usage": {
    "prompt_tokens": 5050,
    "completion_tokens": 100,
    "prompt_tokens_details": {
      "cached_tokens": 5000
    }
  }
}

cached_tokens — то, что было прочитано из кеша. У Anthropic стоимость cache-read обычно в 10× дешевле обычных prompt-токенов; cache-write — в 1.25× дороже.

Важная оговорка по биллингу Hubris. Сейчас (на 2026-05) Hubris списывает фиксированную цену по prompt_tokens без отдельной формулы для cache-read. Это значит — даже если у вас 90% prompt-токенов прочитаны из кеша и стоили провайдеру copейки, мы возьмём с вас полную ставку каталога. Когда это будет переделано на правильную формулу (prompt_tokens × full + cached_tokens × cache_read_discount), цена в каталоге может измениться. Следите за Changelog.

Если вам важна экономия от кеширования и текущий биллинг не подходит — пишите в support@hubris.pw, обсудим.

Что закешировать

Эффективные кандидаты:

  • System prompt с гайдлайнами и примерами (5–20k токенов) — основная экономия.
  • RAG-контекст — если шлёте те же документы много раз в течение 5 минут.
  • Длинный one-shot пример — для классификаторов или агентов.

Не имеет смысла кешировать:

  • Каждое user-сообщение (они уникальны).
  • Маленькие промпты (< 1024 токена).
  • Запросы реже раза в 5 минут (cache TTL истечёт).

Что дальше