Кеширование запросов

Кеширование промптов — это метод снижения расходов на API благодаря сохранению и переиспользованию ранее обработанных запросов. Система сохраняет результаты обработки часто используемых частей, позволяя моделям применять кешированные данные вместо повторной обработки.

Преимущества

Экономия

Снижение затрат до 90%

Скорость

Ускорение времени ответа

Нагрузка

Уменьшение нагрузки на инфраструктуру

Поддержка провайдерами

Провайдер	Запись	Чтение	Минимум токенов	Режим
OpenAI	Бесплатно	0.25-0.50x	1024	Автоматический
Anthropic Claude	1.25x	0.1x	—	Ручной (cache_control)
DeepSeek	Стандарт	0.1x	—	Автоматический
Google Gemini	Бесплатно	0.25x	1024-2048	Автоматический
Grok	Бесплатно	0.25x	—	Автоматический

Использование с Claude

Для Anthropic Claude требуется явное указание точек кеширования через cache_control:

{
  "model": "anthropic/claude-3-5-sonnet",
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Вы — эксперт по технической поддержке компании XYZ. Вот наша база знаний: [длинный текст базы знаний]...",
          "cache_control": {
            "type": "ephemeral"
          }
        }
      ]
    },
    {
      "role": "user",
      "content": "Как сбросить пароль?"
    }
  ]
}

Claude поддерживает максимум 4 точки кеширования с TTL 5 минут или 1 час.

Мониторинг кеша

Информация об использовании кеша возвращается в ответе API:

{
  "usage": {
    "prompt_tokens": 1500,
    "prompt_tokens_details": {
      "cached_tokens": 1400
    },
    "completion_tokens": 100,
    "total_tokens": 1600,
    "cost": 2.50
  }
}

Пример экономии

Без кеширования

Метрика	Значение
Запросов	100
Токенов на запрос	15,000
Стоимость	1,312 ₽

С кешированием (90% hit rate)

Метрика	Значение
Запросов	100
Токенов на запрос	15,000
Из кеша	90%
Стоимость	~134 ₽
Экономия	~90%

Реальный сценарий

Для техподдержки с 500 запросами в день и 15,000-токенным промптом базы знаний:

Без кеша: ~6,500 ₽/день
С кешем (90%): ~650 ₽/день
Месячная экономия: ~194,000 ₽

Ограничения

Минимальный размер промпта обычно 1000+ токенов
Не все модели поддерживают кеширование
TTL варьируется: 5 минут (Claude) — неограниченно (OpenAI в рамках сессии)

​Преимущества

Экономия

Скорость

Нагрузка

​Поддержка провайдерами

​Использование с Claude

​Мониторинг кеша

​Пример экономии

​Без кеширования

​С кешированием (90% hit rate)

​Реальный сценарий

​Рекомендации

​Ограничения

Преимущества

Поддержка провайдерами

Использование с Claude

Мониторинг кеша

Пример экономии

Без кеширования

С кешированием (90% hit rate)

Реальный сценарий

Рекомендации

Ограничения