Перейти к основному содержанию
Кеширование промптов — это метод снижения расходов на API благодаря сохранению и переиспользованию ранее обработанных запросов. Система сохраняет результаты обработки часто используемых частей, позволяя моделям применять кешированные данные вместо повторной обработки.

Преимущества

Экономия

Снижение затрат до 90%

Скорость

Ускорение времени ответа

Нагрузка

Уменьшение нагрузки на инфраструктуру

Поддержка провайдерами

ПровайдерЗаписьЧтениеМинимум токеновРежим
OpenAIБесплатно0.25-0.50x1024Автоматический
Anthropic Claude1.25x0.1xРучной (cache_control)
DeepSeekСтандарт0.1xАвтоматический
Google GeminiБесплатно0.25x1024-2048Автоматический
GrokБесплатно0.25xАвтоматический

Использование с Claude

Для Anthropic Claude требуется явное указание точек кеширования через cache_control:
{
  "model": "anthropic/claude-3-5-sonnet",
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Вы — эксперт по технической поддержке компании XYZ. Вот наша база знаний: [длинный текст базы знаний]...",
          "cache_control": {
            "type": "ephemeral"
          }
        }
      ]
    },
    {
      "role": "user",
      "content": "Как сбросить пароль?"
    }
  ]
}
Claude поддерживает максимум 4 точки кеширования с TTL 5 минут или 1 час.

Мониторинг кеша

Информация об использовании кеша возвращается в ответе API:
{
  "usage": {
    "prompt_tokens": 1500,
    "prompt_tokens_details": {
      "cached_tokens": 1400
    },
    "completion_tokens": 100,
    "total_tokens": 1600,
    "cost": 2.50
  }
}

Пример экономии

Без кеширования

МетрикаЗначение
Запросов100
Токенов на запрос15,000
Стоимость1,312 ₽

С кешированием (90% hit rate)

МетрикаЗначение
Запросов100
Токенов на запрос15,000
Из кеша90%
Стоимость~134 ₽
Экономия~90%

Реальный сценарий

Для техподдержки с 500 запросами в день и 15,000-токенным промптом базы знаний:
  • Без кеша: ~6,500 ₽/день
  • С кешем (90%): ~650 ₽/день
  • Месячная экономия: ~194,000 ₽

Рекомендации

1

Постоянная структура

Поддерживайте постоянную структуру промптов для эффективного кеширования
2

Явное управление

Используйте cache_control для больших текстов с Claude
3

Группировка

Группируйте похожие запросы для максимизации попаданий в кеш

Ограничения

  • Минимальный размер промпта обычно 1000+ токенов
  • Не все модели поддерживают кеширование
  • TTL варьируется: 5 минут (Claude) — неограниченно (OpenAI в рамках сессии)