Преимущества
Экономия
Снижение затрат до 90%
Скорость
Ускорение времени ответа
Нагрузка
Уменьшение нагрузки на инфраструктуру
Поддержка провайдерами
| Провайдер | Запись | Чтение | Минимум токенов | Режим |
|---|---|---|---|---|
| OpenAI | Бесплатно | 0.25-0.50x | 1024 | Автоматический |
| Anthropic Claude | 1.25x | 0.1x | — | Ручной (cache_control) |
| DeepSeek | Стандарт | 0.1x | — | Автоматический |
| Google Gemini | Бесплатно | 0.25x | 1024-2048 | Автоматический |
| Grok | Бесплатно | 0.25x | — | Автоматический |
Использование с Claude
Для Anthropic Claude требуется явное указание точек кеширования черезcache_control:
Claude поддерживает максимум 4 точки кеширования с TTL 5 минут или 1 час.
Мониторинг кеша
Информация об использовании кеша возвращается в ответе API:Пример экономии
Без кеширования
| Метрика | Значение |
|---|---|
| Запросов | 100 |
| Токенов на запрос | 15,000 |
| Стоимость | 1,312 ₽ |
С кешированием (90% hit rate)
| Метрика | Значение |
|---|---|
| Запросов | 100 |
| Токенов на запрос | 15,000 |
| Из кеша | 90% |
| Стоимость | ~134 ₽ |
| Экономия | ~90% |
Реальный сценарий
Для техподдержки с 500 запросами в день и 15,000-токенным промптом базы знаний:- Без кеша: ~6,500 ₽/день
- С кешем (90%): ~650 ₽/день
- Месячная экономия: ~194,000 ₽
Рекомендации
Ограничения
- Минимальный размер промпта обычно 1000+ токенов
- Не все модели поддерживают кеширование
- TTL варьируется: 5 минут (Claude) — неограниченно (OpenAI в рамках сессии)