Как работает
- Автоматический подсчет токенов и расходов
- Детальная аналитика по типам (prompt, completion, reasoning, cached)
- Готовая стоимость в рублях, уже списанная
- Информация включается в стандартный ответ API без задержек
Структура ответа
Каждый ответ API содержит объектusage:
Поля usage
| Поле | Описание |
|---|---|
prompt_tokens | Входящие токены |
completion_tokens | Выходящие токены |
total_tokens | Сумма всех токенов |
cost_rub | Стоимость в рублях |
cost | Стоимость в рублях (алиас cost_rub) |
Детализация входных токенов (prompt_tokens_details)
| Поле | Описание |
|---|---|
cached_tokens | Токены из кеша (~90% дешевле) |
audio_tokens | Токены аудио во входных данных |
video_tokens | Токены видео во входных данных |
Детализация выходных токенов (completion_tokens_details)
| Поле | Описание |
|---|---|
reasoning_tokens | Токены рассуждений (для o1, R1 и др.) |
audio_tokens | Токены аудио в ответе |
image_tokens | Токены изображений в ответе |
Типы токенов и стоимость
| Тип | Описание | Стоимость |
|---|---|---|
| Prompt | Входящие сообщения, контекст | Базовая цена |
| Completion | Генерируемый текст | 2-4x выше prompt |
| Reasoning | Внутренние рассуждения моделей | ~4x выше обычных |
| Cached | Из кеша провайдера | ~90% дешевле |
Streaming режим
В потоковом режиме информация оusage приходит в последнем SSE-сообщении перед [DONE]:
Оптимизация расходов
Используйте кеширование
Для повторяющихся промптов экономия до 90%
Выбирайте модель
Подбирайте модель под сложность задачи
Ограничивайте max_tokens
Устанавливайте разумные лимиты
Мониторьте reasoning
Reasoning токены дороже, но эффективнее