Транскрибация аудио в текст (Speech-to-Text)
| Модель | ID | Описание |
|---|---|---|
| Whisper 1 | openai/whisper-1 | Классическая модель OpenAI (по умолчанию) |
| GPT-4o Transcribe | openai/gpt-4o-transcribe | Улучшенная транскрибация |
| GPT-4o Mini Transcribe | openai/gpt-4o-mini-transcribe | Быстрая версия |
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
file | string | Да | Аудиофайл в формате base64 или URL |
model | string | Нет | Модель транскрибации (по умолчанию openai/whisper-1) |
language | string | Нет | Код языка ISO-639-1 (например, “ru”) |
temperature | number | Нет | Температура (0-1, по умолчанию 0) |
response_format | string | Нет | Формат ответа (по умолчанию json) |
prompt | string | Нет | Подсказка для модели |
timestamp_granularities | array | Нет | Детализация: “word”, “segment” |
stream | boolean | Нет | Потоковый режим |
user | string | Нет | Идентификатор конечного пользователя |
| Параметр | Тип | Описание |
|---|---|---|
chunking_strategy | object | Стратегия разбивки (для gpt-4o-transcribe) |
include | array | Дополнительные данные: “logprobs” |
known_speaker_names | array | Имена известных спикеров (макс. 4, для diarized_json) |
known_speaker_references | array | Аудио-примеры голосов спикеров (data URLs) |
| Формат | Описание |
|---|---|
json | Простой JSON с текстом (по умолчанию) |
text | Только текст |
srt | Формат субтитров SRT |
vtt | Формат субтитров WebVTT |
verbose_json | Подробный JSON с сегментами и таймкодами |
diarized_json | JSON с разметкой спикеров |
| Поле | Описание |
|---|---|
text | Полный транскрибированный текст |
language | Определённый язык |
duration | Длительность аудио в секундах |
segments | Сегменты с таймкодами (для verbose_json) |
words | Слова с таймкодами (при timestamp_granularities: [“word”]) |
usage | Использование: durationSeconds, cost_rub, cost |
Аудио файл в формате base64 (data:audio/mp3;base64,...) или URL
"data:audio/mp3;base64,SUQzBAAAAAAAI1RTU0UAAA..."
ID модели для транскрипции
"whisper-1"
Язык аудио в формате ISO-639-1 (например: ru, en, de)
"ru"
Промпт для улучшения контекста транскрипции
"Это разговор об искусственном интеллекте"
Формат ответа
json, text, srt, verbose_json, vtt, diarized_json Температура сэмплирования (0-1)
0 <= x <= 10
Granularity для временных меток (только для verbose_json)
word, segment ["word", "segment"]
Уникальный идентификатор конечного пользователя для отслеживания и предотвращения злоупотреблений
"user-123"
Chunking strategy для разбивки аудио (обязателен для gpt-4o-transcribe-diarize при >30 сек)
auto "auto"
Дополнительная информация в ответе (logprobs)
logprobs ["logprobs"]
Имена известных спикеров (до 4)
["agent", "customer"]
Аудио референсы для известных спикеров (data URLs)
Стриминг ответа (не поддерживается для whisper-1)
false
Транскрибированный текст
"Привет! Это тестовое сообщение."
Определенный язык аудио (ISO-639-1)
"ru"
Длительность аудио в секундах
10.5
Сегменты с таймстампами (для verbose_json)
Words с таймстампами (для verbose_json с word granularity)
ID использованной модели
"whisper-1"
Информация об использовании
{
"durationSeconds": 10.5,
"cost": 0.01,
"costRub": 0.01
}