Синтез речи из текста (Text-to-Speech)
/v1/audio/speech и /v2/audio/speech.
| Модель | ID | Описание |
|---|---|---|
| TTS | openai/tts-1 | OpenAI-совместимая модель (по умолчанию) |
| TTS HD | openai/tts-1-hd | Высокое качество |
| GPT-4o Mini TTS | openai/gpt-4o-mini-tts | Поддержка голосовых инструкций |
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
model | string | Нет | Модель TTS (по умолчанию openai/tts-1) |
input | string | Да | Текст для озвучки (макс. 5000 символов) |
voice | string | Да | Имя голоса |
response_format | string | Нет | Формат: mp3, opus, aac, flac, wav, pcm (по умолчанию mp3) |
speed | number | Нет | Скорость речи (0.25-4.0, по умолчанию 1.0) |
instructions | string | Нет | Инструкции для голоса (макс. 4096, только openai/gpt-4o-mini-tts) |
user | string | Нет | Идентификатор конечного пользователя |
| Параметр | Тип | Описание |
|---|---|---|
stability | number (0-1) | Стабильность голоса (меньше = экспрессивнее) |
similarity_boost | number (0-1) | Схожесть с оригинальным голосом |
style | number (0-1) | Эмоциональность |
timestamps | boolean | Временные метки слов |
previous_text | string | Текст перед текущим фрагментом (контекст) |
next_text | string | Текст после текущего фрагмента (контекст) |
language_code | string | Код языка (для ElevenLabs Turbo v2.5) |
| Поле | Тип | Описание |
|---|---|---|
audio | string | URL или base64 аудио |
contentType | string | MIME-тип (например, audio/mpeg) |
model | string | Использованная модель |
duration | number | Длительность в секундах |
usage | object | Использование: characters, cost_rub, cost |
alignment | object | Временные метки слов (при timestamps: true) |
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
model | string | Да | elevenlabs/sound-effect-v2 |
input | string | Да | Описание звука на английском |
duration_seconds | number | Нет | Длительность (0.5-10 сек) |
loop | boolean | Нет | Зацикленность |
output_format | string | Нет | Формат аудио |
prompt_influence | number | Нет | Влияние промпта |
mp3_22050_32 — MP3 22050Hz 32kbpsmp3_44100_32 — MP3 44100Hz 32kbpsmp3_44100_64 — MP3 44100Hz 64kbpsmp3_44100_128 — MP3 44100Hz 128kbps (рекомендуется)mp3_44100_192 — MP3 44100Hz 192kbpsТекст для озвучивания (максимум 5000 символов)
5000"Привет! Это тестовое сообщение."
Голос для генерации речи. Допустимые значения зависят от модели: OpenAI (alloy, ash, ballad, coral, echo, fable, onyx, nova, sage, shimmer, verse), ElevenLabs (Rachel, Aria, Roger, Sarah и др.)
"alloy"
ID модели для генерации речи
"tts-1"
Инструкции для управления характеристиками голоса. Поддерживается только для gpt-4o-mini-tts, не работает с tts-1 и tts-1-hd
4096"Говори медленно и выразительно"
Формат выходного аудио
mp3, opus, aac, flac, wav, pcm Скорость генерации речи (0.25 - 4.0)
0.25 <= x <= 41
Формат потоковой передачи аудио. Не поддерживается для tts-1 и tts-1-hd
sse, audio Уникальный идентификатор конечного пользователя для отслеживания и предотвращения злоупотреблений
"user-123"
Стабильность голоса (0-1). Только для ElevenLabs
0 <= x <= 10.5
Усиление схожести голоса (0-1). Только для ElevenLabs
0 <= x <= 10.75
Экспрессия стиля (0-1). Только для ElevenLabs
0 <= x <= 10
Возвращать временные метки для каждого слова. Только для ElevenLabs
false
Предшествующий текст для улучшения непрерывности речи при конкатенации. Только для ElevenLabs
5000Последующий текст для улучшения непрерывности речи при конкатенации. Только для ElevenLabs
5000Код языка ISO 639-1. Только для ElevenLabs Turbo v2.5
10"ru"
Base64-encoded аудио данные
"SUQzBAAAAAAAI1RTU0UAAA..."
Content-Type аудио
"audio/mpeg"
ID использованной модели
"tts-1"
Длительность аудио в секундах (если известна)
5.2
Информация об использовании
{
"characters": 100,
"cost": 0.01,
"costRub": 0.01
}
Временные метки символов (при timestamps: true, ElevenLabs)