TTS. Руководство пользователя: различия между версиями

Версия от 11:10, 30 июля 2025

Общее описание

Сервис предназначен для преобразования текста в речь. Входными данными для сервиса является текст, результатом работы будет аудиофайл.

Термины и определения

Text-to-speech server (TTS) – сервис синтеза речи.

Модель (голос) – модель нейронной сети, отвечающая за синтез спектрограммы из текста. От модели зависит, каким голосом будет синтезирован текст.

Вокодер – модель нейронной сети, отвечающая за синтез аудиоданных из спектрограммы.

Swagger UI – интерактивная веб-консоль с кратким описанием методов API и возможностью выполнять запросы к сервису TTS в реальном времени

Описание методов API

Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом TTS. По умолчанию используется порт 6186/tcp.

Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"

Ответ сервиса представляет собой JSON или текстовый документ в кодировке UTF-8, или двоичный файл.

Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6186 будет отображен интерфейс Swagger со всеми методами с возможностью их проверки.

*Описание методов API*
GET/tts/	Вывод списка моделей (голосов синтеза).
Входные параметры отсутствуют		`{ models: [model1,...,modelN] }`
GET/tts/dictionary/export	Выгрузка пользовательского словаря ударений.
Входные параметры отсутствуют		простой текст - строки с словом и его интерперетацией с ударением
GET/tts/dictionary/get	Выгрузка пользовательского словаря ударений в виде json.
Входные параметры отсутствуют		`[` `[ "слово", "замена слова с удар+ением"],` `[ "слово2", "замена слова2 с удар+ением"],` `...` `]`
POST/tts/dictionary/import	Загрузка пользовательского словаря ударений. Текущий словарь будет переписан.
csv — файл строк со словом и его интерпретацией с ударением.		`{` `"error": 0,` `"message": "сообщение о статусе результата"` `}`
POST/tts/dictionary/put	Загрузка пользовательского словаря ударений в виде json. Текущий словарь будет переписан.
json — строка следующего вида: `[` `[ "слово", "замена слова с удар+ением" ],` `[ "слово2", "замена слова2 с удар+ением" ],` `...` `]`		`{` `"error": 0,` `"message": "сообщение о статусе результата"` `}`
POST/tts/normalize	Нормализация текста — перевод цифр в слова и расстановка ударений (ударения только в нормализованной части фразы), например «в понедельник 10.10.2025» -> «в понедельник дес+ятого октябр+я две т+ысячи дв+адцать п+ятого г+ода».
text — фраза для нормализации.		`{` `"error": 0,` `"message": "success",` `"text": "нормализованный текст"` `}`
POST/tts/revoice/{revoicer}	Модификация или искажение голоса
wav — аудиофайл для обработки. revoicer — модель модификации голоса.		wav файл с модифицированным (искаженным) голосом.
GET/tts/revoicers	Перечень моделей модификации или искажения голоса. Модели поставляются только в составе дистрибутива. Модель distortion — искажение голоса, делает голос неузнаваемым и речь неразборчивой.
Входные параметры отсутствуют		[ "distortion" ]
GET/tts/split	Разбивка текста на фразы. Текст из нескольких предложений разбивает на отдельные фразы. Фразы отдаёт списком.
text - текст для обработки		{ "error": 0, "message": "success", "phrases": [ "фраза 1", "фраза 2", .... "фраза N" ] }
POST/tts/synthesize/{id}	Синтез звукового файла из текста для фраз большого размера — тип запроса «POST» позволяет отправку больших текстов.ВНИМАНИЕ: аналогичный метод GET теперь отсутствует.
ID — имя модели text — текст синтезируемой фразы rate — скорость речи pitch — высота (тон) volume — громкость frequency — частота дискретизации (по умолчанию 22050 Гц) format - формат файла результата (wav, opus, ogg, mp3) link - если 1, то вернуть только ссылку на файл		файл с синтезированой фразой
GET/license/check	Проверка лицензии
Входные параметры отсутствуют		Пример неограниченной лицензии: `{` `"error": 0,` `"uuid": "362e51300b1029f9b45fb8d58b2a91bf",` `"remaining_licenses": "infinity",` `"threshold": 0` `}` Пример ограниченной лицензии: `{` `"error": 0,` `"uuid": "362e51300b1029f9b45fb8d58b2a91bf",` `"remaining_licenses": 100,` `"threshold": 100` `}`

@@ Строка 145: / Строка 145: @@
 | colspan="2" |<small>Входные параметры отсутствуют</small>
 |<small>Пример '''неограниченной''' лицензии:
 </small><code><small>{</small></code>
@@ Строка 159: / Строка 160: @@
 <small>Пример '''ограниченной''' лицензии:
-<code><small>{</small></code>
+</small><code><small>{</small></code>
      <code><small>"error": 0,</small></code>
@@ Строка 169: / Строка 171: @@
 <code><small>}</small></code>
-|}

TTS. Руководство пользователя: различия между версиями

Материал из Флора AI

Версия от 11:10, 30 июля 2025

Общее описание

Термины и определения

Описание методов API