TTS. Руководство пользователя: различия между версиями
Материал из Флора AI
Нет описания правки |
Нет описания правки |
||
| Строка 36: | Строка 36: | ||
| - | | - | ||
|<code>{ models: [model1,...,modelN] }</code> | |<code>{ models: [model1,...,modelN] }</code> | ||
|- | |||
|/tts/dictionary/export | |||
|GET | |||
|выгрузка пользовательского словаря ударений | |||
| - | |||
|текст - строки с словом и его интерперетацией с ударением | |||
|- | |||
|/tts/dictionary/get | |||
|GET | |||
|выгрузка пользовательского словаря ударений в виде json | |||
| - | |||
|<code>[ | |||
[ | |||
"слово", | |||
"замена слова с удар+ением" | |||
], | |||
[ | |||
"слово2", | |||
"замена слова2 с удар+ением" | |||
], | |||
... | |||
... | |||
]</code> | |||
|- | |||
|/tts/dictionary/import | |||
|POST | |||
|загрузка пользовательского словаря ударений | |||
|текст - строки с словом и его интерперетацией с ударением | |||
| - | |||
|- | |||
|- | |||
|/tts/dictionary/get | |||
|POST | |||
|загрузка пользовательского словаря ударений в виде json | |||
|<code>[ | |||
[ | |||
"слово", | |||
"замена слова с удар+ением" | |||
], | |||
[ | |||
"слово2", | |||
"замена слова2 с удар+ением" | |||
], | |||
... | |||
... | |||
]</code> | |||
| - | |||
|- | |||
|/tts/synthesize/{id} | |||
|GET | |||
|Синтез звукового файла из текста | |||
| | |||
ID - имя модели | |||
text - текст синтезируемой фразы | |||
rate - скорость речи | |||
pitch - высота (тон) | |||
volume - громкость | |||
|wav файл с синтезированой фразой | |||
|- | |||
|} | |} | ||
Методы POST '''заменяют''' пользовательский словарь, а не дополняют его | |||
Версия от 19:56, 12 июля 2023
Общее описание
Сервис предназначен для преобразования текста в речь. Входными данными для сервиса является текст, результатом работы будет аудио файл в формате *.wav.
Термины и определения
Text To Speech Server (TTS)– сервис синтеза речи.
Модель (голос) - модель нейронной сети, отвечающую за синтез спектрограммы из текста. От модели зависит каким голосом будет синтезирован текст.
Вокодер - модель нейронной сети, отвечающую за синтез аудиоданных из спектрограммы
Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису TTS в реальном времени
Описание методов API
Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом TTS. По умолчанию используется порт 6186/tcp.
Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"
Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6186 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.
| Метод | Тип | Описание | Входные параметры | Ответ |
|---|---|---|---|---|
| /tts/ | GET | Вывод списка моделей | - | { models: [model1,...,modelN] }
|
| /tts/dictionary/export | GET | выгрузка пользовательского словаря ударений | - | текст - строки с словом и его интерперетацией с ударением |
| /tts/dictionary/get | GET | выгрузка пользовательского словаря ударений в виде json | - | [
|
| /tts/dictionary/import | POST | загрузка пользовательского словаря ударений | текст - строки с словом и его интерперетацией с ударением | - |
| /tts/dictionary/get | POST | загрузка пользовательского словаря ударений в виде json | [
|
- |
| /tts/synthesize/{id} | GET | Синтез звукового файла из текста |
ID - имя модели text - текст синтезируемой фразы rate - скорость речи pitch - высота (тон) volume - громкость |
wav файл с синтезированой фразой |
Методы POST заменяют пользовательский словарь, а не дополняют его