Действия

TTS. Руководство пользователя: различия между версиями

Материал из Флора AI

Нет описания правки
Нет описания правки
Строка 36: Строка 36:
| -
| -
|<code>{ models: [model1,...,modelN] }</code>
|<code>{ models: [model1,...,modelN] }</code>
|-
|/tts/dictionary/export
|GET
|выгрузка пользовательского словаря ударений
| -
|текст - строки с словом и его интерперетацией с ударением
|-
|/tts/dictionary/get
|GET
|выгрузка пользовательского словаря ударений в виде json
| -
|<code>[
  [
    "слово",
    "замена слова с удар+ением"
  ],
  [
    "слово2",
    "замена слова2 с удар+ением"
  ],
  ...
  ...
]</code>
|-
|/tts/dictionary/import
|POST
|загрузка пользовательского словаря ударений
|текст - строки с словом и его интерперетацией с ударением
| -
|-
|-
|/tts/dictionary/get
|POST
|загрузка пользовательского словаря ударений в виде json
|<code>[
  [
    "слово",
    "замена слова с удар+ением"
  ],
  [
    "слово2",
    "замена слова2 с удар+ением"
  ],
  ...
  ...
]</code>
| -
|-
|/tts/synthesize/{id}
|GET
|Синтез звукового файла из текста
  ID - имя модели
  text - текст синтезируемой фразы
  rate - скорость речи
  pitch - высота (тон)
  volume - громкость
|wav файл с синтезированой фразой
|-
|}
|}
Методы POST '''заменяют''' пользовательский словарь, а не дополняют его

Версия от 19:56, 12 июля 2023

Общее описание

Сервис предназначен для преобразования текста в речь. Входными данными для сервиса является текст, результатом работы будет аудио файл в формате *.wav.


Термины и определения

Text To Speech Server (TTS)– сервис синтеза речи.

Модель (голос) - модель нейронной сети, отвечающую за синтез спектрограммы из текста. От модели зависит каким голосом будет синтезирован текст.

Вокодер - модель нейронной сети, отвечающую за синтез аудиоданных из спектрограммы


Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису TTS в реальном времени



Описание методов API

Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом TTS. По умолчанию используется порт 6186/tcp.

Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"

Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6186 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.

Метод Тип Описание Входные параметры Ответ
/tts/ GET Вывод списка моделей - { models: [model1,...,modelN] }
/tts/dictionary/export GET выгрузка пользовательского словаря ударений - текст - строки с словом и его интерперетацией с ударением
/tts/dictionary/get GET выгрузка пользовательского словаря ударений в виде json - [
 [
   "слово",
   "замена слова с удар+ением"
 ],
 [
   "слово2",
   "замена слова2 с удар+ением"
 ],
 ...
 ...

]

/tts/dictionary/import POST загрузка пользовательского словаря ударений текст - строки с словом и его интерперетацией с ударением -
/tts/dictionary/get POST загрузка пользовательского словаря ударений в виде json [
 [
   "слово",
   "замена слова с удар+ением"
 ],
 [
   "слово2",
   "замена слова2 с удар+ением"
 ],
 ...
 ...

]

-
/tts/synthesize/{id} GET Синтез звукового файла из текста
 ID - имя модели
 text - текст синтезируемой фразы
 rate - скорость речи
 pitch - высота (тон)
 volume - громкость
wav файл с синтезированой фразой


Методы POST заменяют пользовательский словарь, а не дополняют его