TTS. Руководство администратора
Материал из Флора AI
Общее описание
Сервис предназначен для преобразования текста в речь. Входными данными для сервиса является текст, результатом работы будет аудио файл в формате *.wav.
Термины и определения
Text To Speech Server (TTS)– сервис синтеза речи. Модель - модель нейронной сети, описывает её архитектуру и конфигурацию, а также используемые алгоритмы обучения. От модели зависит каким голосом будет синтезирован текст. Вокодер - движок синтеза, от него зависит качество синтеза.
Расчет нагрузки
Для нормальной работы сервиса на каждый канал синтеза требуется один CPU. Оперативной памяти необходимо не менее 8Gb.
Установка/обновление сервиса
Дистрибутив распространяется в виде установочных пакетов для окружения и сервиса. Загрузите установочные пакеты на сервер и выполните команды для Вашей системы в каталоге с пакетом.
Перед установкой непосредственно сервиса необходимо установить сервисный пакет окружения.
Установка/обновление непосредственно TTS осуществляется скриптом ./tts-<версия>-install с правами администратора.
Не забудьте запустить сервис и включить в автозапуск в системе:
sudo systemctl enable tts.service && sudo systemctl start tts.service
Удостоверьтесь, что сервис стартовал:
systemctl status tts.service
Разрешите доступ к порту 6186 на нужном интерфейсе по протоколу tcp.
Установка моделей
Установка моделей возможна прямым копирование файла модели. Модели располагаются в каталоге /opt/еtts/nnets/. Для установки модели необходимо создать каталог /opt/spr/nnets/<название модели>/ и скопировать в него файл c vjltkm. (голосом), после чего перезагрузить сервис командой systemctl restart tts
Чтобы убедиться, что модели доступны, выполните запрос
curl -H "accept: application/json" -X GET "http://АДРЕС_СЕРВЕРА:6186/tts/"
В ответе должно содержаться название новой модели или перечень названий моделей в формате json.
Проверить корректность работы модели можно запросом к API с текстом для синтеза, заменив в примере адрес сервера модель и текст для синтеза:
curl -G -X GET "http://АДРЕС_СЕРВЕРА:6186/tts/synthesize/МОДЕЛЬ?rate=100&pitch=100&volume=100" -H "accept: application/json" --data-urlencode "text=текст для синтеза" --output out.wav
out.wav должен содержать синтезированный голос с текстом из запроса.