TTS. Руководство администратора: различия между версиями

Версия от 16:58, 11 июля 2023

Общее описание

Сервис предназначен для преобразования текста в речь. Входными данными для сервиса является текст, результатом работы будет аудио файл в формате *.wav.

Термины и определения

Text To Speech Server (TTS)– сервис синтеза речи.

Модель (голос) - модель нейронной сети, отвечающую за синтез спектрограммы из текста. От модели зависит каким голосом будет синтезирован текст.

Вокодер - модель нейронной сети, отвечающую за синтез аудиоданных из спектрограммы

Расчет нагрузки

Для нормальной работы сервиса на каждый канал синтеза требуется один CPU. Оперативной памяти необходимо не менее 8Gb.

Установка/обновление сервиса

Дистрибутив распространяется в виде установочных пакетов для окружения и сервиса. Загрузите установочные пакеты на сервер и выполните команды для Вашей системы в каталоге с пакетом.

Перед установкой непосредственно сервиса необходимо установить сервисный пакет окружения.

Установка/обновление непосредственно TTS осуществляется скриптом ./tts-<версия>-install с правами администратора.

Не забудьте запустить сервис и включить в автозапуск в системе:

sudo systemctl enable tts.service && sudo systemctl start tts.service

Удостоверьтесь, что сервис стартовал:

systemctl status tts.service

Разрешите доступ к порту 6186 на нужном интерфейсе по протоколу tcp.

ВНИМАНИЕ - скрипт установки сервиса не устанавливает вокодер и модель голоса, для их установки потребуются дополнительные действия. Без вокодера и модели голоса сервис стартует но синтез нее выполняет.

Установка моделей

Установка моделей и вокодера возможна прямым копирование файлов в соответствующие каталоги. Модели располагаются в каталоге /opt/tts/nnets/. Для установки модели необходимо создать каталог /opt/spr/nnets/<название модели>/ и скопировать в него файл c моделью (голосом), после чего перезагрузить сервис командой systemctl restart tts. Папок моделей и соответственно, голосов может быть больше одного.

Вокодер располагается в каталоге /opt/tts/vocoders/, если каталог не существует, его необходимо создать.

Чтобы убедиться, что модели доступны, выполните запрос

curl -H "accept: application/json" -X GET "http://АДРЕС_СЕРВЕРА:6186/tts/"

В ответе должно содержаться название новой модели или перечень названий моделей в формате json.

Проверить корректность работы модели можно запросом к API с текстом для синтеза, заменив в примере адрес сервера модель и текст для синтеза:

curl -G -X GET "http://АДРЕС_СЕРВЕРА:6186/tts/synthesize/МОДЕЛЬ?rate=100&pitch=100&volume=100" -H "accept: application/json" --data-urlencode "text=текст для синтеза" --output out.wav

out.wav должен содержать синтезированный голос озвучивший текст из запроса.

@@ Строка 5: / Строка 5: @@
 ====='''Термины и определения'''=====
 Text To Speech Server (TTS)– сервис синтеза речи.
-Модель - модель нейронной сети, описывает её архитектуру и конфигурацию, а также используемые алгоритмы обучения. От модели зависит каким голосом будет синтезирован текст. Вокодер - движок синтеза, от него зависит качество синтеза.
+Модель (голос) - модель нейронной сети, отвечающую за синтез  спектрограммы из текста. От модели зависит каким голосом будет синтезирован текст.
+Вокодер - модель нейронной сети, отвечающую за синтез аудиоданных из спектрограммы
@@ Строка 29: / Строка 32: @@
 Разрешите доступ к порту 6186 на нужном интерфейсе по протоколу tcp.
+ВНИМАНИЕ - скрипт установки сервиса не устанавливает вокодер и модель голоса, для их установки потребуются дополнительные действия.
+Без вокодера и модели голоса сервис стартует но синтез нее выполняет.
 ===== '''Установка моделей'''=====
-Установка моделей возможна прямым копирование файла модели.
+Установка [https://cloud.connect2ai.net/index.php/apps/files/?dir=/tts/voices&fileid=5239 моделей и вокодера] возможна прямым копирование файлов в соответствующие каталоги.
-Модели располагаются в каталоге /opt/еtts/nnets/. Для установки модели необходимо создать каталог /opt/spr/nnets/<название модели>/ и скопировать в него файл c vjltkm. (голосом), после чего перезагрузить сервис командой systemctl restart tts
+Модели располагаются в каталоге /opt/tts/nnets/. Для установки модели необходимо создать каталог /opt/spr/nnets/<название модели>/ и скопировать в него файл c моделью (голосом), после чего перезагрузить сервис командой systemctl restart tts. Папок моделей и соответственно, голосов может быть больше одного.
+Вокодер располагается в каталоге  /opt/tts/vocoders/, если каталог не существует, его необходимо создать.
 Чтобы убедиться, что модели доступны, выполните запрос
@@ Строка 44: / Строка 52: @@
 <code>curl -G -X GET "<nowiki>http://АДРЕС_СЕРВЕРА:6186/tts/synthesize/МОДЕЛЬ?rate=100&pitch=100&volume=100</nowiki>" -H "accept: application/json" --data-urlencode "text=текст для синтеза"  --output out.wav</code>
-out.wav должен содержать синтезированный голос с текстом из запроса.
+out.wav должен содержать синтезированный голос озвучивший текст из запроса.