SBS. Руководство администратора: различия между версиями

Версия от 15:32, 30 мая 2024

Общее описание

Сервис предназначен для получения метаданных из естественной человеческой речи. Входным значением для сервиса являются wav-файлы. В ответ на входящий запрос сервис возвращает данные в формате JSON.

Термины и определения

Simple Biometry Server (SBS) – сервис получения метаданных.

Системные требования

Для нормальной работы сервиса на каждый 1 одновременный запрос классификации необходимо обеспечить 1 CPU >= 2.20GHz с поддержкой инструкций AVX2 или новее:

Intel Haswell
Intel Broadwell
Intel Skylake
Intel Kaby Lake
Intel Coffee Lake
Intel Comet Lake
Intel Rocket Lake
Intel Alder Lake
AMD Excavator
AMD Zen (AMD Ryzen)
AMD Zen 2 (AMD Ryzen)
AMD Zen 3 (AMD Ryzen)

Оперативной памяти необходимо не менее 4Gb.

Установка/обновление SBS

Дистрибутив распространяется в виде установочных пакетов для окружения и сервиса. Загрузите установочные пакеты на сервер и выполните команды для Вашей системы в каталоге с пакетом.

Перед установкой непосредственно сервиса необходимо установить сервисный пакет окружения.

Установка/обновление SBS осуществляется скриптом chmod +x ./sbs-<версия>-<релиз>.sh && ./sbs-<версия>-<релиз>.sh -i с правами администратора. Список всех ключей инсталятора можно посмотреть, запустив инсталятор ./sbs-<версия>-<релиз>.sh без ключей.

Загрузить последнюю версию пакета curl -s 'https://cloud.connect2ai.net/sbs/' --user 'user_nexcloud:pass_nexcloud' | bash

Установить/обновить пакет одной командой curl -s 'https://cloud.connect2ai.net/sbs/?name=s' --user 'user_nexcloud:pass_nexcloud' | bash && chmod +x ./sbs.sh && ./sbs.sh -i

Проверить актуальную версию пакета можно curl -s 'https://cloud.connect2ai.net/sbs/?type=v'

Не забудьте запустить сервис и включить в автозапуск в системе:

sudo systemctl enable sbs.service && sudo systemctl start sbs.service

Удостоверьтесь, что сервис стартовал:

systemctl status sbs.service

Разрешите доступ к порту 6185 на нужном интерфейсе по протоколу tcp.

Конфигурирование параметров сервиса SBS

Настройка параметров сервиса spr производится в файле /opt/sbs/params.json

Описание параметров приведено в таблице


Параметр	По умолчанию	Назначение
namespace	spr	Префикс пути вызова методов методам API. http://СЕРВЕР:6183/ПРЕФИКС/ПУТЬ_К _МЕТОДУ.
max_gpu_memory	0.6	Лимит использования ОЗУ видеокарты.
punctuation	false	Расстановка знаков препинания через сервис SMC.
normalization	false	Обратная нормализация текста через сервис SMC.
logs.path	logs/	Путь к папке логов
logs.backups	10	Количество старых сохраняемых логов
logs.maxSize	5242880	Максимальный размер текущего лог-файла, в байтах
cache.lifetime	604800	Время жизни кэша результатов отложенного распознавания
sbs.url	http://127.0.0.1:6185	Путь к сервису биометрии для получения метаданных голосового фрагмента.
sbs.model	calls	Модель по умолчанию при работе с API SBS
sbs.conn_timeout	2	Таймаут на подключение к API SBS
sbs.read_timeout	30	Таймаут на получения ответа от API SBS
smc.url	http://127.0.0.1:6181	Путь к сервису классификации для дополнительной работы с распознанным текстом.
smc.conn_timeout	2	Таймаут на подключение к API SMC
smc.read_timeout	30	Таймаут на получения ответа от API SMC
timers.maxSilence	700	Длительность паузы в речи в миллисекундах для разбивки длинных аудиофайлов на фрагменты.
timers.minSpeech	100	Минимальный по продолжительности в миллисекундах фрагмент речи, который следует считать возможным отдельным фрагментом.
timers.garbage	20	Максимальный по продолжительности в миллисекундах отдельный фрагмент речи, который следует считать мусором.
vad.window	0.6	Продолжительность фрагмента аудиофайла в секундах, отправляемого на анализ наличия речи.
vad.shift	0.005	Ширина сдвига в секундах для вычленения фрагментов аудиофайла для последующего анализа наличия речи.
vad.confidence	0.3	Пороговый коэффициент отсечения речь/шум.
vad.batch	1024	Количество одновременного анализируемых на наличие речи аудиофрагментов.
vad.defaultModel	webrtc	Тип VAD по умолчанию для разбивки аудиофайлов. Возможные значения neuro и webrtc.
vad.defaultPreset	call	Используемая модель neuro VAD по умолчанию. Доступные варианты call и microphone.
speakers.similarityThreshold	0.5	Порог различия для разделения говорящих.
speakers.maxSpeechLength	30000	Максимальная длительность фрагмента для сравнения говорящих в миллисекундах.
speakers.wordMinLimit	4	Минимальный размер фразы при определении говорящих.
speakers.timeMinLimit	2000	Минимальная длина фразы, чтобы она могла быть использована для добавления нового говорящего.
speakers.batch	4	Количество одновременного анализируемых аудиофрагментов при разделении говорящих.
speakers.concatEqual	true	Склеивать последовательные фразы одного и того же говорящего.
speakers.defaultModel	call	Модель определения говорящего.
recognition.batch	4	Количество одновременного распознаваемых аудиофрагментов.
blacklist	[]	Список моделей распознавания в папках nnets и external, которые не должны быть загружены при старте сервиса SPR.
garbage	[]	Массив фраз, которые считаются мусорными и откидываются из распознанного текста.
corrections	[]	Добавление модели коррекции для стенографирования. Пример настройки: "corrections": { "big": "call" }

Сбор данных об ошибках

Логи сервиса по умолчанию находятся в файле /opt/sbs/logs/log.txt

Удаление

Для удаления выполните команду: /opt/sbs/uninstall. Команда деинсталлирует сервис и удалит рабочий каталог, включая все установленные модели.

Часто задаваемые вопросы


Вопрос	Ответ

@@ Строка 48: / Строка 48: @@
 Разрешите доступ к порту 6185 на нужном интерфейсе по протоколу tcp.
+===== '''Конфигурирование параметров сервиса SBS'''=====
+Настройка параметров сервиса spr производится в файле /opt/sbs/params.json
+Описание параметров приведено в таблице
+{| class="wikitable"
+|+
+!Параметр
+!По умолчанию
+!Назначение
+|-
+|namespace
+|spr
+|Префикс пути вызова методов методам API. <nowiki>http://СЕРВЕР:6183/ПРЕФИКС/ПУТЬ_К</nowiki> _МЕТОДУ.
+|-
+|max_gpu_memory
+|0.6
+|Лимит использования ОЗУ видеокарты.
+|-
+|punctuation
+|false
+|Расстановка знаков препинания через [[SMC. Руководство пользователя|сервис SMC]].
+|-
+|normalization
+|false
+|Обратная нормализация текста через [[SMC. Руководство пользователя|сервис SMC]].
+|-
+|logs.path
+|logs/
+|Путь к папке логов
+|-
+|logs.backups
+|10
+|Количество старых сохраняемых логов
+|-
+|logs.maxSize
+|5242880
+|Максимальный размер текущего лог-файла, в байтах
+|-
+|cache.lifetime
+|604800
+|Время жизни кэша результатов отложенного распознавания
+|-
+| sbs.url
+|<nowiki>http://127.0.0.1:6185</nowiki>
+|Путь к [[SBS. Руководство пользователя|сервису биометрии]] для получения метаданных голосового фрагмента.
+|-
+|sbs.model
+|calls
+|Модель по умолчанию при работе с API SBS
+|-
+|sbs.conn_timeout
+|2
+|Таймаут на подключение к API SBS
+|-
+|sbs.read_timeout
+|30
+|Таймаут на получения ответа от API SBS
+|-
+|smc.url
+|<nowiki>http://127.0.0.1:6181</nowiki>
+|Путь к [[SMC. Руководство пользователя|сервису классификации]] для дополнительной работы с распознанным текстом.
+|-
+|smc.conn_timeout
+|2
+|Таймаут на подключение к API SMC
+|-
+|smc.read_timeout
+|30
+|Таймаут на получения ответа от API SMC
+|-
+|timers.maxSilence
+|700
+|Длительность паузы в речи в миллисекундах для разбивки длинных аудиофайлов на фрагменты.
+|-
+|timers.minSpeech
+|100
+|Минимальный по продолжительности в миллисекундах фрагмент речи, который следует считать возможным отдельным фрагментом.
+|-
+|timers.garbage
+|20
+|Максимальный по продолжительности в миллисекундах отдельный фрагмент речи, который следует считать мусором.
+|-
+|vad.window
+|0.6
+|Продолжительность фрагмента аудиофайла в секундах, отправляемого на анализ наличия речи.
+|-
+|vad.shift
+|0.005
+|Ширина сдвига в секундах для вычленения фрагментов аудиофайла для последующего анализа наличия речи.
+|-
+|vad.confidence
+|0.3
+|Пороговый коэффициент отсечения речь/шум.
+|-
+|vad.batch
+|1024
+|Количество одновременного анализируемых на наличие речи аудиофрагментов.
+|-
+|vad.defaultModel
+|webrtc
+|Тип VAD по умолчанию для разбивки аудиофайлов. Возможные значения neuro и webrtc.
+|-
+|vad.defaultPreset
+|call
+|Используемая модель neuro VAD по умолчанию. Доступные варианты call и microphone.
+|-
+|speakers.similarityThreshold
+|0.5
+|Порог различия для разделения говорящих.
+|-
+|speakers.maxSpeechLength
+|30000
+|Максимальная длительность фрагмента для сравнения говорящих в миллисекундах.
+|-
+|speakers.wordMinLimit
+|4
+|Минимальный размер фразы при определении говорящих.
+|-
+|speakers.timeMinLimit
+|2000
+|Минимальная длина фразы, чтобы она могла быть использована для добавления нового говорящего.
+|-
+|speakers.batch
+|4
+|Количество одновременного анализируемых аудиофрагментов при разделении говорящих.
+|-
+|speakers.concatEqual
+|true
+|Склеивать последовательные фразы одного и того же говорящего.
+|-
+|speakers.defaultModel
+|call
+|Модель определения говорящего.
+|-
+|recognition.batch
+|4
+|Количество одновременного распознаваемых аудиофрагментов.
+|-
+|blacklist
+|[]
+|Список моделей распознавания в папках nnets и external, которые не должны быть загружены при старте сервиса SPR.
+|-
+|garbage
+|[]
+|Массив фраз, которые считаются мусорными и откидываются из распознанного текста.
+|-
+|corrections
+|[]
+|Добавление модели коррекции для стенографирования. Пример настройки:<blockquote>"corrections": {
+       "big": "call"
+   }</blockquote>
+|}
 ====='''Сбор данных об ошибках'''=====