SPR. Руководство пользователя: различия между версиями

Текущая версия от 13:00, 27 августа 2025

Общее описание

Сервис Short phrase recognizer предназначен для преобразования речи в текст. Принимает на вход аудиофайл в формате wav и возвращает структурированные данные в формате JSON.

Термины и определения

Short Phrase Recognizer (SPR) — сервис распознавания речи.

Модель — предварительно обученная специализированная нейронная сеть для распознавания естественной речи в аудиозаписях.

Swagger UI — интерактивная веб-консоль с кратким описанием методов API и возможностью выполнять запросы к сервису SPR в реальном времени.

Описание методов API SPR

Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом SPR. По умолчанию используется порт 6183/tcp.

Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"

Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс Swagger со всеми методами с возможностью их проверки.


GET:/spr/	Вывод списка моделей.
Без входных параметров.			`{ models: [model1,...,modelN] }`
GET:/spr/audio/{taskID}	Получение файла аудиозаписи отложенного задания.
taskID — идентификатор задания.			Файл аудиозаписи или `{ error: INT , message: DESCRIPTION }`
GET:/spr/data/{id}	Получение архива модели.
id — идентификатор модели.			ZIP-файл с моделью, либо `{ error: INT , message: DESCRIPTION }`
POST:/spr/data/{id}	Добавление модели. Может быть добавлена как из файла архива, так и переименованием существующей модели.
id — идентификатор модели, обязательный параметр. zip-model — zip-архив с файлами модели. Или from-existing-model — название модели, которая должна перемещена на место id.			`{ error: INT, message: DESCRIPTION }`
DELETE:/spr/data/{id}	Удаление модели.
id — идентификатор модели.			`{ error: INT, message: DESCRIPTION }`
GET:/spr/queue	Получение очереди отложенных заданий на распознавание.
Без входных параметров.			`{` `"id задания":` `{` `"created": "ХХХХ-ХХ-ХХ ХХ:ХХ:ХХ",` `"status": "waiting", # ready \| waiting \| failed` `"filename": "wav"` `}` `}`
DELETE:/spr/queue/{taskID}	Удаление отложенных заданий на распознавание.
taskID — идентификатор задания в очереди.			`{` `"error": 0,` `"message": "success"` `}`
POST:/spr/stt/{id}	Отправка файла на распознавание речи. Моно-файлы до 60 секунд распознаются без разбивки на фрагменты и определения спикеров. Многоканальные файлы и файлы длиннее 60 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в руководстве администратора.
id — идентификатор модели wav — файл для распознавания speakers — опция поиска говорящих по базе SBS. Если 1, то дополнительно производится поиск говорящих и получение метаданных по каждому говорящему (используется сервис SBS с предварительно обученными слепками метаданных говорящих) punctuation — опция для расстановки знаков препинания. Если 1, то дополнительно вызывает метод punctuate в SMC и расставляет знаки препинания в распознанном тексте, значение по умолчанию берётся из файла конфигурации (для модели big пунктуация выполняется в любом случае). normalization — опция обратной нормализации текста, если 1, то выполняется обратная нормализация текста текста (для модели big выполняется в любом случае). vad — используемый VAD, по умолчанию webrtc toxicity — анализировать распознанный текст на токсичность через smc (GET/smc/toxicity).Высказывание анализируется по 4 параметрам, по каждому выдается вероятность от 0 до 1:"оскорбление": 0.13, "непристойность": 0, "угроза": 0, "вежливость": 0.53 emotion — выявить эмоции из распознанного текста через smc (GET/smc/emotion). Возможные ответы: negative, neutral, positive. voice_analyzer — анализировать аудиофрагменты каждого из говорящих на эмоции, возраст и пол, запрашивается в sbs метод POST/sbs/analyze.Аудио говорящего анализируется на возраст (child, adult, old).Эмоции (ANGER, BORE, DISAPPOINTMENT, DISGUST, EXCITEMENT, FEAR, NEUTRAL, PAIN, PLEASURE, SADNESS, SUPRISE). Пол (male, female). speaker_counter — количество докладчиков, по умолчанию 0, автоматическое определение количества. При отправке значения -1 разделение на докладчиков будет отключено. async — отложенный запуск распознавания classifiers - дополнительно проанализировать все распознанные фразы через модели smc и/или see. отправляется в виде {"smс":"название модели":{ параметры запроса }}. Подробнее о параметрах запроса см. в документации по сервисам smc и see.			В случае async=1 возвращается только taskID, результат по taskID смотреть в методе /spr/result. Для коротких файлов: `{` `"model": "call",` `"text": "текст фрагмента",` `"classifiers": тут ответы от моделей smc и see,` `"words": [` `{ "word": "текст",` `"start": 520,` `"stop": 1240 },` `{ "word": "фрагмента",` `"start": 1240,` `"stop": 1920 }` `]` `}` Для транскрибации больших файлов: `{` `"speakers": [` `{` `"id": null,` `"duration": 18980,` `"fragments": 3,` `"age": "old", # только для voice_analyzer=1` `"gender": "female" # только для voice_analyzer=1` `}` `],` `"splitted": [` `{` `"start": "00:00:01.870",` `"text": "текст.",` `"words": [` `{` `"word": "текст.",` `"start": 1870,` `"stop": 2710,` `"confidence": 0.95263671875` `}` `],` `"stop": "00:00:05.510",` `"channel": 0,` `"duration": "00:00:03.640",` `"start_ms": 1870,` `"stop_ms": 5510,` `"duration_ms": 3640,` `"speaker": 4,` `"speakerConfidence": 0.87,` `"classifiers": тут ответы от моделей smc и see,` `"toxicity": { # только для toxicity=1` `"insult": 0,` `"obscenity": 0,` `"threat": 0,` `"politeness": 0.99` `},` `"emotion": { "neutral": -0.3315 }, # только для emotion=1` `"voice_analysis": { # только для voice_analyzer=1` `"emotion": {` `"class": "NEUTRAL",` `"confidence": 0.7554781436920166 }` `}` `}` `]` `}`
GET:/spr/result/{taskID}	Получение результата отложенного распознавания.
taskID — идентификатор задания.		Вывод по окончанию распознавания аналогичен выводу метода stt + добавлено поле status, которое содержит информацию о статусе отложенной задачи:ready — готово waiting — ожидание not found — не найдена failed — сбой.
GET:/spr/waveform/{taskID}	Служебный метод для отображения аудио в графическом виде, содержит пики сигнала.
taskID — идентификатор задания.		`{` `"error": 0,` `"waveform": [` `0.016,` `0.015,` `0.01` `]` `}`

@@ Строка 4: / Строка 4: @@
 ===== '''Термины и определения''' =====
-Short Phrase Recognizer (SPR) - сервис распознавания речи.
+Short Phrase Recognizer (SPR) — сервис распознавания речи.
 Модель — предварительно обученная специализированная нейронная сеть для распознавания естественной речи в аудиозаписях.
-Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису SPR в реальном времени
+Swagger UI — интерактивная веб-консоль с кратким описанием методов API и возможностью выполнять запросы к сервису SPR в реальном времени.
@@ Строка 17: / Строка 17: @@
 Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок <code>"accept: application/json"</code>
-Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.
+Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс Swagger со всеми методами с возможностью их проверки.
 {| class="wikitable" style="width: 110%"
@@ Строка 25: / Строка 25: @@
 ! colspan="3" |<small>Вывод списка моделей.</small>
 |-
-| colspan="3" |<small>Без входных параметров</small>
+| colspan="3" |<small>Без входных параметров.</small>
 |<small><code>{ models: [model1,...,modelN] }</code></small>
 |-
@@ Строка 31: / Строка 31: @@
 ! colspan="3" |<small>Получение файла аудиозаписи отложенного задания.</small>
 |-
-| colspan="3" |<small>'''taskID''' - идентификатор задания</small>
+| colspan="3" |<small>taskID — идентификатор задания.</small>
 |<small>Файл аудиозаписи или</small> <small><code>{ error: INT , message: DESCRIPTION }</code></small>
 |-
@@ Строка 37: / Строка 37: @@
 ! colspan="3" |<small>Получение архива модели.</small>
 |-
-| colspan="3" |<small>'''id''' - идентификатор модели</small>
+| colspan="3" |<small>id — идентификатор модели.</small>
 |<small>ZIP-файл с моделью, либо <code>{ error: INT , message: DESCRIPTION }</code></small>
 |-
@@ Строка 43: / Строка 43: @@
 ! colspan="3" |<small>Добавление модели. Может быть добавлена как из файла архива, так и переименованием существующей модели.</small>
 |-
-| colspan="3" |'''<small>id</small>''' <small>- идентификатор модели, обязательный параметр.</small>
+| colspan="3" |<small>id — идентификатор модели, обязательный параметр.</small>
+<small>zip-model — zip-архив с файлами модели.</small>
-'''<small>zip-model</small>''' <small>- zip-архив с файлами модели</small>
+<small>Или</small>
-<small>или</small>
+<small>from-existing-model — название модели, которая должна перемещена на место id.</small>
-'''<small>from-existing-model</small>''' <small>- название модели, которая должна перемещена на место '''id'''</small>
 |<small><code>{ error: INT, message: DESCRIPTION }</code></small>
 |-
@@ Строка 55: / Строка 54: @@
 ! colspan="3" |<small>Удаление модели.</small>
 |-
-| colspan="3" |<small>id - идентификатор модели</small>
+| colspan="3" |<small>id — идентификатор модели.</small>
 |<small><code>{ error: INT, message: DESCRIPTION }</code></small>
 |-
@@ Строка 61: / Строка 60: @@
 ! colspan="3" |<small>Получение очереди отложенных заданий на распознавание.</small>
 |-
-| colspan="3" |<small>Без входных параметров</small>
+| colspan="3" |<small>Без входных параметров.</small>
 |<small><code>{</code></small>
@@ Строка 81: / Строка 80: @@
 ! colspan="3" |<small>Удаление отложенных заданий на распознавание.</small>
 |-
-| colspan="3" |<small>taskID - идентификатор задания в очереди</small>
+| colspan="3" |<small>taskID — идентификатор задания в очереди.</small>
 |<small><code>{</code></small>
@@ Строка 91: / Строка 90: @@
 |-
 !style="color:green;width: 15%"|'''POST:/spr/stt/{id}'''
-! colspan="3" |<small>Отправка файла на распознавание речи. Моно-файлы до 30 секунд распознаются без разбивки на фрагменты. Многоканальные файлы и файлы длиннее 30 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в [[SPR. Руководство администратора.|руководстве администратора]].</small>
+! colspan="3" |<small>Отправка файла на распознавание речи. Моно-файлы до 60 секунд распознаются без разбивки на фрагменты и определения спикеров. Многоканальные файлы и файлы длиннее 60 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в [[SPR. Руководство администратора.|руководстве администратора]].</small>
 |-
 | colspan="3" style="width: 50%" |
-* <small>'''id''' - идентификатор модели</small>
+* <small>'''id''' — идентификатор модели</small>
+* <small>'''wav''' — файл для распознавания</small>
-* <small>'''wav''' - файл для распознавания</small>
+* <small>'''speakers''' — опция поиска говорящих по базе SBS. Если 1, то дополнительно производится поиск говорящих и получение метаданных по каждому говорящему (используется сервис SBS с предварительно обученными слепками метаданных говорящих)</small>
+* <small>'''punctuation''' — опция для расстановки знаков препинания. Если 1, то дополнительно вызывает метод punctuate в SMC и расставляет знаки препинания в распознанном тексте, значение по умолчанию берётся из файла конфигурации (для модели big пунктуация выполняется в любом случае).</small>
-* <small>'''speakers''' - опция поиска говорящих по базе SBS</small>
+* <small>'''normalization''' — опция обратной нормализации текста, если 1, то выполняется обратная нормализация текста текста (для модели big выполняется в любом случае).</small>
+* <small>'''vad''' — используемый VAD, по умолчанию webrtc</small>
-* <small>'''punctuation''' - опция для расстановки знаков препинания</small>
+* <small>'''toxicity''' — анализировать распознанный текст на токсичность через smc (GET/smc/toxicity).</small><small>Высказывание анализируется по 4 параметрам, по каждому выдается вероятность от 0 до 1:</small><small>"оскорбление": 0.13,</small>  <small>"непристойность": 0,</small>  <small>"угроза": 0,</small>  <small>"вежливость": 0.53</small>
+* <small>'''emotion''' — выявить эмоции из распознанного текста через smc (GET/smc/emotion). Возможные ответы: negative, neutral, positive.</small>
-* <small>'''normalization''' - опция обратной нормализации текста</small>
+* <small>'''voice_analyzer''' — анализировать аудиофрагменты каждого из говорящих на эмоции, возраст и пол, запрашивается в sbs метод POST/sbs/analyze.</small><small>Аудио говорящего анализируется на возраст (child, adult, old).</small><small>Эмоции (ANGER, BORE, DISAPPOINTMENT, DISGUST, EXCITEMENT, FEAR, NEUTRAL, PAIN, PLEASURE, SADNESS, SUPRISE).</small>  <small>Пол (male, female).</small>
+* <small>'''speaker_counter''' — количество докладчиков, по умолчанию 0, автоматическое определение количества. При отправке значения -1 разделение на докладчиков будет отключено.</small>
-* <small>'''vad''' - используемый VAD, по умолчанию webrtc</small>
+* <small>'''async''' — отложенный запуск распознавания</small>
+* <small>'''classifiers'''<nowiki> - дополнительно проанализировать все распознанные фразы через модели smc и/или see. отправляется в виде {"smс":"название модели":{ параметры запроса }}. Подробнее о параметрах запроса см. в документации по сервисам </nowiki>[[SMC. Руководство пользователя|smc]] и [[SEE. Руководство пользователя|see]].</small>
-* <small>'''preset''' - используемая модель для vad = neuro</small>
-* <small>'''toxicity''' - анализировать распознанный текст на токсичность</small>
-* <small>'''emotion''' - выявить эмоции из распознанного текста</small>
-* <small>'''voice_analyzer''' - анализировать аудиофрагменты каждого из говорящих на эмоции, возраст и пол</small>
-* <small>'''speaker_counter''' - количество докладчиков, по умолчанию - 0, автоматическое определение количества</small>
-* <small>'''async''' - отложенный запуск распознавания</small>
-<small>В случае отправки переменной '''speakers=1''', дополнительно производится поиск говорящих и получение метаданных по каждому говорящему. (используется сервис sbs с предварительно обученными слепками метаданных говорящих) В случае отправки переменной '''punctuation'''=1, дополнительно вызывает метод punctuate в SMC, и расставляет знаки препинания в распознанном тексте (значение по умолчанию берётся из файлы конфигурации). '''normalization'''=1 для обратной нормализации текста.</small> <small>В случае использования модели big параметры '''punctuation''' и '''normalization''' игнорируются - модель всегда расставляет знаки препинания и нормализует текст.</small>
-<small>При установке параметра '''toxicity''' запрашивается в smc метод GET/smc/toxicity</small>
-<small>Высказывание анализируется по 4 параметрам, по каждому выдается вероятность от 0 до 1:</small>
-<small>"оскорбление": 0.13,</small>
-<small>"непристойность": 0,</small>
-<small>"угроза": 0,</small>
-<small>"вежливость": 0.53</small>
-<small>При установке параметра '''emotion''' запрашивается в smc метод GET/smc/emotion</small>
-<small>Высказывание анализируется на эмоциональность (negative, neutral, positive)</small>
-<small>При установке параметра '''voice_analyzer''' запрашивается в sbs метод POST/sbs/analyze.</small>
-<small>Аудио говорящего анализируется на возраст (child adult old)</small>
-<small>эмоции (ANGER BORE DISAPPOINTMENT DISGUST EXCITEMENT FEAR NEUTRAL PAIN PLEASURE SADNESS SUPRISE)</small>
-<small>пол (male female)</small>
 | style="width: 50%" |<small>В случае '''async=1''' возвращается только '''taskID''', результат по taskID смотреть в методе /spr/result.</small>
 <small>'''Для коротких файлов''':</small>
@@ Строка 152: / Строка 113: @@
 <small><code>  "model": "call",</code></small>
-<small><code>  "text": "текст фрагментв",</code></small>
+<small><code>  "text": "текст фрагмента",</code></small>
+<code><small>"classifiers": тут ответы от моделей smc и see,</small></code>
 <code><small>  "words": [</small><small> </small></code>
@@ Строка 233: / Строка 196: @@
 <small><code>      "speakerConfidence": 0.87,</code></small>
+<code><small>"classifiers": тут ответы от моделей smc и see,</small></code>
 <small><code>      "toxicity": { # только для toxicity=1</code></small>
@@ Строка 267: / Строка 232: @@
 ! colspan="3" |<small>Получение результата отложенного распознавания.</small>
 |-
-| colspan="2" |<small>'''taskID''' - идентификатор задания</small>
+| colspan="2" |<small>taskID — идентификатор задания.</small>
-| colspan="2" |<small>Вывод по окончанию распознавания аналогичен выводу метода stt + добавлено поле status, которое содержит информацию о статусе отложенной задачи:</small>
+| colspan="2" |<small>Вывод по окончанию распознавания аналогичен выводу метода stt + добавлено поле status, которое содержит информацию о статусе отложенной задачи:</small><small>ready — готово</small>
-<small>'''ready''' - готово</small>
-<small>'''waiting''' - ожидание</small>
+<small>waiting — ожидание</small>
-<small>'''not found''' - не найдена</small>
+<small>not found — не найдена</small>
-<small>'''failed''' - сбой</small>
+<small>failed — сбой.</small>
 |-
 ! style="color:blue;width: 15%"|'''GET:/spr/waveform/{taskID}'''
 ! colspan="3" |<small>Служебный метод для отображения аудио в графическом виде, содержит пики сигнала.</small>
 |-
-|  style="width: 50%" colspan="2" |<small>'''taskID''' - идентификатор задания</small>
+|  style="width: 50%" colspan="2" |<small>taskID — идентификатор задания.</small>
 | colspan="2" |<small><code>{</code></small>

SPR. Руководство пользователя: различия между версиями

Материал из Флора AI

Текущая версия от 13:00, 27 августа 2025

Общее описание

Термины и определения

Описание методов API SPR