SPR. Руководство пользователя: различия между версиями

Версия от 16:17, 15 октября 2024

Общее описание

Сервис Short phrase recognizer предназначен для преобразования речи в текст. Принимает на вход аудиофайл в формате wav и возвращает структурированные данные в формате JSON.

Термины и определения

Short Phrase Recognizer (SPR) - сервис распознавания речи.

Модель — предварительно обученная специализированная нейронная сеть для распознавания естественной речи в аудиозаписях.

Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису SPR в реальном времени

Описание методов API SPR

Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом SPR. По умолчанию используется порт 6183/tcp.

Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"

Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.


Метод	Тип	Описание	Входные параметры	Ответ
/spr/	GET	Вывод списка моделей	-	`{ models: [model1,...,modelN] }`
/spr/audio/{taskID}	GET	получение файла аудиозаписи отложенного задания	taskID - идентификатор задания	`Файл аудиозаписи или { error: INT , message: DESCRIPTION }`
/spr/data/{id}	GET	Получение архива модели	id - идентификатор модели	`ZIP-файл с моделью, либо { error: INT , message: DESCRIPTION }`
/spr/data/{id}	POST	Добавление модели. Может быть добавлена как из файла архива, так и переименованием существующей модели, если указана переменная from-existing-model. В данном случае происходит переименование модели на сервере from-existing-model -> id.	id - идентификатор модели zip-model - zip-архив с файлами модели from-existing-model - название модели, которое до	`{ error: INT, message: DESCRIPTION }`
/spr/data/{id}	DELETE	Удаление модели	id - идентификатор модели	`{ error: INT, message: DESCRIPTION }`
/spr/queue	GET	Получение очереди отложенных заданий на распознавание	-	`{ "id задания": { "created": "ХХХХ-ХХ-ХХ ХХ:ХХ:ХХ", "status": "waiting", "filename": "wav" }` `}` Статусы ready - готово waiting - ожидание failed - сбой
/spr/queue/{taskID}	DELETE	Удаление отложенных заданий на распознавание	taskID - идентификатор задания в очереди	{ "error": 0, "message": "success" }
/spr/stt/{id}	POST	Отправка файла на распознавание речи. Моно-файлы до 30 секунд распознаются без разбивки на фрагменты. Многоканальные файлы и файлы длиннее 30 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в руководстве администратора. В случае отправки переменной speakers=1, дополнительно производится поиск говорящих и получение метаданных по каждому говорящему. (используется сервис sbs с предварительно обученными слепками метаданных говорящих) В случае отправки переменной punctuation=1, дополнительно вызывает метод punctuate в SMC, и расставляет знаки препинания в распознанном тексте (значение по умолчанию берётся из файлы конфигурации). normalization=1 для обратной нормализации текста. В случае использования модели big параметры punctuation и normalization игнорируются - модель всегда расставляет знаки препинания и нормализует текст. При установке параметра toxicity запрашивается в smc метод GET/smc/toxicityВысказывание анализируется по 4 параметрам, по каждому выдается вероятность от 0 до 1: "оскорбление": 0.13, "непристойность": 0, "угроза": 0, "вежливость": 0.53 При установке параметра emotion запрашивается в smc метод GET/smc/emotion Высказывание анализируется на эмоциональность (negative, neutral, positive) При установке параметра voice_analyzer запрашивается в sbs метод POST/sbs/analyze. Аудио говорящего анализируется на возраст (child adult old) эмоции (ANGER BORE DISAPPOINTMENT DISGUST EXCITEMENT FEAR NEUTRAL PAIN PLEASURE SADNESS SUPRISE) пол (male female)	id - идентификатор модели denoise - уровень шумоподавления wav - файл для распознавания speakers - опция разделения по говорящим punctuation - опция для расставления знаков препинания normalization - опция обратной нормализации текста vad - используемый VAD, по умолчанию webrtc preset - используемая модель для vad = neuro toxicity - анализировать распознанный текст на токсичность emotion - выявить эмоции из распознанного текста voice_analyzer - анализировать аудиофрагменты каждого из говорящих на эмоции, возраст и пол speaker_counter - количество докладчиков, по умолчанию - 0, автоматическое определение количества async - отложенный_запуск_распознавания	в случае async=1 возвращается только taskID, результат по taskID смотреть в методе /spr/result.для коротких файлов:{ "model": "call", "text": "текст фрагментв", "words": [ { "word": "текст", "start": 520, "stop": 1240 }, { "word": "фрагмента", "start": 1240, "stop": 1920 } ] } для транскрибации больших файлов ответ состоит из нескольких списков 1) "speakers": [ { "id": null, "duration": 18980, "fragments": 3, "age": "old", "gender": "female" }] - параметры каждого говорящего, если voice_analyzer = 1, то будут отображены предположительные возраст и пол говорящего 2) "splitted": [ { "start": "00:00:01.870", "text": "текст фрагмента", "words": [ { "word": "текст.", "start": 1870, "stop": 2710, "confidence": 0.95263671875 }, { "word": "фрагмента,", "start": 2730, "stop": 3330, "confidence": 0.9986572265625 } ], "stop": "00:00:05.510", "channel": 0, "duration": "00:00:03.640", "start_ms": 1870, "stop_ms": 5510, "duration_ms": 3640, "speaker": 4, "speakerConfidence": 0.8699063646965216, "toxicity": { "insult": 0, "obscenity": 0, "threat": 0, "politeness": 0.99 }, "emotion": { "neutral": -0.3315 }, "voice_analysis": { "emotion": { "class": "NEUTRAL", "confidence": 0.7554781436920166 } } } ] - для каждой фразы отдельно целиком фраза, затем по словам, для каждого слова временные параметры и вероятность. Также при установке соответствующих параметров в 1 будут для каждой фразы выведены toxicity emotion voice_analysis.
/spr/result/{taskID}	GET	Получение результата отложенного распознавания	taskID - идентификатор задания	Вывод по окончанию распознавания аналогичен выводу метода stt + добавлено поле status, которое содержит информацию о статусе отложенной задачи: ready - готово waiting - ожидание not found - не найдена failed - сбой
/spr/waveform/{taskID}	GET	Служебный метод для отображения аудио в графическом виде, содержит пики сигнала	taskID - идентификатор задания	{ <"error": 0, "waveform": [ 0.016, .......... .......... 0.015, 0.01 ] }

@@ Строка 98: / Строка 98: @@
 |<small>POST</small>
 |<small>Отправка файла на распознавание речи. Моно-файлы до 30 секунд распознаются без разбивки на фрагменты. Многоканальные файлы и файлы длиннее 30 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в [[SPR. Руководство администратора.|руководстве администратора]]. В случае отправки переменной speakers=1, дополнительно производится поиск говорящих и получение метаданных по каждому говорящему. (используется сервис sbs с предварительно обученными слепками метаданных говорящих) В случае отправки переменной punctuation=1, дополнительно вызывает метод punctuate в SMC, и расставляет знаки препинания в распознанном тексте (значение по умолчанию берётся из файлы конфигурации). normalization=1 для обратной нормализации текста.</small> <small>В случае использования модели big параметры punctuation и normalization игнорируются - модель всегда расставляет знаки препинания и нормализует текст.</small>
+<small>При установке параметра toxicity запрашивается в smc метод GET/smc/toxicity</small><small>Высказывание анализируется по 4 параметрам, по каждому выдается вероятность от 0 до 1:</small>
+<small>"оскорбление": 0.13,</small>
+<small>"непристойность": 0,</small>
+<small>"угроза": 0,</small>
+<small>"вежливость": 0.53</small>
+<small>При установке параметра emotion запрашивается в smc метод GET/smc/emotion</small>
+<small>Высказывание анализируется на эмоциональность (negative, neutral, positive)</small>
+<small>При установке параметра voice_analyzer запрашивается в sbs метод POST/sbs/analyze.</small>
+<small>Аудио говорящего анализируется на возраст (child adult old)</small>
+<small>эмоции (ANGER BORE DISAPPOINTMENT DISGUST EXCITEMENT FEAR NEUTRAL PAIN PLEASURE SADNESS SUPRISE)</small>
+<small>пол (male female)</small>
 |<small>'''id''' - идентификатор модели</small>
@@ Строка 114: / Строка 136: @@
 <small>'''preset''' - используемая модель для vad = neuro</small>
+<small>'''toxicity''' - анализировать распознанный текст на токсичность</small>
+<small>'''emotion''' - выявить эмоции из распознанного текста</small>
+<small>'''voice_analyzer''' - анализировать аудиофрагменты каждого из говорящих на эмоции, возраст и пол</small>
 <small>'''speaker_counter''' - количество докладчиков, по умолчанию - 0, автоматическое определение количества</small>
-<small>'''async''' - отложенный запуск распознавания</small>
+<small>'''async''' - отложенный_запуск_распознавания</small>
-|<small>в случае '''async'''=1 возвращается только taskID, для метода /spr/result.</small>
+|<small>в случае '''async'''=1 возвращается только taskID, результат по taskID смотреть в методе /spr/result.</small><small>для коротких файлов:</small><small>{</small>
-<small>'''text''' заполняется только для файлов менее 60 секунд. '''speakers, speaker, confidence''' (вероятность правильности определения говорящего) возвращаются только при отправке speakers=1.
+<small>  "model": "call",</small>
-<code>{</code>
-<code>model: модель, text: текст без разбивки,</code>
+<small>  "text": "текст фрагментв",</small>
-<code>speakers: [</code>
-<code>{ gender: пол,</code>
+<small>  "words": [</small>
-<code>age: возраст,</code>
-<code>emotion: эмоция, id: идентификатор</code>
+<small>    {</small>
-<code>}, ...</code>
-<code>],</code>
+<small>      "word": "текст",</small>
-<code>splitted": [</code>
-<code>{ start: "00:00:02.255",</code>
+<small>      "start": 520,</small>
-<code>stop: "00:00:10.995",</code>
-<code>channel: канал в файле,</code>
+<small>      "stop": 1240</small>
-<code>duration: 00:00:08.740,</code>
-<code>start_ms: 2255,</code>
+<small>    },</small>
-<code>stop_ms: 10995,</code>
-<code>duration_ms: 8740,</code>
+<small>    {</small>
-<code>speaker: индекс говорящего,</code>
-<code>confidence: 0.9541002174024272,</code>
+<small>      "word": "фрагмента",</small>
-<code>text: распознанный текст},  ...</code>
-<code>]</code>
+<small>      "start": 1240,</small>
-<code>}</code></small>
+<small>      "stop": 1920</small>
+<small>    } ]</small>
+<small>}</small>
+для транскрибации больших файлов ответ состоит из нескольких списков
+<small>1) "speakers": [</small>
+<small>    {</small>
+<small>      "id": null,</small>
+<small>      "duration": 18980,</small>
+<small>      "fragments": 3,</small>
+<small>      "age": "old",</small>
+<small>      "gender": "female"</small>
+<small>    }] - параметры каждого говорящего, если  voice_analyzer = 1, то будут отображены предположительные возраст и пол говорящего</small>
+<small>2)  "splitted": [</small>
+<small>    {</small>
+<small>      "start": "00:00:01.870",</small>
+<small>      "text": "текст фрагмента",</small>
+<small>      "words": [</small>
+<small>        {</small>
+<small>          "word": "текст.",</small>
+<small>          "start": 1870,</small>
+<small>          "stop": 2710,</small>
+<small>          "confidence": 0.95263671875</small>
+<small>        },</small>
+<small>        {</small>
+<small>          "word": "фрагмента,",</small>
+<small>          "start": 2730,</small>
+<small>          "stop": 3330,</small>
+<small>          "confidence": 0.9986572265625</small>
+<small>        }</small>
+<small>      ],</small>
+<small>      "stop": "00:00:05.510",</small>
+<small>      "channel": 0,</small>
+<small>      "duration": "00:00:03.640",</small>
+<small>      "start_ms": 1870,</small>
+<small>      "stop_ms": 5510,</small>
+<small>      "duration_ms": 3640,</small>
+<small>      "speaker": 4,</small>
+<small>      "speakerConfidence": 0.8699063646965216,</small>
+<small>      "toxicity": {</small>
+<small>        "insult": 0,</small>
+<small>        "obscenity": 0,</small>
+<small>        "threat": 0,</small>
+<small>        "politeness": 0.99</small>
+<small>      },</small>
+<small>      "emotion": {</small>
+<small>        "neutral": -0.3315</small>
+<small>      },</small>
+<small>      "voice_analysis": {</small>
+<small>        "emotion": {</small>
+<small>          "class": "NEUTRAL",</small>
+<small>          "confidence": 0.7554781436920166</small>
+<small>        }</small>
+<small>      }</small>
+<small>    } ]  - для каждой фразы отдельно целиком фраза, затем по словам, для каждого слова временные параметры и вероятность. Также при установке соответствующих параметров в 1 будут для каждой фразы выведены  toxicity  emotion voice_analysis.</small>
 |-
 |<small>/spr/result/{taskID}</small>

SPR. Руководство пользователя: различия между версиями

Материал из Флора AI

Версия от 16:17, 15 октября 2024

Общее описание

Термины и определения

Описание методов API SPR