Действия

SPR. Руководство пользователя: различия между версиями

Материал из Флора AI

(Новая страница: «тут будет руководство пользователя»)
 
Нет описания правки
Строка 1: Строка 1:
тут будет руководство пользователя
===== '''Общее описание''' =====
Сервис Short phrase recognizer предназначен для преобразования речи в текст. Принимает на вход аудиофайл в формате wav и возвращает структурированные данные в формате JSON.
 
 
===== '''Термины и определения''' =====
Short Phrase Recognizer (SPR) - сервис распознавания речи.
 
Модель — предварительно обученная специализированная нейронная сеть для распознавания естественной речи в аудиозаписях.
 
Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису SPR в реальном времени
 
 
       
 
===== '''Описание методов API''' =====
Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом SPR. По умолчанию используется порт 6183/tcp.
 
Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок <code>"accept: application/json"</code>
 
Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.
 
{| class="wikitable"
|+
!Метод
!Тип
!Описание
!Входные параметры
!Ответ
|-
|/spr/
|GET
|Вывод списка моделей
| -
|<code>{ models: [model1,...,modelN] }</code>
|-
|/spr/data/{id}
|GET
|Получение архива модели
|'''id''' - идентификатор модели
|<code>ZIP-файл с моделью, либо { error: 1, message: DESCRIPTION }</code>
|-
|/spr/data/{id}
|POST
|Добавление модели. Может быть добавлена как из файла архива, так и переименованием существующей модели, если указана переменная '''from-existing-model'''. В данном случае происходит переименование модели на сервере '''from-existing-model -> id.'''
|'''id''' - идентификатор модели
'''zip-model''' - zip-архив с файлами модели
'''from-existing-model''' - название модели, которое до
|<code>{ error: INT, message: DESCRIPTION }</code>
|-
|/spr/data/{id}
|DELETE
|Удаление модели
|id - идентификатор модели
|<code>{ error: INT, message: DESCRIPTION }</code>
|-
|/spr/stt/{id}
|POST
|Отправка файла на распознавание речи. Моно-файлы до 30 секунд распознаются без разбивки на фрагменты. Многоканальные файлы и файлы длиннее 30 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в [[SPR. Руководство администратора.|руководстве администратора]]. В случае отправки переменной speakers=1, дополнительно производится поиск говорящих и получение метаданных по каждому говорящему.
|'''id''' - идентификатор модели
'''wav''' - файл для распознавания
'''speakers''' - опция разделения по говорящим
|'''text''' заполняется только для файлов менее 60 секунд. '''speakers, speaker, confidence''' (вероятность правильности определения говорящего) возвращаются только при отправке speakers=1.
<code>{</code> 
<code>model: модель, text: текст без разбивки,</code>
<code>speakers: [</code>     
<code>{ gender: пол,</code>
<code>age: возраст,</code>       
<code>emotion: эмоция, id: идентификатор</code>
<code>}, ...</code> 
<code>],</code>
<code>splitted": [</code>   
<code>{ start: "00:00:02.255",</code>
<code>stop: "00:00:10.995",</code>     
<code>channel: канал в файле,</code>
<code>duration: 00:00:08.740,</code>     
<code>start_ms: 2255,</code>
<code>stop_ms: 10995,</code>     
<code>duration_ms: 8740,</code>
<code>speaker: индекс говорящего,</code>     
<code>confidence: 0.9541002174024272,</code>
<code>text: распознанный текст},  ...</code> 
<code>]</code>
<code>}</code>
|}

Версия от 12:15, 8 июня 2023

Общее описание

Сервис Short phrase recognizer предназначен для преобразования речи в текст. Принимает на вход аудиофайл в формате wav и возвращает структурированные данные в формате JSON.


Термины и определения

Short Phrase Recognizer (SPR) - сервис распознавания речи.

Модель — предварительно обученная специализированная нейронная сеть для распознавания естественной речи в аудиозаписях.

Swagger UI – интерактивная веб-консоль с кратким описанием методов АPI и возможностью выполнять запросы к сервису SPR в реальном времени


       

Описание методов API

Запросы осуществляются по протоколу HTTP 1.1 на адрес сервера с доступным сервисом SPR. По умолчанию используется порт 6183/tcp.

Авторизация запросов не требуется. HTTP-запросы должны содержать заголовок "accept: application/json"

Ответ сервиса представляет собой JSON-документ в кодировке UTF-8 или двоичный файл. Содержимое документа зависит от результата выполнения запроса. При наличии ошибки в качестве ответа вернется переменная error=1 и описание в переменной message. Для удобства проверки методов по ссылке http://АДРЕС:6183 будет отображен интерфейс swagger со всеми методами с возможностью их проверки.

Метод Тип Описание Входные параметры Ответ
/spr/ GET Вывод списка моделей - { models: [model1,...,modelN] }
/spr/data/{id} GET Получение архива модели id - идентификатор модели ZIP-файл с моделью, либо { error: 1, message: DESCRIPTION }
/spr/data/{id} POST Добавление модели. Может быть добавлена как из файла архива, так и переименованием существующей модели, если указана переменная from-existing-model. В данном случае происходит переименование модели на сервере from-existing-model -> id. id - идентификатор модели

zip-model - zip-архив с файлами модели from-existing-model - название модели, которое до

{ error: INT, message: DESCRIPTION }
/spr/data/{id} DELETE Удаление модели id - идентификатор модели { error: INT, message: DESCRIPTION }
/spr/stt/{id} POST Отправка файла на распознавание речи. Моно-файлы до 30 секунд распознаются без разбивки на фрагменты. Многоканальные файлы и файлы длиннее 30 секунд предварительно разбиваются на фрагменты по отсутствию речи. Настройка данных параметров описана в руководстве администратора. В случае отправки переменной speakers=1, дополнительно производится поиск говорящих и получение метаданных по каждому говорящему. id - идентификатор модели

wav - файл для распознавания speakers - опция разделения по говорящим

text заполняется только для файлов менее 60 секунд. speakers, speaker, confidence (вероятность правильности определения говорящего) возвращаются только при отправке speakers=1.

{ model: модель, text: текст без разбивки, speakers: [ { gender: пол, age: возраст, emotion: эмоция, id: идентификатор }, ... ], splitted": [ { start: "00:00:02.255", stop: "00:00:10.995", channel: канал в файле, duration: 00:00:08.740, start_ms: 2255, stop_ms: 10995, duration_ms: 8740, speaker: индекс говорящего, confidence: 0.9541002174024272, text: распознанный текст}, ... ] }