Действия

SPR. UPS руководство по работе с интерфейсом: различия между версиями

Материал из Флора AI

Строка 136: Строка 136:
|[[Файл:Метрики.png|центр|безрамки|40x40пкс]]
|[[Файл:Метрики.png|центр|безрамки|40x40пкс]]
|Метрики
|Метрики
|Показывает качество работы распознавания, определяя процент неправильно распознанных символов — CER. Также отображается общий показатель производительности системы SPR — WER.
|показывает качество работы распознавания, определяя процент неправильно распознанных символов — CER. Также отображается общий показатель производительности системы SPR — WER.
|-
|-
|[[Файл:Сохранить.png|центр|безрамки|40x40пкс]]
|[[Файл:Сохранить.png|центр|безрамки|40x40пкс]]
Строка 148: Строка 148:
|[[Файл:Удаление_документа.png|центр|безрамки|40x40пкс]]
|[[Файл:Удаление_документа.png|центр|безрамки|40x40пкс]]
|Удалить задачу
|Удалить задачу
|Позволяет удалить задачу распознавания. В диалоговом окне подтверждения действия, после чего появляется сообщение о статусе удаления в правом нижнем углу.
|позволяет удалить задачу распознавания. В диалоговом окне подтверждения действия, после чего появляется сообщение о статусе удаления в правом нижнем углу.
|-
|-
|[[Файл:Меню_пользователя.png|центр|безрамки|41x41пкс]]
|[[Файл:Меню_пользователя.png|центр|безрамки|41x41пкс]]

Версия от 10:46, 10 января 2025

SPR Распознавание

Рис. 1 Главный экран UPS

В главном меню UPS (Universal Proxy Server) расположены кнопки для перехода в блоки (см. рис. 1):

  1. SMC Классификатор,
  2. SEE Сущности,
  3. SPR Распознавание,
  4. SBS Биометрия,
  5. TTS Синтез,
  6. QAS ЧаВО,
  7. SES Сценарная машина,
  8. Выход.

Переключаться между продуктами можно двумя способами:

  1. Воспользоваться кнопкой на панели управления «На главную» Меню пользователя new.png  .
  2. Воспользоваться кнопкой в виде линии , которая находится снизу в центе экрана (см. рис. 2).

Перейти в блок «Распознавание» можно кликнув по соответствующей кнопке на главном экране UPS (см.рис. 1).

Рис. 2 Интерфейс рабочей области блока «Распознавание»

Описание интерфейса блока SPR «Распознавание»

В левой части экрана находится список аудиодорожек для распознавания (SPR). Он упорядочен по времени добавления, новые дорожки отображаются вверху. Кроме того, имеется панель управления, а также блок, позволяющий загружать звуковые файлы для распознавания. В центре рабочей области расположены блоки, позволяющие просматривать:

* результат распознавания;

* информацию о модели и времени, затраченном на распознавание выбранного аудио;

* возможность прослушивания или скачивания аудио.

Ниже слева находятся переключатели для вкладок «Очередь» и «Стенограммы». Так же есть информационная вкладка - Серверы, которая отображает информацию о серверах и процессах - находится в правом нижнем углу рабочей области (рис. 2).


Рис. 3 Интерфейс вкладки «Очередь»

Вкладка «Очередь» SPR

Рабочая область вкладки «Очередь» содержит список всех распознанных аудиодорожек и тех, что на очереди распознавания: сам аудиофайл и его текст, панель управления (см. раздел. Панель управления вкладки «Очередь» SPR). Выше каждой аудиодорожки отображается информация о модели, времени добавления файла и времени окончания обработки (рис. 3).

Важно отметить, что распознавание аудио дорожек происходит последовательно, а не параллельно.

Чтобы прослушать аудиодорожку, вы можете нажать на кнопку «Play» Play Remove-bg.png. Если вы хотите начать прослушивание с определенного слова, просто щелкните по нему левой кнопкой мыши и нажмите на кнопку воспроизведения (рис. 4.

Рис.4 Прослушивание отдельных слов и фрагментов стенограммы

Вы можете ускорить или слегка замедлить воспроизведение аудио. Для этого справа от аудиодорожки есть переключатель скорости Переключатель скорости воспроизведения.png. По умолчанию он установлен на 1x, что соответствует оригинальной скорости.

Аудиодорожку также можно сохранить, нажав на иконку «Скачать» Кнопка скачать.png , которая находится справа от аудио. В текст можно вносить изменения вручную, корректируя ошибки распознавания и пунктуации. Однако, если вносите новые слова, которых нет в тексте, у них не будет таймлайна и они будут подсвечены при проигрывании как одно слово.

Справа от блока с информацией о модели, времени загрузки и обработки аудио находится блок с данными о спикерах. Здесь можно увидеть общее количество спикеров, их имена, общее количество фрагментов, а также суммарное время каждого спикера на аудио. Кроме того, доступна аналитика по полу и возрасту.

Панель управления вкладки «Очередь» SPR
Табл.1 Описание функционала панели управления
Иконка кнопки Наименование кнопки Описание
Подсветка достоверности (1).png
Включить подсветку достоверности и анализа на токсичность подсвечивает красным слова, где модель сомневается в правильности распознавания, где уровень достоверности от 0 до 0.4 подсвечивает красным, от 0.4 до 0.7 - розовым.

При наведении на реплику будет выводиться анализ на наличие токсичных выражений, таких как ненормативная лексика и угрозы. Вы можете настроить процент достоверности, при котором слова будут подсвечиваться. Для этого используйте бегунок, который появляется при наведении на кнопку. Если вокруг кнопки есть красное свечение, значит, режим подсветки активен. В противном случае он отключен.

Добавить стенограмму (1).png
Создать стенограмму создает стенограмму из данных распознавания из очереди. При нажатии на эту кнопку создается стенограмма, доступная для редактирования во вкладке «Сохранено».
Сохранить doc (1).png
Экспортировать как документ Microsoft Word позволяет сохранить текст распознавания в виде документа в формате doc(x) или txt.
Удаление документа.png
Удалить задачу Позволяет удалить задачу распознавания. В диалоговом окне подтверждения действия, после чего появляется сообщение о статусе удаления в правом нижнем углу. Нельзя создать стенограмму, кнопка не активна, если спикер всего один.
Меню пользователя.png
Меню пользователя отображает меню пользователя (имя, смена пароля, переход на главную страницу, выход из системы и убрать фон)
Функциональный блок загрузки аудио на распознавание
Микрофон 1.png
Начать запись С помощью этой кнопки вы можете записать фрагмент аудио и отправить его на распознавание. Для работы данной кнопки требуется доступ к UPS по https. Настроить его можно проксированием через любой веб-сервер (nginx или apache).
Стоп.png
Остановить запись С помощью этой функции можно остановить запись с микрофона.
Wav-файл.png
Аудио-файл функционал данной кнопки позволяет выбрать любой файл с вашего компьютера подходящий по формату (входные форматы - все которые в состоянии обработать ffmpeg).
Шестеренка.png
Настройки Функционал этой кнопки позволяет выбрать модель (big/common) и настроить опции для распознавания. Описание опций:

Анализ на токсичность — при активации этого флага система будет оценивать текст на предмет наличия в нём токсичных выражений, таких как ненормативная лексика и угрозы. Эта статистика будет доступна во всплывающем окне при наведении курсора на реплику. Голосовой анализ — при активации этой функции будет проведен анализ голоса, чтобы определить пол (мужской или женский) и примерный возраст (ребенок, взрослый или пожилой человек)Также будет отображаться эмоциональная окраска каждого фрагмента. Эти данные будут отображаться во всплывающем окне над репликой, когда вы наведете на неё курсор.

Текстовый анализ — это метод, который позволяет определить только эмоциональное содержание каждого фрагмента текста.

Указать количество говорящих — активировав этот флаг, появится окно «Количество говорящих», где сможете указать количество спикеров (если оно вам известно) в аудиофайле, который хотите отправить на распознавание.


Справа от выпадающего списка с выбором моделей есть две кнопки:

  1. Импорт нов.png Импорт — функция, которая позволяет загружать модели SPR.
  2. Удаление документа.png Удалить модель — нажав на кнопку, вы можете удалить выбранную модель.
Отправить.png
Отправить отправляет звуковой файл на распознавание, при успешной отправке в правом нижнем углу появится сообщение о том, что файл добавлен в очередь на распознавание. После этого результат распознавания можно будет увидеть в очереди (блок со списком аудиодорожек в левой части рабочей области).

Вкладка «Стенограммы» SPR

Рис. 5 Интерфейс вкладки «Сохранено»

Во вкладке «Стенограммы» находятся все созданные стенограммы из очереди на распознавание, аудиофайл, панель управления (см. раздел. Панель управления вкладки «Сохранено» SPR), область редактирования стенограммы, блок с информацией о модели и список спикеров (рис. 5). Если необходимо, можно переименовать спикера, нажав на иконку карандаша справа от имени. Затем нужно внести изменения и подтвердить действие, нажав на зеленую галочку. Предусмотрена функция прослушивания самого длинного отрезка спикера, для этого нужно кликнуть на значок Play.png напротив имени спикера (рис. 5). При изменении данных спикера длина самого большого отрезка пересчитывается. Над каждой репликой указано имя спикера. Чтобы выбрать имя из списка или ввести новое, нужно кликнуть левой кнопкой мыши по имени. После этого можно нажать «Добавить нового спикера», его имя появится в списке спикеров.

Рис. 6 Функционал работы со стенограммой

Чтобы удалить лишнее слово, добавить недостающее, разделить реплику на двух разных спикеров, или наоборот, объединить реплики одного спикера, нужно кликнуть правой кнопкой мыши на нужной реплике и в диалоговом окне выбрать необходимое действие (рис. 6). Реплики можно объединить только в том случае, если совпадают имена спикеров.

Чтобы добавить новое слово, поместите курсор в то место, где должно быть слово, и вызовите контекстное меню. Когда вы нажмёте на пункт меню «Добавить слово», на этом месте появится подчёркивание. Введенное вами слова будет с достоверностью 100% и подсветится синим.


Панель управления вкладки «Сохранено» SPR
Табл. 2 Функционал панели управления вкладки «Сохранено»
Иконка кнопки Наименование кнопки Описание
Подсветка достоверности (1).png
Включить подсветку достоверности подсвечивает красным слова, где модель сомневается в правильности распознавания, где уровень достоверности от 0 до 0.4 подсвечивает красным, от 0.4 до 0.7 - розовым.
Автосохранение (1).png
Включить автосохранение позволяет включить автоматическое сохранение каждые 30 секунд. Если кнопка активирована вокруг нее появляется красный контур.
Отправить повторно.png
Повторное распознавание позволяет отправить аудио стенограммы на повторное распознавание.
Метрики.png
Метрики показывает качество работы распознавания, определяя процент неправильно распознанных символов — CER. Также отображается общий показатель производительности системы SPR — WER.
Сохранить.png
Сохранить изменения позволяет сохранить внесенные правки в стенограмму.
Сохранить doc (1).png
Экспортировать как документ Microsoft Word позволяет сохранить текст распознавания в виде документа.
Удаление документа.png
Удалить задачу позволяет удалить задачу распознавания. В диалоговом окне подтверждения действия, после чего появляется сообщение о статусе удаления в правом нижнем углу.
Меню пользователя.png
Меню пользователя отображает меню пользователя (имя, смена пароля, переход на главную страницу, выход из системы и убрать фон)