Действия

SMC. UPS руководство по работе с интерфейсом: различия между версиями

Материал из Флора AI

 
(не показано 10 промежуточных версий этого же участника)
Строка 11: Строка 11:
# [[QAS. UPS руководство по работе с интерфейсом|QAS ЧаВО]],
# [[QAS. UPS руководство по работе с интерфейсом|QAS ЧаВО]],
# [[SES. UPS руководство по работе с интерфейсом|SES Сценарная машина]],
# [[SES. UPS руководство по работе с интерфейсом|SES Сценарная машина]],
# [[CLS. UPS руководство по работе с интерфейсом#Работа с сервисом исходящих обзвонов «Информатор»|CLS Информатор]],
# Выход.
# Выход.
[[Файл:Раб экран классификатора.png|мини|<small>''Рис. 2. Рабочая область блока «SMC»''</small>]]
[[Файл:Раб экран классификатора.png|мини|<small>''Рис. 2. Рабочая область блока «SMC»''</small>]]
Строка 33: Строка 34:
2. '''«Данные»''' – содержит все корпуса данных SMC списком в алфавитном порядке.
2. '''«Данные»''' – содержит все корпуса данных SMC списком в алфавитном порядке.


3. '''«Метки»''' - содержит все словари меток SMC.
3. '''«Метки»''' –  содержит все словари меток SMC.
===Функционал вкладки «Модели» ===
===Функционал вкладки «Модели» ===
Во вкладке '''«Модели»''' доступен просмотр информации о модели, а именно:
Во вкладке '''«Модели»''' доступен просмотр информации о модели, а именно:
Строка 59: Строка 60:


|это  рабочая модель, которая переводится в архив (резервную копию) после  применения черновика. Можно вернуть архивную модель в рабочую версию, нажав  на кнопку «Откат». При этом рабочая версия также становится архивной, то есть  рабочая и архивная версии меняются местами. Цвет акцента версии модели -  синий.
|это  рабочая модель, которая переводится в архив (резервную копию) после  применения черновика. Можно вернуть архивную модель в рабочую версию, нажав  на кнопку «Откат». При этом рабочая версия также становится архивной, то есть  рабочая и архивная версии меняются местами. Цвет акцента версии модели -  синий.
|}Модель SMC имеет свойство '''«Статус»''' (рис. 4), которые принимает следующие значения:[[Файл:Model status.png|мини|''<small>Рис. 4. Примеры статусов модели.</small>'']]
|}[[Файл:Model status.png|мини|''<small>Рис. 4. Примеры статусов модели.</small>'']]Модель SMC имеет свойство '''«Статус»''' (рис. 4), которые принимает следующие значения:
*''Пустая''. Новая созданная модель. Пустую модель можно обучить (кнопка «'''Обучение»''' на панели управления см. [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Модели» SMC|табл. 2]]) на корпусе данных, а можно импортировать из файла (кнопка «'''Импорт»''' на панели управления см. [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Модели» SMC|табл. 2]]).
*''Обучение''. Это модель, которая в данный момент обучается.
*''Обучение''. Это модель, которая в данный момент обучается.
* ''Обучена''. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок.
* ''Обучена''. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок.
Строка 67: Строка 67:
*''Установлена.'' В этот статус модель переходит при нажатии кнопки «'''Установка»'''. В этом статусе возможны ''Импорт'', ''Экспорт'', ''Обучение'', ''Ручная'' ''проверка'', ''Применение'' модели – по соответствующим кнопкам на панели управления.
*''Установлена.'' В этот статус модель переходит при нажатии кнопки «'''Установка»'''. В этом статусе возможны ''Импорт'', ''Экспорт'', ''Обучение'', ''Ручная'' ''проверка'', ''Применение'' модели – по соответствующим кнопкам на панели управления.
*''Применена.'' В статус ''Применена'' модель переходит при нажатии кнопки «'''Применение»'''. Для модели в статусе ''Применена'' возможны только – ''Ручная проверка'' конкретной фразой по кнопке «'''Ручная проверка»''' и ''экспорт'' (выгрузка) по кнопке «'''Экспорт»''' (см. [[SMC. UPS руководство по работе с интерфейсом|табл. 2]]).
*''Применена.'' В статус ''Применена'' модель переходит при нажатии кнопки «'''Применение»'''. Для модели в статусе ''Применена'' возможны только – ''Ручная проверка'' конкретной фразой по кнопке «'''Ручная проверка»''' и ''экспорт'' (выгрузка) по кнопке «'''Экспорт»''' (см. [[SMC. UPS руководство по работе с интерфейсом|табл. 2]]).
*''Ошибка''. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения.
*''Ошибка''. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения. <blockquote>'''''Пустые модели больше не отображаются в интерфейсе.'''''</blockquote>


Возможны ''манипуляции'' с моделями SMC:
Возможны ''манипуляции'' с моделями SMC:
*удаление модели,
*удаление модели, удаляется текущая версия модели,
*добавление новой модели SMC возможно по нажатию на '''«Добавить новую модель»'''.
*добавление новой модели SMC, нажмите кнопку '''«Добавить новую модель»'''. Далее доступны два способа:
<blockquote>'''Внимание!''' При удалении модели (красная иконка '''«Корзина»''' рядом с названием модели) – будут удалены ВСЕ версии модели.
*# Из файла: загрузите архив с готовой моделью.
 
*# Обучить модель: создайте модель с нуля, выбрав для обучения либо корпус текстов, либо словарь меток.
Переименовывать модель '''нельзя'''.</blockquote>
 
====Панель управления вкладки «Модели» SMC====
====Панель управления вкладки «Модели» SMC====
В правом верхнем углу экрана располагается панель управления для вкладки '''«Модели»'''. На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна.
В правом верхнем углу экрана располагается панель управления для вкладки '''«Модели»'''. На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна.
Строка 123: Строка 121:
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|Меню пользователя
|Меню пользователя
|отображает  меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.
|отображает  меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.  
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small>
|}
|}
[[Файл:2025-04-15 14-31-32.png|мини|<small>''Рис. 5. Диалоговое окно режима «Ручная проверка».''</small>]]
[[Файл:2025-04-15 14-31-32.png|мини|<small>''Рис. 5. Диалоговое окно режима «Ручная проверка».''</small>]]
Строка 252: Строка 252:
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|Меню пользователя  
|Меню пользователя  
|отображает меню пользователя (имя, смена пароля, выход из системы).
|отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.
 
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small>
|}
|}


Строка 315: Строка 318:
|[[Файл:Экспорт нов.png|безрамки|40x40px|центр]]
|[[Файл:Экспорт нов.png|безрамки|40x40px|центр]]
|Экспорт
|Экспорт
|позволяет экспортировать (выгрузить) словарь меток
|позволяет экспортировать (выгрузить) словарь меток.
|-
|-
| [[Файл:Импорт нов.png|безрамки|40x40px|центр]]
| [[Файл:Импорт нов.png|безрамки|40x40px|центр]]
Строка 331: Строка 334:
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]]
|Меню пользователя  
|Меню пользователя  
|отображает меню пользователя (имя, смена  пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.
|отображает меню пользователя (имя, смена  пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.
 
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small>
|}
|}



Текущая версия от 14:10, 5 декабря 2025

Классификатор (SMC)

Рис. 1. Иконки начального экран UPS.

В главном меню UPS (Universal Proxy Server) расположены кнопки для перехода в блоки (см. рис. 1):

  1. SMC Классификатор,
  2. SEE Сущности,
  3. SPR Распознавание,
  4. SBS Биометрия,
  5. TTS Синтез,
  6. QAS ЧаВО,
  7. SES Сценарная машина,
  8. CLS Информатор,
  9. Выход.
Рис. 2. Рабочая область блока «SMC»


Переключаться между продуктами можно двумя способами:

  1. Воспользоваться кнопкой на панели управления «На главную» Меню пользователя new.png (см. табл. 2).
  2. Воспользоваться кнопкой в виде линии , которая находится снизу в центе экрана (см. рис. 2).

Рабочая область «SMC» включает в себя (рис. 2):

  • панель управления,
  • кнопки переключения между версиями моделей,
  • блоки для работы с моделями и данными,
  • информация о текущей модели,
  • информацию об обучении и тестировании, для обученных и протестированных моделей,
  • информационные вкладки.
Рис. 3 Информационный блок о модели.

В блоке интерфейса «Классификатор» есть 3 вкладки:

1. «Модели» – содержит все созданные модели SMC списком в алфавитном порядке,

2. «Данные» – содержит все корпуса данных SMC списком в алфавитном порядке.

3. «Метки» – содержит все словари меток SMC.

Функционал вкладки «Модели»

Во вкладке «Модели» доступен просмотр информации о модели, а именно:

  • название модели,
  • версия модели: черновик, рабочая, архив (табл. 1),
  • статус модели.
Табл. 1. Версии модели.
Иконка версии Наименование версии модели Описание
Черновик.png
Черновик это не примененная модель. Можно обучать, переобучать, тестировать, устанавливать и применять. Можно экспортировать и импортировать. Цвет акцента версии модели - серый. После применения (установки) модель (см. табл.2 «Установка») становится «Рабочей версией».
Рабочая нов.png
Рабочая это модель, которая уже используется в прод (англ. production – производство). Применённую модель нельзя установить заново или обучить. Можно провести ручное тестирование и проверить конкретные фразы (см. табл.2 «Ручная проверка»). Можно экспортировать модель.  Цвет акцента версии модели - зелёный. По нажатию кнопки «Архив»- «Рабочая» модель переходит в архивную версию.
Архив нов.png
Архивная это рабочая модель, которая переводится в архив (резервную копию) после применения черновика. Можно вернуть архивную модель в рабочую версию, нажав на кнопку «Откат». При этом рабочая версия также становится архивной, то есть рабочая и архивная версии меняются местами. Цвет акцента версии модели - синий.
Рис. 4. Примеры статусов модели.

Модель SMC имеет свойство «Статус» (рис. 4), которые принимает следующие значения:

  • Обучение. Это модель, которая в данный момент обучается.
  • Обучена. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок.
  • Тестирование. Это модель, которая в данный момент тестируется.
  • Протестирована. Появляются доп. кнопки «Обучение» и «Тест» (под матрицей ошибок см. рис. 7), нажав на которые можно посмотреть матрицу обучения и тестирования соответственно.
  • Установлена. В этот статус модель переходит при нажатии кнопки «Установка». В этом статусе возможны Импорт, Экспорт, Обучение, Ручная проверка, Применение модели – по соответствующим кнопкам на панели управления.
  • Применена. В статус Применена модель переходит при нажатии кнопки «Применение». Для модели в статусе Применена возможны только – Ручная проверка конкретной фразой по кнопке «Ручная проверка» и экспорт (выгрузка) по кнопке «Экспорт» (см. табл. 2).
  • Ошибка. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения.

    Пустые модели больше не отображаются в интерфейсе.

Возможны манипуляции с моделями SMC:

  • удаление модели, удаляется текущая версия модели,
  • добавление новой модели SMC, нажмите кнопку «Добавить новую модель». Далее доступны два способа:
    1. Из файла: загрузите архив с готовой моделью.
    2. Обучить модель: создайте модель с нуля, выбрав для обучения либо корпус текстов, либо словарь меток.

Панель управления вкладки «Модели» SMC

В правом верхнем углу экрана располагается панель управления для вкладки «Модели». На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна.

Табл. 2. Описание функционала панели управления на вкладке «Модели».
Иконка кнопки Наименование кнопки Описание
Экспорт нов.png
Экспорт позволяет экспортировать(выгрузить) модель SMC.
Импорт нов.png
Импорт позволяет импортировать (добавить) модель SMC.
Обучение.png
Обучение позволяет обучить модель SMC, выбрав данные для обучения из выпадающего списка. И затем следует выбрать метод обучения — по корпусу или по меткам (подробнее см. разд. Функционал вкладки Метки). Обучение на словаре меток имеет преимущества перед корпусом в том, что обучение модели происходит в разы быстрее.
Обновление групп.png
Обновление групп в модели позволяет обновить группы в модели SMC. При нажатии на кнопку – открывается форма для указания корпуса.
Тестирование.png
Тестирование позволяет протестировать модель SMC корпусом данных. При нажатии на кнопку – открывается форма для указания корпуса, с помощью которого нужно протестировать модель.
Ручная проверка.png
Ручная проверка1 позволяет протестировать модель SMC конкретной фразой, увидеть величину достоверности каждого класса, определенного системой.
Установка обработчика в рабочую версию модели.png
Установка обработчика в рабочую версию модели позволяет перезаписать обработчик на применяемой модели без перевода из тестового режима, если изменился только обработчик, а корпус остался прежним.
Установка.png
Установка переводит модель SMC в статус установлена. После чего кнопка меняется на кнопку «Применение»Primenenie.png . Пока модель не применена (не используется), можно ее обучить, протестировать, экспортировать или импортировать данные. После того как модель начинает использоваться, возможность ее обучения или изменения исчезает. Остается возможность экспорта и ручной проверки модели.
Откат.png
Откат позволяет перевести архивную версию модели SMC обратно в рабочую.
Меню пользователя.png
Меню пользователя отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.

При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. *права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.

Рис. 5. Диалоговое окно режима «Ручная проверка».

1 Режим «Ручная проверка».

Как описано в таблице 2 этот режим позволяет протестировать модель SMC конкретной фразой. При нажатии на кнопку открывается диалоговое окно со следующими вкладками:

  • классификация,
  • прочее.

Вкладка классификация содержит поля:

  • текст - в это поле записывается фраза для проверки;
  • порог доверия - показатель, отражающий степень уверенности в принадлежности новой фразы к конкретному классу (рис. 6). Другими словами, пороговое значение указывает, при какой минимальной вероятности полагаем, что фраза относится к определённому классу.
  • Функция коррекции предназначена для исправления опечаток в тексте. Существует три режима работы этой функции, каждый из которых определяет допустимое количество ошибок в слове:
    • Базовая: исправляет только слова с минимальными опечатками (1-2 ошибки для коротких слов, макс. 1 ошибка)
    • Расширенная: допускает больше исправлений для сложных случаев (добавляет +1 ошибку к базовому порогу, макс. 2 ошибки).
    • Агрессивная: корректирует даже сильно искажённые слова (добавляет +2 ошибки к базовому порогу, макс. 3 ошибки).
    • либо коррекция может Отсутствовать.

Важно: Эти режимы действуют только при коррекции по словарю модели. Поскольку идет сравнение слова с опечаткой со словом из словаря без ошибок.

Рис. 6. Функционал вкладки Классификация.

Есть галочка расширенный режим - позволяет обратиться сразу к нескольким моделям SMC. После нажатия на кнопку классифицировать, выводится результат - метки классов, которые модель смогла распознать.

Классификатор (SMC) также выводит следующую информацию:

1.  Классы: здесь отображается название класса, к которому был отнесен текст, и вероятность его принадлежности к этому классу.

2.  Группы: отображается название группы и число совпавших классов. Если метки совпадают с несколькими группами, они отображаются в порядке убывания числа совпавших классов (т.е. чем полнее группа, тем выше ее позиция в списке).

3.  Ближайшие группы: отображаются группы, до которых не хватает всего одной метки, с указанием процента заполненности и сортировкой по убыванию этого процента.

Вкладка прочее SMC Классификатора включает в себя несколько опций: анализ на эмоциональность, пунктуация, анализ токсичности и коррекция ошибок, обратная нормализация, сжатие.

Сжатие - позволяет выделить основной смысл фразы.

  • текст - в это поле записывается фраза для проверки;
  • порог сжатия - означает процент сжатия фразы, например, порог сжатия 100 - выводит всю фразу в окно результата.

Все эти манипуляция можно производить с фразой в блоке - текст.

Рис. 7. Рабочая область блока «Классификатор».
Рис. 8. Интерфейс раздела «Классификатор»: Информационные вкладки для протестированной модели.

Информационные вкладки SMC: Сервер, Ошибки, Логи, Постобработка

Справа на экране располагаются информационные вкладки (рис. 7)

  • «Серверы» – отображает информацию о серверах и процессах,
  • «Ошибки разметки» – в этот раздел попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная),
  • «Ошибки обучения» – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась. Также можно, находясь на вкладке «Ошибки обучения» использовать метод «Ручная проверка»,
  • «Ошибки тестирования» – доступны для модели в состоянии Протестирована – отображает информацию об ошибках тестирования. Можно выгрузить ошибки в файл с помощью кнопки «Экспорт». Есть возможность преобразовать ошибки в данные корпуса (рис. 8),
  • «Логи» – отображают логи процессов обучения, тестирования, точности обучения на разных этапах обучения,
  • «Постобработка» – редактор для написания кода handler.py.
Рис. 9. Интерфейс вкладки данные.
Рис. 10. Информация о корпусе данных.

Функционал вкладки «Данные» SMC

Вкладка «Данные» SMC (рис. 9) содержит список всех доступных корпусов данных. При выборе различных корпусов данных можно просмотреть информацию о них (рис. 10):

Название корпуса: можно изменить с помощью иконки «Карандаш». Можно удалить корпус с помощью иконки «Корзина» (см. рис. 10).

Количество строк – общее количество фраз в корпусе.

Количество классов – общее количество классов в корпусе.

Количество групп – отображает общее количества групп в корпусе данных (подробнее см. раздел «Описание подготовки и этапов разметки корпуса данных SMC»).

Рис. 11. Создание родительского класса.

Под информационным блоком о корпусе данных SMC есть список классов, в котором содержатся названия классов и информация о количестве фраз в каждом классе. Можно удалять и добавлять классы. В самом низу списка есть меню для Экспорт списка классов в формате csv. Есть возможность скрыть блок с корпусами данных, нажав на стрелочку между блоком корпусов и информационным блоком корпуса (см. рис. 11). Существует три вида (ранга) классов (меток):

  1. Обычный класс — это класс, который не относится ни к одному из родительских классов.
  2. Родительский класс — это класс, который включает в себя другие классы. Например, родительский класс «Паспорт» включает в себя два класса-потомка: «паспорт рф_о» и «загранпаспорт_о».
  3. Класс-потомок — это класс, который относится к какому-либо родительскому классу.

Чтобы преобразовать обычный класс в родительский, нужно выбрать его в списке классов и нажать на самую правую иконку в виде папки (рис. 11), которая говорит «Сделать класс родительским». Чтобы добавить метку в родительский класс, нужно нажать правой кнопкой мыши на метку и выбрать нужный родительский класс из появившегося списка. После этого появится диалоговое окно, подтверждающее действие, и изменения вступят в силу (см. рис. 12). Метка станет классом-потомком.

Рис. 12. Перемещение метки в родительский класс.

Удалить родительскую метку, в отличие от обычной, просто так нельзя. Сначала ее нужно вернуть в статус обычной, нажав на иконку «Сделать класс обычным» напротив нужного класса (рис. 13). После этого она будет расформирована и ее можно будет удалить.

Рис. 13. Сделать родительский класс обычным.

Чтобы создать новый корпус данных SMC, на вкладке «Данные» нажмите «Добавить новый корпус», затем выберите «Из файла», дайте имя, выберите файл и нажмите «Добавить».

Если есть данные реальных запросов моделям SMC - можно выгрузить логи SMC в корпус данных:

  • добавьте новый корпус,
  • выберите источник данных – «Логи из модели», сформируется корпус данных из логов рабочей версии и моделей-черновиков.

Существует также третья опция — «Из ЧаВО». Она позволяет получить все вопросы из базы данных QAS в виде корпуса. Для этого нужно ввести название корпуса и нажать на кнопку «Добавить». После этого будет создан корпус данных, который включает в себя все вопросы QAS, а метками будут категории, к которым эти вопросы относятся.


Блок для работы с данными корпуса (справа от блоков о Корпусе и Списка классов) позволяет изменять корпус и работать с ним. Есть возможность проверить корпус на дубликаты, с помощью галочки «Показать дубликаты фраз» в правом верхнем углу рабочей области.

Рис. 14. Возможности фильтрации.

Можно фильтровать (рис. 14):

1. по названию класса,

2.  по фразе или слову,

3.  для более точной фильтрации можно использовать переключатель «и», «или», «кроме».

Есть возможность редактировать фразу в корпусе: вносить изменения в поле с фразой и сохранять изменения (кнопка «Дискета» на панели управления). Можно дополнять корпус данных по кнопке «Импорт» на панели управления (подробнее см. описание функций панели управления). После дополнения не забудьте сохранить изменения. Удаление фраз из корпуса возможно как по одной, так и сразу несколько, для этого нужно выделить необходимые для удаления фразы и нажать на красную иконку «Корзина» в правом нижнем углу блока работы с данными.

Рис. 15. Добавление и разметка фраз.

Можно вручную добавлять фразы в корпус по одной или сразу несколько (каждая фраза с новой строки, enter в конце каждой фразы)(рис. 15), записав их в поле «Фразы» в нижней части блока для работы с данными. Можно назначить или изменить классы (метки) для фразы, указав новый в поле «Класс» или выбрав существующий класс из выпадающего списка. Метки классов могут быть больше чем одна на одну фразу (мультиклассовая классификация).

Рассмотрим пример разметки новой фразы. Допустим мы хотим добавить вручную две фразы:

  1. «Здравствуйте, у меня возникли неполадки, возникающие во время установки SBS. Помогите решить проблему. Заранее спасибо.»
  2. «Добрый день, у меня появляется ошибка при установке биометрии. Заранее благодарю за ответ.»

Разметка производится исходя из того «о чем эта фраза?», задача разметки в том, чтобы помочь модели понять суть фразы. Например, во фразах выше говорится об ошибках во время установки сервиса биометрии, так же присутствует благодарность и приветствие, соответственно метки будут: SBS, ошибка, установка_ПО, благодарность, приветствие.

Рис. 16(а). Добавление общего класса.

Имеется функция «Добавить общий класс». С ее помощью можно присвоить одну или несколько общих меток сразу нескольким выбранным из списка фразам (рис. 16 (а)), если была допущена ошибка при разметке фраз. Для изменения набора меток у одной фразы нужно всего лишь один раз щелкнуть на список классов и добавить нужную метку из выпадающего списка или навести курсор на лишнюю метку и, также щелкнув, удалить ее. Если необходимо удалить сразу несколько меток с фразы или нескольких фраз, под кнопкой «Добавить общий класс» есть кнопка «Удалить классы» (рис. 16 (б)). Сначала выделите нужные фразы, а затем выберите класс (классы), которые вы хотите удалить из выпадающего списка, и кликните по кнопке «Удалить классы».

Рис. 16(б). Удаление нескольких классов.
Рис. 17. Объединение меток разных родительских классов.

Кроме того, существует еще одна полезная функция для работы в корпусе данных SMC — «объединить метки». Для лучшего понимания рассмотрим пример. Предположим, у вас есть две метки с одинаковым названием — «версия» и «версия», но в одном случае название содержит английскую «е», а в другом — русскую (классы отображаются в алфавитном порядке, метка с английскими буквами будет нарушать его). И этими метками уже помечены некоторые фразы. Чтобы решить эту проблему, можно воспользоваться функцией «объединения». Необходимо скопировать название правильной метки из списка меток («карандаш» — выделить название), затем нажать на «карандаш» напротив неправильной метки и заменить ее названием корректной метки. После этого метки объединятся и останется только корректная метка. Если эти метки принадлежат какой-либо группе, то замена произойдет и в ней. Возможность объединения групп также предусмотрена и осуществляется по такому же алгоритму.


Однако есть некоторые особенности работы этой функции при работе с классами-потомками. Функция работает только в том случае, если вы хотите объединить метки в пределах одного родительского класса. То есть нельзя объединить классы разных рангов, например родитель — потомок, в этом случае появится сообщение об ошибке и невозможности объединить две метки из разных родительских классов (рис. 17).

Панель управления вкладки «Данные» сервиса SMC

Панель управления на вкладке «Данные» отличается своими функциями. В таблице 3 представлен список кнопок.

Табл. 3 Описание функционала панели инструментов вкладки «Данные»
Иконка кнопки Наименование кнопки Описание
Экспорт нов.png
Экспорт позволяет экспортировать (выгрузить) корпус данных.
Импорт нов.png
Импорт позволяет импортировать (добавлять) данные из файла или из корпуса, который уже существует в UPS.

Если выбран вариант «Из файла», нужно выбрать файл для загрузки. Поддерживаемые форматы файлов: csv, txt. Кодировка — UTF-8.

Затем можно выбрать действие: дополнить или заменить. Если выбрано «дополнить», данные текущего корпуса будут дополнены данными из файла или корпуса.

Если выбрано «заменить», данные текущего корпуса будут полностью заменены данными из файла или корпуса.

Авторазметка (2).png
Авторазметка позволяет автоматически разметить корпус по словарю меток (подробнее см. разд Функционал вкладки Метки). В диалоговом окне необходимо заполнить поля с названием задачи, выбрать из списка нужный словарь меток. Из выпадающего списка «Метки» выбрать либо замену меток, либо дополнение. И запустить авторазметку.

После этого автоматически размеченный корпус будет доступен для обычного редактирования разметки.

Копировать.png
Копировать позволяет скопировать корпус данных.
Сохранить.png
Сохранить сохранение изменений.
Меню пользователя.png
Меню пользователя отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.

При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.

*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.

Описание подготовки и этапов разметки корпуса данных SMC

Классификатор применяет мультиклассовый подход к классификации, то есть каждая фраза может принадлежать одному или нескольким классам одновременно. Процесс разметки данных (подробнее см. раздел Функционал вкладки «Данные») состоит из двух этапов (допускается пропуск одного из этапов):

Разметка данных (вкладка «Данные»). При добавлении новых данных (новой фразы), им необходимо присвоить класс(ы) из существующих и/или новые.  Если метка (класс) уже существует, она может быть выбрана из выпадающего списка Классы. Так же можно создать новую метку просто написав ее название в окне Класс и нажав на «Добавить новый класс».

Группировка классов (вкладка «Группы»). По сути, это работа с итоговым результатом модели (пост-обработка). После формирования корпуса данных и обучения, модель SMC должна корректно отдать все найденные по фразе метки. Этап группировки подразумевает под собой подбор минимального количества наиболее подходящих меток для создания вопросно - ответной пары.


Группировка классов помогает модели SMC без дополнительного обучения определить, к какой группе классов может принадлежать новая (ранее неизвестная) фраза.

Интерфейс вкладки «Группы» сервиса SMC аналогичен интерфейсу «Данные», описание панели управления см. в таблице 3. Здесь есть поля для ввода названий новых групп и входящих в них классов. Как уже созданные, так и новые группы отображаются в окне Список групп.

В результате получаются группы, которые отвечают на вопросы, исходя из классов (меток), которые в неё входят. Есть возможность отфильтровать данные по группам и классам. Также справа можно настроить более точную фильтрацию, для этого можно использовать переключатель «и», «или», «кроме» (рис. 18). Поддерживается импорт и экспорт корпусов. При необходимости можно посмотреть дубликаты в группах, для этого включите галочку в правом верхнем углу (под панелью управления) «Показать дубликаты классов».

Рис. 18. Возможности фильтрации групп.

Если вам нужно добавить или удалить общий класс сразу для нескольких групп, просто выделите их галочками. После этого внизу появится меню, в котором вы сможете выбрать нужные классы для добавления или удаления из списка. Также есть функция «Копировать», которая позволяет скопировать группу или несколько групп в трех режимах (рис. 18):

  • простое копирование;
  • копирование с добавлением классов: скопирует выделенные группы и добавит в копию выбранный из списка класс;
  • копирование с удалением классов: скопирует выделенные группы и удалит в копии выбранный из списка класс.


На панели управления есть кнопка «Обновление групп в модели» , которая позволяет, если нужно, дообучить модель Классификатора SMC, на основании изменений внесенных в группы, не обучая модель повторно.

Если нужно, вы можете переименовать группу. Для этого в Списке групп, рядом с названием группы, кликните на карандашик, а затем сохраните изменения (нажмите на зеленую галочку). После того как вы переименуете группу, вам нужно будет обновить группы в модели. Это делается с помощью кнопки «Обновление групп» в модели на панели управления (см. табл. 2).

Функционал вкладки «Метки»

Рис. 19. Интерфейс вкладки Метки.

Интерфейс вкладки «Метки» представлен на рисунке 19. Слева вы увидите список всех доступных словарей. Чтобы открыть один из них, просто нажмите на его название — и в центральной части экрана появится сам словарь.

Процесс добавления нового словаря состоит из двух простых шагов:

1. Нажмите на кнопку «Добавить словарь меток», расположенную в нижней левой части экрана. В появившемся диалоговом окне введите название нового словаря.

2. Затем добавьте данные в словарь: укажите название метки и пороговое значение коэффициента достоверности в левой части таблицы и её определяющие фразы в правой части таблицы. Более подробную информацию вы найдёте в разделе «Подготовка словаря меток». Если у вас уже есть файл с описанием меток, вы можете воспользоваться кнопкой Импорт на панели управления (см. раздел Панель управления вкладки «Метки»).


Подготовка словаря меток

Подготовка словаря меток включает в себя определение набора требуемых меток под конкретную задачу. После этого нужно в описание каждой метки добавить все возможные определяющие фразы, которые однозначно определяют эту метку, каждое слово (фраза) с новой строки. Не нужно добавлять целые фразы, как это делается при разметке SMC. Принцип описания больше похож на разметку SEE корпуса: просто укажите ключевые слова или словосочетания, которые определяют данную метку, а также все, что хотите отнести к этой метке.

Например, мы создаем метку «Документация» и в определяющих фразах указываем все возможные варианты, которые однозначно описывают эту метку с новой строки: «дока», «инструкция», «документация», «мануал».

Подготовленный для импорта документ должен быть в формате csv. И иметь следующую структуру:

Метка<TAB>Описание 1, Описание 2, ..., Описание N<TAB>Порог

Пороговое значение в файле указывается в диапазоне [0,1]. Далее при необходимости это значение можно будет поменять в интерфейсе.

После того как словарь будет заполнен или загружен, вы сможете редактировать описания меток и их названия в интерфейсе. Чтобы внести изменения в определяющие фразы, просто нажмите на поле метки и в левой части таблицы будут показаны фразы этой метки. Не забудьте сохранить изменения.

Чтобы удалить лишнюю фразу или метку - наведите курсор на выбранную строку и нажмите на появившуюся иконку корзинки в конце строки Delete icon.png. Не забудьте сохранить изменения.

Также сверху таблицы словаря меток располагается поле ввода "Поиск по фразе". При ее заполнении будут отфильтровываться метки, содержащие введенную фразу (левая таблица), и совпадения по фразе в выбранной метке (правая таблица).



Панель управления вкладки «Метки»

Описание функционала панели управления на вкладке «Метки» представлено в таблице 4.

Табл. 4 Описание функционала панели инструментов вкладки «Метки»
Иконка кнопки Наименование кнопки Описание
Экспорт нов.png
Экспорт позволяет экспортировать (выгрузить) словарь меток.
Импорт нов.png
Импорт Позволяет импортировать (добавлять) данные из файла. По нажатию на кнопку появится диалоговое окно, в котором требуется выбрать файл с компьютера в формате csv.
Сохранить.png
Сохранить сохранение изменений.
Удаление документа.png
Удалить позволяет удалить выбранный словарь меток.
Меню пользователя.png
Меню пользователя отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.

При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса.

*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.


Работа с ошибками SMC

Рис. 20. Иллюстрация ошибки тестирования первого типа.
Рис. 21. Обогащение корпуса данных.

Во время работы с классификатором, вы можете столкнуться с 3-мя видами ошибок:

  • ошибки разметки;
  • ошибки обучения;
  • ошибки тестирования.


Как описано выше в разделе «Информационные вкладки: Сервер, Ошибки, Логи, Постобработка» - «ошибки разметки» – раздел куда попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная). Вкладка «ошибки обучения» – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась.

«Ошибки тестирования» являются наиболее сложными и делятся на два основных типа:

  1. нехватка данных, тогда необходимо обогатить корпус данных фразами и разметкой;
  2. нехватка комбинаций меток для группы.
Рис. 22. Иллюстрация ошибки тестирования второго типа.


Пример ошибки типа 1. Нехватка данных.

Есть фраза «Директор МФЦ иркутской области» - модель классифицирует ее неправильно, на скриншоте (см. рис. 20) этой фразе присвоены метки: Иркутская область_о, как_в, губернатор_о Это происходит из-за того, что директор и губернатор - имеют семантическое сходство, так как являются руководителями. Но в связке с Иркутской областью - упоминания директора в корпусе не было. Поэтому модель исходя из имеющихся у нее данных - определила для этой фразы  - метку губернатор_о. Группа: кто является губернатором иркутской области района.

Если мы отфильтруем корпус данных по слову директор, то увидим, что в корпусе отсутствуют фразы где и директор и иркутская область упоминались бы одновременно, а так же не была определена метка мфц_о, следовательно фразы директор мфц (дополнительно добавленная выделенная фраза) тоже не хватало (см. рис. 21). Нужно добавить эти фразы в корпус, сохранить изменения, переобучить модель, так как вносились изменения в данные, и ошибка будет устранена.

Рис. 23. Добавление новой комбинации меток для группы.

Пример ошибки типа 2. Нехватка комбинаций меток для группы.

Имеется фраза «а какие документы нужно подать для оформления путевки инвалиду». Проводим тестирование в ручном режиме и видим, что этой фразе не присвоена ни одна группа, а значит нет конечной точки, которой бы соответствовал полученный от модели набор меток. (см. рис. 22).


Переходим во вкладку Данные, выбираем нужный корпус данных, идем во вкладку Группы. Далее фильтруем группы по Классам: инвалидность_о, путевка в санаторий_о переводим переключатель справа в положение «и» (см. рис. 23) и смотрим, что у нас отсутствует комбинация меток: с подачей документов. Добавляем еще одну комбинацию (см. рис. 23), сохраняем изменения, переходим во вкладку Модели, кликаем на кнопку Обновление групп.png «Обновление групп», в диалоговом окне выбираем модель и нажимаем кнопку обновить - ошибка устранена. Переобучать модель не нужно, кнопка «Обновление групп» позволяет внести изменения без переобучения.