SMC. UPS руководство по работе с интерфейсом: различия между версиями
Материал из Флора AI
E.Elagina (обсуждение | вклад) |
E.Elagina (обсуждение | вклад) |
||
| (не показано 80 промежуточных версий 3 участников) | |||
| Строка 1: | Строка 1: | ||
=='''SMC | =='''Классификатор (SMC)'''== | ||
В главном меню UPS расположены кнопки для перехода в блоки ( | |||
# | [[Файл:Главный экран.png|мини|<small>''Рис. 1. Иконки начального экран UPS.''</small>|граница]]В главном меню UPS (Universal Proxy Server) расположены кнопки для перехода в блоки (см. рис. 1): | ||
# | |||
# | # SMC Классификатор, | ||
# | # [[SEE. UPS руководство по работе с интерфейсом|SEE Сущности]], | ||
# | # [[SPR. UPS руководство по работе с интерфейсом|SPR Распознавание]], | ||
#ЧаВО. | # [[SBS. UPS руководство по работе с интерфейсом|SBS Биометрия]], | ||
[[Файл: | # [[TTS. UPS руководство по работе с интерфейсом|TTS Синтез]], | ||
# [[QAS. UPS руководство по работе с интерфейсом|QAS ЧаВО]], | |||
# [[SES. UPS руководство по работе с интерфейсом|SES Сценарная машина]], | |||
# [[CLS. UPS руководство по работе с интерфейсом#Работа с сервисом исходящих обзвонов «Информатор»|CLS Информатор]], | |||
# Выход. | |||
[[Файл:Раб экран классификатора.png|мини|<small>''Рис. 2. Рабочая область «SMC»''</small>]] | |||
Переключаться между продуктами можно двумя способами: | |||
# Воспользоваться кнопкой на панели управления «На главную» [[Файл:Меню пользователя new.png|безрамки|20x20пкс]] (см. табл. 2). | |||
# Воспользоваться кнопкой в виде линии , которая находится снизу в центе экрана (см. рис. 2). | |||
Рабочая область '''«SMC»''' включает в себя (рис. 2): | |||
*панель управления, | *панель управления, | ||
*кнопки переключения между версиями моделей, | *кнопки переключения между версиями моделей, | ||
| Строка 15: | Строка 27: | ||
*информацию об обучении и тестировании, для обученных и протестированных моделей, | *информацию об обучении и тестировании, для обученных и протестированных моделей, | ||
*информационные вкладки. | *информационные вкладки. | ||
[[Файл: | [[Файл:Model info smc.png|мини|<small>''Рис. 3 Информационный блок о модели.''</small>]] | ||
В блоке интерфейса '''«Классификатор»''' есть 3 вкладки: | В блоке интерфейса '''«Классификатор»''' есть 3 вкладки: | ||
1. '''«Модели»''' – содержит все созданные модели SMC списком в алфавитном порядке | 1. '''«Модели»''' – содержит все созданные модели SMC списком в алфавитном порядке. Модели с постобработкой помечены значком [[Файл:Подсказка.jpg|безрамки|20x20пкс]]. | ||
2. '''«Данные»''' – содержит все корпуса данных SMC списком в алфавитном порядке. | 2. '''«Данные»''' – содержит все корпуса данных SMC списком в алфавитном порядке. | ||
3. '''«Метки»''' | 3. '''«Метки»''' – содержит все словари меток SMC. | ||
===Функционал вкладки «Модели» === | ===Функционал вкладки «Модели» === | ||
Во вкладке '''«Модели»''' доступен просмотр информации о модели, а именно: | Во вкладке '''«Модели»''' доступен просмотр информации о модели, а именно: | ||
*название модели, | *название модели, | ||
*версия модели: ''черновик'', ''рабочая'', ''архив'' ( | *версия модели: ''черновик'', ''рабочая'', ''архив'' (табл. 1), | ||
*статус модели. | *статус модели. | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+<small>''Табл. 1. Версии модели.''</small> | ||
!'''Иконка версии''' | !'''Иконка версии''' | ||
!'''Наименование версии модели''' | !'''Наименование версии модели''' | ||
!'''Описание''' | !'''Описание''' | ||
|- | |- | ||
|[[Файл:Черновик.png| | |[[Файл:Черновик.png|безрамки|40x40px|центр]] | ||
|Черновик | |Черновик | ||
|это не примененная модель. Можно обучать, переобучать, тестировать, устанавливать и применять. Можно экспортировать и импортировать. Цвет акцента версии модели - серый. После применения (установки) модель (см. табл.2 «Установка») становится «Рабочей версией». | |это не примененная модель. Можно обучать, переобучать, тестировать, устанавливать и применять. Можно экспортировать и импортировать. Цвет акцента версии модели - серый. После применения (установки) модель (см. [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Модели» SMC|табл.2]] «Установка») становится «Рабочей версией». | ||
|- | |- | ||
|[[Файл:Рабочая нов.png| | |[[Файл:Рабочая нов.png|безрамки|40x40px|центр]] | ||
|Рабочая | |Рабочая | ||
|это модель, которая уже используется в прод (англ. ''production –'' производство'')''. Применённую модель нельзя установить заново или обучить. Можно провести ручное тестирование и проверить конкретные фразы (см. табл.2 «Ручная проверка»). Можно экспортировать модель. Цвет акцента версии модели - зелёный. По нажатию кнопки «Архив»- «Рабочая» модель переходит в архивную версию. | |это модель, которая уже используется в прод (англ. ''production –'' производство'')''. Применённую модель нельзя установить заново или обучить. Можно провести ручное тестирование и проверить конкретные фразы (см. [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Модели» SMC|табл.2]] «Ручная проверка»). Можно экспортировать модель. Цвет акцента версии модели - зелёный. По нажатию кнопки «Архив»- «Рабочая» модель переходит в архивную версию. | ||
|- | |- | ||
|[[Файл:Архив нов.png| | |[[Файл:Архив нов.png|безрамки|40x40px|центр]] | ||
|Архивная | |Архивная | ||
|это рабочая модель, которая переводится в архив (резервную копию) после применения черновика. Можно вернуть архивную модель в рабочую версию, нажав на кнопку «Откат». При этом рабочая версия также становится архивной, то есть рабочая и архивная версии меняются местами. Цвет акцента версии модели - синий. | |это рабочая модель, которая переводится в архив (резервную копию) после применения черновика. Можно вернуть архивную модель в рабочую версию, нажав на кнопку «Откат». При этом рабочая версия также становится архивной, то есть рабочая и архивная версии меняются местами. Цвет акцента версии модели - синий. | ||
|} | |}[[Файл:Model status.png|мини|''<small>Рис. 4. Примеры статусов модели.</small>'']]Модель SMC имеет свойство '''«Статус»''' (рис. 4), которые принимает следующие значения: | ||
*''Обучение''. Это модель, которая в данный момент обучается. | *''Обучение''. Это модель, которая в данный момент обучается. | ||
* ''Обучена''. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок. | * ''Обучена''. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок. | ||
*''Тестирование.'' Это модель, которая в данный момент тестируется. | *''Тестирование.'' Это модель, которая в данный момент тестируется. | ||
*''Протестирована''. Появляются доп. кнопки '''«Обучение»''' и '''«Тест»''' (под матрицей ошибок | *''Протестирована''. Появляются доп. кнопки '''«Обучение»''' и '''«Тест»''' (под матрицей ошибок), нажав на которые можно посмотреть матрицу обучения и тестирования соответственно. | ||
*''Установлена.'' В этот статус модель переходит при нажатии кнопки «'''Установка»'''. В этом статусе возможны ''Импорт'', ''Экспорт'', ''Обучение'', ''Ручная'' ''проверка'', ''Применение'' модели – по соответствующим кнопкам на панели управления. | *''Установлена.'' В этот статус модель переходит при нажатии кнопки «'''Установка»'''. В этом статусе возможны ''Импорт'', ''Экспорт'', ''Обучение'', ''Ручная'' ''проверка'', ''Применение'' модели – по соответствующим кнопкам на панели управления. | ||
*''Применена.'' В статус ''Применена'' модель переходит при нажатии кнопки «'''Применение»'''. Для модели в статусе ''Применена'' возможны только – ''Ручная проверка'' конкретной фразой по кнопке «'''Ручная проверка»''' и ''экспорт'' (выгрузка) по кнопке «'''Экспорт»''' (см. табл. 2). | *''Применена.'' В статус ''Применена'' модель переходит при нажатии кнопки «'''Применение»'''. Для модели в статусе ''Применена'' возможны только – ''Ручная проверка'' конкретной фразой по кнопке «'''Ручная проверка»''' и ''экспорт'' (выгрузка) по кнопке «'''Экспорт»''' (см. [[SMC. UPS руководство по работе с интерфейсом|табл. 2]]). | ||
*''Ошибка''. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения. | *''Ошибка''. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения. <blockquote>'''''Пустые модели больше не отображаются в интерфейсе.'''''</blockquote> | ||
Возможны ''манипуляции'' с моделями SMC: | Возможны ''манипуляции'' с моделями SMC: | ||
*удаление модели, | *удаление модели, удаляется текущая версия модели, | ||
*добавление новой модели SMC | *добавление новой модели SMC, нажмите кнопку '''«Добавить новую модель»'''. Далее доступны два способа: | ||
*# Из файла: загрузите архив с готовой моделью. | |||
*# Обучить модель: создайте модель с нуля, выбрав для обучения либо корпус текстов, либо словарь меток. | |||
====Панель управления вкладки «Модели» SMC==== | ====Панель управления вкладки «Модели» SMC==== | ||
В правом верхнем углу экрана располагается панель управления для вкладки '''«Модели»'''. На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна. | В правом верхнем углу экрана располагается панель управления для вкладки '''«Модели»'''. На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна. | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+<small>''Табл. 2. Описание функционала панели управления на вкладке «Модели».''</small> | ||
!'''Иконка кнопки''' | !'''Иконка кнопки''' | ||
!'''Наименование кнопки''' | !'''Наименование кнопки''' | ||
!'''Описание''' | !'''Описание''' | ||
|- | |- | ||
|[[Файл:Экспорт нов.png| | |[[Файл:Экспорт нов.png|безрамки|40x40px|центр]] | ||
|Экспорт | |Экспорт | ||
|позволяет экспортировать(выгрузить) модель | |позволяет экспортировать(выгрузить) модель SMC. | ||
|- | |- | ||
|[[Файл:Импорт нов.png| | |[[Файл:Импорт нов.png|безрамки|40x40px|центр]] | ||
|Импорт | |Импорт | ||
|позволяет импортировать (добавить) модель | |позволяет импортировать (добавить) модель SMC. | ||
|- | |- | ||
|[[Файл:Обучение.png| | |[[Файл:Обучение.png|безрамки|40x40px|центр]] | ||
|Обучение | |Обучение | ||
|позволяет обучить модель SMC, выбрав данные для обучения из выпадающего списка. И затем следует выбрать метод обучения — по корпусу или по меткам (подробнее см. разд. [[SMC. UPS руководство по работе с интерфейсом|Функционал вкладки Метки]]). | |позволяет обучить модель SMC, выбрав данные для обучения из выпадающего списка. И затем следует выбрать метод обучения — по корпусу или по меткам (подробнее см. разд. [[SMC. UPS руководство по работе с интерфейсом|Функционал вкладки Метки]]). Обучение на словаре меток имеет преимущества перед корпусом в том, что обучение модели происходит в разы быстрее. | ||
|- | |- | ||
|[[Файл:Обновление групп.png| | |[[Файл:Обновление групп.png|безрамки|40x40px|центр]] | ||
|Обновление групп в модели | |Обновление групп в модели | ||
|позволяет обновить группы в модели SMC. При нажатии на кнопку – открывается форма для указания корпуса. | |позволяет обновить группы в модели SMC. При нажатии на кнопку – открывается форма для указания корпуса. | ||
|- | |- | ||
|[[Файл:Тестирование.png| | |[[Файл:Тестирование.png|безрамки|40x40px|центр]] | ||
|Тестирование | |Тестирование | ||
|позволяет протестировать модель SMC корпусом данных. При нажатии на кнопку – открывается форма для указания корпуса, с помощью которого нужно протестировать модель. | |позволяет протестировать модель SMC корпусом данных. При нажатии на кнопку – открывается форма для указания корпуса, с помощью которого нужно протестировать модель. | ||
|- | |- | ||
|[[Файл:Ручная проверка.png| | |[[Файл:Ручная проверка.png|безрамки|40x40px|центр]] | ||
|Ручная проверка<sup>1</sup> | |Ручная проверка<sup>1</sup> | ||
|позволяет протестировать модель SMC конкретной фразой, увидеть величину достоверности каждого класса, определенного системой. | |позволяет протестировать модель SMC конкретной фразой, увидеть величину достоверности каждого класса, определенного системой. | ||
|- | |- | ||
|[[Файл:Установка обработчика в рабочую версию модели.png| | |[[Файл:Установка обработчика в рабочую версию модели.png|безрамки|40x40px|центр]] | ||
|Установка обработчика в рабочую версию модели | |Установка обработчика в рабочую версию модели | ||
|позволяет перезаписать обработчик на применяемой модели без перевода из тестового режима, если изменился только обработчик, а корпус остался прежним. | |позволяет перезаписать обработчик на применяемой модели без перевода из тестового режима, если изменился только обработчик, а корпус остался прежним. | ||
|- | |- | ||
|[[Файл:Установка.png| | |[[Файл:Установка.png|безрамки|40x40px|центр]] | ||
|Установка | |Установка | ||
|переводит модель SMC в статус ''установлена''. После чего кнопка меняется на кнопку «Применение»[[Файл:Primenenie.png|безрамки| | |переводит модель SMC в статус ''установлена''. После чего кнопка меняется на кнопку «Применение»[[Файл:Primenenie.png|безрамки|20x20px]] . Пока модель не применена (не используется), можно ее ''обучить'', ''протестировать'', ''экспортировать'' или ''импортировать'' данные. После того как модель начинает использоваться, возможность ее обучения или изменения исчезает. Остается возможность ''экспорта'' и ''ручной проверки'' модели. | ||
|- | |- | ||
|[[Файл:Откат.png| | |[[Файл:Откат.png|безрамки|40x40px|центр]] | ||
|Откат | |Откат | ||
|позволяет перевести архивную версию модели SMC обратно в рабочую. | |позволяет перевести архивную версию модели SMC обратно в рабочую. | ||
|- | |- | ||
|[[Файл:Меню пользователя.png| | |[[Файл:Меню пользователя.png|безрамки|41x41px|центр]] | ||
|Меню пользователя | |Меню пользователя | ||
|отображает меню пользователя (имя, смена пароля, выход из системы) | |отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи. | ||
|}[[Файл: | При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. | ||
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small> | |||
|} | |||
[[Файл:2025-04-15 14-31-32.png|мини|<small>''Рис. 5. Диалоговое окно режима «Ручная проверка».''</small>]] | |||
<sup>1</sup> Режим '''«Ручная проверка».''' | |||
Как описано в таблице 2 этот режим позволяет протестировать модель SMC конкретной фразой. При нажатии на кнопку открывается диалоговое окно со следующими вкладками: | Как описано в таблице 2 этот режим позволяет протестировать модель SMC конкретной фразой. При нажатии на кнопку открывается диалоговое окно со следующими вкладками: | ||
*классификация, | *классификация, | ||
*прочее. | *прочее. | ||
Вкладка '''классификация''' содержит поля: | Вкладка '''классификация''' содержит поля: | ||
*''текст'' - в это поле записывается фраза для проверки; | *''текст'' - в это поле записывается фраза для проверки; | ||
*''порог доверия -'' показатель, отражающий степень уверенности в принадлежности новой фразы к конкретному классу ( | *''порог доверия -'' показатель, отражающий степень уверенности в принадлежности новой фразы к конкретному классу (рис. 6). Другими словами, пороговое значение указывает, при какой минимальной вероятности полагаем, что фраза относится к определённому классу. | ||
*Функция ''коррекции'' предназначена для исправления опечаток в тексте. Существует три режима работы этой функции, каждый из которых определяет допустимое количество ошибок в слове: | |||
Есть галочка '''расширенный режим -''' позволяет обратиться сразу к нескольким моделям SMC. После нажатия на кнопку '''классифицировать''', выводится результат - метки классов, которые модель смогла распознать. | **'''Базовая''': исправляет только слова с минимальными опечатками (1-2 ошибки для коротких слов, макс. 1 ошибка)[[Файл:2025-04-15 14-35-46.png|мини|<small>''Рис. 6. Функционал вкладки Классификация.''</small>]] | ||
**'''Расширенная''': допускает больше исправлений для сложных случаев (добавляет +1 ошибку к базовому порогу, макс. 2 ошибки). | |||
**'''Агрессивная''': корректирует даже сильно искажённые слова (добавляет +2 ошибки к базовому порогу, макс. 3 ошибки). | |||
**либо коррекция может '''Отсутствовать'''. | |||
<blockquote>'''Важно:''' Эти режимы действуют только при коррекции по словарю модели. Поскольку идет сравнение слова с опечаткой со словом из словаря без ошибок.</blockquote>Есть галочка '''расширенный режим -''' позволяет обратиться сразу к нескольким моделям SMC. После нажатия на кнопку '''классифицировать''', выводится результат - метки классов, которые модель смогла распознать. | |||
Классификатор (SMC) также выводит следующую информацию: | Классификатор (SMC) также выводит следующую информацию: | ||
| Строка 139: | Строка 150: | ||
3. '''Ближайшие группы''': отображаются группы, до которых не хватает всего одной метки, с указанием процента заполненности и сортировкой по убыванию этого процента. | 3. '''Ближайшие группы''': отображаются группы, до которых не хватает всего одной метки, с указанием процента заполненности и сортировкой по убыванию этого процента. | ||
Вкладка '''прочее''' SMC Классификатора включает в себя несколько опций: ''анализ на эмоциональность'', ''пунктуация, анализ токсичности'' и ''коррекция ошибок, обратная нормализация, сжатие'''''.''' | |||
Сжатие - позволяет выделить основной смысл фразы. | |||
*''текст'' - в это поле записывается фраза для проверки; | |||
* ''текст'' - в это поле записывается фраза для проверки; | |||
*''порог сжатия'' - означает процент сжатия фразы, например, порог сжатия 100 - выводит всю фразу в окно результата'''.''' | |||
Все эти манипуляция можно производить с фразой в блоке - ''текст.'' [[Файл:Информационные вкладки тест.jpg|мини|''<small>Рис. 7. Интерфейс раздела «Классификатор»: Информационные вкладки для протестированной модели.</small>'']] | |||
====Информационные вкладки SMC: Сервер, Ошибки, Логи, Постобработка==== | ====Информационные вкладки SMC: Сервер, Ошибки, Логи, Постобработка==== | ||
Справа на экране располагаются информационные вкладки ( | Справа на экране располагаются информационные вкладки (рис. 7) | ||
*'''«Серверы»''' – отображает информацию о серверах и процессах, | *'''«Серверы»''' – отображает информацию о серверах и процессах, | ||
*'''«Ошибки разметки»''' – в этот раздел попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная), | *'''«Ошибки разметки»''' – в этот раздел попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная), | ||
*'''«Ошибки обучения»''' – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась. Также можно, находясь на вкладке '''«Ошибки обучения»''' использовать метод '''«Ручная проверка»''', | *'''«Ошибки обучения»''' – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась. Также можно, находясь на вкладке '''«Ошибки обучения»''' использовать метод '''«Ручная проверка»''', | ||
*'''«Ошибки тестирования»''' – доступны для модели в состоянии ''Протестирована'' – отображает информацию об ошибках тестирования. Можно выгрузить ошибки в файл с помощью кнопки '''«Экспорт»'''. Есть возможность преобразовать ошибки в данные корпуса | *'''«Ошибки тестирования»''' – доступны для модели в состоянии ''Протестирована'' – отображает информацию об ошибках тестирования. Можно выгрузить ошибки в файл с помощью кнопки '''«Экспорт»'''. Есть возможность преобразовать ошибки в данные корпуса, | ||
* '''«Логи»''' – отображают логи процессов обучения, тестирования, точности обучения на разных этапах обучения, | * '''«Логи»''' – отображают логи процессов обучения, тестирования, точности обучения на разных этапах обучения, | ||
*'''«Постобработка»''' – редактор для написания кода handler.py. | *'''«Постобработка»''' – редактор для написания кода handler.py. | ||
[[Файл: | [[Файл:Data screen new.png|мини|<small>''Рис. 8. Интерфейс вкладки данные с родительскими и дочерними вкладками''</small>]] | ||
[[Файл:2025-12-11 10-52-07.png|мини|<small>''Рис. 9 Интерфейс вкладки данные''</small>]] | |||
[[Файл:Data corpus info.jpg|мини|''<small>Рис. 10. Информация о корпусе данных.</small>'']] | |||
===Функционал вкладки «Данные» SMC === | ===Функционал вкладки «Данные» SMC === | ||
Вкладка '''«Данные» SMC''' ( | Вкладка '''«Данные» SMC''' (рис. 8) содержит список всех доступных корпусов данных. При выборе различных корпусов данных можно просмотреть информацию о них (рис. 10): | ||
• '''Название корпуса''': можно изменить с помощью иконки '''«Карандаш».''' Можно удалить корпус с помощью иконки '''«Корзина»''' (см. рис. 10). | |||
• '''Количество строк''' – общее количество фраз в корпусе. | • '''Количество строк''' – общее количество фраз в корпусе. | ||
| Строка 163: | Строка 179: | ||
• '''Количество классов''' – общее количество классов в корпусе. | • '''Количество классов''' – общее количество классов в корпусе. | ||
• '''Количество групп''' – отображает общее количества групп в корпусе данных (подробнее см. раздел ''«Описание подготовки и этапов разметки корпуса данных SMC»'').[[Файл: | • '''Количество групп''' – отображает общее количества групп в корпусе данных (подробнее см. раздел ''[[SMC. UPS руководство по работе с интерфейсом#Описание подготовки и этапов разметки корпуса данных SMC|«Описание подготовки и этапов разметки корпуса данных SMC»]]'').[[Файл:Род класс.png|мини|''<small>Рис. 11. Создание родительского класса.</small>'']]Под информационным блоком о корпусе данных SMC есть '''список классов''', в котором содержатся названия классов и информация о количестве фраз в каждом классе. Можно удалять и добавлять классы. В самом низу списка есть меню для '''''Экспорт списка классов''''' в формате csv. Есть возможность ''скрыть'' блок с корпусами данных, нажав на стрелочку между блоком корпусов и информационным блоком корпуса. Существует три вида (ранга) классов (меток): | ||
#Обычный класс — это класс, который не относится ни к одному из родительских классов. | #Обычный класс — это класс, который не относится ни к одному из родительских классов. | ||
#Родительский класс — это класс, который включает в себя другие классы. Например, родительский класс «Паспорт» включает в себя два класса-потомка: «паспорт рф_о» и «загранпаспорт_о». | #Родительский класс — это класс, который включает в себя другие классы. Например, родительский класс «Паспорт» включает в себя два класса-потомка: «паспорт рф_о» и «загранпаспорт_о». | ||
#Класс-потомок — это класс, который относится к какому-либо родительскому классу.[[Файл: | #Класс-потомок — это класс, который относится к какому-либо родительскому классу. | ||
Чтобы преобразовать обычный класс в родительский, нужно выбрать его в списке классов и нажать на самую правую иконку в виде папки (рис. 11), которая говорит '''«Сделать класс родительским»'''. Чтобы добавить метку в родительский класс, нужно нажать правой кнопкой мыши на метку и выбрать нужный родительский класс из появившегося списка. После этого появится диалоговое окно, подтверждающее действие, и изменения вступят в силу (см. рис. 12). Метка станет классом-потомком.[[Файл:Перемещение метки в род.класс.png|мини|<small>''Рис. 12. Перемещение метки в родительский класс.''</small>]] | |||
Удалить родительскую метку, в отличие от обычной, просто так нельзя. Сначала ее нужно вернуть в статус обычной, нажав на иконку '''«Сделать класс обычным»''' напротив нужного класса (рис. 13). После этого она будет расформирована и ее можно будет удалить. | |||
==== Добавление нового корпуса ==== | |||
[[Файл:Сделать класс обчным.png|мини|''<small>Рис. 13. Сделать родительский класс обычным.</small>'']]Для создания нового корпуса данных SMC выполните следующие шаги: | |||
# Перейдите на вкладку «Данные». | |||
# Нажмите кнопку «Добавить новый корпус». | |||
# Введите название корпуса в открывшемся окне. | |||
# Подтвердите создание, нажав кнопку «Добавить». | |||
После создания корпуса вы можете заполнить его данными одним из следующих способов: | |||
'''1. Ручное добавление''' | |||
* | |||
* | * В нижней части экрана находится форма для ввода текста. | ||
* Добавляйте фразы вручную и сразу выполняйте их разметку в интерфейсе. | |||
[[Файл:2024-05-21 12-03-29.png|мини| | |||
Можно ''фильтровать'' ( | '''2. Импорт данных''' | ||
Нажмите кнопку «Импорт» и выберите подходящий источник: | |||
* Логи из модели. Создаёт корпус на основе логов рабочей версии и черновых моделей. | |||
* Из ЧаВО. Позволяет загрузить все вопросы из базы знаний QAS. Как использовать: | |||
*# Введите название корпуса. | |||
*# Нажмите кнопку «Добавить». В результате будет создан корпус, где вопросам из QAS соответствуют метки их категорий. | |||
* Из файла. Загрузите данные из CSV-файла, подготовленного по шаблону системы. | |||
* Из корпуса. Скопируйте данные из существующего в системе корпуса в новый. | |||
Есть возможность проверить корпус на дубликаты, с помощью галочки '''«Показать дубликаты:»''' выбрав одну из опций: '''фраз''' или '''полные'''. В последнем случае будут отображены полные совпадения и по классу, и по фразе. Все дублированные строки выделяются автоматически, чтобы можно было сразу удалить. Аналогичный функционал предусмотрен и для групп. | |||
При включении флага '''«Показать определившиеся группы»''' слева появится третий столбец «Группа». В нём будет отображаться название группы, назначенной для данной фразы. Это работает, если у вас создан список групп и заданы комбинации классов, которые в них входят. | |||
Вы можете редактировать группы меток непосредственно в таблице данных: | |||
* Создание или изменение групп | |||
** Введите название новой группы или выберите существующую для одной или нескольких (предварительно выделив галочками) строк таблицы. | |||
** Изменения автоматически синхронизируются с таблицей групп. | |||
* Массовое присвоение групп для выбранных строк | |||
** Выделите нужные строки в таблице. | |||
** Присвойте им группу, внизу появится форма с функцией «Изменить группу»: | |||
*** Для строк '''без группы''' — будет '''установлена''' выбранная группа. | |||
*** Для строк с уже '''назначенной''' группой — группа будет '''переопределена''' на новую. | |||
[[Файл:2024-05-21 12-03-29.png|мини|''<small>Рис. 14. Возможности фильтрации.</small>'']] | |||
Можно ''фильтровать'' (рис. 14): | |||
1. по названию класса, | 1. по названию класса, | ||
| Строка 185: | Строка 238: | ||
2. по фразе или слову, | 2. по фразе или слову, | ||
3. для более точной фильтрации можно использовать переключатель «и», «или», «кроме». | 3. для более точной фильтрации можно использовать переключатель «и», «или», «кроме» и «только». | ||
Есть возможность ''редактировать фразу'' в корпусе: вносить изменения в поле с фразой и ''сохранять'' изменения (кнопка '''«Дискета»''' на панели управления). Можно ''дополнять'' корпус данных по кнопке '''«Импорт»''' на панели управления (подробнее см. [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Данные» сервиса SMC|описание функций панели управления]]). '''После дополнения не забудьте сохранить изменения.''' ''Удаление'' фраз из корпуса возможно как по одной, так и сразу несколько, для этого нужно выделить необходимые для удаления фразы и нажать на красную иконку '''«Корзина»''' в правом нижнем углу блока работы с данными.[[Файл:Разм данных новая.png|мини|<small>''Рис. 15. Добавление и разметка фраз.''</small>]] | |||
Можно вручную ''добавлять'' фразы в корпус по одной или сразу несколько (каждая фраза с новой строки, enter в конце каждой фразы)(рис. 15), записав их в поле '''«Фразы»''' в нижней части блока для работы с данными. Можно ''назначить'' или ''изменить'' классы (метки) для фразы, указав новый в поле '''«Класс»''' или выбрав существующий класс из выпадающего списка. Метки классов могут быть больше чем одна на одну фразу (мультиклассовая классификация). <blockquote>Рассмотрим пример разметки новой фразы. Допустим мы хотим добавить вручную две фразы: | |||
#''«Здравствуйте, у меня возникли неполадки, возникающие во время установки SBS. Помогите решить проблему. Заранее спасибо.»'' | |||
#''«Добрый день, у меня появляется ошибка при установке биометрии. Заранее благодарю за ответ.»'' | |||
Разметка производится исходя из того '''«о чем эта фраза?»''', задача разметки в том, чтобы помочь модели понять суть фразы. Например, во фразах выше говорится об ''ошибках во время установки сервиса биометрии'', так же присутствует ''благодарность'' и ''приветствие,'' соответственно метки будут: ''SBS, ошибка, установка_ПО, благодарность, приветствие.'' | |||
'''ВАЖНО''': соблюдать однозначность в корпусе.</blockquote>[[Файл:Добавить общий класс.png|мини|''<small>Рис. 16(а). Добавление общего класса.</small>'']]Имеется функция '''«Добавить общий класс»'''. С ее помощью можно присвоить одну или несколько общих меток сразу нескольким выбранным из списка фразам (рис. 16 (а)), если была допущена ошибка при разметке фраз. Для изменения набора меток у одной фразы нужно всего лишь один раз щелкнуть на список классов и добавить нужную метку из выпадающего списка или навести курсор на лишнюю метку и, также щелкнув, удалить ее. Если необходимо удалить сразу несколько меток с фразы или нескольких фраз, под кнопкой '''«Добавить общий класс»''' есть кнопка '''«Удалить классы»''' (рис. 16 (б)). Сначала выделите нужные фразы, а затем выберите класс (классы), которые вы хотите удалить из выпадающего списка, и кликните по кнопке «Удалить классы». | |||
[[Файл:Удаление нескольких классов 1.jpg|мини|<small>''Рис. 16(б). Удаление нескольких классов.''</small>]][[Файл:Объединение меток разных род.классов.png|мини|<small>''Рис. 17. Объединение меток разных родительских классов.''</small>]]Кроме того, существует еще одна полезная функция для работы в корпусе данных SMC — '''«объединить метки»'''. Для лучшего понимания рассмотрим пример. Предположим, у вас есть две метки с одинаковым названием — «версия» и «версия», но в одном случае название содержит английскую «е», а в другом — русскую (классы отображаются в алфавитном порядке, метка с английскими буквами будет нарушать его). И этими метками уже помечены некоторые фразы. Чтобы решить эту проблему, можно воспользоваться функцией '''«объединения»'''. Необходимо скопировать название правильной метки из списка меток («карандаш» — выделить название), затем нажать на «карандаш» напротив неправильной метки и заменить ее названием корректной метки. После этого метки объединятся и останется только корректная метка. Если эти метки принадлежат какой-либо группе, то замена произойдет и в ней. Возможность объединения групп также предусмотрена и осуществляется по такому же алгоритму. | |||
Однако есть некоторые особенности работы этой функции при работе с классами-потомками. Функция работает только в том случае, если вы хотите объединить метки в пределах одного родительского класса. То есть нельзя объединить классы разных рангов, например родитель — потомок, в этом случае появится сообщение об ошибке и невозможности объединить две метки из разных родительских классов (рис. 17). | |||
==== Работа с группами классов ==== | |||
Интерфейс вкладки «Группы» аналогичен вкладке «Данные». Панель управления описана в таблице 3. | |||
'''Основные функции вкладки:''' | |||
* Создание и редактирование групп: Используйте поля для ввода названия группы и добавления в неё классов. Все группы отображаются в окне «Список групп». | |||
* Переименование группы: Нажмите на значок карандаша рядом с названием группы в списке, введите новое имя и сохраните изменения (зелёная галочка). После переименования или любых внесенных изменений необходимо обновить группы в модели (см. ниже). | |||
'''Фильтрация и поиск:''' | |||
* Фильтруйте данные по группам и классам. | |||
* Для точной настройки фильтра используйте правую панель с операторами: «И», «ИЛИ», «Кроме», «Только». | |||
* Для отображения повторяющихся строк включите флажок '''«Показать дубликаты»''' и выбрав одну из опций: полные (будут отображены полные дубли) и классов (отобразятся дубли по комбинации классов). | |||
'''Массовые операции с группами:''' | |||
# Выделите нужные группы с помощью флажков. | |||
# В нижней части окна появится меню для массовых действий: | |||
#* Добавить класс: выбранный класс будет добавлен ко всем выделенным группам. | |||
#* Удалить класс: выбранный класс будет удален из всех выделенных групп. | |||
#* Копировать: создание копий выделенных групп в одном из трёх режимов: | |||
#** Простое копирование. | |||
#** Копирование с добавлением выбранного класса. | |||
#** Копирование с удалением выбранного класса. | |||
'''Обновление модели после изменения групп''' | |||
Если вы внесли изменения в состав или названия групп, необходимо применить эти изменения к работающей модели. | |||
# Нажмите кнопку '''«Обновление групп в модели»''' на панели управления. | |||
# Модель классификатора будет дообучена с учётом внесённых правок без необходимости полного повторного обучения. | |||
<blockquote>'''Важно''': Эта операция необходима после переименования групп, массового добавления/удаления классов или изменения состава групп, чтобы модель начала учитывать новые правила.</blockquote> | |||
==== Описание подготовки и этапов разметки корпуса данных ==== | |||
Классификатор SMC использует '''мультиклассовый подход''': одна текстовая фраза может быть отнесена одновременно к нескольким классам (меткам). | |||
Процесс подготовки данных состоит из двух ключевых этапов (вы можете выполнить оба или только один из них): | |||
'''Разметка фраз классами''' | |||
При добавлении новой фразы необходимо назначить ей один или несколько классов. | |||
* Выбор существующего класса: укажите нужные классы из выпадающего списка «Классы». | |||
* Создание нового класса: введите название нового класса в поле «Класс» и нажмите кнопку «Добавить новый класс». | |||
<blockquote>Подробное описание функционала вкладки «Данные» и пример разметки новой фразы представлены в соответствующем разделе инструкции.</blockquote>'''Группировка классов''' | |||
Это этап пост-обработки, который выполняется после формирования корпуса и обучения модели. Его цель — оптимизировать выходные данные модели для создания вопросно-ответных пар. | |||
* Назначение: Группировка помогает модели без дообучения определять, к какой группе классов принадлежит новая, ранее не встречавшаяся фраза. | |||
* Результат: Формируются группы, которые агрегируют несколько отдельных классов (меток) и используются для конечного ответа. | |||
====Панель управления вкладки «Данные» сервиса SMC==== | ====Панель управления вкладки «Данные» сервиса SMC==== | ||
Панель управления на вкладке '''«Данные»''' отличается своими функциями. В таблице 3 представлен список кнопок. | Панель управления на вкладке '''«Данные»''' отличается своими функциями. В таблице 3 представлен список кнопок. | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+''<small>Табл. 3 Описание функционала панели инструментов вкладки «Данные»</small>'' | ||
!'''Иконка кнопки''' | !'''Иконка кнопки''' | ||
!'''Наименование кнопки''' | !'''Наименование кнопки''' | ||
! '''Описание''' | ! '''Описание''' | ||
|- | |- | ||
|[[Файл:Экспорт нов.png| | |[[Файл:Экспорт нов.png|безрамки|40x40px|центр]] | ||
|Экспорт | |Экспорт | ||
|позволяет экспортировать (выгрузить) корпус | |позволяет экспортировать (выгрузить) корпус данных. | ||
|- | |- | ||
| [[Файл:Импорт нов.png| | | [[Файл:Импорт нов.png|безрамки|40x40px|центр]] | ||
|Импорт | |Импорт | ||
| | |позволяет импортировать данные из внешнего файла, логов обращений к модели, уже существующего в системе корпуса или базы знаний ЧаВО. | ||
Если выбран вариант «Из файла», нужно | Если выбран вариант «Из файла», нужно выбрать файл для загрузки. Поддерживаемые форматы файлов: csv, txt. Кодировка — UTF-8. | ||
Затем можно выбрать действие: | Затем можно выбрать действие: дополнить или заменить. Если выбрано «дополнить», данные текущего корпуса будут дополнены данными из файла или корпуса. | ||
Если выбрано «заменить», данные текущего | Если выбрано «заменить», данные текущего корпуса будут полностью заменены данными из файла или корпуса. | ||
|- | |- | ||
|[[Файл:Копировать.png| | |[[Файл:Авторазметка_(2).png|центр|безрамки|40x40пкс]] | ||
|Авторазметка | |||
|позволяет автоматически разметить корпус по словарю меток (подробнее см. [[SMC. UPS руководство по работе с интерфейсом|разд Функционал вкладки Метки]]). В диалоговом окне необходимо заполнить поля с названием задачи, выбрать из списка нужный словарь меток. Из выпадающего списка «Метки» выбрать либо замену меток, либо дополнение. И запустить авторазметку. | |||
После этого автоматически размеченный корпус будет доступен для обычного редактирования разметки. | |||
|- | |||
|[[Файл:Копировать.png|безрамки|40x40px|центр]] | |||
|Копировать | |Копировать | ||
|позволяет скопировать корпус данных | |позволяет скопировать корпус данных. | ||
|- | |- | ||
|[[Файл:Сохранить.png| | |[[Файл:Сохранить.png|безрамки|40x40px|центр]] | ||
|Сохранить | |Сохранить | ||
|сохранение изменений | |сохранение изменений. | ||
|- | |- | ||
|[[Файл:Меню пользователя.png| | |[[Файл:Меню пользователя.png|безрамки|41x41px|центр]] | ||
|Меню пользователя | |Меню пользователя | ||
|отображает меню пользователя (имя, смена | |отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи. | ||
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. | |||
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small> | |||
|} | |} | ||
=== Функционал вкладки «Метки» === | |||
[[Файл:2024-10-15 11-23-22.png|мини|<small>''Рис. 19. Интерфейс вкладки Метки.''</small>]]Интерфейс вкладки «Метки» представлен на рисунке 19. Слева вы увидите список всех доступных словарей. Чтобы открыть один из них, просто нажмите на его название — и в центральной части экрана появится сам словарь. | |||
Процесс | Процесс добавления нового словаря состоит из двух простых шагов: | ||
1. Нажмите на кнопку «Добавить словарь меток», расположенную в нижней левой части экрана. В появившемся диалоговом окне введите название нового словаря. | |||
2. Затем добавьте данные в словарь: укажите название метки и пороговое значение коэффициента достоверности в левой части таблицы и её определяющие фразы в правой части таблицы. Более подробную информацию вы найдёте в разделе [[SMC. UPS руководство по работе с интерфейсом#Подготовка словаря меток|«Подготовка словаря меток»]]. Если у вас уже есть файл с описанием меток, вы можете воспользоваться кнопкой Импорт на панели управления (см. раздел [[SMC. UPS руководство по работе с интерфейсом#Панель управления вкладки «Метки»|Панель управления вкладки «Метки»]]). | |||
==== Подготовка словаря меток ==== | |||
Подготовка словаря меток включает в себя определение набора требуемых меток под конкретную задачу. После этого нужно в описание каждой метки добавить все возможные определяющие фразы, которые однозначно определяют эту метку, каждое слово (фраза) с новой строки. Не нужно добавлять целые фразы, как это делается при разметке SMC. Принцип описания больше похож на разметку SEE корпуса: просто укажите ключевые слова или словосочетания, которые определяют данную метку, а также все, что хотите отнести к этой метке. <blockquote>Например, мы создаем метку «Документация» и в определяющих фразах указываем все возможные варианты, которые однозначно описывают эту метку с новой строки: «дока», «инструкция», «документация», «мануал».</blockquote>Подготовленный для импорта документ должен быть в формате csv. И иметь следующую структуру:<blockquote>Метка<TAB>Описание 1, Описание 2, ..., Описание N<TAB>Порог</blockquote>Пороговое значение в файле указывается в диапазоне [0,1]. Далее при необходимости это значение можно будет поменять в интерфейсе. | |||
После того как словарь будет заполнен или загружен, вы сможете редактировать описания меток и их названия в интерфейсе. Чтобы внести изменения в определяющие фразы, просто нажмите на поле метки и в левой части таблицы будут показаны фразы этой метки. Не забудьте сохранить изменения. | |||
Чтобы ''удалить'' лишнюю фразу или метку - наведите курсор на выбранную строку и нажмите на появившуюся иконку корзинки в конце строки [[Файл:Delete icon.png|безрамки|18x18пкс]]. Не забудьте сохранить изменения. | |||
Также сверху таблицы словаря меток располагается поле ввода "Поиск по фразе". При ее заполнении будут отфильтровываться метки, содержащие введенную фразу (левая таблица), и совпадения по фразе в выбранной метке (правая таблица). | |||
==== Панель управления вкладки «Метки» ==== | |||
Описание функционала панели управления на вкладке '''«Метки»''' представлено в таблице 4. | |||
{| class="wikitable" | |||
|+''<small>Табл. 4 Описание функционала панели инструментов вкладки «Метки»</small>'' | |||
!'''Иконка кнопки''' | |||
!'''Наименование кнопки''' | |||
! '''Описание''' | |||
|- | |||
|[[Файл:Экспорт нов.png|безрамки|40x40px|центр]] | |||
|Экспорт | |||
|позволяет экспортировать (выгрузить) словарь меток. | |||
|- | |||
| [[Файл:Импорт нов.png|безрамки|40x40px|центр]] | |||
|Импорт | |||
|Позволяет импортировать (добавлять) данные из файла. По нажатию на кнопку появится диалоговое окно, в котором требуется выбрать файл с компьютера в формате csv. | |||
|- | |||
|[[Файл:Сохранить.png|безрамки|40x40px|центр]] | |||
|Сохранить | |||
|сохранение изменений. | |||
|- | |||
|[[Файл:Удаление_документа.png|центр|безрамки|40x40пкс]] | |||
|Удалить | |||
|позволяет удалить выбранный словарь меток. | |||
|- | |||
|[[Файл:Меню пользователя.png|безрамки|41x41px|центр]] | |||
|Меню пользователя | |||
|отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция ''выбора набора данных* (модели, корпуса, метки)''. Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи. | |||
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. | |||
<small>*права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны.</small> | |||
|} | |||
===Работа с ошибками SMC=== | ===Работа с ошибками SMC=== | ||
Во время работы с классификатором, вы можете столкнуться с 3-мя видами ошибок: | [[Файл:Ошиб тест тип 1.png|мини|<small>''Рис. 20. Иллюстрация ошибки тестирования первого типа.''</small>]][[Файл:Ошибка тест тип 1 3.png|мини|''<small>Рис. 21. Обогащение корпуса данных.</small>'']]Во время работы с классификатором, вы можете столкнуться с 3-мя видами ошибок: | ||
*ошибки разметки; | *ошибки разметки; | ||
*ошибки обучения; | *ошибки обучения; | ||
| Строка 281: | Строка 415: | ||
Как описано выше в разделе «''Информационные вкладки: Сервер, Ошибки, Логи, Постобработка» -'' '''«ошибки разметки»''' – раздел куда попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная). Вкладка '''«ошибки обучения»''' – отображает информацию об ошибках обучения для модели в состоянии '''«Обучена»''', те фразы, которыми модель так и не обучилась. | Как описано выше в разделе «''Информационные вкладки: Сервер, Ошибки, Логи, Постобработка» -'' '''«ошибки разметки»''' – раздел куда попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная). Вкладка '''«ошибки обучения»''' – отображает информацию об ошибках обучения для модели в состоянии '''«Обучена»''', те фразы, которыми модель так и не обучилась. | ||
'''«Ошибки тестирования»''' являются наиболее сложными и делятся на два основных типа: | |||
# нехватка данных, тогда необходимо обогатить корпус данных фразами и разметкой; | # нехватка данных, тогда необходимо обогатить корпус данных фразами и разметкой; | ||
#нехватка комбинаций меток для группы. | #нехватка комбинаций меток для группы. | ||
[[Файл:Ошибка тест тип 2.png|мини|''<small>Рис. 22. Иллюстрация ошибки тестирования второго типа.</small>'']] | |||
'''Пример ошибки типа 1. Нехватка данных.''' | '''Пример ошибки типа 1. Нехватка данных.''' | ||
Есть фраза «Директор МФЦ иркутской области» - модель классифицирует ее неправильно, на скриншоте (см. | Есть фраза «Директор МФЦ иркутской области» - модель классифицирует ее неправильно, на скриншоте (см. рис. 20) этой фразе присвоены метки: ''Иркутская область_о, как_в, губернатор_о'' Это происходит из-за того, что ''директор'' и ''губернатор'' - имеют семантическое сходство, так как являются руководителями. Но в связке с Иркутской областью - упоминания директора в корпусе не было. Поэтому модель исходя из имеющихся у нее данных - определила для этой фразы - метку губернатор_о. Группа: ''кто является губернатором иркутской области района.'' | ||
Если мы отфильтруем корпус данных по слову ''директор,'' то увидим, что в корпусе отсутствуют фразы где и ''директор'' и ''иркутская область'' упоминались бы одновременно, а так же не была определена метка ''мфц_о,'' следовательно фразы ''директор мфц'' (дополнительно добавленная выделенная фраза) тоже не хватало (см. рис. 21). Нужно добавить эти фразы в корпус, сохранить изменения, переобучить модель, так как вносились изменения в данные, и ошибка будет устранена.[[Файл:Ошибка тест тип 2 нов.png|мини|''<small>Рис. 23. Добавление новой комбинации меток для группы.</small>'']]'''Пример ошибки типа 2. Нехватка комбинаций меток для группы.''' | |||
Имеется фраза ''«а какие документы нужно подать для оформления путевки инвалиду»''. Проводим тестирование в ручном режиме и видим, что этой фразе не присвоена ни одна группа, а значит нет конечной точки, которой бы соответствовал полученный от модели набор меток. (см. рис. 22). | |||
Переходим во вкладку '''Данные''', выбираем нужный корпус данных, идем во вкладку '''Группы'''. Далее фильтруем группы по '''Классам''': инвалидность_о, путевка в санаторий_о переводим '''переключатель''' справа в положение ''«и»'' (см. | Переходим во вкладку '''Данные''', выбираем нужный корпус данных, идем во вкладку '''Группы'''. Далее фильтруем группы по '''Классам''': инвалидность_о, путевка в санаторий_о переводим '''переключатель''' справа в положение ''«и»'' (см. рис. 23) и смотрим, что у нас отсутствует комбинация меток: с подачей документов. Добавляем еще одну комбинацию (см. рис. 23), сохраняем изменения, переходим во вкладку Модели, кликаем на кнопку [[Файл:Обновление групп.png|безрамки|20x20px]] «Обновление групп», в диалоговом окне выбираем модель и нажимаем кнопку обновить - ошибка устранена. Переобучать модель не нужно, кнопка «Обновление групп» позволяет внести изменения без переобучения. | ||
Текущая версия от 13:03, 24 декабря 2025
Классификатор (SMC)
В главном меню UPS (Universal Proxy Server) расположены кнопки для перехода в блоки (см. рис. 1):
- SMC Классификатор,
- SEE Сущности,
- SPR Распознавание,
- SBS Биометрия,
- TTS Синтез,
- QAS ЧаВО,
- SES Сценарная машина,
- CLS Информатор,
- Выход.
Переключаться между продуктами можно двумя способами:
- Воспользоваться кнопкой на панели управления «На главную»
(см. табл. 2). - Воспользоваться кнопкой в виде линии , которая находится снизу в центе экрана (см. рис. 2).
Рабочая область «SMC» включает в себя (рис. 2):
- панель управления,
- кнопки переключения между версиями моделей,
- блоки для работы с моделями и данными,
- информация о текущей модели,
- информацию об обучении и тестировании, для обученных и протестированных моделей,
- информационные вкладки.
В блоке интерфейса «Классификатор» есть 3 вкладки:
1. «Модели» – содержит все созданные модели SMC списком в алфавитном порядке. Модели с постобработкой помечены значком
.
2. «Данные» – содержит все корпуса данных SMC списком в алфавитном порядке.
3. «Метки» – содержит все словари меток SMC.
Функционал вкладки «Модели»
Во вкладке «Модели» доступен просмотр информации о модели, а именно:
- название модели,
- версия модели: черновик, рабочая, архив (табл. 1),
- статус модели.
| Иконка версии | Наименование версии модели | Описание |
|---|---|---|
| Черновик | это не примененная модель. Можно обучать, переобучать, тестировать, устанавливать и применять. Можно экспортировать и импортировать. Цвет акцента версии модели - серый. После применения (установки) модель (см. табл.2 «Установка») становится «Рабочей версией». | |
| Рабочая | это модель, которая уже используется в прод (англ. production – производство). Применённую модель нельзя установить заново или обучить. Можно провести ручное тестирование и проверить конкретные фразы (см. табл.2 «Ручная проверка»). Можно экспортировать модель. Цвет акцента версии модели - зелёный. По нажатию кнопки «Архив»- «Рабочая» модель переходит в архивную версию. | |
| Архивная | это рабочая модель, которая переводится в архив (резервную копию) после применения черновика. Можно вернуть архивную модель в рабочую версию, нажав на кнопку «Откат». При этом рабочая версия также становится архивной, то есть рабочая и архивная версии меняются местами. Цвет акцента версии модели - синий. |
Модель SMC имеет свойство «Статус» (рис. 4), которые принимает следующие значения:
- Обучение. Это модель, которая в данный момент обучается.
- Обучена. Доступен просмотр информации о точности обучения, параметрах модели и матрица ошибок.
- Тестирование. Это модель, которая в данный момент тестируется.
- Протестирована. Появляются доп. кнопки «Обучение» и «Тест» (под матрицей ошибок), нажав на которые можно посмотреть матрицу обучения и тестирования соответственно.
- Установлена. В этот статус модель переходит при нажатии кнопки «Установка». В этом статусе возможны Импорт, Экспорт, Обучение, Ручная проверка, Применение модели – по соответствующим кнопкам на панели управления.
- Применена. В статус Применена модель переходит при нажатии кнопки «Применение». Для модели в статусе Применена возможны только – Ручная проверка конкретной фразой по кнопке «Ручная проверка» и экспорт (выгрузка) по кнопке «Экспорт» (см. табл. 2).
- Ошибка. Информирует о сбое процессов импорта, обучения, тестирования, остановки обучения.
Пустые модели больше не отображаются в интерфейсе.
Возможны манипуляции с моделями SMC:
- удаление модели, удаляется текущая версия модели,
- добавление новой модели SMC, нажмите кнопку «Добавить новую модель». Далее доступны два способа:
- Из файла: загрузите архив с готовой моделью.
- Обучить модель: создайте модель с нуля, выбрав для обучения либо корпус текстов, либо словарь меток.
Панель управления вкладки «Модели» SMC
В правом верхнем углу экрана располагается панель управления для вкладки «Модели». На ней располагаются кнопки из таблицы 2. Цвет кнопок указывает на доступность действия для данной модели: синий означает, что кнопка активна, а голубой - что она неактивна.
| Иконка кнопки | Наименование кнопки | Описание |
|---|---|---|
| Экспорт | позволяет экспортировать(выгрузить) модель SMC. | |
| Импорт | позволяет импортировать (добавить) модель SMC. | |
| Обучение | позволяет обучить модель SMC, выбрав данные для обучения из выпадающего списка. И затем следует выбрать метод обучения — по корпусу или по меткам (подробнее см. разд. Функционал вкладки Метки). Обучение на словаре меток имеет преимущества перед корпусом в том, что обучение модели происходит в разы быстрее. | |
| Обновление групп в модели | позволяет обновить группы в модели SMC. При нажатии на кнопку – открывается форма для указания корпуса. | |
| Тестирование | позволяет протестировать модель SMC корпусом данных. При нажатии на кнопку – открывается форма для указания корпуса, с помощью которого нужно протестировать модель. | |
| Ручная проверка1 | позволяет протестировать модель SMC конкретной фразой, увидеть величину достоверности каждого класса, определенного системой. | |
| Установка обработчика в рабочую версию модели | позволяет перезаписать обработчик на применяемой модели без перевода из тестового режима, если изменился только обработчик, а корпус остался прежним. | |
| Установка | переводит модель SMC в статус установлена. После чего кнопка меняется на кнопку «Применение» | |
| Откат | позволяет перевести архивную версию модели SMC обратно в рабочую. | |
| Меню пользователя | отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. *права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны. |
1 Режим «Ручная проверка».
Как описано в таблице 2 этот режим позволяет протестировать модель SMC конкретной фразой. При нажатии на кнопку открывается диалоговое окно со следующими вкладками:
- классификация,
- прочее.
Вкладка классификация содержит поля:
- текст - в это поле записывается фраза для проверки;
- порог доверия - показатель, отражающий степень уверенности в принадлежности новой фразы к конкретному классу (рис. 6). Другими словами, пороговое значение указывает, при какой минимальной вероятности полагаем, что фраза относится к определённому классу.
- Функция коррекции предназначена для исправления опечаток в тексте. Существует три режима работы этой функции, каждый из которых определяет допустимое количество ошибок в слове:
- Базовая: исправляет только слова с минимальными опечатками (1-2 ошибки для коротких слов, макс. 1 ошибка)
- Расширенная: допускает больше исправлений для сложных случаев (добавляет +1 ошибку к базовому порогу, макс. 2 ошибки).
- Агрессивная: корректирует даже сильно искажённые слова (добавляет +2 ошибки к базовому порогу, макс. 3 ошибки).
- либо коррекция может Отсутствовать.
Важно: Эти режимы действуют только при коррекции по словарю модели. Поскольку идет сравнение слова с опечаткой со словом из словаря без ошибок.
Есть галочка расширенный режим - позволяет обратиться сразу к нескольким моделям SMC. После нажатия на кнопку классифицировать, выводится результат - метки классов, которые модель смогла распознать.
Классификатор (SMC) также выводит следующую информацию:
1. Классы: здесь отображается название класса, к которому был отнесен текст, и вероятность его принадлежности к этому классу.
2. Группы: отображается название группы и число совпавших классов. Если метки совпадают с несколькими группами, они отображаются в порядке убывания числа совпавших классов (т.е. чем полнее группа, тем выше ее позиция в списке).
3. Ближайшие группы: отображаются группы, до которых не хватает всего одной метки, с указанием процента заполненности и сортировкой по убыванию этого процента.
Вкладка прочее SMC Классификатора включает в себя несколько опций: анализ на эмоциональность, пунктуация, анализ токсичности и коррекция ошибок, обратная нормализация, сжатие.
Сжатие - позволяет выделить основной смысл фразы.
- текст - в это поле записывается фраза для проверки;
- порог сжатия - означает процент сжатия фразы, например, порог сжатия 100 - выводит всю фразу в окно результата.
Все эти манипуляция можно производить с фразой в блоке - текст.
Информационные вкладки SMC: Сервер, Ошибки, Логи, Постобработка
Справа на экране располагаются информационные вкладки (рис. 7)
- «Серверы» – отображает информацию о серверах и процессах,
- «Ошибки разметки» – в этот раздел попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная),
- «Ошибки обучения» – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась. Также можно, находясь на вкладке «Ошибки обучения» использовать метод «Ручная проверка»,
- «Ошибки тестирования» – доступны для модели в состоянии Протестирована – отображает информацию об ошибках тестирования. Можно выгрузить ошибки в файл с помощью кнопки «Экспорт». Есть возможность преобразовать ошибки в данные корпуса,
- «Логи» – отображают логи процессов обучения, тестирования, точности обучения на разных этапах обучения,
- «Постобработка» – редактор для написания кода handler.py.
Функционал вкладки «Данные» SMC
Вкладка «Данные» SMC (рис. 8) содержит список всех доступных корпусов данных. При выборе различных корпусов данных можно просмотреть информацию о них (рис. 10):
• Название корпуса: можно изменить с помощью иконки «Карандаш». Можно удалить корпус с помощью иконки «Корзина» (см. рис. 10).
• Количество строк – общее количество фраз в корпусе.
• Количество классов – общее количество классов в корпусе.
• Количество групп – отображает общее количества групп в корпусе данных (подробнее см. раздел «Описание подготовки и этапов разметки корпуса данных SMC»).
Под информационным блоком о корпусе данных SMC есть список классов, в котором содержатся названия классов и информация о количестве фраз в каждом классе. Можно удалять и добавлять классы. В самом низу списка есть меню для Экспорт списка классов в формате csv. Есть возможность скрыть блок с корпусами данных, нажав на стрелочку между блоком корпусов и информационным блоком корпуса. Существует три вида (ранга) классов (меток):
- Обычный класс — это класс, который не относится ни к одному из родительских классов.
- Родительский класс — это класс, который включает в себя другие классы. Например, родительский класс «Паспорт» включает в себя два класса-потомка: «паспорт рф_о» и «загранпаспорт_о».
- Класс-потомок — это класс, который относится к какому-либо родительскому классу.
Чтобы преобразовать обычный класс в родительский, нужно выбрать его в списке классов и нажать на самую правую иконку в виде папки (рис. 11), которая говорит «Сделать класс родительским». Чтобы добавить метку в родительский класс, нужно нажать правой кнопкой мыши на метку и выбрать нужный родительский класс из появившегося списка. После этого появится диалоговое окно, подтверждающее действие, и изменения вступят в силу (см. рис. 12). Метка станет классом-потомком.
Удалить родительскую метку, в отличие от обычной, просто так нельзя. Сначала ее нужно вернуть в статус обычной, нажав на иконку «Сделать класс обычным» напротив нужного класса (рис. 13). После этого она будет расформирована и ее можно будет удалить.
Добавление нового корпуса
Для создания нового корпуса данных SMC выполните следующие шаги:
- Перейдите на вкладку «Данные».
- Нажмите кнопку «Добавить новый корпус».
- Введите название корпуса в открывшемся окне.
- Подтвердите создание, нажав кнопку «Добавить».
После создания корпуса вы можете заполнить его данными одним из следующих способов:
1. Ручное добавление
- В нижней части экрана находится форма для ввода текста.
- Добавляйте фразы вручную и сразу выполняйте их разметку в интерфейсе.
2. Импорт данных
Нажмите кнопку «Импорт» и выберите подходящий источник:
- Логи из модели. Создаёт корпус на основе логов рабочей версии и черновых моделей.
- Из ЧаВО. Позволяет загрузить все вопросы из базы знаний QAS. Как использовать:
- Введите название корпуса.
- Нажмите кнопку «Добавить». В результате будет создан корпус, где вопросам из QAS соответствуют метки их категорий.
- Из файла. Загрузите данные из CSV-файла, подготовленного по шаблону системы.
- Из корпуса. Скопируйте данные из существующего в системе корпуса в новый.
Есть возможность проверить корпус на дубликаты, с помощью галочки «Показать дубликаты:» выбрав одну из опций: фраз или полные. В последнем случае будут отображены полные совпадения и по классу, и по фразе. Все дублированные строки выделяются автоматически, чтобы можно было сразу удалить. Аналогичный функционал предусмотрен и для групп.
При включении флага «Показать определившиеся группы» слева появится третий столбец «Группа». В нём будет отображаться название группы, назначенной для данной фразы. Это работает, если у вас создан список групп и заданы комбинации классов, которые в них входят.
Вы можете редактировать группы меток непосредственно в таблице данных:
- Создание или изменение групп
- Введите название новой группы или выберите существующую для одной или нескольких (предварительно выделив галочками) строк таблицы.
- Изменения автоматически синхронизируются с таблицей групп.
- Массовое присвоение групп для выбранных строк
- Выделите нужные строки в таблице.
- Присвойте им группу, внизу появится форма с функцией «Изменить группу»:
- Для строк без группы — будет установлена выбранная группа.
- Для строк с уже назначенной группой — группа будет переопределена на новую.
Можно фильтровать (рис. 14):
1. по названию класса,
2. по фразе или слову,
3. для более точной фильтрации можно использовать переключатель «и», «или», «кроме» и «только».
Есть возможность редактировать фразу в корпусе: вносить изменения в поле с фразой и сохранять изменения (кнопка «Дискета» на панели управления). Можно дополнять корпус данных по кнопке «Импорт» на панели управления (подробнее см. описание функций панели управления). После дополнения не забудьте сохранить изменения. Удаление фраз из корпуса возможно как по одной, так и сразу несколько, для этого нужно выделить необходимые для удаления фразы и нажать на красную иконку «Корзина» в правом нижнем углу блока работы с данными.
Можно вручную добавлять фразы в корпус по одной или сразу несколько (каждая фраза с новой строки, enter в конце каждой фразы)(рис. 15), записав их в поле «Фразы» в нижней части блока для работы с данными. Можно назначить или изменить классы (метки) для фразы, указав новый в поле «Класс» или выбрав существующий класс из выпадающего списка. Метки классов могут быть больше чем одна на одну фразу (мультиклассовая классификация).
Рассмотрим пример разметки новой фразы. Допустим мы хотим добавить вручную две фразы:
- «Здравствуйте, у меня возникли неполадки, возникающие во время установки SBS. Помогите решить проблему. Заранее спасибо.»
- «Добрый день, у меня появляется ошибка при установке биометрии. Заранее благодарю за ответ.»
Разметка производится исходя из того «о чем эта фраза?», задача разметки в том, чтобы помочь модели понять суть фразы. Например, во фразах выше говорится об ошибках во время установки сервиса биометрии, так же присутствует благодарность и приветствие, соответственно метки будут: SBS, ошибка, установка_ПО, благодарность, приветствие.
ВАЖНО: соблюдать однозначность в корпусе.
Имеется функция «Добавить общий класс». С ее помощью можно присвоить одну или несколько общих меток сразу нескольким выбранным из списка фразам (рис. 16 (а)), если была допущена ошибка при разметке фраз. Для изменения набора меток у одной фразы нужно всего лишь один раз щелкнуть на список классов и добавить нужную метку из выпадающего списка или навести курсор на лишнюю метку и, также щелкнув, удалить ее. Если необходимо удалить сразу несколько меток с фразы или нескольких фраз, под кнопкой «Добавить общий класс» есть кнопка «Удалить классы» (рис. 16 (б)). Сначала выделите нужные фразы, а затем выберите класс (классы), которые вы хотите удалить из выпадающего списка, и кликните по кнопке «Удалить классы».
Кроме того, существует еще одна полезная функция для работы в корпусе данных SMC — «объединить метки». Для лучшего понимания рассмотрим пример. Предположим, у вас есть две метки с одинаковым названием — «версия» и «версия», но в одном случае название содержит английскую «е», а в другом — русскую (классы отображаются в алфавитном порядке, метка с английскими буквами будет нарушать его). И этими метками уже помечены некоторые фразы. Чтобы решить эту проблему, можно воспользоваться функцией «объединения». Необходимо скопировать название правильной метки из списка меток («карандаш» — выделить название), затем нажать на «карандаш» напротив неправильной метки и заменить ее названием корректной метки. После этого метки объединятся и останется только корректная метка. Если эти метки принадлежат какой-либо группе, то замена произойдет и в ней. Возможность объединения групп также предусмотрена и осуществляется по такому же алгоритму.
Однако есть некоторые особенности работы этой функции при работе с классами-потомками. Функция работает только в том случае, если вы хотите объединить метки в пределах одного родительского класса. То есть нельзя объединить классы разных рангов, например родитель — потомок, в этом случае появится сообщение об ошибке и невозможности объединить две метки из разных родительских классов (рис. 17).
Работа с группами классов
Интерфейс вкладки «Группы» аналогичен вкладке «Данные». Панель управления описана в таблице 3.
Основные функции вкладки:
- Создание и редактирование групп: Используйте поля для ввода названия группы и добавления в неё классов. Все группы отображаются в окне «Список групп».
- Переименование группы: Нажмите на значок карандаша рядом с названием группы в списке, введите новое имя и сохраните изменения (зелёная галочка). После переименования или любых внесенных изменений необходимо обновить группы в модели (см. ниже).
Фильтрация и поиск:
- Фильтруйте данные по группам и классам.
- Для точной настройки фильтра используйте правую панель с операторами: «И», «ИЛИ», «Кроме», «Только».
- Для отображения повторяющихся строк включите флажок «Показать дубликаты» и выбрав одну из опций: полные (будут отображены полные дубли) и классов (отобразятся дубли по комбинации классов).
Массовые операции с группами:
- Выделите нужные группы с помощью флажков.
- В нижней части окна появится меню для массовых действий:
- Добавить класс: выбранный класс будет добавлен ко всем выделенным группам.
- Удалить класс: выбранный класс будет удален из всех выделенных групп.
- Копировать: создание копий выделенных групп в одном из трёх режимов:
- Простое копирование.
- Копирование с добавлением выбранного класса.
- Копирование с удалением выбранного класса.
Обновление модели после изменения групп
Если вы внесли изменения в состав или названия групп, необходимо применить эти изменения к работающей модели.
- Нажмите кнопку «Обновление групп в модели» на панели управления.
- Модель классификатора будет дообучена с учётом внесённых правок без необходимости полного повторного обучения.
Важно: Эта операция необходима после переименования групп, массового добавления/удаления классов или изменения состава групп, чтобы модель начала учитывать новые правила.
Описание подготовки и этапов разметки корпуса данных
Классификатор SMC использует мультиклассовый подход: одна текстовая фраза может быть отнесена одновременно к нескольким классам (меткам).
Процесс подготовки данных состоит из двух ключевых этапов (вы можете выполнить оба или только один из них):
Разметка фраз классами
При добавлении новой фразы необходимо назначить ей один или несколько классов.
- Выбор существующего класса: укажите нужные классы из выпадающего списка «Классы».
- Создание нового класса: введите название нового класса в поле «Класс» и нажмите кнопку «Добавить новый класс».
Подробное описание функционала вкладки «Данные» и пример разметки новой фразы представлены в соответствующем разделе инструкции.
Группировка классов
Это этап пост-обработки, который выполняется после формирования корпуса и обучения модели. Его цель — оптимизировать выходные данные модели для создания вопросно-ответных пар.
- Назначение: Группировка помогает модели без дообучения определять, к какой группе классов принадлежит новая, ранее не встречавшаяся фраза.
- Результат: Формируются группы, которые агрегируют несколько отдельных классов (меток) и используются для конечного ответа.
Панель управления вкладки «Данные» сервиса SMC
Панель управления на вкладке «Данные» отличается своими функциями. В таблице 3 представлен список кнопок.
| Иконка кнопки | Наименование кнопки | Описание |
|---|---|---|
| Экспорт | позволяет экспортировать (выгрузить) корпус данных. | |
| Импорт | позволяет импортировать данные из внешнего файла, логов обращений к модели, уже существующего в системе корпуса или базы знаний ЧаВО.
Если выбран вариант «Из файла», нужно выбрать файл для загрузки. Поддерживаемые форматы файлов: csv, txt. Кодировка — UTF-8. Затем можно выбрать действие: дополнить или заменить. Если выбрано «дополнить», данные текущего корпуса будут дополнены данными из файла или корпуса. Если выбрано «заменить», данные текущего корпуса будут полностью заменены данными из файла или корпуса. | |
| Авторазметка | позволяет автоматически разметить корпус по словарю меток (подробнее см. разд Функционал вкладки Метки). В диалоговом окне необходимо заполнить поля с названием задачи, выбрать из списка нужный словарь меток. Из выпадающего списка «Метки» выбрать либо замену меток, либо дополнение. И запустить авторазметку.
После этого автоматически размеченный корпус будет доступен для обычного редактирования разметки. | |
| Копировать | позволяет скопировать корпус данных. | |
| Сохранить | сохранение изменений. | |
| Меню пользователя | отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. *права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны. |
Функционал вкладки «Метки»
Интерфейс вкладки «Метки» представлен на рисунке 19. Слева вы увидите список всех доступных словарей. Чтобы открыть один из них, просто нажмите на его название — и в центральной части экрана появится сам словарь.
Процесс добавления нового словаря состоит из двух простых шагов:
1. Нажмите на кнопку «Добавить словарь меток», расположенную в нижней левой части экрана. В появившемся диалоговом окне введите название нового словаря.
2. Затем добавьте данные в словарь: укажите название метки и пороговое значение коэффициента достоверности в левой части таблицы и её определяющие фразы в правой части таблицы. Более подробную информацию вы найдёте в разделе «Подготовка словаря меток». Если у вас уже есть файл с описанием меток, вы можете воспользоваться кнопкой Импорт на панели управления (см. раздел Панель управления вкладки «Метки»).
Подготовка словаря меток
Подготовка словаря меток включает в себя определение набора требуемых меток под конкретную задачу. После этого нужно в описание каждой метки добавить все возможные определяющие фразы, которые однозначно определяют эту метку, каждое слово (фраза) с новой строки. Не нужно добавлять целые фразы, как это делается при разметке SMC. Принцип описания больше похож на разметку SEE корпуса: просто укажите ключевые слова или словосочетания, которые определяют данную метку, а также все, что хотите отнести к этой метке.
Например, мы создаем метку «Документация» и в определяющих фразах указываем все возможные варианты, которые однозначно описывают эту метку с новой строки: «дока», «инструкция», «документация», «мануал».
Подготовленный для импорта документ должен быть в формате csv. И иметь следующую структуру:
Метка<TAB>Описание 1, Описание 2, ..., Описание N<TAB>Порог
Пороговое значение в файле указывается в диапазоне [0,1]. Далее при необходимости это значение можно будет поменять в интерфейсе.
После того как словарь будет заполнен или загружен, вы сможете редактировать описания меток и их названия в интерфейсе. Чтобы внести изменения в определяющие фразы, просто нажмите на поле метки и в левой части таблицы будут показаны фразы этой метки. Не забудьте сохранить изменения.
Чтобы удалить лишнюю фразу или метку - наведите курсор на выбранную строку и нажмите на появившуюся иконку корзинки в конце строки
. Не забудьте сохранить изменения.
Также сверху таблицы словаря меток располагается поле ввода "Поиск по фразе". При ее заполнении будут отфильтровываться метки, содержащие введенную фразу (левая таблица), и совпадения по фразе в выбранной метке (правая таблица).
Панель управления вкладки «Метки»
Описание функционала панели управления на вкладке «Метки» представлено в таблице 4.
| Иконка кнопки | Наименование кнопки | Описание |
|---|---|---|
| Экспорт | позволяет экспортировать (выгрузить) словарь меток. | |
| Импорт | Позволяет импортировать (добавлять) данные из файла. По нажатию на кнопку появится диалоговое окно, в котором требуется выбрать файл с компьютера в формате csv. | |
| Сохранить | сохранение изменений. | |
| Удалить | позволяет удалить выбранный словарь меток. | |
| Меню пользователя | отображает меню пользователя (имя, смена пароля, выход из системы). В меню пользователя добавлена функция выбора набора данных* (модели, корпуса, метки). Это позволяет работать с различными изолированными группами данных в рамках одной учетной записи.
При изменении активного набора данных система автоматически обновляет список пользовательских данных в сервисе. Это обеспечивает удобное переключение между разными проектами или рабочими пространствами без необходимости перезагрузки интерфейса. *права на создание наборов данных есть у администраторов или у ролей, где эти права прописаны. |
Работа с ошибками SMC
Во время работы с классификатором, вы можете столкнуться с 3-мя видами ошибок:
- ошибки разметки;
- ошибки обучения;
- ошибки тестирования.
Как описано выше в разделе «Информационные вкладки: Сервер, Ошибки, Логи, Постобработка» - «ошибки разметки» – раздел куда попадают фразы и метки, предположительно с ошибкой разметки, то есть те, что вызвали сложности у модели. Это может быть связано с недостаточным количеством данных с этими метками в корпусе (так называемые «слабые данные»), либо наиболее часто встречающаяся - с действительной проблемой в процессе разметки данных (то есть, недостающая метка или избыточная). Вкладка «ошибки обучения» – отображает информацию об ошибках обучения для модели в состоянии «Обучена», те фразы, которыми модель так и не обучилась.
«Ошибки тестирования» являются наиболее сложными и делятся на два основных типа:
- нехватка данных, тогда необходимо обогатить корпус данных фразами и разметкой;
- нехватка комбинаций меток для группы.
Пример ошибки типа 1. Нехватка данных.
Есть фраза «Директор МФЦ иркутской области» - модель классифицирует ее неправильно, на скриншоте (см. рис. 20) этой фразе присвоены метки: Иркутская область_о, как_в, губернатор_о Это происходит из-за того, что директор и губернатор - имеют семантическое сходство, так как являются руководителями. Но в связке с Иркутской областью - упоминания директора в корпусе не было. Поэтому модель исходя из имеющихся у нее данных - определила для этой фразы - метку губернатор_о. Группа: кто является губернатором иркутской области района.
Если мы отфильтруем корпус данных по слову директор, то увидим, что в корпусе отсутствуют фразы где и директор и иркутская область упоминались бы одновременно, а так же не была определена метка мфц_о, следовательно фразы директор мфц (дополнительно добавленная выделенная фраза) тоже не хватало (см. рис. 21). Нужно добавить эти фразы в корпус, сохранить изменения, переобучить модель, так как вносились изменения в данные, и ошибка будет устранена.
Пример ошибки типа 2. Нехватка комбинаций меток для группы.
Имеется фраза «а какие документы нужно подать для оформления путевки инвалиду». Проводим тестирование в ручном режиме и видим, что этой фразе не присвоена ни одна группа, а значит нет конечной точки, которой бы соответствовал полученный от модели набор меток. (см. рис. 22).
Переходим во вкладку Данные, выбираем нужный корпус данных, идем во вкладку Группы. Далее фильтруем группы по Классам: инвалидность_о, путевка в санаторий_о переводим переключатель справа в положение «и» (см. рис. 23) и смотрим, что у нас отсутствует комбинация меток: с подачей документов. Добавляем еще одну комбинацию (см. рис. 23), сохраняем изменения, переходим во вкладку Модели, кликаем на кнопку
«Обновление групп», в диалоговом окне выбираем модель и нажимаем кнопку обновить - ошибка устранена. Переобучать модель не нужно, кнопка «Обновление групп» позволяет внести изменения без переобучения.