Интеграция с SaluteSpeech¶
- Table of contents
- Интеграция с SaluteSpeech
Назначение¶
Модуль Интеграции c SaluteSpeech предназначен для распознавания звука в текст, он может использоваться в приложениях Digispot II: Джинн и Трек-2.
В приложении Джинн возможно распознавать аудиофайлы через файловый браузер и элементы МБД. Модуль может распознавать файлы всех поддерживаемых Джинном форматов, а также *.tpr файлы.
В случае расшифровки файлов через файловый браузер результат распознавания сохраняется в файл с исходным названием с расширением .txt в формате UFT8_BOM. Для элементов МБД создается копия исходного элемента в установленной категории, с типом Сюжет.
В приложении Трек-2 возможно расшифровать звук как всего аудиофайла, так и выделенный фрагмент между маркерами, при этом результат распознавания записывается в поле Сюжет.
Настройка¶
Настройка модуля производится в меню Сервис - Общие настройки - Доп. - Система распознавания речи SaluteSpeech.

Параметры подключения к SaluteSpeech:
- Идентификатор клиента (Client ID)— идентификатор в формате: 2dc3b245-126c-4951-7c8d-8b92fa38c63b
- Ключ клиента (Client secret) - ключ в формате: 08432577-ec81-4271-b686-2cd4e76be41e
- Токен авторизации (Authorization key) - токен в формате: M2JjV2IxCTUtDTk2Yi00OTYxLTlkOGQtOGQ5MnRhMzhjNjNiOjA4Mzc3PTA3LWViODEtNDcwMS1iOTU2LTNiZDVlNzZiZTYxYg==
- Тип лицензии - возможные значения: SALUTE_SPEECH_PERS, SALUTE_SPEECH_CORP, SALUTE_SPEECH_B2B. Тип зависит от приобретённой лицензии.
Получить Client ID, Client secret или Authorization key можно на сайте SaluteSpeech после регистрации, выбора тарифного плана и получения лицензии.
Параметры системы Digispot 2:
-
Аудио формат для загрузки — формат аудио, в который конвертируются файлы для загрузки на сервер SaluteSpeech и дальнейшего распознавания.
Если используется формат Стерео, то в результате расшифровки левый и правый канал будут расшифрованы по отдельности.
Если используется формат Моно, то в результате расшифровки будет получен общий результат распознавания; - Выводить сообщение после завершения задачи - вывод результата завершения расшифровки звука, возможные значения: Всегда, Никогда, Только при наличии ошибок;
-
Сохранять в категории - настройки сохранения сюжетов в определённые категории в зависимости от типа материала.
Если категория не настроена, то сюжет будет сохранться в ту же категорию, где находится расшифрованный звуковой элемент.
Если категория настроена, то все расшифрованные материалы опредёлнного Типа будут сохранться в одну категорию.
Интерфейс¶
Для расшифровки файла необходимо выбрать его в файловом браузере, нажать правой кнопкой мыши и в контекстом меню выбрать пункт Расшифровать звук в текст:

Для расшивровки элемента МБД необходимо выбрать его в окне БД, нажать правой кнопкой мыши и в контекстом меню выбрать пункт Расшифровать звук в текст:

В Трек-2 для расшифровки всей фонограммы необходимо кликнуть по сигналограмме правой кнопкой мыши и выбрать из контекстного меню пункт Расшифровать звук в текст, а для расшифровки фрагмента между маркерами необходимо выбрать пункт Расшифровать звук в текст []. Также указанные функции продублированы кнопками в верхней части окна приложения:

После запуска расшифровки открывается окно прогресса:

Нажатием на кнопку Остановить задания задачу можно отменить.
Если функция Выводить сообщение после завершения задачи активна, то после завершения расшифровки выводится окно с результатом:
