Maleev

Дикторонезависимая система распознавания слитной речи

к.т.н. Олег МалеевДиректор по научно-исследовательским разработкамSpeereo [email protected]

Speereo Software компания основана в 1998 году.

Компания специализируется на разработке речевых технологий.Технологии Speereo включают:1.Распознавание речи - Поддерживаются русский и английский языки.- Дикторонезависимая система распознавания речи с большим словарем.- Высокая точность и устойчивость к шумам и акцентам говорящего- Компактность. Возможно применение в мобильных системах. 2.Синтез речи, поддерживается русский, английский, французский и испанский языки.3.Высокоэффективное сжатие речи1 MB более 1.5 часов речи

Speereo Software Компания на основе собственных технологий разработала ряд программных продуктов для мобильного рынка

• Speereo Voice OrganizerПриложение объединяет мощную телефонную книгу, удобный номеронабиратель, голосовую почту и планировщик событий. Все функции программы управляются голосом.• Speereo Voice Launcher Запуск приложений смартфона с помощью голоса• Speereo Voice RSS Reader Чтение новостей с RSS каналов с помощью синтезатора речи• Speereo Voice Translator Перевод фраз с 18 языков. Используются функции распознавания и синтеза речи

Речевые технологии нужны промышленности уже сегодня!

• Картография: речевая навигация, поиск точек, настройка и озвучивание маршрута, речевые подсказки по POI, пр.

• Автомобиль: управление различными устройствами, навигация, дополнительные услуги, голосовая связь (мобильная, эл.почта), чтение сообщений/почты/новостей вслух, пр.

• Мобильный телефон: речевое управление системными функциями, пользовательские команды, пр.

• Медицина: речевые интерфейсы для пациентов и мед.персонала.

• Телефонные центры обслуживания клиентов (помощь и поддержка) и так далее!

Общая структура

РечьРечь

шумшум

Первичная обработка

Первичная обработка ДекодерДекодер

Модель языка

Модель языка

СловарьСловарь

Фонетическиемодели

Фонетическиемодели

РезультатраспознаванияРезультатраспознавания

Модель окружающей

среды

Модель окружающей

среды

Первичная обработка

• Система признаков

• Оценка параметров окружающей среды

• Специальные алгоритмы по определению типа микрофона и устранению искажений канала передачи

• Специальные алгоритмы для устойчивой работы системы в автомобиле

Декодер• Непрерывные скрытые марковские модели(больше

точность).• Дискретные скрытые марковские модели

(больше скорость).• Нейронные сети• Параметры моделей определяются статистически• Высокооптимизированный алгоритм декодера для работы

в реальном масштабе времени.

Облачные сервера

• Возможность использовать большие вычислительные ресурсы

• Легкая интеграция со стороны разработчиков устройств

• Необходимость связи с сервером (оплата трафика, доступно не везде)

• Время ожидания пересылки речевого сообщения заметно для пользователя

Распознавание на устройстве

• Высокая эффективность алгоритмов (увеличение быстродействия и времени автономной работы для мобильных устройств)

• Кроссплатформенность, поддержка большой линейки актуальных процессоров (ARM, SHx, Atom и т.д.

• Сравнительно небольшие объемы доступной памяти (5-10 MB)

От идеальных условий к реальным

• Офисные шумы

• Мобильные устройства требуют большей устойчивости по шуму (могут использоваться на улице)

• Автомобильные шумы

• Распознавание речи на фоне посторонних голосов

• Дистанционное распознавание

Система распознавания SpeereoБолее 10 лет исследований в области речевых технологий

• Дикторонезависимость

• Высокая точность распознавания ( до 99%)

• Устойчивость к различным видам шумов (в автомобильных шумах точность до 98%)

• Поддержка нескольких языков (Английский, Русский)

• Компактность. Есть решение для встроенных систем (ARM, SHx, MIPS)

• Тест 1: Распознавания длинных фраз

Условия: 600 фраз. Язык – английский.Уровень распознавания – 99.9%.

• Тест 2: Распознавание коротких слов

Условия: числовой словарь (включая невнятно произносимые слова).

Язык – английский: уровень распознавания – 99.2%.Язык – русский: уровень распознавания – 99%.

Точность распознавания

Шумоустойчивость системы распознавания

• Тест 3: точность распознавания в зависимости от окружающих шумов.

SNR (dB) 0 5 10 15 20 >50

Точность(%) 98,2 98,4 98,3 98,6 98,7 99,2

Система распознавания речи Speereo продемонстрировала высокую шумоустойчивость.

• Тест 4: длинные фразы в шумной среде

Условия: 600 фраз. Шум – движущийся автомобиль с открытыми окнами.

Язык – Английский.Уровень распознавания – 97,6%.

Специально разработанные алгоритмы позволяют достичь высокого уровня распознавания речи в движущемся автомобиле.

Система распознавания речи Speereo в машине

-Компактность. Минимальные требования по памяти 1-2 MB-Система распознавания речи Speereo работает с процессорами,

производительностью от 100 MIPS-Поддержка широкого класса процессоров SHx, TMPR39XX, NEC

VR4122, MIPS, ARM, x86 и т.д.

Требования к аппаратной части

• Интуитивно понятные и простые инструменты разработки, доступные для неспециалистов в сфере речевых разработок.

• Масштабируемость ПО.

• Возможность использования технологии в различных операционных системах или в устройствах без OC.

Инструменты для интеграции систем распознавания

Speereo Speech Engine(Windows CE версия)

Speereo Speech Engine

Audio Input-Output

Application 1

List of speech commands

Speech commandspronounced by user

Application 2

. . .

Application N

Использование SSE можно разбить на две стадии:

1.Приложение определяет активность SSE и, если необходимо, передает список речевых команд.2.Пользователь произносит фразу (команду), SSE производит распознавание и передает идентификатор команды в приложение.

Разработчику не требуется определять момент произнесения фразы. Все, что нужно – обработать команду, основываясь на переданном SSE идентификаторе.

Использование SSE

Initialization of Speereo Speech Engine

In order to use the speech interface in the program, the developer must register that program in Speereo Speech Engine; it is necessary to call the function AddRegisterApplication for it.

The function prototype is as follows:

UINT AddRegisterApplication (HWND hWnd),

where hWnd – is the handle of the developer’s application window which receives the message from SE

Creation of the speech commands list

It is realized by the call of the AddPhrase function for each speech command.

void AddPhrase (LPCTSTR pszText, DWORD dwId),where

pszText is a speech command in orthographic form; dwId is the integer identifier of the speech command that will be returned

by SE if the speech command is pronounced.

Sample of defining speech commands

AddPhrase (_T(“Open Window”), ID_OPEN_WINDOW);AddPhrase (_T(“Close Window”), ID_CLOSE_WINDOW);

In this example, two speech commands (“ Open Window ” and “ Close Window ”) are passed to SE: with the identifiers ID_OPEN_WINDOW and ID_CLOSE_WINDOW accordingly.

Response receipt from SE

The WM_SRT_ACCEPTHYPO message passes the identifier of the recognized speech command as the wPARAM parameter. The message comes from SE to the application window, hWnd of which was used in the AddRegisterApplication function as its parameter.

Example:

case WM_SRT_ACCEPTHYPO:

MakeHypo (wParam);

return TRUE;

MakeHypo is the developer's function for implementation of speech commands functionality here.

Для внедрения речевого интерфейса Speereo требуется всего три шага:

1.Инициализация Speereo Speech Engine.

2.Определение списка речевых команд.

3.Определение реакции приложения на список речевых команд.

Все настолько просто!

Выводы

В настоящее время речевые технологии готовы для широкого внедрения на встроенных и мобильных устройствах:

Технологии Speereo• Дикторонезависимое распознавание речи

от 100 MIPS, память от 1 MB• Синтезатор речи

от 80 MIPS, память от 2Mb.

• Сжатие речиот 40 MIPS, память от 200 KB.

Вопросы?

Speereo Software UKwww.speereo.com

к.т.н. Олег МалеевДиректор по научно-исследовательским разработкамSpeereo [email protected]

Documents

Maleev