25
Дикторонезависимая система распознавания слитной речи к.т.н. Олег Малеев Директор по научно-исследовательским разработкам Speereo Software [email protected]

Maleev

Embed Size (px)

DESCRIPTION

Выступление компании Speereo на конференции AINL. Олег Малеев.

Citation preview

Page 1: Maleev

Дикторонезависимая система распознавания слитной речи

к.т.н. Олег МалеевДиректор по научно-исследовательским разработкамSpeereo [email protected]

Page 2: Maleev

Speereo Software компания основана в 1998 году.

Компания специализируется на разработке речевых технологий.Технологии Speereo включают:1.Распознавание речи - Поддерживаются русский и английский языки.- Дикторонезависимая система распознавания речи с большим словарем.- Высокая точность и устойчивость к шумам и акцентам говорящего- Компактность. Возможно применение в мобильных системах. 2.Синтез речи, поддерживается русский, английский, французский и испанский языки.3.Высокоэффективное сжатие речи1 MB более 1.5 часов речи

Page 3: Maleev

Speereo Software Компания на основе собственных технологий разработала ряд программных продуктов для мобильного рынка

• Speereo Voice OrganizerПриложение объединяет мощную телефонную книгу, удобный номеронабиратель, голосовую почту и планировщик событий. Все функции программы управляются голосом.• Speereo Voice Launcher Запуск приложений смартфона с помощью голоса• Speereo Voice RSS Reader Чтение новостей с RSS каналов с помощью синтезатора речи• Speereo Voice Translator Перевод фраз с 18 языков. Используются функции распознавания и синтеза речи

Page 4: Maleev

Речевые технологии нужны промышленности уже сегодня!

• Картография: речевая навигация, поиск точек, настройка и озвучивание маршрута, речевые подсказки по POI, пр.

• Автомобиль: управление различными устройствами, навигация, дополнительные услуги, голосовая связь (мобильная, эл.почта), чтение сообщений/почты/новостей вслух, пр.

• Мобильный телефон: речевое управление системными функциями, пользовательские команды, пр.

• Медицина: речевые интерфейсы для пациентов и мед.персонала.

• Телефонные центры обслуживания клиентов (помощь и поддержка) и так далее!

Page 5: Maleev

Общая структура

РечьРечь

шумшум

Первичная обработка

Первичная обработка ДекодерДекодер

Модель языка

Модель языка

СловарьСловарь

Фонетическиемодели

Фонетическиемодели

РезультатраспознаванияРезультатраспознавания

Модель окружающей

среды

Модель окружающей

среды

Page 6: Maleev

Первичная обработка

• Система признаков

• Оценка параметров окружающей среды

• Специальные алгоритмы по определению типа микрофона и устранению искажений канала передачи

• Специальные алгоритмы для устойчивой работы системы в автомобиле

Page 7: Maleev

Декодер• Непрерывные скрытые марковские модели(больше

точность).• Дискретные скрытые марковские модели

(больше скорость).• Нейронные сети• Параметры моделей определяются статистически• Высокооптимизированный алгоритм декодера для работы

в реальном масштабе времени.

Page 8: Maleev

Облачные сервера

• Возможность использовать большие вычислительные ресурсы

• Легкая интеграция со стороны разработчиков устройств

• Необходимость связи с сервером (оплата трафика, доступно не везде)

• Время ожидания пересылки речевого сообщения заметно для пользователя

Page 9: Maleev

Распознавание на устройстве

• Высокая эффективность алгоритмов (увеличение быстродействия и времени автономной работы для мобильных устройств)

• Кроссплатформенность, поддержка большой линейки актуальных процессоров (ARM, SHx, Atom и т.д.

• Сравнительно небольшие объемы доступной памяти (5-10 MB)

Page 10: Maleev

От идеальных условий к реальным

• Офисные шумы

• Мобильные устройства требуют большей устойчивости по шуму (могут использоваться на улице)

• Автомобильные шумы

• Распознавание речи на фоне посторонних голосов

• Дистанционное распознавание

Page 11: Maleev

Система распознавания SpeereoБолее 10 лет исследований в области речевых технологий

• Дикторонезависимость

• Высокая точность распознавания ( до 99%)

• Устойчивость к различным видам шумов (в автомобильных шумах точность до 98%)

• Поддержка нескольких языков (Английский, Русский)

• Компактность. Есть решение для встроенных систем (ARM, SHx, MIPS)

Page 12: Maleev

• Тест 1: Распознавания длинных фраз

Условия: 600 фраз. Язык – английский.Уровень распознавания – 99.9%.

• Тест 2: Распознавание коротких слов

Условия: числовой словарь (включая невнятно произносимые слова).

Язык – английский: уровень распознавания – 99.2%.Язык – русский: уровень распознавания – 99%.

Точность распознавания

Page 13: Maleev

Шумоустойчивость системы распознавания

• Тест 3: точность распознавания в зависимости от окружающих шумов.

SNR (dB) 0 5 10 15 20 >50

Точность(%) 98,2 98,4 98,3 98,6 98,7 99,2

Система распознавания речи Speereo продемонстрировала высокую шумоустойчивость.

Page 14: Maleev

• Тест 4: длинные фразы в шумной среде

Условия: 600 фраз. Шум – движущийся автомобиль с открытыми окнами.

Язык – Английский.Уровень распознавания – 97,6%.

Специально разработанные алгоритмы позволяют достичь высокого уровня распознавания речи в движущемся автомобиле.

Система распознавания речи Speereo в машине

Page 15: Maleev

-Компактность. Минимальные требования по памяти 1-2 MB-Система распознавания речи Speereo работает с процессорами,

производительностью от 100 MIPS-Поддержка широкого класса процессоров SHx, TMPR39XX, NEC

VR4122, MIPS, ARM, x86 и т.д.

Требования к аппаратной части

Page 16: Maleev

• Интуитивно понятные и простые инструменты разработки, доступные для неспециалистов в сфере речевых разработок.

• Масштабируемость ПО.

• Возможность использования технологии в различных операционных системах или в устройствах без OC.

Инструменты для интеграции систем распознавания

Page 17: Maleev

Speereo Speech Engine(Windows CE версия)

Speereo Speech Engine

Audio Input-Output

Application 1

List of speech commands

Speech commandspronounced by user

Application 2

. . .

Application N

Page 18: Maleev

Использование SSE можно разбить на две стадии:

1.Приложение определяет активность SSE и, если необходимо, передает список речевых команд.2.Пользователь произносит фразу (команду), SSE производит распознавание и передает идентификатор команды в приложение.

Разработчику не требуется определять момент произнесения фразы. Все, что нужно – обработать команду, основываясь на переданном SSE идентификаторе.

Использование SSE

Page 19: Maleev

Initialization of Speereo Speech Engine

In order to use the speech interface in the program, the developer must register that program in Speereo Speech Engine; it is necessary to call the function AddRegisterApplication for it.

The function prototype is as follows:

UINT AddRegisterApplication (HWND hWnd),

where hWnd – is the handle of the developer’s application window which receives the message from SE

Page 20: Maleev

Creation of the speech commands list

It is realized by the call of the AddPhrase function for each speech command.

void AddPhrase (LPCTSTR pszText, DWORD dwId),where

pszText is a speech command in orthographic form; dwId is the integer identifier of the speech command that will be returned

by SE if the speech command is pronounced.

Page 21: Maleev

Sample of defining speech commands

  AddPhrase (_T(“Open Window”), ID_OPEN_WINDOW);AddPhrase (_T(“Close Window”), ID_CLOSE_WINDOW);

In this example, two speech commands (“ Open Window ” and “ Close Window ”) are passed to SE: with the identifiers ID_OPEN_WINDOW and ID_CLOSE_WINDOW accordingly.

Page 22: Maleev

Response receipt from SE

The WM_SRT_ACCEPTHYPO message passes the identifier of the recognized speech command as the wPARAM parameter. The message comes from SE to the application window, hWnd of which was used in the AddRegisterApplication function as its parameter.

 Example:

case WM_SRT_ACCEPTHYPO:

MakeHypo (wParam);

return TRUE;

 MakeHypo is the developer's function for implementation of speech commands functionality here.

Page 23: Maleev

Для внедрения речевого интерфейса Speereo требуется всего три шага:

1.Инициализация Speereo Speech Engine.

2.Определение списка речевых команд.

3.Определение реакции приложения на список речевых команд.

Все настолько просто!

Page 24: Maleev

Выводы

В настоящее время речевые технологии готовы для широкого внедрения на встроенных и мобильных устройствах:

Технологии Speereo• Дикторонезависимое распознавание речи

от 100 MIPS, память от 1 MB• Синтезатор речи

от 80 MIPS, память от 2Mb.

• Сжатие речиот 40 MIPS, память от 200 KB.

Page 25: Maleev

Вопросы?

Speereo Software UKwww.speereo.com

к.т.н. Олег МалеевДиректор по научно-исследовательским разработкамSpeereo [email protected]