Click here to load reader
Upload
nlpseminar
View
981
Download
1
Embed Size (px)
Citation preview
СНЯТИЕ ОМОНИМИИ И НОРМАЛИЗАЦИЯ ТЕКСТА В СИСТЕМЕ СИНТЕЗА РУССКОЙ РЕЧИ
О.Г. Хомицевич (ЦРТ)
AINL: Искусственный Интеллект,
Естественный Язык
26 мая 2012 года, Санкт-Петербург
2
Синтез речи по тексту
Этапы обработки текста:
• Нормализация текста:
• Деление на слова, предложения, выделение знаков
препинания…;
• Расшифровка специальных обозначений;
• Извлечение информации о слове из словаря;
• Снятие омонимии (омографии);
• Деление на синтагмы, интонационное оформление;
• Транскрипция;
• Озвучивание.
3
Подготовка текста к синтезу речи
Текст, поступающий на вход программы синтеза речи:
• Фрагмент крупного метеорита взорвался на
высоте 5-10 км утром 30 июня 1908 года.
• Необходимо привести текст к «читабельному» виду;
• Подготовка:
• Приведение цифр к словесному виду;
• Расшифровка сокращений;
• Определение места ударения в слове;
• И т.п.
4
Подготовка текста к синтезу речи
Неоднозначность при обработке текста:
• Фрагмент крупного метеорита взорвался на
высоте 5-10 км утром 30 июня 1908 года.
• Выбор разряда числительного:
• 5-10 км
• 5-10 июня
• 5-10 этажей??
• Выбор формы числительного, сокращения:
• на высоте 5-10 км
• составляет 5-10 км
• в 5-10 км от…
• Выбор места ударения в слове:
• года, года;
• И т.п.
5
Способы решения проблемы обработки текста
Статистические методы
• Проблема: нужен корпус большого объема, который
содержал бы различные обозначения и их
расшифровки, снятую омонимию и т.п…
Синтаксический и семантический анализ текста
• Проблема: может занимать много ресурсов,
зачастую требует предварительного снятия
омонимии…
6
Способы решения проблемы обработки текста
Частичный (локальный) анализ текста хорошо подходит для задач
синтеза речи:
• Анализируется окружение конкретного проблемного слова;
• Контекстные правила с интуитивно понятным синтаксисом
хранятся в отдельных файлах, а не в коде программы;
• Проблема: остаются сложные случаи, для анализа которых
требуется синтаксическая/семантическая обработка всего
предложения.
7
Расшифровка сокращений и специальных знаков
Виды обозначений в естественных текстах:
• Сокращения и условные обозначения из различных
элементов: км., и.о., мск, Гб, м/с, м2, C#...
• Тот факт, что многие сокращения пишутся с точкой, создает
проблемы для алгоритма деления на предложения;
• Многие сокращения являются неоднозначными: м=«метр»
или «метро», Кб или КБ, им.=местоимение или «имени»…
• Римские цифры должны быть переведены в арабские.
• Специальные знаки: %, °, $, *, №…
• А еще есть аббревиатуры, латиница, смайлики…
8
Расшифровка сокращений и специальных знаков
Расшифровка осуществляется при помощи анализа
ближайшего контекста слова:
• Наличие числительного слева: 1 км, 2 км, 12 км, 22 км;
• Наличие предлога слева, в том числе перед
числительным (более 1 км, к 1 км…);
• Наличие рядом слова, ключевого для согласования:
2012 г., г. Псков, ст. 105 УК РФ, ст. Москва-
Сортировочная…
9
Расшифровка цифровых записей
Расшифровка осуществляется в несколько этапов:
• Выделение специальных форматов (дата, время,
телефон…);
• Определение разряда числительного (количественное
или порядковое);
• Определение формы числительного (падеж, род).
10
Расшифровка цифровых записей
• Выделение специальных форматов:
• Анализ вида записи: ХХХ-ХХ-ХХ, ХХ:ХХ; 13-30 vs 60-65.
• Поиск ключевых слов, например: телефон, мобильный, по
московскому времени…
• Анализ контекста для количественных и порядковых
числительных:
• Поиск слов, сочетающихся по преимуществу с порядковыми
числительными (год…).
• Наличие предлога и т.п. слева: к 10, достигло 10…
• Наличие согласованного слова справа: 10 пальцев, 10
пальцами, на 23 московских театральных площадках, 10 этаж,
62 день…
11
Снятие омонимии (омографии)
Виды омонимов:
• Для синтеза речи наиболее важны омонимы, различающиеся
произношением (омографы);
• Может различаться ударение и/или «ѐ»/«е»;
• Омонимы могут иметь одинаковые грамматические признаки:
замок – замок;
• Либо различаться грамматическими характеристиками:
• Омонимичные формы внутри одной парадигмы
(например, род.п.ед.ч. – им.п.мн.ч.: облака-облака,
страны-страны…)
• Омонимичные формы разных парадигм (например,
существительное-инфинитив: вести-вести, пропасть-
пропасть).
• Омонимы могут существенно различаться по частотности (уха-
уха, сорока-сорока, кредит-кредит, мою-мою…)
12
Снятие омонимии (омографии)
Разрешение омонимии требует более глубокого анализа контекста:
• На уровне индивидуальных слов:
• анализ слов непосредственно рядом с текущим: скрыто
за семью замками, в четырех стенах;
• поиск ключевых слов в предложении: Дверь была
заперта на необычный замок;
• На уровне классов словоформ – анализ грамматического
окружения: поиск согласованных слов в предложении.
• Грамматические правила, увеличивающие вес
словоформы в зависимости от ее окружения.
• Пример правила: HW(psp={1,2}) & WL:1(0,
psp={3,7} & Agreement(%0,+)) -> +40
13
Статистика для программы синтеза речи VitalVoice
Снятие омонимии:
Расшифровка нестандартных обозначений:
Слов в тексте
Всего обозначений
Ошибок % Ошибок %Правильно
34235 1066 50 4,69 95,31
Слов в тексте
Всего омографов
Ошибок % Ошибок %Правильно
37955 2837 113 3,98 96,02
14
Примеры чтения
Синтез речи “VitalVoice” читает предложения:
• Поставки "Газпрома" в Европу в январе-апреле сократились на 12% и
составили 51 млрд кубометров газа против 58 млрд годом ранее.
• Роскосмос заявил о своем намерении до 2030 года высадить
российских космонавтов на поверхность спутника Земли.
• Нюре все нравилось: доктора, сестры, еда, ее кровать, третья от окна,
и окно с видом на набережную.
• В 40-е годы XIX века, чтобы стать популярным автором, нередко
достаточно было отнести рукопись одному из ведущих критиков.
• Встанешь утром, часа в четыре, выйдешь в сад - роса блестит на
цветах, шумят птицы и насекомые, на небе ни одного облачка.
• Паритет в 12-матчевом противостоянии чемпиона и претендента
остается незыблемым - 2:2.
15
Проблемы
Случаи, плохо поддающиеся обработке:
• Требуется разбор всего предложения (клаузы): • выбирать между 154 млрд кубометров по более низкой цене и
150 млрд по более высокой; • Обама намерен расследовать потерю банком J.P.Morgan Chase 2
млрд долларов;• По сторонам дома, направо и налево, стояли два одинаковых
флигеля; у одного окна были забиты досками, около другого, с открытыми окнами, висело на веревке белье и ходили телята.
• Ошибочная или нестандартная запись: • в 300-стах метрах от места столкновения; • на уровне 437 доллара за тысячу кубометров;
• Формы записи, предназначенные для чтения «глазами»:• ГОСТы и т.п.;• Слова, полностью или частично заменяющиеся звездочками;• Хэштеги и т.п…
В планах на будущее – попробовать внедрить в программу более глубокий анализ текста.
Изменить или удалить колонтитул презентации можно в разделе Вставка>Колонтитул
16
СПАСИБО ЗА ВНИМАНИЕ!
О КОМПАНИИ
ООО «Центр речевых технологий» (ЦРТ) – российская компания с более чем 20-летней историей. За это время компания накопила богатейший научный потенциал и стала абсолютным лидером российского и значимым игроком международного рынка речевых технологий и мультимодальной биометрии.
Сегодня ЦРТ является ведущим мировым разработчиком инновационных систем в сфере высококачественной записи, обработки и анализа аудио-видео информации, синтеза и распознавания речи. Создаваемые в ЦРТ биометрические решения обеспечивают высокую точность распознавания личности по голосу и изображению лица в реальном времени. Эти решения находят успешное применение в государственном и коммерческом секторе, от небольших экспертных лабораторий до сложных систем безопасности национального масштаба.
Качество работы компании подтверждается сертификатом международного стандарта ISO-9001:2008, а также сертификатом соответствия требованиям ГОСТ Р ИСО 9001-2008 и ГОСТ РВ 15.002-2003.
КОНТАКТНАЯ ИНФОРМАЦИЯ
Санкт-ПетербургАдрес: Санкт-Петербург, ул. Красуцкого, 4 Телефон: (+7 812) 325-88-48 Факс: (+7 812) 327-92-97 Отдел продаж: (+7 812) 325-88-48 доб.1 Эл. почта: [email protected]Почтовый адрес: 196084 Санкт-Петербург а/я 515 «Центр речевых технологий»
МоскваАдрес: Москва, ул. Марксистская, д.3, стр.5,Бизнес-центр "Таганский", 3 этаж, офис 5.3.1. Телефон: (+7 495) 661-75-50 Факс: (+7 495) 661-75-17 Эл. почта: [email protected]