Upload
nlpseminar
View
1.887
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
WordNet-словари как лексический компонент автоматизированных
систем анализа текста
Ирина Владимировна Азарова
Санкт-Петербургский государственный университет Факультет филологии и исскуств
Кафедра математической лингвистики
WordNet (G.Miller, Ch.Fellbaum) – Психолексикология http://wordnet.princeton.edu/
единица лексического пространства – «синсет» –синонимия «литералов»
– критерии синонимии; – глоссы = родовидовые определения; – примеры употребления;
родовидовые отношения организуют синсеты в деревья
– между родовым и видовым синсетом есть хотя бы один различительный признак;
– доступны согипономы и видны их отличия; – возможно двойное подчинение синсетов;
«наследование» свойств в родовидовых деревьях «лес» семантических деревьев существительных и
глаголов
Структура WordNet
Структура WordNet
Статистика WordNet 2.*
EuroWordNet – Многоязычная лексическая база
http://www.illc.uva.nl/EuroWordNet/
Структура EuroWordNet
Семантические отношения в EuroWordNet
Relation type– NEAR_SYNONYMY– XPOS_NEAR_SYNONYM– HAS_HYPERONYM– HAS_HYPONYM– HAS_XPOS_HYPERONYM– HAS_HOLONYM– HAS_HOLO_PART– NEAR_ANTONYMY– XPOS_NEAR_ANTONYMY– CAUSESIS– HAS_SUBEVENT– IS_SUBEVENT_OF– …– EQ_SYNONYM– EQ_HAS_HYPERONYM– EQ_HAS_HYPONYM– …
Data types– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– …– WM<>ILIR– WM<>ILIR– WM<>ILIR– …
Parts of speech– N<>N, V<>V– N<>N, V<>V– N>N, V>V– N>N, V>V– N>N, V>V– N>N– N>N– N<>N, V<>V– N<>N, V<>V– V>V, N>V…– N>N, V>V…– N>N, V>V …– …– N<>N, V<>V…– N>N, V>V …– N>N, V>V …– …
RussNethttp://project.phil.pu.ru/RussNet/
Причины изменения методики построения словаря
специфика русского языка (флективный язык, развитая деривационная система)
отсутствие некоторых источников лексической
информации
недостатки и недочеты стандартных методик, ставшие очевидными при практическом использовании wordnet-тезаурусов
Методика построения RussNet
Унаследованные свойства wordnet-словарей
Значения четырех основных ЧР Опора на корпус современных текстов (21 млн. с/у) Нетерминологический характер лексикона Устойчивые словосочетания Объединение синсетов в «семантические деревья»
отношением гипонимии или меронимии
Менеджер корпуса Bonito
Подготовка выборочной совокупности к разметке
Определение частотности значений слова
Структура значений в толковом словаре (МАС)
1. Переворачиваться, перекатываться с боку на бок; кататься.
2. Разг. Долго лежать, проводить время в лежании.
a. Прост. Лежать в постели, будучи больным.
b. Разг. Лежать небрежно брошенным, в беспорядке, не на месте (о вещах).
3. Страд. к валять (в 1, 3 и 4 знач.)
Разметка контекстов по значениям
Нумерация значений в RussNet
Структура слово-значений в предметной области
Дополнительные свойства RussNet
синонимы в синсетах упорядочены по частоте встречаемости; есть доминанта синсета
расширен набор собственно семантических отношений
введен набор семантико-деривационных и семантико-грамматических отношений
добавлено описание валентностной структуры, включающее как семантические, так и поверхностно-грамматические атрибуты
прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными
введены наборы «семантических деревьев»
Примеры синсетов глаголов движения с частотами элементов
(16) Синсет {броситься1, кинуться1, ринуться1, рвануться2, устремиться1}. Гипоним {отправиться1}. Значение “быстро направиться куда-л.”. В корпусе доля данного значения соответственно 50% (20 ipm), 45% (7 ipm), 62,5% (5 ipm), 93% (5 ipm), 50% (3,2 ipm).
(17) Синсет {ходить2, идти2, ступать2, шагать2}. Гипоним {передвигаться1}. Значение “передвигаться по земле, ступая ногами”. В корпусе доля данного значения 33% (54 ipm), 14% (70 ipm), 84% (4 ipm), 24% (3,7 ipm).
Рамки валентности в тезаурусе RussNet
обязательность/ факультативность валентности
активная / пассивная рамка валентностей
общая семантическая характеристика валентности
ролевая характеристика валентности
семантические ограничения на заполнение валентной позиции
грамматическая спецификация валентности
Неформальное описание валентностей синсета
(16) Синсет {броситься1, кинуться1, ринуться1, рвануться2, устремиться1}.
1-я валентность - субъектное обозначение движущегося объекта, варианты заполнения: человек, группа людей (человек, женщина, я, ты, группа, фигура, толпа, группа, иудеи и т.п.). 100% заполнения. 98 % случаев заполнения валентности одуш. субъектом.
2-я валентность (объект1) - направление, цель/конечная точка движения - обязательна (66-92%). Заполняется сочетанием предлога “к” с дательным существительных (или замещающими местоимениями), обозначающими любые сущности (к штабу, улице, лошади, мне, холму) и “в” + винительный существительных, обозначающих местоположение (в лес, каюту, центр, глубину зарослей, спальню).
Формальное описание валентных позиций
Аргументные позиции в семантическом дереве глаголов (активные рамки валентностей)
Статистическая устойчивость активных рамок валентностей
Использование RussNet при автоматической обработке текста
Варианты разбора фразы «Я был знаком с тобой...»
Использование данных рамок валентностей
Автоматизация подготовки данных для RussNet
Азарова И.В., Марина А.С. Автоматизированная классификация контекстов при подготовке данных для компьютерного тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». М., 2006. С. 13-17.
[/PM 103/Num ]/PM ./PM Иначе/Adv <говоря> ,/PM авторы/Nnom подлога/Ngen не/Prcl делали/Vimperf
из/Prep признаков/Ngen подлога/Ngen ./PM Собственно/Adv <говоря> ,/PM в/Prep ряде/Nloc случаев/Ngen именно/Prcl
почему/Adv мы/Pnom о/Prep ней/Ploc не/Prcl <говорим> в/Prep этой/Ploc книге/Nloc ?/PM Потому/Conj
./PM большинством/Nabl партии/Ngen и/Conj ,/PM <говоря> официальным/Aabl языком/Nabl той/Pgen эпохи/Ngen ,/PM
Дистрибуции морфологически размеченных контекстов
N 49 45 47 47 57 38 50 56 58 47 - 51 71 47 55 52 51 50 58 45 49V 26 19 22 25 29 22 26 15 9 5 - 30 23 18 25 17 19 25 24 21 26A 15 17 13 16 7 17 20 12 12 1 - 28 20 12 11 18 16 15 14 17 13Adv 12 8 11 10 13 12 7 11 11 7 - 14 4 6 6 17 7 9 10 15 10P 1 1 8 1 1 1 6 2 1 0 - 1 1 4 0 2 3 1 1 4 2Pron 11 15 19 15 11 15 13 19 13 21 - 34 13 17 15 12 22 14 17 12 9Num 1 5 2 6 0 0 2 2 0 0 - 0 2 3 4 0 4 2 4 1 6Pred 1 2 0 0 1 0 1 0 2 7 - 0 0 1 0 0 2 1 0 2 0Prep 21 13 18 16 15 26 15 13 5 0 - 10 18 17 22 20 14 16 11 18 19Prcl 6 9 6 7 4 5 6 5 8 33 - 2 2 4 3 6 5 1 6 7 5Conj 15 16 14 13 9 11 12 14 11 10 - 0 5 13 18 10 12 17 12 10 14Excl 0 1 1 0 0 1 0 0 1 2 - 0 0 0 0 0 0 0 0 0 0Abbr 2 1 1 0 2 1 0 1 1 1 - 0 1 1 1 0 2 1 1 2 0Parenth 0 0 1 0 1 2 2 0 2 0 - 0 0 0 1 0 1 0 1 0 0VA 0 0 1 1 0 2 2 0 0 0 - 0 0 0 0 1 0 2 0 1 4PM 39 48 36 43 50 46 38 50 66 66 - 30 40 57 39 45 42 46 40 45 43
Параметры дистрибутивного анализа
Окно анализа Набор тегов Метрика сходства/подобия Способ выбора «лучшего» варианта
Для анализа глаголов
Окно анализа [‑3…+5] / [‑2…+4] Набор тегов
– частеречные теги с уточнением грамматических категорий: Nnom, Agen... Inf, Vperf...
– частеречные теги: N, V, A...– обобщенные частеречные теги: Nom, Gen...
Косинус угла между векторами Иерархическая кластеризация (стемма)
Мера сходства между дистрибуциями
Сходство дистрибуций в i-ой позиции окна анализа между словами a и b вычислялось как косинус угла между векторами частоты встречаемости ЧР тегов
в i-ой позиции:
Стемма объединения всех глаголов в окне анализа [-10,+10]
Стемма кластеризации в окне анализа [-3,+5]
Выделенные кластеры (1) сказать, ответить, спросить; (2) понимать, знать, понять, помнить, думать; (3) сидеть, лежать, стоять; (4) взять, брать, получить, иметь; (5) идти, ехать, пойти; (6) ненавидеть, любить, чувствовать; (7) бросить, послать; (8) мочь, успеть, хотеть; (9) делать, сделать; (10) видеть, увидеть; (11) жить, работать; (12) дать, давать; (13) остаться, оказаться.