40
WordNet-словари как лексический компонент автоматизированных систем анализа текста Ирина Владимировна Азарова Санкт-Петербургский государственный университет Факультет филологии и исскуств Кафедра математической лингвистики

RussNet

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: RussNet

WordNet-словари как лексический компонент автоматизированных

систем анализа текста

Ирина Владимировна Азарова

Санкт-Петербургский государственный университет Факультет филологии и исскуств

Кафедра математической лингвистики

Page 2: RussNet

WordNet (G.Miller, Ch.Fellbaum) – Психолексикология http://wordnet.princeton.edu/

единица лексического пространства – «синсет» –синонимия «литералов»

– критерии синонимии; – глоссы = родовидовые определения; – примеры употребления;

родовидовые отношения организуют синсеты в деревья

– между родовым и видовым синсетом есть хотя бы один различительный признак;

– доступны согипономы и видны их отличия; – возможно двойное подчинение синсетов;

«наследование» свойств в родовидовых деревьях «лес» семантических деревьев существительных и

глаголов

Page 3: RussNet

Структура WordNet

Page 4: RussNet

Структура WordNet

Page 5: RussNet

Статистика WordNet 2.*

Page 6: RussNet

EuroWordNet – Многоязычная лексическая база

http://www.illc.uva.nl/EuroWordNet/

Page 7: RussNet

Структура EuroWordNet

Page 8: RussNet

Семантические отношения в EuroWordNet

Relation type– NEAR_SYNONYMY– XPOS_NEAR_SYNONYM– HAS_HYPERONYM– HAS_HYPONYM– HAS_XPOS_HYPERONYM– HAS_HOLONYM– HAS_HOLO_PART– NEAR_ANTONYMY– XPOS_NEAR_ANTONYMY– CAUSESIS– HAS_SUBEVENT– IS_SUBEVENT_OF– …– EQ_SYNONYM– EQ_HAS_HYPERONYM– EQ_HAS_HYPONYM– …

Data types– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– WM<>WM– …– WM<>ILIR– WM<>ILIR– WM<>ILIR– …

Parts of speech– N<>N, V<>V– N<>N, V<>V– N>N, V>V– N>N, V>V– N>N, V>V– N>N– N>N– N<>N, V<>V– N<>N, V<>V– V>V, N>V…– N>N, V>V…– N>N, V>V …– …– N<>N, V<>V…– N>N, V>V …– N>N, V>V …– …

Page 9: RussNet

RussNethttp://project.phil.pu.ru/RussNet/

Page 10: RussNet

Причины изменения методики построения словаря

специфика русского языка (флективный язык, развитая деривационная система)

отсутствие некоторых источников лексической

информации

недостатки и недочеты стандартных методик, ставшие очевидными при практическом использовании wordnet-тезаурусов

Page 11: RussNet

Методика построения RussNet

Унаследованные свойства wordnet-словарей

Значения четырех основных ЧР Опора на корпус современных текстов (21 млн. с/у) Нетерминологический характер лексикона Устойчивые словосочетания Объединение синсетов в «семантические деревья»

отношением гипонимии или меронимии

Page 12: RussNet

Менеджер корпуса Bonito

Page 13: RussNet

Подготовка выборочной совокупности к разметке

Page 14: RussNet

Определение частотности значений слова

Структура значений в толковом словаре (МАС)

1. Переворачиваться, перекатываться с боку на бок; кататься.

2. Разг. Долго лежать, проводить время в лежании.

a. Прост. Лежать в постели, будучи больным.

b. Разг. Лежать небрежно брошенным, в беспорядке, не на месте (о вещах).

3. Страд. к валять (в 1, 3 и 4 знач.)

Page 15: RussNet

Разметка контекстов по значениям

Page 16: RussNet

Нумерация значений в RussNet

Page 17: RussNet

Структура слово-значений в предметной области

Page 18: RussNet

Дополнительные свойства RussNet

синонимы в синсетах упорядочены по частоте встречаемости; есть доминанта синсета

расширен набор собственно семантических отношений

введен набор семантико-деривационных и семантико-грамматических отношений

добавлено описание валентностной структуры, включающее как семантические, так и поверхностно-грамматические атрибуты

прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными

введены наборы «семантических деревьев»

Page 19: RussNet

Примеры синсетов глаголов движения с частотами элементов

(16) Синсет {броситься1, кинуться1, ринуться1, рвануться2, устремиться1}. Гипоним {отправиться1}. Значение “быстро направиться куда-л.”. В корпусе доля данного значения соответственно 50% (20 ipm), 45% (7 ipm), 62,5% (5 ipm), 93% (5 ipm), 50% (3,2 ipm).

(17) Синсет {ходить2, идти2, ступать2, шагать2}. Гипоним {передвигаться1}. Значение “передвигаться по земле, ступая ногами”. В корпусе доля данного значения 33% (54 ipm), 14% (70 ipm), 84% (4 ipm), 24% (3,7 ipm).

Page 20: RussNet

Рамки валентности в тезаурусе RussNet

обязательность/ факультативность валентности

активная / пассивная рамка валентностей

общая семантическая характеристика валентности

ролевая характеристика валентности

семантические ограничения на заполнение валентной позиции

грамматическая спецификация валентности

Page 21: RussNet

Неформальное описание валентностей синсета

(16) Синсет {броситься1, кинуться1, ринуться1, рвануться2, устремиться1}.

1-я валентность - субъектное обозначение движущегося объекта, варианты заполнения: человек, группа людей (человек, женщина, я, ты, группа, фигура, толпа, группа, иудеи и т.п.). 100% заполнения. 98 % случаев заполнения валентности одуш. субъектом.

2-я валентность (объект1) - направление, цель/конечная точка движения - обязательна (66-92%). Заполняется сочетанием предлога “к” с дательным существительных (или замещающими местоимениями), обозначающими любые сущности (к штабу, улице, лошади, мне, холму) и “в” + винительный существительных, обозначающих местоположение (в лес, каюту, центр, глубину зарослей, спальню).

Page 22: RussNet

Формальное описание валентных позиций

Page 23: RussNet

Аргументные позиции в семантическом дереве глаголов (активные рамки валентностей)

Page 24: RussNet

Статистическая устойчивость активных рамок валентностей

Page 25: RussNet

Использование RussNet при автоматической обработке текста

Page 26: RussNet
Page 27: RussNet
Page 28: RussNet

Варианты разбора фразы «Я был знаком с тобой...»

Page 29: RussNet
Page 30: RussNet

Использование данных рамок валентностей

Page 31: RussNet
Page 32: RussNet

Автоматизация подготовки данных для RussNet

Азарова И.В., Марина А.С. Автоматизированная классификация контекстов при подготовке данных для компьютерного тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». М., 2006. С. 13-17.

[/PM 103/Num ]/PM ./PM Иначе/Adv <говоря> ,/PM авторы/Nnom подлога/Ngen не/Prcl делали/Vimperf

из/Prep признаков/Ngen подлога/Ngen ./PM Собственно/Adv <говоря> ,/PM в/Prep ряде/Nloc случаев/Ngen именно/Prcl

почему/Adv мы/Pnom о/Prep ней/Ploc не/Prcl <говорим> в/Prep этой/Ploc книге/Nloc ?/PM Потому/Conj

./PM большинством/Nabl партии/Ngen и/Conj ,/PM <говоря> официальным/Aabl языком/Nabl той/Pgen эпохи/Ngen ,/PM

Page 33: RussNet

Дистрибуции морфологически размеченных контекстов

N 49 45 47 47 57 38 50 56 58 47 - 51 71 47 55 52 51 50 58 45 49V 26 19 22 25 29 22 26 15 9 5 - 30 23 18 25 17 19 25 24 21 26A 15 17 13 16 7 17 20 12 12 1 - 28 20 12 11 18 16 15 14 17 13Adv 12 8 11 10 13 12 7 11 11 7 - 14 4 6 6 17 7 9 10 15 10P 1 1 8 1 1 1 6 2 1 0 - 1 1 4 0 2 3 1 1 4 2Pron 11 15 19 15 11 15 13 19 13 21 - 34 13 17 15 12 22 14 17 12 9Num 1 5 2 6 0 0 2 2 0 0 - 0 2 3 4 0 4 2 4 1 6Pred 1 2 0 0 1 0 1 0 2 7 - 0 0 1 0 0 2 1 0 2 0Prep 21 13 18 16 15 26 15 13 5 0 - 10 18 17 22 20 14 16 11 18 19Prcl 6 9 6 7 4 5 6 5 8 33 - 2 2 4 3 6 5 1 6 7 5Conj 15 16 14 13 9 11 12 14 11 10 - 0 5 13 18 10 12 17 12 10 14Excl 0 1 1 0 0 1 0 0 1 2 - 0 0 0 0 0 0 0 0 0 0Abbr 2 1 1 0 2 1 0 1 1 1 - 0 1 1 1 0 2 1 1 2 0Parenth 0 0 1 0 1 2 2 0 2 0 - 0 0 0 1 0 1 0 1 0 0VA 0 0 1 1 0 2 2 0 0 0 - 0 0 0 0 1 0 2 0 1 4PM 39 48 36 43 50 46 38 50 66 66 - 30 40 57 39 45 42 46 40 45 43

Page 34: RussNet

Параметры дистрибутивного анализа

Окно анализа Набор тегов Метрика сходства/подобия Способ выбора «лучшего» варианта

Page 35: RussNet

Для анализа глаголов

Окно анализа [‑3…+5] / [‑2…+4] Набор тегов

– частеречные теги с уточнением грамматических категорий: Nnom, Agen... Inf, Vperf...

– частеречные теги: N, V, A...– обобщенные частеречные теги: Nom, Gen...

Косинус угла между векторами Иерархическая кластеризация (стемма)

Page 36: RussNet

Мера сходства между дистрибуциями

Сходство дистрибуций в i-ой позиции окна анализа между словами a и b вычислялось как косинус угла между векторами частоты встречаемости ЧР тегов

в i-ой позиции:

Page 37: RussNet
Page 38: RussNet

Стемма объединения всех глаголов в окне анализа [-10,+10]

Page 39: RussNet

Стемма кластеризации в окне анализа [-3,+5]

Page 40: RussNet

Выделенные кластеры (1) сказать, ответить, спросить; (2) понимать, знать, понять, помнить, думать; (3) сидеть, лежать, стоять; (4) взять, брать, получить, иметь; (5) идти, ехать, пойти; (6) ненавидеть, любить, чувствовать; (7) бросить, послать; (8) мочь, успеть, хотеть; (9) делать, сделать; (10) видеть, увидеть; (11) жить, работать; (12) дать, давать; (13) остаться, оказаться.