25
Phonetische Lexika Part-of-Speech–Tagging Uwe D. Reichel IPSK, LMU M¨ unchen [email protected]

Phonetische Lexika Part-of-Speech–Taggingreichelu/kurse/phonet_lex/... · VVFIN Finites Verb, voll du gehst VVIMP Imperativ, voll komm! VVINF Infinitiv, voll gehen ... Label Wortart

  • Upload
    volien

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Phonetische LexikaPart-of-Speech–Tagging

Uwe D. Reichel

IPSK, LMU Munchen

[email protected]

Inhalt

• Parts of Speech

• POS-Tagging-Probleme: OOV, Ambiguitaten

• Regelbasierte Tagger

• Markov-Tagger

• Transformationsbasiertes Tagging

• Evaluierung

1

Parts of Speech

Deutsch: STTS (Stuttgart-Tubingen Tagset; Schiller et al., 1995)Label Wortart Beispiel

Nomen

NN Substantiv Tisch

NE Eigennamen Hans, Hamburg

TRUNC Kompositions-Erstglied An- und Abreise

Verben

VVFIN Finites Verb, voll du gehst

VVIMP Imperativ, voll komm!

VVINF Infinitiv, voll gehen

VVIZU Infinitiv mit zu, voll anzukommen

VVPP Partizip Perfekt, voll gegangen

VAFIN Finites Verb, aux wir werden

VAIMP Imperativ, aux sei ruhig!

VAINF Infinitiv, aux sein, werden

VAPP Partizip Perfekt, aux gewesen

VMFIN Finites Verb, modal wollte

VMINF Infinitiv, modal wollen

VMPP Partizip Perfekt, modal er hat gekonnt

2

Label Wortart Beispiel

Adjektive

ADJA Attributives Adjektiv das große Haus

ADJD Adverbiales oder pradikatives Adjektiv er fahrt/ist schnell

Pronomen

PDS Substituierendes Demonstrativpronomen dieser, jener

PDAT Attribuierendes Demonstrativpronomen dieser Mensch

PIS Substituierendes Indefinitpronomen keine, viele

PIAT Attribuierendes Indefinitpronomen irgendein Glas

PIDAT Attribuierendes Indefinitpronomen mit ein wenig WasserDeterminer

PPER Irreflexives Personalpronomen er, dich, ihr

PPOSS Substituierendes Possessivpronomen deiner

PPOSAT Attribuierendes Possessivpronomen mein Buch

PRELS Substituierendes Relativpronomen der Hund, der

PRELAT Attribuierendes Relativpronomen der Mann, dessen Hund

PRF Reflexives Personalpronomen sich, einander

PWS Substituierendes Interrogativpronomen wer, was

PWAT Attribuierendes Interrogativpronomen welcher Hut

PWAV Adverbiales Interrogativ- oder warum, wo

Relativpronomen

Adpositionen

APPR Praposition; Zirkumposition links in der Stadt

APPRART Praposition mit Artikel im Haus

APPO Postposition ihm zufolge

APZR Zirkumposition rechts von jetzt an

3

Label Wortart Beispiel

Adverbien

ADV Adverb heute nicht

PAV Pronominaladverb dafur, deswegen

Konjunktionen

KOUI Unterordnende Konjunktion mit ‘zu’ um zu lebenund Infinitiv

KOUS Unterordnende Konjunktion mit Satz weil, daß

KON Nebenordnende Konjunktion und, oder

Partikeln

PTKZU zu vor Infinitiv zu gehen

PTKNEG Negationspartikel nicht

PTKVZ Abgetrennter Verbzusatz er kommt an

PTKANT Antwortpartikel ja, danke

PTKA Partikel bei Adjektiv oder Adverb am schonsten

KOKOM Vergleichspartikel, ohne Satz als, wie

Sonstige

ART Bestimmter oder unbestimmter Artikel der, eine

CARD Kardinalzahl zwei, 1984

FM Fremdsprachliches Material big

ITJ Interjektion ach

XY Nichtwort, Sonderzeichen D2XW3

$, Komma ,

$. Satzbeendende Interpunktion .?!;:

$( Sonstige Satzzeichen; satzintern (-

4

Englische Tagsets• Penn Tagset (Marcus et al., 1993): 45 tags

• . . .

• C7 Tagset (Leech et al., 1994): 146 tags

5

Probleme

Probleme beim reinen Lexikon-Lookup• Out of Vocabulary-Falle (OOV): POS fur Worter, die nicht im Lexikon

stehen, unbekannt

• Ambiguitaten: Wort kann verschiedene POS-Labels tragen– Sucht: NN vs. VVFIN

– ab: ADP vs. PTKVZ

– als: KOKOM vs. KOUS

– am: APPRART vs. PTKA

– Anfangs: NN vs. ADV

Losungen• Einbeziehen des Wortkontexts

• Einbeziehen POS-relevanter Worteigenschaften (z.B. String-Suffixe)

6

Tagger-Uberblick

• Regelbasierte Verfahren: ENGTWOL (Voutilainen, 1995)

• Statistische Verfahren: Jelinek (1985), Tree Tagger (Schmidt, 1995), Reichel(2005)

• Transformationsbasierte Verfahren: Brill (1995)

7

Regelbasierte Verfahren

ENGTWOL (Voutilainen, 1995)• 2 Schritte:

1. Lexikon-Lookup −→ POS-Kandidaten

2. falls mehrere: Auswahl des richtigen Labels (Disambiguierung) anhand vonRegeln

• Lexikon-Eintrage: Wortform, POS, morpholog.+syntakt. Features(Subkategorisierungsrahmen usw.)

show::V::IMPERATIVE VFIN SVO SVOOshow::V::PRESENT –SG3 VFIN SVO SVOOshow::N::NOMINATIVE SG

8

• Disambiguierung von that in it isn’t that oddthat::ADVthat::PRON DEM SGthat::DET DEM SGthat::CS

Adverbial-That Regel:

Given Input “that”if

(+1 A|ADV|QUANT); %if next word is adj, adv or quantifier(+2 SENT-LIM); %and following which is a sentence boundary(NOT -1 SVOC/A); %and previous word is not verb allowing adjs as object complements

then eliminate non-ADV tagselse eliminate ADV tag

• Nachteile:– zeitaufwendiges Adjustieren der Regeln

– mangelnde Generaliserungsfahigkeit

– keine Ubertragbarkeit auf andere Sprachen

9

Statistische VerfahrenStatistische Sprachmodelle: N-Gramme• Statistisches Modell: Vorhersage von Ereigniswahrscheinlichkeiten

• Wahrscheinlichkeit (Likelihood) einer Wortfolge w1 . . . wn (gemaßKettenregel):

P (w1 . . . wn) = P (w1)P (w2|w1)P (w3|w1w2) . . . P (wn|w1 . . . wn−1)

= P (w1)n∏

k=2

P (wk|w1 . . . wk−1)

• Anzahl von langen Wortvorgeschichten zu gering, als daß man darausverlaßliche Wahrscheinlichkeiten ableiten konnte −→ vereinfachendeMarkov-Annahme: Lange der Wortvorgeschichte begrenzt auf m (z.B. =2:Trigramme)

P (w1 . . . wn) = P (w1)P (w2|w1)n∏

k=3

P (wk|wk−m . . . wk−1)

10

• Trigrammwahrscheinlichkeit: P (wk|wk−2wk−1) = #(wk−2wk−1wk)

#(wk−2wk−1)

• Smoothing: Anpassung der beobachteten Haufigkeiten, damit auchungesehene n-Gramme eine Wahrscheinlichkeit großer 0 erhalten;Discounting, Good-Turing-Verfahren usw.

11

• lineare Interpolation: gewichtete Kombination verschiedener statistischerModelle

P (w1 . . . wn) =n∏

k=1

Phybrid (wk) =n∏

k=1

∑i

λiPi(wk)

P (w1 . . . wn) ist die Likelihood der Wortfolge w1 bis wn, die sichzusammensetzt aus dem Produkt der Wahrscheinlichkeiten der betrachtetenEinzelereignisse (Auftreten von Wort wk). Zur Ermittlung derWahrscheinlichkeiten fur wk kann man verschiedene Modelle heranziehen(beispielsweise mit variierender Lange der Wortvorgeschichte) und die durchsie vorhergesagten Wahrscheinlichkeiten zu Phybrid kombinieren. Pi(wk) ist

hierbei die Wahrscheinlichkeit von wk im Modell Mi. Sei M1 ein Unigramm-,M2 ein Bigramm- und M3 ein Trigramm-Modell zur Vorhersage derWahrscheinlichkeit von wk, dann ergibt sich oben eingesetzt:

Phybrid(wk) = λ1P1(wk) + λ2P2(wk|wk−1) + λ3P3(wk|wk−2wk−1)

Die Gewichte λi werden mit Hilfe des EM-Algorithmus(expectation+maximization) ermittelt, ihre Summe ergibt 1.

12

• Satz von Bayes

P (X|Y ) =P (Y |X)P (X)

P (Y )

Wird eingesetzt, wenn P (X|Y ) nicht geschatzt werden kann, beispielsweisewegen zu geringer Haufigkeit von Y.

Einfache Form eines Markov-Taggers (Jelinek, 1985)• Schatzung der wahrscheinlichsten Tag-Sequenz G, gegeben die Wort-Sequenz

word W

G = arg maxG

[P (G|W )

]= arg max

G

[P (G)P (W |G)

P (W )

](Bayes)

= arg maxG

[P (G)P (W |G)

](P(W) konstant)

P (G)P (W |G) =T∏

t=1

P (wt|w1g1 . . . wt−1gt−1gt)P (gt|w1g1 . . . wt−1gt−1) (Kettenr.)

13

• Vereinfachende Annahmen– Die Wahrscheinlichkeit des Worts wt hangt nur von seinem tag gt ab.

– Die Wahrscheinlichkeit des tags gt hangt von einer begrenztentag-Vorgeschichte ab (Markov-Annahme)

G = arg maxg1...gT

[ T∏t=1

P (gt|g-historyt)P (wt|gt)]

• Tagging-Problem als Hidden-Markov-Modell (HMM) formalisiert (sieheTafelbild)

• Bestandteile eines HMM (mit konkreten Entsprechungen):– Menge von Zustanden Q = {qi}; an jedem Zustand wird ein POS-Label

angetragen

– Ubergangswahrscheinlichkeiten A = {aij}: von Zustand i zu Zustand j;

entspricht P (POS j|POS-history), Ubergangswahrscheinlichkeiten abhangigvon den POS-Labels der n vorangehenden Zustande (bei einer history derLange n).

– Emissionswahrscheinlichkeiten (observation likelihoods) B = {bjot}: furBeobachtung ot; entspricht P (wt|POSt) fur alle POS j

14

• Ermittlung von T mit Hilfe des Viterbi-Algorithmus:– Aufbau einer Trellis: Zustand-Zeitpunkt-Gitter; ein Knoten entspricht

einem POS-tag zu einem bestimmten Zeitpunkt, also zum Index desjeweiligen Worts im zu taggenden Text1

– Ziel: finde fur beobachtete Wortfolge denjenigen Pfad durch die Trellis, indem das Produkt aus Emissions- und Ubergangswahrscheinlichkeiten

maximiert wird −→ max[P (G)P (W |G)

]−→ max

[P (G|W )

]. Die damit

verbundene Tag-Sequenz g1 . . . gT ist der Output des Taggers.

– in jedem Knoten kj(t) der Trellis fur tag j und Zeitpunkt t wird folgendesnotiert: a) die Wahrscheinlichkeit δj(t) des bis hierhin wahrscheinlichstenPfads, und b) der Vorgangerknoten auf diesem Pfad

1Indizes: uber Zustande (tags): 1 ≤ i, j ≤ N ; uber Zeitpunkte: 1 ≤ t ≤ T bei einem POS-Inventar der GroßeN und einem zu taggenden Text der Lange T

15

– Ermittlung der δj(t)’s:∗ Initialisierung:

δj(1) = bjo1

∗ Induktion2

δj(t) = maxi

[δi(t− 1)aijbjot

]

2Induktion (informell): Fortfuhrung eines fur n gultigen Sachverhalts mit n + 1.

16

Bei der Initialisierung zum Zeitpunkt t = 1 werden die δ’s fur jeden POSj gleich den bedingten Wahrscheinlichkeiten P(erstes Wort im zutaggenden Text | POS j) gesetzt. Im Zuge der Induktion wird fur jedenKnoten kjt der Trellis fur POS j zum Zeitpunkt t die Wahrscheinlichkeitδj(t) des wahrscheinlichsten Pfads hin zu diesem Knoten ermittelt. Dieseergibt sich durch Multiplikation von (Emissionswahrscheinlichkeit des t-tenWorts im zu taggenden Text, gegeben POS j) mit dem Maximum unterden Produkten (Wahrscheinlichkeiten der Pfade zu den Knoten zumZeitpunkt t− 1) x (Ubergangswahrscheinlichkeiten zwischen den Knotender Ebene t− 1 und kjt). Der Vorganger von kjt im wahrscheinlichstenPfad wird ebenfalls am Knoten vermerkt, damit der Pfad dann nachZeitpunkt T , also nach dem letzten Wort, ausgelesen werden kann.

17

Tree Tagger (Schmidt, 1995)

• P (wt|gt) mittels Lexikon, das Vollformen und Suffixe enthalt

• P (gt|g-historyt) mittels Entscheidungsbaum, der fur g-history einen Vektormit den Wahrscheinlichkeiten der POS-tags ausgibt; g-history ist als Pfad imBaum reprasentiert

• Reduzierung des OOV-Problems, aber sprachabhangig

18

Reichel (2005)

• Vergleiche auch: TnT-Tagger (Brants, 2000)

• Generalisierung des Grundmodells mittels linearer Interpolation

• ersetze P (gt|g-historyt) durch∑

j ujP (gt|g-historytj)

• ersetze P (wt|gt) durch P (wt)P (gt)

∑k vkP (gt|w-representationtk)

T = arg maxg1...gT

[ T∏t=1

1P (gt)

∑j

ujP (gt|g-historytj)∑

k

vkP (gt|w-representationtk)]

19

Word-Reprasentation: String-Suffixe• Motivation

– in vielen Sprachen ist POS-Information Suffix-Morphemen,Flektionsendungen, und finalen Kompositumgliedern kodiert(Gelegenheit/NN, Umgehungsstraße/NN, partly/ADV)

– Nutzung dieser Einheiten reduziert das OOV-Problem

• Desideratum: ermittle linguistisch sinntragende String-Suffixe ohnelinguistisches Wissen −→ Sprachunabhangigkeit

Ermittlung der String-Suffixe mittels Weighted Backward SuccessorVariety (SV)• SV eines Strings: Anzahl verschiedener Characters, die ihm in einem Lexikon

folgen konnen

• Backward SV: SV’s werden von gespiegelten Strings ermittelt (Suffixe)

• Weighting: SV’s werden gewichtet in Abhangigkeit der mittleren SV an derentsprechenden String-Position, um Positions-Effekte zu eliminieren

20

• Lexikon gespiegelter Worter als Trie reprasentiert

• SV an einem Zustand: Anzahl der abgehenden Transitionen

• lokale SV-Gipfel werden als Morphemgrenzen betrachtet (vgl. Peak andPlateau Algorithmus von Nascimento et al., 1998)

• Beispiel: Lexikon-Trie mit den gespiegelten Eintragen Einigung, Kreuzigungand Eignung

• Die SV-Maxima an den Zustanden 3 und 5 entsprechen den Grenzen derMorpheme ung and ig

21

Transformationsbasiertes Tagging

Brill Tagger (Brill, 1995)• regelbasierter Tagger

• Regeln werden automatisch anhand der Trainingsdaten gewonnen(uberwachtes Lernen)

• Lernalgorithmus:1. weise jedem Wort den wahrscheinlichsten POS-tag zu

2. iterate until Verbesserung < Schwelle– wahle aus einer Menge von Transformationenregeln diejenige aus, die

zum besten Tagging-Ergebnis fuhrt

– fuge diese Regel hinten an die Liste bisher ausgewahlter Regeln trl an

– tagge das Corpus unter Anwendung dieser Regel neu

• Beispiel fur Transformationsregel: NN → VB if (vorangehender tag gleichTO)expected to/TO race/NN −→ expected to race/VB

22

• Transformationsregeln ergeben sich durch Einsetzen aller moglichen POS-tagsin folgende Templates:

tag a −→ tag b, ifvorangehendes (folgendes) Wort ist mit tag z gelabelt.das zweite vorangehende (folgende) Wort ist mit tag z gelabelt.eines der zwei (drei) vorangehenden (folgenden) Worter ist mit tag zgelabelt.vorangehendes Wort ist mit tag z gelabelt, und das folgende mit tag w.das vorangehende (folgende) Wort ist mit tag z gelabelt, und das zweitevorangehende (folgende) Wort mit tag w.

• Lernalgorithmus sehr zeitaufwendig, wenn fur jedes Template zur Belegungvon a, b, z, w alle POS-Kombinationen zugelassen werden

• Tagging:1. weise jedem Wort den wahrscheinlichsten POS-tag zu

2. foreach Regel tr in trl : tagge den Text unter Anwendung von tr neu

23

Evaluierung

• anhand eines Testcorpus

• Gold-Standard: Vergleich des Tagger-Outputs mit manuell gesetzten tags;Relativierung durch Inter-Tagger-Agreement < 100 %

• Baseline: Vergleich des Outputs mit Output eines Baseline-Taggers,beispielsweise einem Unigramm-Tagger (ohne POS-History)

• Vergleichbarkeit von Taggern bei beliebiger Tagset-Große:3 Kappa-Statistik

κ =Pt(C)− Pz(C)

1− Pz(C)

C: Wort korrekt getaggt, Pt(C): Anteil der vom Tagger korrekt klassifiziertenWorter, Pz(C): zu erwartender Anteil zufallig korrekt klassifizierter Worter =

1

|Tagset|3Bei einem Tagset der Große 1 ist die Performanz des Taggers, der nur diesen einen Tag vorhersagt, 100 %.

24