ParaMor & Morpho Challenge 2008 Christian Monson Jaime Carbonell, Alon Lavie, Lori Levin

Preview:

Citation preview

ParaMor&

Morpho Challenge 2008Christian Monson

Jaime Carbonell, Alon Lavie, Lori Levin

2

You are not being taken

Turkish Morphology – Beads on a String

götür ül m sunüyor

take passive negativepresent

progressive2nd person singular

One Turkish Word

3

Computational Morphology Improves:

Machine TranslationTurkish-English (Oflazer, 2007)

Czech-English (Goldwater and McClosky, 2005)

Information RetrievalEnglish, German, Finnish (Kurimo et al., 2008)

Speech RecognitionFinnish (Creutz, 2006)

Grapheme-to-Phoneme ConversionGerman (Demberg, 2007)

4

Morphology is Complex – Operations

Prefixation

Suffixation

5

Morphology is Complex – Operations

Prefixation

Reduplication

Suffixation

6

Morphology is Complex – Operations

Prefixation

Reduplication

Infixation

Suffixation

7

Morphology is Complex – Operations

Prefixation

Reduplication

Infixation

Suffixation

8

Morphology is Complex – Operations

Prefixation

Reduplication

Infixation

Suffixation

9

götür ül m sunüyor

take passive negativepresent

progressive

You are not being taken

2nd person singular

Morphology is Complex – Morphophonology

10

sunyecek

future2nd person singular

Morphology is Complex – Morphophonology

götür ül m

take passive negative

You will not be taken

11

sunyecek

future2nd person singular

Morphology is Complex – Morphophonology

götür ül m

take passive negative

You will not be taken

12

sunyecek

future2nd person singular

Morphology is Complex – Morphophonology

götür ül me

take passive negative

You will not be taken

13

sinyecek

future2nd person singular

Morphology is Complex – Morphophonology

götür ül me

take passive negative

You will not be taken

14

sinyecek

future2nd person singular

Morphology is Complex – Morphophonology

götür ül me

take passive negative

You will not be taken

15

Morphology is Complex – Ambiguity

Hungarianmentek

men +tekgo +Present.2nd.Plural‘yinz go’

16

Morphology is Complex – Ambiguity

Hungarianmentek

men +tekgo +Present.2nd.Plural‘yinz go’

men +t +ekgo +PastParticiple

+Plural‘those who have gone’

17

In Morphology Systems for New Languages

Complexity Time + Expertise

18

In Morphology Systems for New Languages

Complexity Time + Expertise

Kemal OflazerExpert on

Turkish

Computational morphology

Time3 - 4 Months to manually build a basic Turkish analyzer

Plus lexicon development and maintenance

19

The SolutionRaw Text

Unsupervised Morphology

Induction

20

The SolutionRaw Text

?

21

The SolutionRaw Text

Language Structure

22

Techniques for Unsupervised Morphology Induction

Transition Likelihood

Harris (1955) – Finite State Automata

Bernhard (2007)

23

Transition Likelihood

Harris (1955) – Finite State Automata

Bernhard (2007)

Minimum Description LengthGoldsmith (2001, 2006)

Creutz’s Morfessor (2006)

Techniques for Unsupervised Morphology Induction

24

Contextual Similarity

Wicentowski (2002)

Schone (2002)

Techniques for Unsupervised Morphology Induction

25

Contextual Similarity

Wicentowski (2002)

Schone (2002)

The ParadigmSnover (2002)

ParaMor (2007)

Techniques for Unsupervised Morphology Induction

26

What is a Paradigm?

ül m sunüyor

take passive negativepresent

progressive2nd person singular

götür

27

ül m sunüyor

take passive negativepresent

progressive2nd person singular

götür

Person & Number

Paradigms Structure Inflectional Morphology

28

um

Person & Number

1st person singular

umül m üyor

take passive negativepresent

progressive

götür

Paradigms Structure Inflectional Morphology

29

um

Person & Number

3rd person singular

umØ

ül m üyor

take passive negativepresent

progressive

götür

Paradigms Structure Inflectional Morphology

30

umumØuz

ül m üyor

take passive negativepresent

progressive

götür

Person & Number

Paradigms Structure Inflectional Morphology

31

umumØuz

ül m üyor

take passive negativepresent

progressive

götür

ParadigmMutually substitutable morphological operations

Paradigm

Paradigms Structure Inflectional Morphology

32

ül m um

Voice PolarityTense & Aspect

Person & Number

umØuz

üyoryecek

Paradigms Structure Inflectional Morphology

33

Paradigms

ParadigmMutually substitutable morphological operations

ül m umumØuz

üyoryecek

Paradigms Structure Inflectional Morphology

34

Paradigm

ül m umumØuz

üyoryecek

ParadigmMutually substitutable strings

The ParaMor Algorithm

35

Paradigm

ül m umumØuz

üyoryecek

Candidate Stems

1 Morpheme Boundary

The ParaMor Algorithm

36

The ParaMor Algorithm

Simplifying Assumptions

Suffixes only70% of the World’s Languages are Suffixing (Dryer, 2005)

Strict Concatenation

37

The ParaMor Algorithm

Simplifying Assumptions

Suffixes only70% of the World’s Languages are Suffixing (Dryer, 2005)

Strict Concatenation

Only a High-Level Overview

38

The ParaMor Algorithm

Identify Paradigms in 3 Steps

ParaMorIdentify

39

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

ParaMorIdentify

Search

40

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

ParaMorIdentify

SearchCluster

41

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter least likely candidates

ParaMorIdentify

SearchClusterFilter

42

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter least likely candidates

Segment Words Using the discovered paradigms

ParaMorIdentify

SearchClusterFilter

Segment

43

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter

Segment Words Using the discovered paradigms

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Today

44

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter

Segment Words Using the discovered paradigms

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

45

s10697

autorizacionesbuscabamos

costasimportadoras

vallas…

Search for Candidate Paradigms

Propose a morpheme boundary at every character boundary in every word

Consolidate identical candidate suffixes into paradigm seeds

Word List50,000 Types

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Spanish Example

46

s10697

autorizacionesbuscabamos

costaØ costasimportadoraØ importadoras

vallaØ vallas…

Ø s5513

Identify the most frequent mutually replaceable candidate suffix

Stems that occur with one suffix in a paradigm will likely occur with other suffixes in that paradigm

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

Spanish Example

47

s10697

A Parameter halts the introduction of suffixes When the most frequent

mutually replaceable candidate suffix severely decreases the stem count

Ø s5513

Ø r s

281autorizaciones

buscabamos costar costaØ

costasimportadoraØ importadoras

vallaØ vallas…

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

48

s10697

Ø s5513

Ø r s

281autorizaciones

buscabamos costar costaØ

costasimportadoraØ importadoras

vallaØ vallas…

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

Parameters set to produce High-recall

Spanish paradigms

And then frozen

49

Move on to the next most frequent paradigm seed

a9020

s10697

Ø s5513

Ø r s

281

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

50

a9020

a o2325

a o os

1418

a as o os899

s10697

Ø s5513

Ø r s

281

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

51

n6039

Ø n1863

Ø n r

512

Ø do n r357

Ø da das do dos n ndo r ron

115

a9020

a o2325

a o os

1418

a as o os899

s10697

Ø s5513

Ø r s

281

Search for Candidate ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

52

es2750

Ø es845

n6039

Ø n1863

Ø n r

512

Ø do n r357

Ø da das do dos n ndo r ron

115

a9020

a o2325

a o os

1418

a as o os899

s10697

Ø s5513

Ø r s

281

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Search for Candidate Paradigms

53

an1784

a an1045

a an ar

417

a an ar ó355

a ada adas ado ados an

ar aron ó148

es2750

Ø es845

n6039

Ø n1863

Ø n r

512

Ø do n r357

Ø da das do dos n ndo r ron

115

a9020

a o2325

a o os

1418

a as o os899

s10697

Ø s5513

Ø r s

281

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Search for Candidate Paradigms

54

strado15

rado167

rada radas rado rados

53

rada radorados

67

rada rado89

ra rada radasrado rados ran

rar raron ró23

strada strado12

strada strado stró

9

strada strado strar stró

8

strada stradas strado strar stró

7

...an

1784

a an1045

a an ar

417

a an ar ó355

a ada adas ado ados an

ar aron ó148

es2750

Ø es845

n6039

Ø n1863

Ø n r

512

Ø do n r357

Ø da das do dos n ndo r ron

115

a9020

a o2325

a o os

1418

a as o os899

s10697

Ø s5513

Ø r s

281

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Search for Candidate Paradigms

55

strado15

rado167

rada rado89

strada strado12

...an

1784

a an1045

es2750

Ø es845

n6039

Ø n1863

a9020

a o2325

s10697

Ø s5513

Ø r s

281

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Search for Candidate Paradigms

Size of Search Space

Huge: 2|candidate suffixes|

Most candidate suffixes have no common stems

Still Exponential

Greedily searched space: O(|candidate suffixes|)

This example is just 0.1% of the searched space

56

Step 2: Clustering

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter

Segment Words Using the discovered paradigms

Bottom-up Agglomerative Clustering

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

57

Step 3: Filtering

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter least likely candidates

Segment Words Using the discovered paradigms

Adapted from Harris (1955) and Goldsmith (2006)

Improved over 2007 Challenge

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

58

A Few of the 42 Final Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

59

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

A Few of the 42 Final Paradigms

Number on Nouns

60

A Few of the 42 Final Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

Number & Gender on Adjectives

61

A Few of the 42 Final Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

Verbal Suffixes

62

The ParaMor Algorithm

Identify Paradigms in 3 Steps1. Search for candidate paradigms

2. Cluster candidates modeling the same paradigm

3. Filter

Segment Words Using the discovered paradigms

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

Improved over 2007 Challenge

63

Segment Words Using the Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas‘Feminine gender nouns under administration’

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

64

Segment Words Using the Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administr + ad + a + s

Past Participle

FemininePlural

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

65

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas

Segment Words Using the ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

66

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas administrada

Also in corpus

Segment Words Using the ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

67

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas administrada

Segment Words Using the ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

Morpheme Boundary

68

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas administrada

Segment Words Using the ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

Morpheme Boundary

69

4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administradas administradaØ

Segment Words Using the ParadigmsParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

Morpheme Boundary

70

Segment Words Using the Paradigms4 SuffixesØ menente mente s

11 Suffixes a amente as illa illas o or ora oras ores os

41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó

29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían

20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían

29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco

6 SuffixesØ es idad idades mente ísima

administr + ad + a + s

Recovers multiple morpheme boundaries from candidate paradigms which each propose single morpheme boundaries

ParaMorIdentify

SearchClusterFilter

SegmentEvaluationResults

71

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

52.8

Par

aMor

72

MorfessorBaseline system for Challenge

Freely available

Minimum Description Length

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

47.2

52.8

Mor

fess

or

Par

aMor

73

MorfessorBaseline system for Challenge

Freely available

Minimum Description Length

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

47.2

52.8

Mor

fess

or

Par

aMor

74

Join ParaMor and MorfessorFor each word, submit 2 analyses:

a ParaMor analysis and

a Morfessor analysis

The EffectOracle Recall

Averaged Precision

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

47.2

52.8

Mor

fess

or

Par

aMor

75

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

47.2

52.8

56.3

Mor

fess

or

Par

aMor

Par

aMor

& M

orfe

ssor

76

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

47.2

52.8

56.3

Mor

fess

or

Par

aMor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

77

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

47.2 47.8

52.8

44.5

56.3

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

78

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

47.2 47.8

52.8

44.5

56.354.1

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

79

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.247.2 47.8

40.6

52.8

44.5

39.5

56.354.1

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

48.5

80

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

47.2 47.8

40.6

52.8

44.5

39.5

56.354.1

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

48.5

81

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

47.2 47.8

40.6

37.1

52.8

44.5

39.5

56.354.1

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

48.5

82

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

47.2 47.8

40.6

37.1

52.8

44.5

39.5

46.5

56.354.1

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

48.5

83

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

47.2 47.8

40.6

37.1

52.8

44.5

39.5

46.5

56.354.1

52.0

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

48.5

84

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

21.9

47.2 47.8

40.6

37.1

34.0

52.8

44.5

39.5

46.5

15.4

56.354.1

52.0

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

P.

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Zem

an

48.5

85

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

21.9

47.2 47.8

40.6

37.1

34.0

52.8

44.5

39.5

46.5

15.4

56.354.1

52.0

40.9

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

P.

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Zem

an

48.5

86

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

21.9

47.2 47.8

40.6

37.1

34.0

52.8

44.5

39.5

46.5

15.4

56.354.1

52.0

40.9

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

P.

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Zem

an

48.5

Sometimes Morfessor wins

87

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

21.9

47.2 47.8

40.6

37.1

34.0

52.8

44.5

39.5

46.5

15.4

56.354.1

52.0

40.9

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

P.

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Zem

an

48.5

Sometimes ParaMor wins

88

Linguistic EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

50

30

10English German Finnish Turkish Arabic

60.8

52.9

48.2

24.7

21.9

47.2 47.8

40.6

37.1

34.0

52.8

44.5

39.5

46.5

15.4

56.354.1

52.0

40.9

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

P.

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

Zem

an

48.5

ParaMor and Morfessor are Complementary

89

IR EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

45

35

25English German Finnish Turkish Arabic

39.4

36.4

39.339.9

Mor

fess

or

Par

aMor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

90

IR EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

45

35

25English German Finnish Turkish Arabic

39.4

47.3

36.4

46.7

39.3

36.3

39.9

47.3

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

91

IR EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

45

35

25English German Finnish Turkish Arabic

39.4

47.3

49.2

36.4

46.7 46.8

39.3

36.3

39.739.9

47.3

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

46.7

92

IR EvaluationParaMor

IdentifySearchClusterFilter

SegmentEvaluationResults

F1

45

35

25English German Finnish Turkish Arabic

39.4

47.3

49.2

36.4

46.7 46.8

39.3

36.3

39.739.9

47.3

Mor

fess

or

Mor

fess

or

Mor

fess

or

Par

aMor

Par

aMor

Par

aMor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Par

aMor

& M

orfe

ssor

Ber

nhar

d

Ber

nhar

d

Ber

nhar

d

46.7

93

ParaMor: State-of-the-Art Unsupervised Morphology Induction System

ParaMorIdentifies paradigms

The organizing structure of inflectional morphology

Segments words As discovered paradigms suggest

Combined with MorfessorAmong the best in Morpho Challenge

Consistent across languages

94

The Next Steps for ParaMor

Beyond suffixesStraightforward extension to ParaMor for

Prefixes

More ChallengingReduplication, Infixation, etc.

Morphophonology

Incorporate contextual information when clustering

Improve system combinationTrue merging of analysesCombine more systems

95

96