Predavanje IX. : STATISTIKA U JEZIKOSLOVLJU · PDF fileUvod u jezikoslovnu statistiku Rije c...

Preview:

Citation preview

Predavanje IX. : STATISTIKA U JEZIKOSLOVLJU- rijec postaje obican broj ?

Prof.dr.sc. Mario Essert (messert@fsb.hr)

Fakultet strojarstva i brodogradnje, Zagreb

Osijek, 4. prosinca 2017.M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 1 / 25

Sadrzaj:

1 Uvod u jezikoslovnu statistikuRijec kao element skupaStatistika u Python modulimaR-statistikaDohvacanje dokumenata

2 StohastikaNeuvjetovana vjerojatnostUvjetovana vjerojatnostMarkovljevi lanciMonte Carlo metoda

Uvod u jezikoslovnu statistiku Rijec kao element skupa

Statistika u NLP-u

Dokumenti - skupovi rijeci;rijeci - elemenati skupa, brojevi

deskriptivna statistika

distribucije vjerojatnosti i statisticki testovi

metrika uspjesnosti dohvacanja informacije(eng. information retrieval)

pokusi: nadgledano i nenadgledano ucenje

5 super alata: Numpy/Scipy ; Scikit-learn;Pandas; Tensorflow ; R

Poveznice na izvore:

http://www.numpy.org/ i https://www.scipy.org/

https://scikit-learn.org/ i https://www.tensorflow.org/

https://pandas.pydata.org/ i https://www.r-project.org/

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 3 / 25

Uvod u jezikoslovnu statistiku Rijec kao element skupa

Dokumenti (corpora) u sredistu

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 4 / 25

Uvod u jezikoslovnu statistiku Rijec kao element skupa

Rudarenje teksta

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 5 / 25

Uvod u jezikoslovnu statistiku Statistika u Python modulima

Numpy funkcije - deskriptivna statistika

Primjeri iz numpy/scipy + FSB zavrsniradovi iz stohastike:http://www.scipy-lectures.org/http://elte.fsb.hr:8080/markovljevi lancihttp://elte.fsb.hr:8080/monte carlo

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 6 / 25

Uvod u jezikoslovnu statistiku Statistika u Python modulima

Scikit-learn

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 7 / 25

Uvod u jezikoslovnu statistiku Statistika u Python modulima

Pandas funkcije - deskriptivna statistika

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 8 / 25

Uvod u jezikoslovnu statistiku Statistika u Python modulima

Tensorflow - Google’s Machine Intelligence

TensorFlow is an open source software library for numerical computation usingdata flow graphs. Nodes in the graph represent mathematical operations, whilethe graph edges represent the multidimensional data arrays (tensors)communicated between them.

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 9 / 25

Uvod u jezikoslovnu statistiku R-statistika

library(”languageR”)

R. H. Baayen (2007) Analyzing Linguistic Data: A practical introduction tostatistics using R, Cambridge: Cambridge University Press.

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 10 / 25

Uvod u jezikoslovnu statistiku Dohvacanje dokumenata

Precision and recall

Precision is the probability that a (randomly selected) retrieved document isrelevant. Recall is the probability that a (randomly selected) relevant document isretrieved in a search.

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 11 / 25

Uvod u jezikoslovnu statistiku Dohvacanje dokumenata

Pretrazivanje i filtriranje

iz stvari dohvatiti voce

iz voca dohvatiti jabuke

razlikovati jabuke

Dohvatiti jabuke kao:

crveno voce

srednje velicine

Rezultat: PRECISION ⇒ 3/6 = 50% RECALL ⇒ 3/5 = 60%

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 12 / 25

Uvod u jezikoslovnu statistiku Dohvacanje dokumenata

Precision i recall su (najcesce) inverzne velicine

Oslabiti uvjet:

jabuka moze biti i zuta

Rezultat:

PRECISION ⇒ 4/9 = 44.4%RECALL ⇒ 4/5 = 80%

Pojacati uvjet (prema pocetnom):

jabuka smije biti samo male velicine

Rezultat:

PRECISION ⇒ 2/3 = 66.6%RECALL ⇒ 2/5 = 40%

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 13 / 25

Uvod u jezikoslovnu statistiku Dohvacanje dokumenata

”Precision and recall” u NLTK metrici

F-Measure = (2 · 0.706 · 0.678)/(0.706 + 0.678) = 0.692

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 14 / 25

Stohastika Neuvjetovana vjerojatnost

Neuvjetovana vjerojatnost

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 15 / 25

Stohastika Neuvjetovana vjerojatnost

Vjerojatnost za uzimanje dva uzorka

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 16 / 25

Stohastika Neuvjetovana vjerojatnost

Dvije uzastopne rijeci - uvjetovana vjerojatnost

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 17 / 25

Stohastika Uvjetovana vjerojatnost

Uvjetovana vjerojatnost uz asocijativnost

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 18 / 25

Stohastika Uvjetovana vjerojatnost

Put od Bayes-a do Markov-a ,

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 19 / 25

Stohastika Markovljevi lanci

Andrei Andreevich Markov (1856 – 1922)

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 20 / 25

Stohastika Markovljevi lanci

Programski - bez memorije

Tvorba lancaIspis poruke

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 21 / 25

Stohastika Markovljevi lanci

Markovljevi lanci (eng. Markov chain)

A Markov chain process is by definition a random process with different states,where the probability distribution between transitions to a new state is dependentonly on the current state. It is not taking into account any previous states thusthe process has no ”memory”.

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 22 / 25

Stohastika Markovljevi lanci

Programski - s matricom vjerojatnosti

Rezultat

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 23 / 25

Stohastika Monte Carlo metoda

Monte Carlo

https://academo.org/demos/estimating-pi-monte-carlo/

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 24 / 25

Stohastika Monte Carlo metoda

Python program za izracunavanje π

Rezultat:

M.Essert (FSB, Zagreb) Statistika u jezikoslovlju Osijek, 4. prosinca 2017. 25 / 25