58
Science is tango between data and theory. James Kobielus, IBM's big data evangelist

NMI13 Josef Šlerka - Science is tango between data and theory

Embed Size (px)

DESCRIPTION

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Citation preview

Page 1: NMI13 Josef Šlerka - Science is tango between data and theory

Science is tango between data and theory. James Kobielus, IBM's big data evangelist

Page 2: NMI13 Josef Šlerka - Science is tango between data and theory

Shall we danceJosef Šlerka, New Media Inspiration 2013Studia nových médií, Ataxo Interactive a.s.

Page 3: NMI13 Josef Šlerka - Science is tango between data and theory

Všechno co potřebuji vědět o datech...... mne naučili filosofie

Page 4: NMI13 Josef Šlerka - Science is tango between data and theory
Page 5: NMI13 Josef Šlerka - Science is tango between data and theory

Myšlenky bez obsahu jsou prázdné, názory bez pojmů jsou slepé.Immanuel Kant, německý osvícenecký filosof

Page 6: NMI13 Josef Šlerka - Science is tango between data and theory

Obrazotvornost!

Page 7: NMI13 Josef Šlerka - Science is tango between data and theory

Žádný algoritmus z nebe nespadl...staré programátorské přísloví

Page 8: NMI13 Josef Šlerka - Science is tango between data and theory

Sémiotická průpravaTypologie znaků a otázka sémiosisS čím si obrazotvornost hraje

Page 9: NMI13 Josef Šlerka - Science is tango between data and theory
Page 10: NMI13 Josef Šlerka - Science is tango between data and theory

A sign, or representamen, is something which stands to somebody for something in some respect or capacity.Charles Sanders Peirce, semiotik

Page 11: NMI13 Josef Šlerka - Science is tango between data and theory

Typologie znaků

znak (sign), jeho Objekt a jeho interpretant

sémiosis je činnost, která spojuje Z-O-I

sémiosis je potencionálně nekonečná

komplexní systém znaků

nejznámější ikon, index, symbol

Page 12: NMI13 Josef Šlerka - Science is tango between data and theory

Ikon a index

Ikon je znak, který se vztahuje k Objektu a denotuje ho jen díky svým vlastním rysům, které má bez ohledu na to, zda nějaký Objekt skutečně existuje anebo ne.

Index je znak, který se vztahuje na Objekt a denotuje ho tím, že je jím skutečně ovlivněný. Příkladem indexu je klepání na dveře.

Ikony ani indexy však nic netvrdí, nýbrž ukazují.

Page 13: NMI13 Josef Šlerka - Science is tango between data and theory

Symbol

Symbol je znak, který se vztahuje k Objektu a denotuje ho díky zákonu, většinou asociaci všeobecné ideje a tento zákon způsobuje interpretaci. Jinými slovy znak tu nemá vztah ani podobnosti a ani faktické souvislosti, ale jaké si značky pravidla, které nám umožňuje spojení mezi jinak nespojitými věcmi.

Page 14: NMI13 Josef Šlerka - Science is tango between data and theory

Data jsou symbolická (konvenční) vyjádření indexů reality, už obsahují určitý pohled. Ale nic neříkají.

Page 15: NMI13 Josef Šlerka - Science is tango between data and theory

Nejsou data jako data.

Page 16: NMI13 Josef Šlerka - Science is tango between data and theory

Poslední filosofická lekce....

Page 17: NMI13 Josef Šlerka - Science is tango between data and theory

There are only two hard things in Computer Science: cache invalidation and naming thingsPhil Karlton, computer programmer

Page 18: NMI13 Josef Šlerka - Science is tango between data and theory

... programátoři jsou vlastně filosofové

Page 19: NMI13 Josef Šlerka - Science is tango between data and theory

Facebook normalized distance ...... příběh jedné hypotézy a problémy, které jí provázejí a provazely

Page 20: NMI13 Josef Šlerka - Science is tango between data and theory

Google distancepočítá se sémantická vzdálenost

autory jsou Rudi Cilibrasi a Paul M. B. Vitanyi

podobné věci sdílí stejné vlastnosti

tudíž se o nich mluví častěji dohromady

dvě reprezentace jsou si tím podobnější, čím méně složitých změn je třeba k převodu jedné v druhou

Page 21: NMI13 Josef Šlerka - Science is tango between data and theory

NGD je vyjádřená vzorcem:m = log10(počet všech indexovaných stránek);fx = log10(počet výsledků pro slovo X);fy = log10(počet výsledků pro slovo Y);fxy = log10(počet výsledků pro slovo X a Y);GND = ((max(fx,fy) - fxy) / (m - min(fx,fy))

Page 23: NMI13 Josef Šlerka - Science is tango between data and theory

FND

Facebook normalized distance vychází z Google normalized distance

Lidé komentují na stránkách kandidátů, vůči kterým se především pozitivně, ale i negativně vymezují.

Pohybují se v určitých myšlenkovinách rovinách či diskursech

Page 24: NMI13 Josef Šlerka - Science is tango between data and theory

FND je vyjádřená vzorcem:m = log10(počet všech českých účtů);fx = log10(počet komentujících na stránce X);fy = log10(počet komentujících na stránce Y);fxy = log10(počet společných komentujících);FND = ((max(fx,fy) - fxy) / (m - min(fx,fy))

Page 25: NMI13 Josef Šlerka - Science is tango between data and theory

Aplikace

buď objevování příbuzných stránek a témat

či k mapování vztahů mezi stránkami

Page 26: NMI13 Josef Šlerka - Science is tango between data and theory

VyhledáváníNajdi mi stránky, které mají blízko k mojí

Page 27: NMI13 Josef Šlerka - Science is tango between data and theory
Page 28: NMI13 Josef Šlerka - Science is tango between data and theory
Page 29: NMI13 Josef Šlerka - Science is tango between data and theory
Page 30: NMI13 Josef Šlerka - Science is tango between data and theory
Page 31: NMI13 Josef Šlerka - Science is tango between data and theory
Page 32: NMI13 Josef Šlerka - Science is tango between data and theory
Page 33: NMI13 Josef Šlerka - Science is tango between data and theory
Page 34: NMI13 Josef Šlerka - Science is tango between data and theory

VztahováníKde se nachází moje stránka mezi ostatními

Page 35: NMI13 Josef Šlerka - Science is tango between data and theory

Mediální mapa FBJaké typy stránek máme mezi FB stránkami serveru

Page 36: NMI13 Josef Šlerka - Science is tango between data and theory
Page 37: NMI13 Josef Šlerka - Science is tango between data and theory
Page 38: NMI13 Josef Šlerka - Science is tango between data and theory
Page 39: NMI13 Josef Šlerka - Science is tango between data and theory
Page 40: NMI13 Josef Šlerka - Science is tango between data and theory
Page 41: NMI13 Josef Šlerka - Science is tango between data and theory
Page 42: NMI13 Josef Šlerka - Science is tango between data and theory

Velká mapa stránekNeziskovky, strany, média....

Page 43: NMI13 Josef Šlerka - Science is tango between data and theory
Page 44: NMI13 Josef Šlerka - Science is tango between data and theory
Page 45: NMI13 Josef Šlerka - Science is tango between data and theory
Page 46: NMI13 Josef Šlerka - Science is tango between data and theory
Page 47: NMI13 Josef Šlerka - Science is tango between data and theory
Page 48: NMI13 Josef Šlerka - Science is tango between data and theory
Page 49: NMI13 Josef Šlerka - Science is tango between data and theory
Page 50: NMI13 Josef Šlerka - Science is tango between data and theory

Případová studiePrezidentské volby 2013

Page 51: NMI13 Josef Šlerka - Science is tango between data and theory

Mapa prezidentských kandidátů 14. 1. 2013

Page 52: NMI13 Josef Šlerka - Science is tango between data and theory

Mapa prezidentských kandidátů 14. 1. 2013

Page 53: NMI13 Josef Šlerka - Science is tango between data and theory

Validace?

zatím nepřímé

analýza chování fanoušků při přesunu mezi voliči stran a kandidátů (bude o ní mluvit Kamil Gregor)

analýza zájmů fanoušků (bude mluvit o ní Jan Schmid)

validace smysluplností

Page 54: NMI13 Josef Šlerka - Science is tango between data and theory

Hlavní úskalí

velikosti korpus a průniku (vzorec funguje “vždy”)

validace

úplnost korpusu při objevování

relativní drahost

Page 55: NMI13 Josef Šlerka - Science is tango between data and theory

A ještě jedna ...Jak je to s fanoušky prezidentů teď...

Page 56: NMI13 Josef Šlerka - Science is tango between data and theory

Mapa prezidentských kandidátů 18. 1. 2013

Page 57: NMI13 Josef Šlerka - Science is tango between data and theory

Věda je tango mezi teorií a daty. To tango, které hraje je ale lidská představivost. Bez ní je věda nemožná.

Page 58: NMI13 Josef Šlerka - Science is tango between data and theory

Děkuji za pozornost!Otázky? Odpovědi?