Download pdf - Data deluge/Adatáradat

Transcript
Page 1: Data deluge/Adatáradat

Adataradat“Nem a problemak megoldasa a nehez, hanem az, hogy

mikent vessuk fel oket.”

Varju Zoltan

Weblib Kft.

2012-06-23

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 1 / 6

Page 2: Data deluge/Adatáradat

A keresestol az adataradatig

Dean - Ghemawat: MapReduce: Simplified Data Processing onLarge Clusters

Halevy - Norvig - Pereira: The Unreasonable Effectiveness of Data

Hadoop

NoSQL (Couchbase, MondoDB, stb.)

statisztika - adatbanyaszat - gepi tanulas - adattudomany

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 2 / 6

Page 3: Data deluge/Adatáradat

A keresestol az adataradatig

Dean - Ghemawat: MapReduce: Simplified Data Processing onLarge Clusters

Halevy - Norvig - Pereira: The Unreasonable Effectiveness of Data

Hadoop

NoSQL (Couchbase, MondoDB, stb.)

statisztika - adatbanyaszat - gepi tanulas - adattudomany

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 2 / 6

Page 4: Data deluge/Adatáradat

A big data majd megold mindent?

Kelloen nagy adathalmazon egyszeru n-gram modellek jobbanteljesıtenek mint szofisztikalt tarsaik.

Nyelveszeti megkozelıtesben a generatıv iskola es a probabilisztikusmegkozelıtes viaskodik.

Bender - Good: A Grand Challenge for Linguistics: Scaling Upand Integrating Models

Radikalisan at kell gondolnunk eddigi elmeleteinket.

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 3 / 6

Page 5: Data deluge/Adatáradat

A big data majd megold mindent?

Kelloen nagy adathalmazon egyszeru n-gram modellek jobbanteljesıtenek mint szofisztikalt tarsaik.

Nyelveszeti megkozelıtesben a generatıv iskola es a probabilisztikusmegkozelıtes viaskodik.

Bender - Good: A Grand Challenge for Linguistics: Scaling Upand Integrating Models

Radikalisan at kell gondolnunk eddigi elmeleteinket.

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 3 / 6

Page 6: Data deluge/Adatáradat

Regi problemak uj kontosben

“In 1998, Merrill Lynch cited estimates that as much as 80% of allpotentially usable business information originates in unstructuredform.”

— http://en.wikipedia.org/wiki/Unstructured_data

Hogyan tudjuk kinyerni az informaciot a strukturalatlan adatokbol?

Szovegbanaszat es szovegfeldolgozas problemainak atfogalmazasamapreduce kerdesekre (Lin es Dyer: Data-Intensive TextProcessing with MapReduce)

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 4 / 6

Page 7: Data deluge/Adatáradat

A Hadoop okoszisztema megoldasai

Mahout http://mahout.apache.org/ - skalazhato algoritmusokgepi tanulasra Hadoop-on

Integralas analitikai eszkozokkel (pl. R): Cloudera, Greenplum,RevolutionAnalytics

Radoop http://signup.radoop.eu/ - a RapidMiner vizualiselemzokornyezetre epıtve kınal megoldasokat

InfoHarvester http://weblib.hu/termekeink/infoharvester -kifejezetten strukturatlan adatokkal foglalkozik, iranyıtott crawler azadatok begyujtesere, integralt analitikai es szovegbanyaszatimegoldasok

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 5 / 6

Page 8: Data deluge/Adatáradat

A Hadoop okoszisztema megoldasai

Mahout http://mahout.apache.org/ - skalazhato algoritmusokgepi tanulasra Hadoop-on

Integralas analitikai eszkozokkel (pl. R): Cloudera, Greenplum,RevolutionAnalytics

Radoop http://signup.radoop.eu/ - a RapidMiner vizualiselemzokornyezetre epıtve kınal megoldasokat

InfoHarvester http://weblib.hu/termekeink/infoharvester -kifejezetten strukturatlan adatokkal foglalkozik, iranyıtott crawler azadatok begyujtesere, integralt analitikai es szovegbanyaszatimegoldasok

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 5 / 6

Page 9: Data deluge/Adatáradat

Koszonom a figyelmet

Kereso Vilag http://kereses.blog.hu/

Szamıtogepes nyelveszethttp://szamitogepesnyelveszet.blogspot.com/

Twitter: @zoltanvarju

Email: [email protected]

Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 6 / 6


Recommended