24
@ AymenZaafouri Tunis Big Data Meetup 21/11/2015 – Cogite Coworking Space 1 LEK stack : Logstash, ElasticSearch, Kibana Tunis Big Data Meetup

Tunis big data_meetup__21_nov2015__aymenzaafouri

Embed Size (px)

Citation preview

Page 1: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 1

@AymenZaafouri

Tunis Big Data Meetup

21/11/2015 – Cogite Coworking Space

LEK stack : Logstash, ElasticSearch, Kibana

Page 2: Tunis big data_meetup__21_nov2015__aymenzaafouri

Aymen ZAAFOURIIngénieur en statistique et analyse de l’information Promotion 2014

Mastère spécialisé « Informatique décisionnelle » Promotion 2015

Data Scientist

2Tunis Big Data Meetup

Page 3: Tunis big data_meetup__21_nov2015__aymenzaafouri

3

• Logstash• ElasticSearch• Kibana• ES - Hadoop• Autres produits

Tunis Big Data Meetup

Page 4: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 4

Logstash

collecte, analyse et stockage de logs.

Page 5: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 5

Log ?

Log = Timestamp + Données

Page 6: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 6

Input Filter Output

Logstasho Version 2.0o Il est développé en Java, sous licence Apache 2.0.

o Input: Syslog, IMAP, SGBD, IRC ,Twitter,…o Filter: Standardisation des dates, Suppression des événements, …o Output: ElasticSearch, MangoDB, Redis, …

Page 7: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 7

Logstash + Twitter = ?

Page 8: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 8

ElasticSearch

Moteur de recherche

Page 9: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 9

o 17 000 Commits (32 000 pour LEK)o 35 000 000 Téléchargementso 120 User groups dans 80 villes

o ElasticSearch est utilisé en production par: o Wikipediao NASAo Mozilla (300 millions d’événements par jour)o Verizon ( 500 billion de documents)

Page 10: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 10

o Moteur de recherche:– Moteur d’indexation de document– Moteur de recherche sur les index

o Limites de la recherche SQL (% - Like):– Pas de tolérance aux « Fotes » de frappe– Performances désastreuses sur des millions de ligne

Page 11: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 11

Mots-clés

o Le mapping: l’équivalent du schéma dans une base de données relationnelle.

o Un index: Un peu comme une base de données sur un SGBD relationnel. o Les types: l’équivalent des tables dans un système relationnel. o Les documents: comme les lignes dans une base de données relationnelle.

Les documents sont stockés au format JSON et ont un index, un type et un id en plus des données.

Page 12: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 12

Points forts

o Simple mise en place.o Rapide : Les recherches sont traitées en quasi temps réel grâce à la

parallélisation des traitements. o Scalable : peut être distribué et plusieurs instances (nodes) peuvent

communiquer entre-elles dans un même cluster. o Efficace : L’utilisation des bases NoSQL documentaires. Les données

sont automatiquement répliquées.o Accessible : API REST

Page 13: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 13

Sense

Page 14: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 14

Sense

Page 15: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 15

Kibana

Outil de visualisation

Page 16: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 16

Kibana• Kibana est une interface web permettant de rechercher des

infos stockées dans ElasticSearch

IndexationRequête

Résultats

Page 17: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 17

Kibana

Page 18: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 18

Kibana

Page 19: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 19

ES for Hadoop

Page 20: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 20

ES for Hadoopo On peut accéder à Elasticsearch comme si les données existent sur HDFS.

o Les jobs sont exécutés sur les mêmes machines que les shards Elasticsearch, ce qui permet d’éliminer le trafic réseau et d’avoir une meilleure performance, grâce à la proximité des données.

Page 21: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 21

Autres produits

Page 22: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 22

Page 23: Tunis big data_meetup__21_nov2015__aymenzaafouri

Tunis Big Data Meetup 23

Merci pour votre attention