Upload
aymen-zaafouri
View
722
Download
0
Embed Size (px)
Citation preview
Tunis Big Data Meetup 1
@AymenZaafouri
Tunis Big Data Meetup
21/11/2015 – Cogite Coworking Space
LEK stack : Logstash, ElasticSearch, Kibana
Aymen ZAAFOURIIngénieur en statistique et analyse de l’information Promotion 2014
Mastère spécialisé « Informatique décisionnelle » Promotion 2015
Data Scientist
2Tunis Big Data Meetup
3
• Logstash• ElasticSearch• Kibana• ES - Hadoop• Autres produits
Tunis Big Data Meetup
Tunis Big Data Meetup 4
Logstash
collecte, analyse et stockage de logs.
Tunis Big Data Meetup 5
Log ?
Log = Timestamp + Données
Tunis Big Data Meetup 6
Input Filter Output
Logstasho Version 2.0o Il est développé en Java, sous licence Apache 2.0.
o Input: Syslog, IMAP, SGBD, IRC ,Twitter,…o Filter: Standardisation des dates, Suppression des événements, …o Output: ElasticSearch, MangoDB, Redis, …
Tunis Big Data Meetup 7
Logstash + Twitter = ?
Tunis Big Data Meetup 8
ElasticSearch
Moteur de recherche
Tunis Big Data Meetup 9
o 17 000 Commits (32 000 pour LEK)o 35 000 000 Téléchargementso 120 User groups dans 80 villes
o ElasticSearch est utilisé en production par: o Wikipediao NASAo Mozilla (300 millions d’événements par jour)o Verizon ( 500 billion de documents)
Tunis Big Data Meetup 10
o Moteur de recherche:– Moteur d’indexation de document– Moteur de recherche sur les index
o Limites de la recherche SQL (% - Like):– Pas de tolérance aux « Fotes » de frappe– Performances désastreuses sur des millions de ligne
Tunis Big Data Meetup 11
Mots-clés
o Le mapping: l’équivalent du schéma dans une base de données relationnelle.
o Un index: Un peu comme une base de données sur un SGBD relationnel. o Les types: l’équivalent des tables dans un système relationnel. o Les documents: comme les lignes dans une base de données relationnelle.
Les documents sont stockés au format JSON et ont un index, un type et un id en plus des données.
Tunis Big Data Meetup 12
Points forts
o Simple mise en place.o Rapide : Les recherches sont traitées en quasi temps réel grâce à la
parallélisation des traitements. o Scalable : peut être distribué et plusieurs instances (nodes) peuvent
communiquer entre-elles dans un même cluster. o Efficace : L’utilisation des bases NoSQL documentaires. Les données
sont automatiquement répliquées.o Accessible : API REST
Tunis Big Data Meetup 13
Sense
Tunis Big Data Meetup 14
Sense
Tunis Big Data Meetup 15
Kibana
Outil de visualisation
Tunis Big Data Meetup 16
Kibana• Kibana est une interface web permettant de rechercher des
infos stockées dans ElasticSearch
IndexationRequête
Résultats
Tunis Big Data Meetup 17
Kibana
Tunis Big Data Meetup 18
Kibana
Tunis Big Data Meetup 19
ES for Hadoop
Tunis Big Data Meetup 20
ES for Hadoopo On peut accéder à Elasticsearch comme si les données existent sur HDFS.
o Les jobs sont exécutés sur les mêmes machines que les shards Elasticsearch, ce qui permet d’éliminer le trafic réseau et d’avoir une meilleure performance, grâce à la proximité des données.
Tunis Big Data Meetup 21
Autres produits
Tunis Big Data Meetup 22
Tunis Big Data Meetup 23
Merci pour votre attention
24
Restons en contact !
@AymenZaafouri
aymenzaafouri
Tunis Big Data Meetup