Mr hadoop seedrocket

MapReduce & Hadoop

● Juanjo Mostazo

● SeedRocket BCN

● June 2011

M/R: Motivation

● Process big amount of data to produce other data

● Scale up VS Scale out

M/R: What is it?

● Different programming paradigm

● Based on a google paper (2004)● Automatic parallelization and distribution

● I/O Scheduling

● Fault tolerance

● Status and monitoring

M/R: Basics

● Input & Output: set of key/value pairs

● Big amount of data group & sort

● Job = Two phases = Mapper & Reducer

● Map (in_key, in_value) → list(interm_key, interm_value)

● Reduce (interm_key, list(interm_value)) →list (out_key, out_value)

M/R: Example (word counter)

M/R: Workflow

Hadoop: What is it?

● Framework based on GMR / GFS

● Apache project

● Developed in Java

● Multiple applications

● Used by many companies

● And growing!

Hadoop: HDFS dist. systems

● Data is sent to computation (whereas here computation goes to data)● Nodes must get info from each other

● Very difficult to recover from partial failure

Hadoop: HDFS concepts

● Distributed file system. Layer on top ext3, xfs...● Works better on huge files

● Redundancy (default 3)● Bad seeking, no append!● Good rack scale. Not good data center scale

● File divided in 64Mb – 128Mb blocks

Hadoop: HDFS Architecture

Hadoop: Architecture v1

M/R: Example (word counter)

Hadoop: EcoSystem

● FLUME

● ZOOKEEPER

Hadoop: Advanced stuff

● Distributed caches

● Partitioner

● Sort comparator

● Group comparator

● Combiner

● Input format & Record reader

● MultiInput

● MultiOutput

● Compression (LZO)

Hadoop: Conclussions

● Simplify large-scale computation

● Hide parallel programming issues

● Easy to get into & develop

● Deeply used & maintained by community

● Possibility yo throw away RDBMs! (Bottleneck)

MapReduce & Hadoop

● Juanjo Mostazo

● juanj.mostazo@gmail.com

Mr hadoop seedrocket

Technology

Hadoop architecture and ecosystem - polito.it€¦ · Hadoop 4.1 0 50 100 100 Hadoop MR Spark 150 sec 0.96 80 for 0 20 40 60 80 MR Spark 100 sec Daytona Gray TB sort benchmark record

Microsoft - USENIX...Hadoop MR, Centralized sched. MR 2003 2008 2013 2019 Scope, Centralized sched. Scope [eurosys07, vldb08] Hydra MR YARN Tez Spark +multi-framework +security +scheduler

HADOOP ADMIN: Session -2 What is Hadoop?. AGENDA Hadoop Demo using Cygwin HDFS Daemons Map Reduce Daemons Hadoop Ecosystem Projects

New Map Reduce & Hadoop · 2018. 1. 24. · Hadoop Map Reduce Hadoop 2 TEZ Execution Engine DevelopmentSummary Hadoop File System Shell Overview Invoke via: hadoop fs

[Hadoop] Terapot: Massive Email Archiving with Hadoop

Introduction to Hadoop and Hadoop component

Hadoop Conf 2014 - Hadoop BigQuery Connector

Hadoop , Hadoop , Hadoop !!!

Hadoop, Hadoop, Hadoop!!! Jerome Mitchell Indiana University

Apache Hadoop - Hortonworkshortonworks.com/wp-content/uploads/2012/01/ApacheHadoop-Next.pdf · – Formerly, Architect Hadoop MapReduce, Yahoo – Responsible for running Hadoop MR

Hadoop Online Tutorials - indiatrainings.in · Menu Search Hadoop Online Tutorials Author REPLY #1825 Hadoop Eco System › Forums › Hadoop Discussion Forum › 250 Hadoop Interview

2. Hadoop - lsd.ls.fi.upm.eslsd.ls.fi.upm.es/nuevas-tendencias-en-sistemas-distribuidos/Hadoop_… · Hadoop Hadoop Software Ecosystem Hadoop MapReduce Hadoop Distributed File System

Apache Hadoop and Hive. Outline Architecture of Hadoop Distributed File System Hadoop usage at Facebook Ideas for Hadoop related research

Hadoop 1.0 vs Hadoop 2.0

Mode of Training: Online, Classroom, Corporate Faculty: Mr ... · Mode of Training: Online, Classroom, Corporate Faculty: Mr. ... Spark Streaming Spark ML Lib Hadoop Testing Concepts:

Introduction to Hadoop and HDFS. Table of Contents Hadoop – Overview Hadoop Cluster HDFS

Continuous Delivery for Linux/Windows/Hadoop...Beta Cluster Hadoop JobTracker Jenkins Slave Hadoop node Hadoop node Hadoop node Hadoop node Slave Node Gateway Prod. Cluster PigServer

Open-BDA Hadoop Summit 2014 - Mr. Slim Baltagi (Building a Modern Data Architecture with Enterprise Hadoop)

· (Page views ? Hourly? Monthly Hadoop Node Hadoop Node Hadoop Camus Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Ad-Hoc Analysis External Datastores Trends

Hadoop Installation Guide | Hadoop Configuration