15
ADVANCED ANALYTICS 1 16/05/2016 Stefano Roselli [email protected]

Applicazioni di Advanced Analytics

Embed Size (px)

Citation preview

Page 1: Applicazioni di Advanced Analytics

ADVANCED ANALYTICS

1

16/05/2016

Stefano Roselli [email protected]

Page 2: Applicazioni di Advanced Analytics

computer center

Top 500

Il Cineca è un Consorzio Interuniversitario senza scopo di lucro al servizio del sistema accademico nazionale istituito nel 1969.La missione è “promuovere l’utilizzo dei più avanzati sistemi di elaborazione dell’informazione a favore della ricerca scientifica e tecnologica, pubblica e privata”, e al trasferimento tecnologico alle imprese e alla Pubblica Amministrazione.

Fanno parte del Consorzio: MIUR 70 università 4 Enti di Ricerca

Circa 1.000 dipendenti con sedia Bologna, Milano e Roma

CINECA

216/05/2016

Page 3: Applicazioni di Advanced Analytics

Il Laboratorio Big Data & Analytics

16/05/2016

PIATTAFORME SOFTWARE: IBM Big Insights Hortonworks Data Platform

ARCHITETTURE: Data Streaming Analysis Large Scale Machine Learning

TECNOLOGIE: Hadoop (HDFS, MapReduce), YARN Spark SQL, Hive e HBase Storm, Spark Streaming Kafka & MQTT Spark R e Distributed R Librerie: Spark MLLIB, H2O

INFRASTRUTTURA:HPC IBM NeXtScale server appositamenteprogettata per i casi di calcolo “data-intensive”:

70 nodi IBM NeXtScale con interconnessione a 56 GB/sec Intel Ivy Bridge 20 core per nodo, 1480 core in totale 128 GB RAM per nodo 40 TB SSD locale al nodo, 16 PB di storage in linea

Il Laboratorio di Big Data & Analytics è una iniziativa di CINECA, nel campo della High PerformanceAnalytics per promuovere la sua diffusione e aiutare i decisori aziendali e i professionisti ICT acomprendere le strategie, le potenzialità e le tecnologie dei Big Data e delle tecniche di Data Mining.

3

Page 4: Applicazioni di Advanced Analytics

Advanced Analytics

16/05/2016 4

Analytics sono applicazioni informatiche che usano metodi matematici e statistici su sistemi computazionali altamente scalabili per estrarre valore dai dati, come trovare schemi ricorrenti (patterns), raggruppamenti (clusters) e relazioni nei dati (rules) per predire futuri comportamenti o scenari, fornendo anche raccomandazioni.

1. L’analisi predittiva cerca di prevedere le performance e/o il comportamento degli utenti, dell’organizzazione o degli impianti in scenari futuri. (Data Mining)

2. L’analisi prescrittiva si spinge oltre la previsione di risultati futuri, fornendo raccomandazioni in maniera automatica su quale soluzione scegliere tra un ventaglio di possibilità. (Cognitive Computing)

Quali sono i profili dei miei clienti? –> Analisi dei cluster Qual è la probabilità che un certo cliente mi abbandoni? -> Analisi predittiva (Machine

Learning) Quale sarà il comportamento di acquisto dei nostri clienti su una nuova linea di prodotti?

-> Analisi prescrittiva (Cognitive Computing)

Page 5: Applicazioni di Advanced Analytics

16/05/2016 5

Machine Learning

Supervised learningIl sistema apprende da un insieme esperienza che contiene esempi del comportamento che si desidera nel sistema

Unsupervised learningNon si hanno casi da cui il sistema può apprendere

Algoritmi Predittivi

Categorical Target Variable:• Decision Tree• Random Forest• Neural Networks• Support Vector Machines• K-Neraest Neighbor• Logistic Regression

Continuos Target Variable:• Linear Regression• Generalized Linear Model• Poisson Regression

Algoritmi Descrittivi

• Clustering (K-Means)• Hidden Markov Chains• Principal Component Analysis (PCA)• Self-Organizing Maps (SOM)• Modelli Causali

Page 6: Applicazioni di Advanced Analytics

16/05/2016 6

Algoritmo Predittivo – come funziona

VARIABILE TARGETEvento normale: 0Evento da predire: 1Dati storici degli eventi:

variabili (colonne) x casi (righe)

Apprendimentodel Modello

Test delModello

Training Data (80%)

Test Data (20%)

Indici di valutazione: Accuratezza: classificati correttamente (0 e 1) Sensibilità: classificati correttamente come 1 Specificità: classificati correttamente come 0

Page 7: Applicazioni di Advanced Analytics

Analisi Predittiva dei Guasti

Variabili per ogni evento osservato Type, Timestamp, Severity, 18 variabili (battery

voltage, input voltage, input current, Outputvoltage, output frequency, percentage of load …).

Tecniche di Machine Learning utilizzate Binary classification

• Decision Tree (c5.0)

7

Obiettivi1) Prevedere per un Gruppo di Continuità (UPS) se

si verificherà un evento grave (livello 3) entro 2 minuti.

Type Timestamp Severity D2BatteryStatus D2BatteryVoltage … D2ResidualCharge D2ResidualTime D4BatteryStatus D4BatteryVoltage … D4ResidualCharge D4ResidualTime classificazione

126 10/06/2015 15:13 3 2 226,7 88 65 2 244,8 100 0 1

63 10/06/2015 15:15 3 2 244,8 100 999 2 248,44 94,2 68,8 1

126 10/06/2015 15:18 3 2 244,8 98,5 48 2 244,8 100 999 1

63 10/06/2015 15:24 3 2 244,8 100 87 2 244,8 100 0 1

… … … … … … … … … … … …

126 26/09/2015 22:34 3 2 244,8 100 999 2 244,8 100 999 1

0 27/09/2015 21:12 -1 2 244,8 100 999 2 244,8 100 999 0

126 27/09/2015 21:16 3 2 244,8 100 999 2 244,8 100 999 1

0 28/09/2015 04:45 -1 2 244,8 100 999 2 244,8 100 999 0

126 28/09/2015 04:49 3 2 244,8 100 999 2 244,8 100 999 1

… …

16/05/2016

Page 8: Applicazioni di Advanced Analytics

8

RisultatiReali

Previsti 0 1

0 52 33

1 18 83

Previsione di eventi gravi considerando le variabili 2 minuti dal verificarsi di un evento.

Accuratezza 135/186 = 72,58%

Sensibilità 83/116 = 71,55%

Specificità 52/70 = 74,29%

Accuratezza= Percentuale di osservazioni correttamente classificate

Sensibilità= Percentuale di osservazioni di classe 1 (evento grave) correttamente classificate

Specificità= Percentuale di osservazioni di classe 0 (nessun evento grave) correttamente classificate

Matrice di confusione

16/05/2016

Analisi Predittiva dei Guasti

Page 9: Applicazioni di Advanced Analytics

916/05/2016

Analisi Predittiva dei Guasti

Page 10: Applicazioni di Advanced Analytics

Analisi Predittiva Abbandoni Studenti

10

ObiettiviIndividuare quanti e quali fra gli studenti attivi sono candidati ad abbandonare il corso di studi.

16/05/2016

Laurea48,9%

Rinuncia Implicita19,1%

Attiva17,0%

Inattiva2,7%

Trasferita1,1%

Rinuncia Esplicita11,1%

Altri casi (decesso, decadenza)0,1%

StatoCarriera

Training set random 70% Laureati + Rinunce + TrasferitiTest set random 30% Laureati + Rinunce + Trasferiti

Applicazione modello alla popolazione Attivi + Inattivi

Page 11: Applicazioni di Advanced Analytics

Analisi Predittiva Abbandoni Studenti

Variabili per ogni evento osservato ID carriera e studente Sesso, età, provincia di residenza Educational background (istituto e tipo scuola, titolo, voto e lode

diploma) Anno di Iscrizione, distanza dall’immatricolazione, distanza dal

diploma Tipo di laurea, Classe di laurea, Codice corso Ministeriale e tipo di

corso Flag su Test di Ingresso, Carriera Part-time, Erasmus, Stage,

Contributi in regola, Lavoratore, Borsa, Esenzione, Passaggio di corso, …..

Sede dell’Università Esami Accumulati (con e senza voto), Esami Velocità, Voto medio

degli esami CFU dovuti, CFU ingresso, CFU Accumulati, CFU Perc, CFU

velocità, GAP CFU (attesi – acquisiti) Anni fuoricorso, numero di anni di ritardo rispetto al piano di

studiTecniche di Machine Learning utilizzate Switching Neural Network

1116/05/2016

Fonti dati Flusso dati all’Anagrafica Nazionale Studenti (Schede ANS). Popolazione costituita da 13 generazioni di carriere dal

2001/02 al 2013/14 (con eventi registrati fino al 2014/15). Numerosità di dati elaborati (a seguito della pulizia dei dati):

• Carriere: 212.926 • Studenti: 177.463• Esami: 3.402.596 • Iscrizioni AA: 682.332

Variabile obiettivo

Stato: Laurea o abbandono (rinuncia esplicita, implicita, trasferimento in uscita) e poi applicato alle carriere attive (comprese quelle inattive)

Page 12: Applicazioni di Advanced Analytics

RULES

COVERING

CONDITION RELEVANCES

28 regole comprendenti da 1 a 10 condizioni

Analisi Predittiva Abbandoni Studenti

Page 13: Applicazioni di Advanced Analytics

13

Accuratezza 47182/50742 = 92,98%

Sensibilità 19254/20081 = 95,88%

Specificità 27928/30661 = 91,09%

Accuratezza= Percentuale di osservazioni correttamente classificate

Sensibilità= Percentuale di osservazioni di classe 1 (abbandoni) correttamente classificate

Specificità= Percentuale di osservazioni di classe 0 (laurea) correttamente classificate

Matrice di confusione

16/05/2016

Analisi Predittiva Abbandoni Studenti

Page 14: Applicazioni di Advanced Analytics

Previsione per gli studenti in corso

Per le 43.914 carriere ancora attive, l’analisi del nostro modello prevede:

- 25mila previsti laureati (57% del totale)

- 18mila abbandoni siano essi trasferimenti, abbandoni impliciti o espliciti.

Analisi Predittiva Abbandoni Studenti

16/05/2016 14

Page 15: Applicazioni di Advanced Analytics

Grazie per l’attenzione

16/05/2016 15

Stefano Roselli [email protected]