How to make smarter programs. A gentle introduction to Machine Learning by Simone Scardapane

How to make smarter programs.A gentle introduction to Machine Learning

Simone Scardapane

simone.scardapane@uniroma1.it

Argomenti di oggi

Simone Scardapane

1. Il Machine Learning (ieri ed oggi)

2. Un esempio pratico: spam detection

3. Cenni su Weka

Cos’è il Machine Learning?

Simone Scardapane

«Estrazione automatica di conoscenza a partire da un insieme di dati»

Dati «Learning» Conoscenza

Chi ci lavora?

Simone Scardapane

65 anni di ricerche da parte di:

• Ingegneri

• Informatici

• Statistici

• Matematici

• Fisici

• Neuroscienziati...

Citazioni ML

Citazioni Scopus

Il Machine Learning oggi

Simone Scardapane simone.scardapane@uniroma1.it

Perché usare il Machine Learning?

(Fonte: IDC)

Ma voi cosa potete farci?

Simone Scardapane

Possibili operazioni su una libreria musicale:

1. Classificazione del genere (o del mood)2. Raggruppamento automatico (clustering)3. Tagging4. Ricerca per similitudini (association rule)5. Predizione del prossimo ascolto6. …

Il processo di Learning

Raccolta dati

Pre-Processamento

Scelta modelloAllenamento

/ testing

Utilizzo

Variazioni

• Online Learning: l’algoritmo riceve dati in real-time e si adatta di conseguenza.

• Active Learning: durante la fase di learning, è possibile richiedere attivamente nuove informazioni.

• Collaborative/Cooperative Learning…

Un esempio pratico

• Dati: insieme S di emails taggate come spam / non spam.

• Obiettivo: metodo automatico per individuare spam.

• Problemi:1. Come rappresentare l’email?2. Che modello utilizzare?3. Come allenarlo?

Passo 1: Pre-processamento

Parola #

Viagra 2

Bambino 5

Macchina 0

Stereo 0

Cane 1

«Bag of words»

Passo 2: La scelta del modello

Decision Tree:

Viagra

Pallone Spam

SpamSpam

No Sì

>2≤2

Passo 3: Allenamento

Come costruirlo?

Viagra

No Sì

Allenamento /2

Consideriamo l’algoritmo C4.5:

1. Scegliamo per il nodo l’attributo a che «divide» meglio i dati.

2. Suddividiamo l’insieme lungo i nodi.3. Ci fermiamo quando i dati sono

perfettamente divisi.

(Difficoltà: gestire dati continui, mancanti…)

Allenamento /3

Overfitting

Problema principale: overfitting!

(Immagine con Copyright Tomaso Poggio)

Pruning

Possibile soluzione (per i decision trees):

• Si tiene da parte un insieme di dati.• Si eliminano i rami non necessari (pruning)

in base a quei dati (error-based pruning).

Più generalmente si usano tecniche di cross-validation.

Testare l’algoritmo

Possiamo tenere da parte un secondo insieme per testare l’accuratezza dell’algoritmo.

Dividiamo quindi i nostri dati in tre parti:

Training Validation Testing

Tool di data mining sviluppato dalla Waikato University in Java:

1. Ampio numero di funzioni.

2. Estremamente portabile.

3. Interfaccia di facile utilizzo.

SpamBase

Usiamo il dataset SpamBase dal repository UCI:http://archive.ics.uci.edu/ml/datasets/Spambase

4601 email rappresentate da 48 frequenze di parole (più qualche informazione aggiuntiva).

I dati sono salvati in formato ARFF (file di testo):

1. Header con descrizione degli attributi.2. Elenco delle email.

Interfaccia di Weka

Apertura file

Apriamo il file:

Scelta del classificatore

Scegliamo il modello:

Training

Risultati:

Albero finale

API di Weka

http://weka.wikispaces.com/Use+WEKA+in+your+Java+code

Letture consigliate

Programming Collective Intelligence, di Toby Segaran. Publisher: O'Reilly Media (2007).

Data Mining: Practical Machine Learning Tools and Techniques, di Witten, Frank et Hall. Publisher: Morgan Kaufmann (2011).

Introduction to Machine Learning, di Alpaydin. Publisher: the MIT Press (2009).

Grazie per l’attenzione!

How to make smarter programs. A gentle introduction to Machine Learning by Simone Scardapane

Technology

Simone e Albert

Simone Roach

Simone Portfolio4

Meet Simone

Modèle simone

Simone Bordet

Simone & Andrea

Recee Simone

Approcci di MARKETING TRIBALE Simone Moriconi Diego Saracino Simone Scaccia Silvia Gardini

Nina Simone - Play Piano With Nina Simone

A Gentle Introduction to SQL - GitHub Pages€¦ · 1 Simone Biles USA Gymnastics 2 Usain Bolt Jamaica Track 3 Michael Phelps USA Swimming. 5/14/2018 10 Let’s make this table -

Simone Spampinati

Nina Simone

Simone Milasas · 2020-05-11 · Simone Milasas SIMONE MILASAS is a best-selling author, renowned speaker and global entrepreneur. A lady who knows how to be a woman, Simone constantly

Fredag 11.00 Simone Kreutzermedia.passivhuskonferensen.se/2017/10/Simone-Kreutzer.pdf · 2017. 10. 8. · Microsoft PowerPoint - Fredag 11.00 Simone Kreutzer Author: docloungekalmar

Simone Bertuzzi / Simone Trabucchi ... - invernomuto.infoinvernomuto.info/files_uploaded/Invernomuto_Portfolio_092019.pdf · INVERNOMUTO Simone Bertuzzi / Simone Trabucchi invernomuto.info

Gentle Leader - zooplus.fr from Beaphar Gentle... · Gentle Leader® Training Guide Gentle Leader® Guide de dressage Trainingsanleitung Trainingsgids Guida per l’addestramento

Simone Masini 2008

Crossfit & Wod - ironfit.it · Crossfit Endurance Simone Cusenza . 7.00 lun mar mer gio ven Simone sab 9.00 Ca"sthenics Simone Cusenza Francesca Francesca Simone Molmy 4 Crossfit

$1.99 MARCH 9, 2009 cÀMP The First amilys ... - Nina Simone Simone Project Periodical Press Notices...Nina Simone Memorial Project (), which sponsors the Nina Simone Scholarship program