Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Machine Learning:ClassificationMachine Learning:ClassificationNama pembicara dengan gelar
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Apa itu Classification
• Dalam machine learning, classification termasuk pendekatan supervised-learning.
• Tugasnya melakukan kategorisasi data yang tidak diketahui ke dalamkelompok class yang diskrit
• Target pengelompokkan data tersebut berupa kategori• Kelompok A atau B• Warna merah atau biru• Ya atau tidak
• Dalam machine learning, classification termasuk pendekatan supervised-learning.
• Tugasnya melakukan kategorisasi data yang tidak diketahui ke dalamkelompok class yang diskrit
• Target pengelompokkan data tersebut berupa kategori• Kelompok A atau B• Warna merah atau biru• Ya atau tidak
15/07/2019 Classification: Intro dan KNN 3
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Apa Tugasnya Classification?• Diberikan sebuah himpunan observasi berupa data tabel, lengkap dengan
label class-nya,
• Classification harus menentukkan class dari observasi baru yang belumdiberikan label class.
DataberupaKategori
• Diberikan sebuah himpunan observasi berupa data tabel, lengkap denganlabel class-nya,
• Classification harus menentukkan class dari observasi baru yang belumdiberikan label class.
15/07/2019 Classification: Intro dan KNN 4
DataberupaKategori
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus Classification• Sebuah bank harus menentukan apakah salah satu nasabahnya yang
ingin melakukan peminjaman uang dapat mengembalikan pinjamannyaatau tidak.
• Yang bisa dilakukan bank ialah menganalisa data nasabah sebelumnya,nasabah dengan ciri-ciri seperti apa yang kemungkinan memiliki masalahdalam melakukan pengembalian pinjaman.
• Ciri-ciri yang dimaksud adalah informasi yang dimiliki nasabah, seperti:• Umur, edukasi, lama bekerja, pendapatan, debit yang dimiliki, dll.
• Sebuah bank harus menentukan apakah salah satu nasabahnya yangingin melakukan peminjaman uang dapat mengembalikan pinjamannyaatau tidak.
• Yang bisa dilakukan bank ialah menganalisa data nasabah sebelumnya,nasabah dengan ciri-ciri seperti apa yang kemungkinan memiliki masalahdalam melakukan pengembalian pinjaman.
• Ciri-ciri yang dimaksud adalah informasi yang dimiliki nasabah, seperti:• Umur, edukasi, lama bekerja, pendapatan, debit yang dimiliki, dll.
15/07/2019 Classification: Intro dan KNN 5
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus Classification
Classifiermodel
Modelling
• Berdasarkan informasi-informasi tersebut, sebuah classifier model dapatdibuat yang akan digunakan untuk melakukan klasifikasi data baru!
• Jika nasabah baru muncul, classifier model dapat melakukan kategorisasinasabah tersebut.
15/07/2019 Classification: Intro dan KNN 6
Input
Kategorisasi0
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Target / Class dari Classification• Dari contoh yang sebelumnya, kita bias melihat bahwa target / class dari
nasabah tersebut berupa binary• Memungkinkan melakukan pinjaman• Tidak memungkinkan melakukan pinjaman
• Pada dasarnya, classification tidak hanya dapat melakukan binaryclassification tetapi juga multiclass classification.
• Sebagai contoh:• Kelompok A, atau B, atau C.• Kucing, Harimau, atau Macan• Bunga anggrek, melati, atau bakung.
• Dari contoh yang sebelumnya, kita bias melihat bahwa target / class darinasabah tersebut berupa binary
• Memungkinkan melakukan pinjaman• Tidak memungkinkan melakukan pinjaman
• Pada dasarnya, classification tidak hanya dapat melakukan binaryclassification tetapi juga multiclass classification.
• Sebagai contoh:• Kelompok A, atau B, atau C.• Kucing, Harimau, atau Macan• Bunga anggrek, melati, atau bakung.
15/07/2019 Classification: Intro dan KNN 7
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Multiclass Classification
• Terdapat data pasien yang mengalami sebuah penyakit yang sama.• Namun karena kondisi tubuh pasien tersebut berbeda-beda, obat yang
dianjurkan oleh dokterpun harus sesuai dengan kondisi tubuhnya.• Ada tiga tipe obat yang tersedia: drugC, drugX, dan drugY.
15/07/2019 Classification: Intro dan KNN 8
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Multiclass Classification
Classifiermodel
Modelling
• Kita bisa membuat classifier model berdasarkan data pasien yangtersedia.
• Jika pasien baru muncul, classifier model dapat melakukan kategorisasi,yang mana dari ketiga obat tersebut yang cocok untuk pasien tersebut.
15/07/2019 Classification: Intro dan KNN 9
Classifiermodel
Input
Kategorisasi
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Penggunaan Classification
15/07/2019 Classification: Intro dan KNN 10
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Beberapa Algoritma Classification
• K-Nearest Neighbor• Decision Tree
• Logistic Regression• Support Vector Machines
• Neural Networks
1 Hari (Hari ini)
1 Hari (Hari berikutnya)
• K-Nearest Neighbor• Decision Tree
• Logistic Regression• Support Vector Machines
• Neural Networks
15/07/2019 Classification: Intro dan KNN 11
1 Hari (Hari berikutnya)
2 Hari (Setelah Ujian Tengah)
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Pengukuran Evaluasidalam ClassificationPengukuran Evaluasidalam ClassificationNama pembicara dengan gelar
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Memahami PengukuranEvaluasi
Bagian Satu
Memahami PengukuranEvaluasi
15/07/2019 Classification: Intro dan KNN 13
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Training dan Testing Data• Pengukuran Evaluasi (Evaluation Metrics) mendeskripsikan performa dari
model classifier kita.• Untuk membuat Evaluation Metrics, data training dibagi menjadi dua:
• Training data = Membuat model classifier.• Testing data = Memeriksa akurasi dari classifier
Training Data
• Pengukuran Evaluasi (Evaluation Metrics) mendeskripsikan performa darimodel classifier kita.
• Untuk membuat Evaluation Metrics, data training dibagi menjadi dua:
• Training data = Membuat model classifier.• Testing data = Memeriksa akurasi dari classifier
15/07/2019 Classification: Intro dan KNN 14
Training Data
Testing Data
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Training dan Testing Data
Classifiermodel
Modelling
Training Data
churn
Class yangdiprediksi
Seberapa akuratmodel kita?
15/07/2019 Classification: Intro dan KNN 15
Prediksi
Testing Data
churn
1
0
1
5 churn
0
0
1
Class yangsebenarnya
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Beberapa EvaluationMetrics yang Umum
Bagian Dua
Beberapa EvaluationMetrics yang Umum
15/07/2019 Classification: Intro dan KNN 16
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Jaccard Index
15/07/2019 Classification: Intro dan KNN 17
Higher Accuracy
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
F1 Score
• Cara membaca Confusion Matrix• True Positive:
• Diprediksi True• Class sebenarnya True
• False Negative:• Diprediksi False• Class sebenarnya True
• False Positive:• Diprediksi True• Class sebenarnya False
• True Negative• Diprediksi False• Class sebenarnya False
TruePositive
False Negative
• Cara membaca Confusion Matrix• True Positive:
• Diprediksi True• Class sebenarnya True
• False Negative:• Diprediksi False• Class sebenarnya True
• False Positive:• Diprediksi True• Class sebenarnya False
• True Negative• Diprediksi False• Class sebenarnya False
15/07/2019 Classification: Intro dan KNN 18
False Positive True Negative
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
F1 Score
TruePositive
False Negative
15/07/2019 Classification: Intro dan KNN 19
False Positive True Negative
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
F1 Score
TruePositive
False Negative
15/07/2019 Classification: Intro dan KNN 20
False Positive True Negative
Harmonic Average dari Prec. &Rec.
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Classification :K-Nearest NeighborClassification :K-Nearest NeighborNama pembicara dengan gelar
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Intuisi dibalik K-NearestNeighbor
Bagian Satu
Intuisi dibalik K-NearestNeighbor
15/07/2019 Classification: Intro dan KNN 22
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus KNN
15/07/2019 Classification: Intro dan KNN 23
• Bayangkan sebuah perusahaan provider telekomunikasi.• Perusahaan tersebut mengumpulkan data pelanggannya lengkap dengan
penggunaan layanan yang dipilihnya.
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus KNN
15/07/2019 Classification: Intro dan KNN 24
• Berdasarkan data tersebut, perusahaan seharusnya dapat menemukanpola:
• Pelanggan seperti apa yang senang memilih basic, e-service, plus, dantotal.
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus KNN
15/07/2019 Classification: Intro dan KNN 25
• Ini merupakan permasalahan klasifikasi :• Diberikan sebuah dataset• Kita harus membuat model yang dapat digunakan untuk melakukan klasifikasi,• Sebagai contoh: akan memilih layanan mana pelanggan baru ini?
, lengkap dengan label yang telah ditentukan(layanan),
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Contoh Kasus KNN
15/07/2019 Classification: Intro dan KNN 26
• Tujuan kita adalah membuat model classifier yang akan melakukanklasifikasi pelanggan baru tersebut.
• Kita akan gunakan salah satu algoritma machine learning: K-NearestNeighbor
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
15/07/2019 Classification: Intro dan KNN 27
• Untuk penyederhanaan, kitahanya akan menggunakan duavariable untuk melakukanklasifikasi.
• Income dan Age
• Kemudian kita plot kedua variablekedalam grafik.
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
??
15/07/2019 Classification: Intro dan KNN 28
• Sekarang, andai pelanggan barumuncul, dengan:
• Age = 50• Income = 166
• Termasuk kategori manakahpelanggan baru ini?
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
??
15/07/2019 Classification: Intro dan KNN 29
• Salah satu logika palingsederhana:
• Data terdekat dengan kitamemiliki ciri-ciri (umur danpendapatan) yang serupa dengankita.
• Mari kita lihat data yang terdekatdengan pelanggan baru.
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
??
15/07/2019 Classification: Intro dan KNN 30
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
??
15/07/2019 Classification: Intro dan KNN 31
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 1st KNN
• Proses ini disebut dengan 1st KNN.• Melihat kecenderungan class data baru dari tetangga terdekat kita.• Namun bagaimana jika tetangga terdekat kita ternyata salah memilih
layanan?• Misalnya, secara tidak sengaja memilih layanan tersebut, dan sebetulnya
tidak menginginkan layanan tersebut.
• Melakukan klasifikasi hanya dengan melihat satu tetangga terdekat sajasangat rentan terjadi kesalahan klasifikasi.
• Proses ini disebut dengan 1st KNN.• Melihat kecenderungan class data baru dari tetangga terdekat kita.• Namun bagaimana jika tetangga terdekat kita ternyata salah memilih
layanan?• Misalnya, secara tidak sengaja memilih layanan tersebut, dan sebetulnya
tidak menginginkan layanan tersebut.
• Melakukan klasifikasi hanya dengan melihat satu tetangga terdekat sajasangat rentan terjadi kesalahan klasifikasi.
15/07/2019 Classification: Intro dan KNN 32
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 5 KNNs
??
15/07/2019 Classification: Intro dan KNN 33
• Sekarang, daripada hanya satu,bagaimana jika kita melihat 5tetangga terdekat kita?
• Dan penentuan class,berdasarkan mayoritas classdisekelilingnya?
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 5 KNNs
??
15/07/2019 Classification: Intro dan KNN 34
• 3 tetangga terdekat = Plus Service
• 2 tetangga terdekat = Total Service
• Dari 5 ketetanggaan, pelangganbaru ternyata memilikikecenderungan memilih PlusService
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Menentukan Class dengan 5 KNNs
??
15/07/2019 Classification: Intro dan KNN 35
Ini merupakan intuisi dasar dariK-Nearest Neighbor
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Algoritma K-NearestNeighbor
Bagian Dua
Algoritma K-NearestNeighbor
15/07/2019 Classification: Intro dan KNN 36
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Apa itu K-Nearest Neighbor
• Sebuah metode untuk melakukanklasifikasi berdasarkan similaritasterhadap data lainnya.
• Beberapa data terdekat disebutdengan “Tetangga” atau“Neighbors”
• Tetangga yang terdekat dianggapmemiliki fitur yang serupa dengandata yang dimaksud.
• Sebuah metode untuk melakukanklasifikasi berdasarkan similaritasterhadap data lainnya.
• Beberapa data terdekat disebutdengan “Tetangga” atau“Neighbors”
• Tetangga yang terdekat dianggapmemiliki fitur yang serupa dengandata yang dimaksud.
15/07/2019 Classification: Intro dan KNN 37
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Algoritma K-Nearest Neighbor
15/07/2019 Classification: Intro dan KNN 38
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Mencari Jarak Antara 2 Titik di 2D
15/07/2019 Classification: Intro dan KNN 39
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Mencari Jarak Antara 2 Titik di 2D
15/07/2019 Classification: Intro dan KNN 40
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
15/07/2019 Classification: Intro dan KNN 41
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Training dan Testing Data• Bagi training data kita menjadi 2 :
• Training data = Membuat model classifier.• Testing data = Memeriksa akurasi dari classifier
Training Data
• Bagi training data kita menjadi 2 :
• Training data = Membuat model classifier.• Testing data = Memeriksa akurasi dari classifier
15/07/2019 Classification: Intro dan KNN 42
Testing Data
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Training dan Testing Data
Classifiermodel
Modelling
Training Data
15/07/2019 Classification: Intro dan KNN 43
Classifiermodel
Input
Class
2class = 3
TidakAkurat!!
Testing Data
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
15/07/2019 Classification: Intro dan KNN 44
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Membuat BoundaryDecision dengan KNN
Bagian Tiga
Membuat BoundaryDecision dengan KNN
15/07/2019 Classification: Intro dan KNN 45
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Membuat Boundary Decision
15/07/2019 Classification: Intro dan KNN 46
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Membuat Boundary Decision
15/07/2019 Classification: Intro dan KNN 47
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Membuat Boundary Decision
15/07/2019 Classification: Intro dan KNN 48
Program Fresh Graduate Academy Digital Talent Scholarship 2019 | Machine Learning
Membuat Boundary Decision
15/07/2019 Classification: Intro dan KNN 49