15
Accuracy Measure Accuracy Measure Precision, Recall & F Precision, Recall & F - - Measure Measure Dr. Taufik Fuadi Abidin, S.Si., M.Tech Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Bahan Kuliah Data Mining

Accuracy Measure - Jurusan Informatika · Setiap sampel dari training set memiliki atribut dan klas label. ... Contoh Kasus Klasifikasi ... klas label dari sampel baru) memiliki akurasi

  • Upload
    lamnhu

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Accuracy MeasureAccuracy MeasurePrecision, Recall & FPrecision, Recall & F--MeasureMeasure

Dr. Taufik Fuadi Abidin, S.Si., M.Tech

Program Studi Teknik InformatikaFMIPA Universitas Syiah Kuala

www.informatika.unsyiah.ac.id/tfa

Bahan Kuliah Data Mining

Outline Pertemuan

Perhitungan Akurasi untuk Kasus Klasifikasi

Confusion Matriks

Definisi: Precision, Recall

F-Measure

Perhitungan Akurasi Menggunakan Perangkat Lunak Weka: Contoh Kasus Pima-Diabetes

Klasifikasi Perlu Training Set

Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning)

Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran

Setiap sampel dari training set memiliki atribut dan klas label. Contoh klas label:

Usulan kredit : diterima atau ditolak

Kelulusan : pujian, sangat memuaskan, memuaskan

Contoh Kasus KlasifikasiSebuah perusahaan kartu kredit (credit card) menerima ribuan aplikasi baru setiap hari untuk mengajukan kartu kredit baru. Setiap aplikasi memiliki informasi tentang peserta, misalnya:

UmurStatus perkawinanPendapatan per tahundan lain-lain

Problem: menentukan aplikasi mana yang dapat disetujui dan aplikasi mana yang harus ditolak

Mengukur Hasil Klasifikasi

Bagaimana cara mengukur sebuah metode klasifikasi (yang digunakan untuk menentukan klas label dari sampel baru) memiliki akurasi yang tinggi?

Atau, dalam memilih metode klasifikasi terbaik, apa sebenarnya yang diukur dan dibandingkan?

Bagaimana cara mengukur akurasi?

Dua Tahapan Klasifikasi

Learning (training): Pembelajaran menggunakan data training

Testing: Menguji metode atau model menggunakan data testing

diuji yang testingsampel Total

benar secara asidiklasifik yangJumlah =Akurasi

Sumber: Bing Liu, Web Data Mining

Asumsi Saat Pembelajaran

Distribusi dari training sample diasumsikan sama dengan distribusi dari testing sampel termasuk distribusi dari data baru (unclassified sample) yang ingin diduga klas labelnya

Untuk mendapat akurasi yang baik saat mengklasifikasi testing data maka training set harus mampu merepresentasikan keadaan dari data tes

Jika tidak, maka akurasi biasanya rendah (kurang baik)

Confusion Matriks

. .FNTP

TP r

FPTP

TPp

+=

+=

Sumber: Bing Liu, Web Data Mining

Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif

Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif

ContohSumber: Bing Liu, Web Data Mining

precision p = 100%

recall r = 1%

Mengapa? Karena kita hanya berhasil mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar

F-Measure (F1-Score)

F-Measure (F1) adalah harmonic mean dari precision dan recall

Range dari nilai F-Measure adalah 0 sd 1.

Hitung Precision, Recall dan F-Measure

Sumber: Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques

Ilustrasi Perhitungan Akurasi: Menggunakan Weka

Data: Pima-Diabetes

Hasil dan Akurasi: KNN, k=3

Questions &

Discussion