20
TUGAS KELOMPOK PENGANTAR BIG DATA Aplikasi Big Data pada Airline On-time Performance 2005 dengan Regresi Logistik Biner Yogyakarta, 17 Mei 2017 Dosen Pengampu : Dr. Danardono, MPH., Ph.D. Vemmie Nastiti Lestari, S.Si., M.Sc. PROGRAM STUDI STATISTIKA DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM 1. Fajar Ilham P (13/350201/PA/15625) 2. Mardiana Nur Wahidah (14/363824/PA/15864)

danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

  • Upload
    buikien

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

TUGAS KELOMPOKPENGANTAR BIG DATA

Aplikasi Big Data pada Airline On-time Performance 2005 dengan Regresi Logistik Biner

Yogyakarta, 17 Mei 2017

Dosen Pengampu :

Dr. Danardono, MPH., Ph.D.

Vemmie Nastiti Lestari, S.Si., M.Sc.

PROGRAM STUDI STATISTIKA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2017

1. Fajar Ilham P (13/350201/PA/15625)

2. Mardiana Nur Wahidah (14/363824/PA/15864)

3. Qudhrotul Zahro’ Khoiriyah (14/368562/PA/16294)

4. Anindya Fauzianizahra (14/368707/PA/16306)

Page 2: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

BAB I

PENDAHULUAN

1.1. Latar Belakang

Big Data merupakan sekumpulan data dengan ukuran yang melebihi kemampuan perangkat lunak sebuah database untuk menyimpan, mengelola dan menganalisisnya (The McKinsney Global Institute, 2011).

Terdapat beberapa analisis data dalam statistik, salah satunya adalah statistika inferensi. Statistika inferensi mempelajari salah satu metode untuk menentukan hubungan sebab akibat antara variabel satu dengan variabel yang lain. Metode ini disebut analisis regresi, analisis regresi adalah salah satu analisis yang dipakai secara luas untuk melakukan prediksi dan ramalan. Analisis ini merupakan ilmu yang mempelajari tentang suatu hubungan fungsional antara variabel-variabel yang dinyatakan dalam suatu bentuk persamaan matematik. Analisis regresi dapat digunakan untuk mengetahui hubungan antara variabel respon yang dinotasikan dengan variabel Y dengan variabel prediktor yang dinotasikan dengan variabel X. Pada umumnya, analisis regresi sering menggunakan data kuantitatif sebagai peubah responnya. Akan tetapi dalam kenyataannya banyak ditemukan kasus dengan peubah responnya berupa data kualitatif yang berbentuk biner, misalnya jenis kelamin (laki-laki atau perempuan) dan pengambilan keputusan (ya atau tidak). Dalam analisis regresi hubungan antara peubah respon bersifat kualitatif, sedangkan peubah prediktornya bisa bersifat kuantitatif, akan tetapi kualitatif atau gabungan keduanya dapat digambarkan kedalam suatu model yang dikenal sebagai model respon biner. Salah satu bagian dari analisis regresi yang mempunyai model respon bersifat biner adalah analisis regresi logistik. Regresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal. Analisis regresi logistik digunakan untuk mengetahui pengaruh suatu peubah prediktor terhadap peubah respon.

Parameter model regresi logistik diduga dengan metode Maximum Likelihood Estimation (MLE) dan untuk perhitungannya biasanya digunakan metode iterasi Newton Raphson. Namun metode Maximum Likelihood Estimation (MLE) tidak dapat digunakan jika terdapat kasus pemisahan. Kehadiran kasus pemisahan disebabkan data yang mempunyai sampel 2 kecil sehingga mengakibatkan bias pada estimasi parameter metode Maximum Likelihood Estimation (MLE). Kasus seperti ini dalam bidang statistika disebut dengan kasus pemisahan (Albert dan Anderson,1984). Masalah pemisahan perlu diselesaikan karena mengakibatkan nilai estimasi parameter pada regresi logistik tidak mendekati nilai estimasi parameter yang sebenernya.

Dalam studi kasus ini menggunakan data “Airplane on-time performance 2005”. Data yang akan dianalisis ini adalah big data karena ukuran data melebihi kemampuan perangkat lunak konvensional dan akan dilakukan analisis regresi logistik biner.

Page 3: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

BAB II

ANALISIS DATA

2.1. Tujuan

Tujuan dari analisis data Airline ini adalah untuk mengetahui apakah variabel-

variabel indepeneden yaitu variabel lama terbang pesawat yang sebenarnya, variabel

lama terbang pesawat yang terjadwal, variabel lama waktu yang dibutuhkan pesawat

sampai ketempat tujuan, variabel keterlambatan berangkat pesawat, variabel jarak,

variabel pesawat mulai bergerak menuju apron, dan variabel pesawat mulai bergerak

meninggalkan apron, berpengahuh terhadap variabel dependen yaitu variabel

keterlambatan datang pesawat.

2.2. Metode

Analisis Regresi Logistik

Metode regresi merupakan analisis data yang mendisripsikan hubungan kausalitas

antara varaibel respon dan prediktor. Perbedaan mendasar antara regresi linier dengan

regresi logistik adalah tipe dari variabel responnya. Regresi logistik merupakan salah

satu metode yang dapat dibuat untuk mendapatkan hubungan antara varaibel respon yang

bersifat kategorik dengan variabel prediktor. Berdasarkan skala data, regresi logistik

dapat dibagi menjadi 3 macam, yaitu:

a. Regresi logistik biner (Binary Regresi Regression)

Merupakan regresi dengan varibel respon yang mempunyai dua kategori atau dua

kejadian.

b. Regresi Logistik Multinomial (Multinomial Logistic Regression)

Data variabel respon yang digunakan adalah data berskala nominal dengan lebih dari

dua kategori.

c. Regresi Logistik Ordinal (Ordinal Logistic Regression)

Data variabel respon yang digunakan adalah data berskala ordinal dengan lebih dari

2 kategorik

Pada studi kasus ini digunakan regresi logistik biner. Disebabkan karena variabel

respon terdiri dari 2 kategorik yaitu terlambat dan tidak terlambat. Dengan demikian

untuk setiap observasi mengikuti distribusi bernoulliuntuk setiap observasi tunggal.

Fungsi

Page 4: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

Probabilitas untuk setiap observasi diberikan sebagi berikut:

f ( y )=π y (1−π )1− y, y=0,1

Dimana jika y=0 maka f ( y )=1−π dan jika y=1 maka f ( y )=π . Fungsi regresi logistik

dapat ditulis sebagai berikut:

f ( z )= 11+e− z ekuivalen f ( z )= ez

1+ez

Dengan z=β0+β1 x1+…+β p xp

Nilai z antara −∞ dan +∞ sehingga nilai f ( z ) terletak anatar 0 dan 1 untuk setiap nilai z

yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggambarkan

probablitas atau resiko dari suatu objek. Model regresi logistiknya adalah sebagai berikut:

π (x )= e (β¿¿0+β1 x1+…+ βp xp)

1+e(β¿¿0+β1 x1+…+βp xp)¿¿

Untuk mempermudah pendugaan parameter regresi maka model regresi logistik di atas

dapat diuraikan dengan menggunakan trnasformai logit dari π (x).

Sehingga diperoleh persamaan berikut:

g ( x )=ln ( π (x )1−π ( x ) )=β0+β1 x1+…+β p x p

Model tersebut merupakan fungsi linier dari parameter- parameternya. Dalam model

regresi linier, diasumsikan bahwa pengamatan dari variabel respon diekspresikan sebagai

y=E (Y|x )+ε dimana

E (Y|x )=β0+β1 x1+…+β p xp

Merupakan rataan dari populasi dan ε merupakan komponen acak yang menunjukkan

penyimpangan pengamatan dari rataannya dan ε diasumsikan mengikuti sebaran normal

dengan ratarata 0 dan variansinya konstan.

Dalam software R, untuk dapat memodelkan regresi logistik digunakan packages big

analytics dan big memory selanjutnya digunakan perintah bigglm.big.matrix.

Page 5: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

Packages big.memory

Bigmemory tersedia di CRAN dan mendukung tipe data ganda, integer, short, dan

char; di lingkungan Unix, paket tersebut secara opsional menerapkan struktur data dalam

memori bersama. Sebelumnya, penggunaan paralel R memerlukan salinan data yang

berlebihan untuk setiap proses R, dan berbagi versi memori dari objek big.matrix

sekarang memungkinkan proses R yang terpisah sama komputer untuk berbagi akses ke

satu salinan kumpulan data masif. y Bigmemory meluas dan menambah lingkungan

pemrograman R statistik, membuka pintu untuk lebih kuat analisis paralel dan data

mining kumpulan data masif.

Data multi-gigabyte menetapkan tantangan dan membuat pengguna R yang

frustrasi bahkan pada perangkat keras berperalatan lengkap. C / C ++ dan pemrograman

Fortran bisa sangat membantu, tapi rumit untuk interaktif analisis data dan tidak

memiliki fleksibilitas dan kekuatan lingkungan pemrograman statistik R yang kaya.

Paket baru bigmemory ini menjembatani kesenjangan ini, menerapkan matriks masif di

memori (dikelola di R tapi diimplementasikan di C ++) dan mendukung manipulasi dasar

mereka dan eksplorasi. Ini sangat ideal untuk masalah yang melibatkan analisis dalam R

yang dapat dikelola himpunan bagian dari data, atau saat analisis dilakukan sebagian

besar di C ++. Dalam lingkungan Unix, Struktur data dapat dialokasikan ke memori

bersama dengan pembacaan transparan dan menulis penguncian, memungkinkan proses

terpisah pada komputer yang sama untuk berbagi akses ke a satu salinan kumpulan data

Ini membuka pintu untuk analisis paralel yang lebih kuat dan data mining kumpulan data

masif

Packages big analytics

Packages ini digunakan untuk melakukan analisis data yang besar karena jika

digunakan dengan package biasa, maka program R tidak dapat menginput semua data ke

dalam program sehingga tidak semua data dapat masuk dalam analisis. Data dalam

permasalahan ini dapat digolongkan dalam data besar atau Big Data, jadi untuk dapat

melakukan analisis regresi logistik biner dengan data yang besar tersebut diperlukan

package ini. Melalui packages ini, dapat dilakukan perintah bigglm.big.matrix untuk

melakukan analisis regresi logistik dengan data yang berukuran besar.

Page 6: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

2.3. Hasil

dengan diketahui bahwa:

variabel dependen yaitu variabel keterlambatan datang pesawat.

variabel indepeneden yaitu variabel lama terbang pesawat yang sebenarnya, variabel

lama terbang pesawat yang terjadwal, variabel lama waktu yang dibutuhkan pesawat

sampai ketempat tujuan, variabel keterlambatan berangkat pesawat, variabel jarak,

variabel pesawat mulai bergerak menuju apron, dan variabel pesawat mulai bergerak

meninggalkan apron.

Diperoleh output sebagai berikut:

a) Uji Konstan

1) Hipotesis

H0 : Konstan tidak signifikan masuk model

H1 : Konstan signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa konstan signifikan masuk model.

Interpretasi:

Dilakukan uji hipotesis untuk konstan dengan H0 : konstan tidak signifikan masuk

model dan H1 : konstan signifikan masuk model. Dengan tingkat signifikansi α =

0,05 didapat p-value = 0,000 yang berarti konstan signifikan masuk model.

Page 7: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

b) Uji Koefisien

Actual Elapsed Time

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Actual Elapsed Time signifikan masuk model.

CRS Elapsed Time

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel CRS Elapsed Time signifikan masuk model.

Air Time

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

Page 8: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Air Time signifikan masuk model.

Departure Delay

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Departure Delay signifikan masuk model.

Distance

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Distance signifikan masuk model.

Page 9: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

Taxi In

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Taxi In signifikan masuk model.

Taxi Out

1) Hipotesis

H0 : Variabel tidak signifikan masuk model

H1 : Variabel signifikan masuk model

2) Tingkat Signifikansi

α = 0,05

3) Statistik Uji

P-value = 0,000

4) Daerah Kritik

H0 ditolak jika p-value < α

5) Kesimpulan

Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan

bahwa variabel Taxi Out signifikan masuk model.

Page 10: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

Interpretasi:

Dilakukan uji hipotesis untuk koefisien variabel Actual Elapsed Time, CRS Elapsed

Time, Air Time, Departure Delay, Distance, Taxi In dan Taxi Out dengan H0:

variabel tidak signifikan masuk model dan H1: variabel signifikan masuk model.

Dengan tingkat signifikansi α = 0,05 didapat p-value Actual Elapsed Time, CRS

Elapsed Time, Air Time, Departure Delay, Distance, Taxi In dan Taxi Out sebesar

0,000 yang berarti semua variabel signifikan masuk model.

Berdasarkan analisis, diperoleh model regresi logistik adalah

g ( x )=lnπevent

1−πevent

¿0,0043+1,0018 ActualElapsedTime−1,0014 CRSElapsedTime+0,0003 AirTime+0,9999 DepDelay−0,0001 Distance+0,0003TaxiIn−0,0016 TaxiOut

Interpretasi Model:

o Actual Elapsed Time

Mengambil ∆=2 (lebih lambat 2 menit)

O R ActualElapsedTime=exp (2× 1,0018 )=7,42

Pesawat akan 7,42 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang lama terbang pesawat yang sebenarnya 2 menit lebih cepat

darinya.

o CRS Elapsed Time

Mengambil ∆=−2 (lebih cepat 2 menit)

O RCRSElapsedTime=exp (−2 ×−1,0014 )=7,41

Pesawat akan 7,41 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang lama terbang pesawat yang terjadwal 2 menit lebih lambat

darinya.

o Air Time

Mengambil ∆=60 (lebih lambat 60 menit)

O R AirTime=exp (60 × 0,0003 )=1,02

Pesawat akan 1,02 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang lama waktu yang dibutuhkan pesawat sampai ketempat tujuan

60 menit lebih cepat darinya.

o Dep Delay

Page 11: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

Mengambil ∆=2 (lebih lambat 2 menit)

O RDepDelay=exp (2×0,9999 )=7,39

Pesawat akan 7,39 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang keterlambatan berangkat pesawat 2 menit lebih cepat darinya.

o Distance

Mengambil ∆=−500 (lebih dekat 500 mile)

O RDistance=exp (−500 ×−0,0001 )=1,05

Pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang jarak 500 mile lebih jauh darinya.

o Taxi In

Mengambil ∆=25 (lebih lambat 25 menit)

O R ActualElapsedTime=exp (25 ×0,0003 )=1,01

Pesawat akan 1,01 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang pesawat mulai bergerak menuju apron 25 menit lebih cepat

darinya.

o Taxi Out

Mengambil ∆=−30 (lebih cepat 30 menit)

O R ActualElapsedTime=exp (−30×−0,0016 )=1,05

Pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang pesawat mulai bergerak meninggalkan apron 30 menit lebih

lambat darinya.

Page 12: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

2.4. Kesimpulan

Dari analisis data Airline ini diapatkan kesimpulan:

Model regresi logistik:

g ( x )=ln ( πevent

1−π event)

Arr Delay=0,0043+1,0018 ActualElapsedTime−1,0014 CRSElapsedTime+0,0003 AirTime+0,9999 DepDelay−0,0001 Distance+0,0003 TaxiIn−0,0016 TaxiOut

Untuk Actual Elapsed Time dengan ∆=2 pesawat akan 7,42 kali lebih beresiko

mengalami keterlambatan dibandingkan pesawat lain yang lama terbang pesawat yang

sebenarnya 2 menit lebih cepat darinya. Untuk CRS Elapsed Time dengan ∆=−2

pesawat akan 7,41 kali lebih beresiko mengalami keterlambatan dibandingkan pesawat

lain yang lama terbang pesawat yang terjadwal 2 menit lebih lambat darinya. Untuk Air

Time dengan ∆=60 pesawat akan 1,02 kali lebih beresiko mengalami keterlambatan

dibandingkan pesawat lain yang lama waktu yang dibutuhkan pesawat sampai ketempat

tujuan 60 menit lebih cepat darinya. Untuk Dep Delay dengan ∆=2pesawat akan 7,39

kali lebih beresiko mengalami keterlambatan dibandingkan pesawat lain yang

keterlambatan berangkat pesawat 2 menit lebih cepat darinya. Untuk Distance dengan

∆=−500 pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan

pesawat lain yang jarak 500 mile lebih jauh darinya. Untuk Taxi In dengan ∆=25

pesawat akan 1,01 kali lebih beresiko mengalami keterlambatan dibandingkan pesawat

lain yang pesawat mulai bergerak menuju apron 25 menit lebih cepat darinya. Untuk

Taxi Out dengan ∆=−30 pesawat akan 1,05 kali lebih beresiko mengalami

keterlambatan dibandingkan pesawat lain yang pesawat mulai bergerak meninggalkan

apron 30 menit lebih lambat darinya.

Page 13: danardono.staff.ugm.ac.iddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel12... · Web viewRegresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal

BAB IV

DAFTAR PUSTAKA

Wang Chun, Ming-Hui Chen, Elizabeth Schifano, Jing Wu, dan Jun Yan. 2016.

Statistical methods and computing for big data. HHS Public Acces. Vol. 9, No. 4:

399-414

Emerson John W, dan Michael J Kane. The R Package bigmemory: Supporting

Efficient Computation and Concurrent Programming with Large Data Sets. Journal of

Statistical Software. Volume VV, Issue II.

Regresi Logistik Biner.pdf. Atinaahdika.com .

https://www.google.co.id/amp/s/www.statistkan.com/2015/02/regresi-logistik.html/

amp

http://www.w3ii.com/id/r/r_logistic_regression.html

http://stat-computing.arg/dataexpo/2009/the-data.html