Upload
buikien
View
224
Download
0
Embed Size (px)
Citation preview
TUGAS KELOMPOKPENGANTAR BIG DATA
Aplikasi Big Data pada Airline On-time Performance 2005 dengan Regresi Logistik Biner
Yogyakarta, 17 Mei 2017
Dosen Pengampu :
Dr. Danardono, MPH., Ph.D.
Vemmie Nastiti Lestari, S.Si., M.Sc.
PROGRAM STUDI STATISTIKA
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2017
1. Fajar Ilham P (13/350201/PA/15625)
2. Mardiana Nur Wahidah (14/363824/PA/15864)
3. Qudhrotul Zahro’ Khoiriyah (14/368562/PA/16294)
4. Anindya Fauzianizahra (14/368707/PA/16306)
BAB I
PENDAHULUAN
1.1. Latar Belakang
Big Data merupakan sekumpulan data dengan ukuran yang melebihi kemampuan perangkat lunak sebuah database untuk menyimpan, mengelola dan menganalisisnya (The McKinsney Global Institute, 2011).
Terdapat beberapa analisis data dalam statistik, salah satunya adalah statistika inferensi. Statistika inferensi mempelajari salah satu metode untuk menentukan hubungan sebab akibat antara variabel satu dengan variabel yang lain. Metode ini disebut analisis regresi, analisis regresi adalah salah satu analisis yang dipakai secara luas untuk melakukan prediksi dan ramalan. Analisis ini merupakan ilmu yang mempelajari tentang suatu hubungan fungsional antara variabel-variabel yang dinyatakan dalam suatu bentuk persamaan matematik. Analisis regresi dapat digunakan untuk mengetahui hubungan antara variabel respon yang dinotasikan dengan variabel Y dengan variabel prediktor yang dinotasikan dengan variabel X. Pada umumnya, analisis regresi sering menggunakan data kuantitatif sebagai peubah responnya. Akan tetapi dalam kenyataannya banyak ditemukan kasus dengan peubah responnya berupa data kualitatif yang berbentuk biner, misalnya jenis kelamin (laki-laki atau perempuan) dan pengambilan keputusan (ya atau tidak). Dalam analisis regresi hubungan antara peubah respon bersifat kualitatif, sedangkan peubah prediktornya bisa bersifat kuantitatif, akan tetapi kualitatif atau gabungan keduanya dapat digambarkan kedalam suatu model yang dikenal sebagai model respon biner. Salah satu bagian dari analisis regresi yang mempunyai model respon bersifat biner adalah analisis regresi logistik. Regresi logistik terbagi menjadi tiga, yaitu regresi logistik biner, nominal, dan ordinal. Analisis regresi logistik digunakan untuk mengetahui pengaruh suatu peubah prediktor terhadap peubah respon.
Parameter model regresi logistik diduga dengan metode Maximum Likelihood Estimation (MLE) dan untuk perhitungannya biasanya digunakan metode iterasi Newton Raphson. Namun metode Maximum Likelihood Estimation (MLE) tidak dapat digunakan jika terdapat kasus pemisahan. Kehadiran kasus pemisahan disebabkan data yang mempunyai sampel 2 kecil sehingga mengakibatkan bias pada estimasi parameter metode Maximum Likelihood Estimation (MLE). Kasus seperti ini dalam bidang statistika disebut dengan kasus pemisahan (Albert dan Anderson,1984). Masalah pemisahan perlu diselesaikan karena mengakibatkan nilai estimasi parameter pada regresi logistik tidak mendekati nilai estimasi parameter yang sebenernya.
Dalam studi kasus ini menggunakan data “Airplane on-time performance 2005”. Data yang akan dianalisis ini adalah big data karena ukuran data melebihi kemampuan perangkat lunak konvensional dan akan dilakukan analisis regresi logistik biner.
BAB II
ANALISIS DATA
2.1. Tujuan
Tujuan dari analisis data Airline ini adalah untuk mengetahui apakah variabel-
variabel indepeneden yaitu variabel lama terbang pesawat yang sebenarnya, variabel
lama terbang pesawat yang terjadwal, variabel lama waktu yang dibutuhkan pesawat
sampai ketempat tujuan, variabel keterlambatan berangkat pesawat, variabel jarak,
variabel pesawat mulai bergerak menuju apron, dan variabel pesawat mulai bergerak
meninggalkan apron, berpengahuh terhadap variabel dependen yaitu variabel
keterlambatan datang pesawat.
2.2. Metode
Analisis Regresi Logistik
Metode regresi merupakan analisis data yang mendisripsikan hubungan kausalitas
antara varaibel respon dan prediktor. Perbedaan mendasar antara regresi linier dengan
regresi logistik adalah tipe dari variabel responnya. Regresi logistik merupakan salah
satu metode yang dapat dibuat untuk mendapatkan hubungan antara varaibel respon yang
bersifat kategorik dengan variabel prediktor. Berdasarkan skala data, regresi logistik
dapat dibagi menjadi 3 macam, yaitu:
a. Regresi logistik biner (Binary Regresi Regression)
Merupakan regresi dengan varibel respon yang mempunyai dua kategori atau dua
kejadian.
b. Regresi Logistik Multinomial (Multinomial Logistic Regression)
Data variabel respon yang digunakan adalah data berskala nominal dengan lebih dari
dua kategori.
c. Regresi Logistik Ordinal (Ordinal Logistic Regression)
Data variabel respon yang digunakan adalah data berskala ordinal dengan lebih dari
2 kategorik
Pada studi kasus ini digunakan regresi logistik biner. Disebabkan karena variabel
respon terdiri dari 2 kategorik yaitu terlambat dan tidak terlambat. Dengan demikian
untuk setiap observasi mengikuti distribusi bernoulliuntuk setiap observasi tunggal.
Fungsi
Probabilitas untuk setiap observasi diberikan sebagi berikut:
f ( y )=π y (1−π )1− y, y=0,1
Dimana jika y=0 maka f ( y )=1−π dan jika y=1 maka f ( y )=π . Fungsi regresi logistik
dapat ditulis sebagai berikut:
f ( z )= 11+e− z ekuivalen f ( z )= ez
1+ez
Dengan z=β0+β1 x1+…+β p xp
Nilai z antara −∞ dan +∞ sehingga nilai f ( z ) terletak anatar 0 dan 1 untuk setiap nilai z
yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggambarkan
probablitas atau resiko dari suatu objek. Model regresi logistiknya adalah sebagai berikut:
π (x )= e (β¿¿0+β1 x1+…+ βp xp)
1+e(β¿¿0+β1 x1+…+βp xp)¿¿
Untuk mempermudah pendugaan parameter regresi maka model regresi logistik di atas
dapat diuraikan dengan menggunakan trnasformai logit dari π (x).
Sehingga diperoleh persamaan berikut:
g ( x )=ln ( π (x )1−π ( x ) )=β0+β1 x1+…+β p x p
Model tersebut merupakan fungsi linier dari parameter- parameternya. Dalam model
regresi linier, diasumsikan bahwa pengamatan dari variabel respon diekspresikan sebagai
y=E (Y|x )+ε dimana
E (Y|x )=β0+β1 x1+…+β p xp
Merupakan rataan dari populasi dan ε merupakan komponen acak yang menunjukkan
penyimpangan pengamatan dari rataannya dan ε diasumsikan mengikuti sebaran normal
dengan ratarata 0 dan variansinya konstan.
Dalam software R, untuk dapat memodelkan regresi logistik digunakan packages big
analytics dan big memory selanjutnya digunakan perintah bigglm.big.matrix.
Packages big.memory
Bigmemory tersedia di CRAN dan mendukung tipe data ganda, integer, short, dan
char; di lingkungan Unix, paket tersebut secara opsional menerapkan struktur data dalam
memori bersama. Sebelumnya, penggunaan paralel R memerlukan salinan data yang
berlebihan untuk setiap proses R, dan berbagi versi memori dari objek big.matrix
sekarang memungkinkan proses R yang terpisah sama komputer untuk berbagi akses ke
satu salinan kumpulan data masif. y Bigmemory meluas dan menambah lingkungan
pemrograman R statistik, membuka pintu untuk lebih kuat analisis paralel dan data
mining kumpulan data masif.
Data multi-gigabyte menetapkan tantangan dan membuat pengguna R yang
frustrasi bahkan pada perangkat keras berperalatan lengkap. C / C ++ dan pemrograman
Fortran bisa sangat membantu, tapi rumit untuk interaktif analisis data dan tidak
memiliki fleksibilitas dan kekuatan lingkungan pemrograman statistik R yang kaya.
Paket baru bigmemory ini menjembatani kesenjangan ini, menerapkan matriks masif di
memori (dikelola di R tapi diimplementasikan di C ++) dan mendukung manipulasi dasar
mereka dan eksplorasi. Ini sangat ideal untuk masalah yang melibatkan analisis dalam R
yang dapat dikelola himpunan bagian dari data, atau saat analisis dilakukan sebagian
besar di C ++. Dalam lingkungan Unix, Struktur data dapat dialokasikan ke memori
bersama dengan pembacaan transparan dan menulis penguncian, memungkinkan proses
terpisah pada komputer yang sama untuk berbagi akses ke a satu salinan kumpulan data
Ini membuka pintu untuk analisis paralel yang lebih kuat dan data mining kumpulan data
masif
Packages big analytics
Packages ini digunakan untuk melakukan analisis data yang besar karena jika
digunakan dengan package biasa, maka program R tidak dapat menginput semua data ke
dalam program sehingga tidak semua data dapat masuk dalam analisis. Data dalam
permasalahan ini dapat digolongkan dalam data besar atau Big Data, jadi untuk dapat
melakukan analisis regresi logistik biner dengan data yang besar tersebut diperlukan
package ini. Melalui packages ini, dapat dilakukan perintah bigglm.big.matrix untuk
melakukan analisis regresi logistik dengan data yang berukuran besar.
2.3. Hasil
dengan diketahui bahwa:
variabel dependen yaitu variabel keterlambatan datang pesawat.
variabel indepeneden yaitu variabel lama terbang pesawat yang sebenarnya, variabel
lama terbang pesawat yang terjadwal, variabel lama waktu yang dibutuhkan pesawat
sampai ketempat tujuan, variabel keterlambatan berangkat pesawat, variabel jarak,
variabel pesawat mulai bergerak menuju apron, dan variabel pesawat mulai bergerak
meninggalkan apron.
Diperoleh output sebagai berikut:
a) Uji Konstan
1) Hipotesis
H0 : Konstan tidak signifikan masuk model
H1 : Konstan signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa konstan signifikan masuk model.
Interpretasi:
Dilakukan uji hipotesis untuk konstan dengan H0 : konstan tidak signifikan masuk
model dan H1 : konstan signifikan masuk model. Dengan tingkat signifikansi α =
0,05 didapat p-value = 0,000 yang berarti konstan signifikan masuk model.
b) Uji Koefisien
Actual Elapsed Time
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Actual Elapsed Time signifikan masuk model.
CRS Elapsed Time
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel CRS Elapsed Time signifikan masuk model.
Air Time
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Air Time signifikan masuk model.
Departure Delay
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Departure Delay signifikan masuk model.
Distance
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Distance signifikan masuk model.
Taxi In
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Taxi In signifikan masuk model.
Taxi Out
1) Hipotesis
H0 : Variabel tidak signifikan masuk model
H1 : Variabel signifikan masuk model
2) Tingkat Signifikansi
α = 0,05
3) Statistik Uji
P-value = 0,000
4) Daerah Kritik
H0 ditolak jika p-value < α
5) Kesimpulan
Karena p-value (0,000) < α (0,05) maka H0 ditolak. Sehingga dapat disimpulkan
bahwa variabel Taxi Out signifikan masuk model.
Interpretasi:
Dilakukan uji hipotesis untuk koefisien variabel Actual Elapsed Time, CRS Elapsed
Time, Air Time, Departure Delay, Distance, Taxi In dan Taxi Out dengan H0:
variabel tidak signifikan masuk model dan H1: variabel signifikan masuk model.
Dengan tingkat signifikansi α = 0,05 didapat p-value Actual Elapsed Time, CRS
Elapsed Time, Air Time, Departure Delay, Distance, Taxi In dan Taxi Out sebesar
0,000 yang berarti semua variabel signifikan masuk model.
Berdasarkan analisis, diperoleh model regresi logistik adalah
g ( x )=lnπevent
1−πevent
¿0,0043+1,0018 ActualElapsedTime−1,0014 CRSElapsedTime+0,0003 AirTime+0,9999 DepDelay−0,0001 Distance+0,0003TaxiIn−0,0016 TaxiOut
Interpretasi Model:
o Actual Elapsed Time
Mengambil ∆=2 (lebih lambat 2 menit)
O R ActualElapsedTime=exp (2× 1,0018 )=7,42
Pesawat akan 7,42 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang lama terbang pesawat yang sebenarnya 2 menit lebih cepat
darinya.
o CRS Elapsed Time
Mengambil ∆=−2 (lebih cepat 2 menit)
O RCRSElapsedTime=exp (−2 ×−1,0014 )=7,41
Pesawat akan 7,41 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang lama terbang pesawat yang terjadwal 2 menit lebih lambat
darinya.
o Air Time
Mengambil ∆=60 (lebih lambat 60 menit)
O R AirTime=exp (60 × 0,0003 )=1,02
Pesawat akan 1,02 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang lama waktu yang dibutuhkan pesawat sampai ketempat tujuan
60 menit lebih cepat darinya.
o Dep Delay
Mengambil ∆=2 (lebih lambat 2 menit)
O RDepDelay=exp (2×0,9999 )=7,39
Pesawat akan 7,39 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang keterlambatan berangkat pesawat 2 menit lebih cepat darinya.
o Distance
Mengambil ∆=−500 (lebih dekat 500 mile)
O RDistance=exp (−500 ×−0,0001 )=1,05
Pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang jarak 500 mile lebih jauh darinya.
o Taxi In
Mengambil ∆=25 (lebih lambat 25 menit)
O R ActualElapsedTime=exp (25 ×0,0003 )=1,01
Pesawat akan 1,01 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang pesawat mulai bergerak menuju apron 25 menit lebih cepat
darinya.
o Taxi Out
Mengambil ∆=−30 (lebih cepat 30 menit)
O R ActualElapsedTime=exp (−30×−0,0016 )=1,05
Pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang pesawat mulai bergerak meninggalkan apron 30 menit lebih
lambat darinya.
2.4. Kesimpulan
Dari analisis data Airline ini diapatkan kesimpulan:
Model regresi logistik:
g ( x )=ln ( πevent
1−π event)
Arr Delay=0,0043+1,0018 ActualElapsedTime−1,0014 CRSElapsedTime+0,0003 AirTime+0,9999 DepDelay−0,0001 Distance+0,0003 TaxiIn−0,0016 TaxiOut
Untuk Actual Elapsed Time dengan ∆=2 pesawat akan 7,42 kali lebih beresiko
mengalami keterlambatan dibandingkan pesawat lain yang lama terbang pesawat yang
sebenarnya 2 menit lebih cepat darinya. Untuk CRS Elapsed Time dengan ∆=−2
pesawat akan 7,41 kali lebih beresiko mengalami keterlambatan dibandingkan pesawat
lain yang lama terbang pesawat yang terjadwal 2 menit lebih lambat darinya. Untuk Air
Time dengan ∆=60 pesawat akan 1,02 kali lebih beresiko mengalami keterlambatan
dibandingkan pesawat lain yang lama waktu yang dibutuhkan pesawat sampai ketempat
tujuan 60 menit lebih cepat darinya. Untuk Dep Delay dengan ∆=2pesawat akan 7,39
kali lebih beresiko mengalami keterlambatan dibandingkan pesawat lain yang
keterlambatan berangkat pesawat 2 menit lebih cepat darinya. Untuk Distance dengan
∆=−500 pesawat akan 1,05 kali lebih beresiko mengalami keterlambatan dibandingkan
pesawat lain yang jarak 500 mile lebih jauh darinya. Untuk Taxi In dengan ∆=25
pesawat akan 1,01 kali lebih beresiko mengalami keterlambatan dibandingkan pesawat
lain yang pesawat mulai bergerak menuju apron 25 menit lebih cepat darinya. Untuk
Taxi Out dengan ∆=−30 pesawat akan 1,05 kali lebih beresiko mengalami
keterlambatan dibandingkan pesawat lain yang pesawat mulai bergerak meninggalkan
apron 30 menit lebih lambat darinya.
BAB IV
DAFTAR PUSTAKA
Wang Chun, Ming-Hui Chen, Elizabeth Schifano, Jing Wu, dan Jun Yan. 2016.
Statistical methods and computing for big data. HHS Public Acces. Vol. 9, No. 4:
399-414
Emerson John W, dan Michael J Kane. The R Package bigmemory: Supporting
Efficient Computation and Concurrent Programming with Large Data Sets. Journal of
Statistical Software. Volume VV, Issue II.
Regresi Logistik Biner.pdf. Atinaahdika.com .
https://www.google.co.id/amp/s/www.statistkan.com/2015/02/regresi-logistik.html/
amp
http://www.w3ii.com/id/r/r_logistic_regression.html
http://stat-computing.arg/dataexpo/2009/the-data.html