Analisis Data Kuantitatif

STATISTIK INFERENSIAL

RAGAM ANALISIS UNIVARIAT, BIVARIAT DAN MULTIVARIATwhisnu.t.STATISTIK INFERENSIAL1Metode Analisis Kuantitatif2Metode Analisis berdasarkan variabel dan skala pengukuran:Analisis Univariat: t Test, one way anovaAnalisis Bivariat: asosiasi, diferensiasi, korelasi dan regresiAnalisis Multivariat: elaborasi(korelasi berganda), multiple regression (regresi berganda), path, discriminant, factor dan cluster analysis

Statistik dibagi dua.. inferensial( untuk menguji hipotesis) dan deskripsi( hal yang sudah pasti, seperti kemiringan dan lain2)Diferensiasi d bagi 2 : Parametrik ( menggunkan sampel probabilitas) dan non parametrik (non-probabilita)

Univariat 1 variableBivariat 2 variableMultivariat di atas 2 variable.

2ANALISIS BIVARIAT:ASOSIASI, DIFERENSIASI, KORELASI DAN REGRESI3Variabel 1Variabel 2NominalOrdinalIntervalNominalChi-square 2Cramers Coefficient contingency Lambda simetrikLambda asimetrikDituruni 1, skalanya jd nominalt- Test (hypothesis of difference)z-test (hypothesis of difference)Eta OrdinalKendalls Spearman sGamma Sommers D asimetrikDituruni 1IntervalPearsons Regression Asimetrik44ASOSIASI - CHI SQUAREAsosiasi merujuk kepada pengukuran kekuatan hubungan dimana salah satu variabel adalah dikotomi(hanya membedakan 2 nominal, contoh +/- baik dan buruk seperti 2 perbedaan yang ekstrim, pembagian 2 kutub contoh laki2 perempuan), nominal atau ordinal.

Alat ukurnya adalah chi square

= = (x- / ) atau = (n-1) s / atau = (Of-Ef) / Ef

Dimana, Of = observed frekuensi dan Ef = expected frekuensi

5Menguji kekuatan 2 variable! Dan dikotomi.

Spss : analyze, nonparametic test atau Decriptive concept 5

6Satu kelas yang uda ujian dengan konsep, perbedaan jenis kelamin mempengaruhi hasil nilai ujian. Wanita nilainya lebih tgg dibanding pria.Yang dilingkari merah! Nominal (dikotomi)

Dalam kesepakatan sosial, tingkat kepercayaan 95%. Apabila dalam dunia dokter dan alam ada 99,5%Sisanya adalah kesalahan. Contoh terpaan sinetron dengan pakaian, toleransi kesalahan 5%.

Signifikasi, nilai 0.059 (kesepakatan dibawah 5%) , jadi hasilnya penelitian ini tidak signifikasi, coz lebih besar dibanding 0,050.Jadi, perempuan gak lebih pintar dibanding pria.

Syarat ke2, nilai cells harus 20% (minimal), jd harus lebih besar d banding 20%6Pengambilan keputusan Lihat hasil chi square test, value 7.433 dan sig.059. Jgn lupa lihat cells expected count less than 5 tidak boleh lebih dari 20% untuk 2 X 2

Syarat: Nilai chi square hitung > chi square tabel, ingat df=3 dan =5%Sig hasil < 0.05

Kekuatan hubungan dilihat pada uji pengukuran7Untuk pengambilan keputusan7KEKUATAN HUBUNGANInterpretasi:< 0.20lemah sekali, hampir bisa diabaikan0.20-0.40lemah0.40-0.70cukup kuat/moderat0.70-0.90kuat0.90-1.00amat kuat

...it is possible to have a relationship which displays strong association but is not significant or a relationship which displays an extremely weak association but is very significant88DIFERENSIASIUji rata-rata dua sampel independen dengan t-test

contoh:Perbedaan tinggi badan antara pria dan wanitaPerbedaan penghasilan antara bidang pekerjaanPerbedaan skor job satisfaction antara pegawai swasta dan pemerintahdsb

9Uji rata2 dua sample independent, coz berdifat independent.Contoh : bidang pekerjaan, coz ada banyak job pekerjaan.Dll ada 2 sampel berbeda!9Untuk analisis untuk menguji apakah varians sama/ beda, dan dilihat dari nilai hitung F dan sig, syarat sig < 0.05 untuk memenuhi signifikansi

Kemudian lihat t hitung dan sig-nya, syaratnya sama sig < 0.05 atau nilai lower-upper yang tidak boleh melewati (nilai) 1.

10perbedaan jenis kelamin mempengaruhi hasil nilai ujian0,391 = tidak signifikan, karena lebih dari 0.0510Uji rata-rata dua sampel yang berpasangan

Contoh: pengujian berat badan sebelum dan sesudah mengikuti program dietSkor job satisfaction sebelum dan sesudah mengikuti pelatihanPerbedaan nilai ujian sebelum dan sesudah mengikuti tutorial

11Samplenya 1 pekerjaannya ada 2!

11Lihat sig dan t hitungSyarat,Sig < 0,05t hitung > t tabel (uji dua sisi)

12Signifikasi 0,572 tidak signifikasi. Data pelangsingan dan berat badan.12KORELASI SEDERHANASebuah bentuk asosiasi dimana kedua variabel adalah interval

Metode ini adalah yang umum dipakai untuk analisis bivariat

Correlation is symmetrical, not providing evidence of which way causation flows

Dalam korelasi pada beberapa kasus dapat diterapkan pada variabel yang menggunakan skala ordinal (Spearmans model)

13Kedua variable interval manggunakan korelas!

13Pengukuran korelasi kerap diidentikkan dengan pearsons correlation (product moment pearson) yang merupakan analisis untuk menelaah kekuatan hubungan antara dua variabel

Pearsons correlation = rxy

Coefficient of determination = rxy...the percent of the variance in the dependent variable explained by the independent... (Garson, 2002)The proportion of the variability among the y scores that can be accounted for by the variability among the x scores (Sprinthall, 1982)

rxy = 0.70rxy = 0.49

49% of the information about y is contained in x

1414Correlations

15Penggunaan media dengan orientasi politik. Yang diliat pada uji korelasi (wajib!)Kekuatan hubungan . 0,78 = kuatArah hubungan. Positif berarti Jika penggunaan media tinggi, maka orientasi polotik tgg.dan sebaliknya. Kalo negatif, penggunaan media tinggi, tp orientasi rendah dan sebaliknya. Arahnya seperti apa.Signifikasi. Bisa di generalisasi atau tidak. Dibawah 0,05 berarti isa digeneralisasi.15Nonparametrik Correlation

16Sample nonprobablitaTidak meliat signifikasi!!! Jadi hanya kekuatan hubungan dan arah hubungan.Jd pakai kendall atau spearman.16Persyaratan penggunaan Pearsons R (Sprinthall p.193, 1982):

Bila menggunakan sampel dan ingin menarik inferensi ke populasi maka sampel harus dipilih secara acak (random)

Variabel yang digunakan menggunakan skala interval

Variasi dalam distribusi nilai variabel-variabel yang digunakan bisa diasumsikan serupa (homoscedasticity)

Distribusi nilai dari tiap variabel harus unimodal dan cukup simetrik the pearsons r can almost never be used on income data since the income distribution in the population is usually skewed Pearsons coefficient hanya menunjukkan kemungkinan adanya hubungan linear antar variabel.17Distribusi normal= besar kanan dan kiri sama, nilai mean, modus = 1. simetrik

17REGRESI SEDERHANAAnalisis regresi digunakan untuk tujuan peramalan, dan menganalisis bentuk hubungan antara dua variabel dengan mengembangkan estimating equation (persamaan regresi)

Analisis regresi =

Banyak diterapkan pada area bisnis, untuk memprediksi hubungan iklan dengan penjualan, tes sikap dengan kinerja karyawan, rasio keuangan dengan harga saham,dsb18Bedanya korelasi dengan regresi adalah kita mempredikisi . Bila kita punya variable indepnden dan variable. Jadi kita prediksi seberapa besar .

18Analisis:Adanya nilai rata-rata dan standar deviasi serta total sampelAdanya hubungan yang kuat dan nyata antara orientasi politik dan penggunaan mediaAngka r square .596 adalah 59,6% orientasi politik diprediksi oleh penggunaan media

19Contoh : pengaruh media dengan orientasi.Bivariat membaca R square.. 59,6% yang bisa diprediksi. Sedangkan ada 40,4 % yang tidak terjawab. Uji korelasi lalu uji regresi.

Multivariat membaca adjusted!19Analisis: Dari hasil uji ANOVA dan nilai F test, dilihat bahwa F = 26.238 dan tingkat signifikansi .000 jauh lebih kecil dari .050, maka model regresi bisa digunakan untuk memprediksi orientasi politikPersamaan regresi Y = 1.728 + 0.136 X

20Bagaimana mengetahui distribusi normal?21Variabel yang akan digunakan bisa dihitung koefisien pearson-nya:

Sk = 3( X- Me) / S

Sk= Koefisien PearsonX= Rata-rataMe= MedianS= Standar deviasiANALISIS MULTIVARIATELABORASI, REGRESI BERGANDA, ANALISIS JALUR (PATH), DISKRIMINAN, ANALISIS FAKTOR DAN ANALISIS KELOMPOK (CLUSTER)22MULTIVARIATE ANALYSIS23ElaborationContingency tablesSplit correlation analysisHigh order partial analysisPath analysisMultiple regression predictionDifferentiationDiscriminant analysisManovaExplorationFactor analysisCluster analysisELABORATION AND PARTIAL CORRELATION24Partial correlation is the correlation of two variables while controlling for a third or more other variables (maximum 3 controlling variables)

The extended model of partial correlation is path analysis or structural equation modeling when data are near or at interval level or use log-linear modeling for lower level data

Dasarnya adalah 24Statistical requirements for intervening and antecedent variables25Intervening variableAll the three variables (intervening, independent and dependent) must be related (theoretically)When intervening variable is controlled, the relationship between independent and dependent variable should vanishWhen independent variable is controlled, the relationship between intervening and dependent variable should not disappear

Antecedent variableAll the three variables (intervening, independent and dependent) must be related (theoretically)When antecedent variable is controlled, the relationship between independent and dependent variable should not vanishWhen independent variable is controlled, the relationship between antecedent and dependent variable should disappear

25PARTIAL CORRELATIONNegara swedia dan norwegia, demokratisasinya besar (tahun 98).

Penelitian ini tentang, apakaj indonesia benar negara yang berdemokratisasi tgg? Peringkat 2?Ternyata tidak, setelah banyak sekali ada faktor2 lain.

Lahir kelas menengah karena tingkat liberalisme.

2 yg utama, 3 yg kontrol.

Untuk membuat ini, harus sesuai dengan variable. Jika individu maka variable individu, negara untuk variable negara.

26PATH ANALYSISPeer groupGratification obtaineddependenGratification soughtindependenSociabilityMedia ownershipDemographicSocio economic status & SexIntensityInteractivityGratification deficiencyIndikator untuk mengukurSaya mengkonsumsi media karena butuh. Saya mengkonsumsi media karenaPeer group, teman2 saya,,,Sociability berhubungan dengan demographic dan peer group. Sociability, seberapa pergaulan anda? Oleh sebab itu terkait dengan demografi.Interactivity, bagaimana anda dengan media yang kita punya dengan feedback. Contoh comment twitter,27Kemungkinan suatu hasil elaborasi28KonstanReplikasi variabel ketiga tidak mempengaruhi

MelemahEksplanasi variabel ketiga mempengaruhi sebagai anteseden (menjelaskan)Intepretasi variabel ketiga mempengaruhi sebagai intervening (menafsirkan)

TerbelahSpesifikasi variabel ketiga mempengaruhi sebagai merinci variabel

MenguatSuppressor/distorter variabel ketiga mempengaruhi sebagai distorter/suppressor

Teknik-teknik Elaborasi29CONTINGENCY TABLESVariabel independen dan dependen nominal/ordinalVariabel kontrol nominal/ordinalKategori nilai variabel kontrol tidak terlalu banyakSemakin banyak variabel kontrol akan semakin besar sampel yang dibutuhkan

SPLIT/DIFFERENTIAL ANALYSISVariabel independen dan dependen intervalVariabel kontrol nominal/ordinalKategori nilai variabel kontrol tidak terlalu besarSemakin banyak variabel kontrol akan semakin besar sampel yang dibutuhkan

HIGH ORDER PARTIAL ANALYSISVariabel independen dan dependen intervalVariabel kontrol intervalJumlah variabel kontrol tidak tergantung besar sampel

30Pengaruh gaya hidup terhadap orientasi politik pelajar SMA dengan penggunaan media sebagai variabel controlDari hasil terlihat bahwa penggunaan media menjadi intervening atau anteseden

MULTIPLE REGRESSION31Suatu teknik analisis untuk memprediksi nilai sebuah dependen variabel berdasarkan nilai-nilai sejumlah variabel independen

Ada beberapa metode penghitungan regresi berganda:EnterBackward eliminationForward eliminationStepwise methodAsumsi variable independen banyak,tp dependen hanya 1.31Analisis untuk dua variabel independen model enter, 95,2% orientasi politik dapat dijelaskan oleh variabel gaya hidup dan penggunaan media nilai sig dari tabel anova adalah .000 dimana model regresi yang digunakan dapat memprediksi orientasi politik Y = 11,046 + 6,857 X1 + 5,047 X2 sebagai persamaan regresinya32

Model backward elimination, analisis Lihat tabel model summary pada adjusted R square (utk >2 variabel bebas) Ada empat model yang dihasilkan, dan model ke 4 yang memiliki hasil terbesar 94,4% penjualan dapat dijelaskan oleh variabel jumlah outlet dan promosi33

Analisis,Model 4 memiliki angka sig .000 (syarat < .005) maka model regresi dapat digunakan34

Analisis kolinearitas,Untuk melihat hubungan diantara variabel-variabel independennya, apakah terjadi kolinearitas Lihat angka tolerance, contoh lihat model 1 pada pendapatan. Diadapat angka tolerance 0,750 yang berarti R adalah 1 0,075 = 0,250. Jadi hanya 25% variabel pendapatan bisa dijelaskan oleh variabel independen lain atau lihat VIF, dimana VIF = 1/Tolerance, angka VIF tidak boleh lebih besar dari 5, karena terjadi multi koleniaritas diantara variabel-variabel bebasnya Y = 54,639 + 2,342 X1 + 0,535 X2

35

Model forward eliminationAnalisis datanya sama seperti metode backward elimination!36

Model stepwiseAnalisis sama seperti model backward, dan metode ini yang paling sering digunakan untuk analisis regresi berganda!37

PATH ANALYSIS38 is a causal model to understanding relationship between variables (Babbie, 1973 p.324)

is a statistical technique that can be used to find out the differences between two or more group of objects with respect to several variables simultaneously (Klecka, 1980)

an explicit hypothesis of cause and effect that is tested using the method of path analysis (Phil Ender, 2002)

However convincing, respectable, dan reasonable a path diagram may appear, any causal inferences extracted are rarely more than a form of statistical fantasy (Everit and Dunn, 1991)DISCRIMINANT ANALYSIS39Discriminant function analysis, known discriminant analysis or DA, is used to classify cases into the values of a categorical dependent, usually a dichotomy. If discriminant function analysis is effecetive for a set of data, classification table of correct and incorrect estimates will yield a high percentage correct. There are several purposes of DA:To investigate differences between groupsTo determine the most parsimonious way to distinguish between groupsTo discard variables which are little related to group distinctionsTo classify cases into groupsTo test theory by observing whether cases are classified as predicted40Discriminant analysis (Garson, 2002)shares all the usual assumptions of correlation, requiring linear and homoscedastic realtionship, and untruncated interval or near interval datalike multiple regression, it also assumes proper model specification (inclusion of all important independents and exclusion of extraneous variables)assumes the dependent variable is a true dichotomy since data which are forced into dichotomous coding are truncated, attenuating correlationis an earliezr alternative to logistic regression,which is now frequently used in place of DA, as it usually involves fewer violations of assumption, is robust, and has coefficients which many find easier to interpret

41Assumption for discriminant analysisDependent variable are a true dichotomy. One should never dichotomize a continuous variable simply for the purpose of applying discriminant analysisAll cases must be independent and must belong to a group formed by the dependent variable. The groups must be mutually exclusiveGroup sizes of the dependent aren not grossly differentIndependent variable(s) is interval, and dichotomies, dummy variables and ordinal variables with at least 5 categories are commonly usedThe maximum number of independent variables is n-2, where n is the sample sizeHomogeneity of variances (homoscedasticity) within each group formed by dependent, and variance of independent should be similar between groupsAbsence of perfect multicollinearity, of independent variables will produce tolerance value approaching 0 and the matrix wont have a unique discriminant solutionLow multicollinearity of independent, to the extent independents are correlated, the standardized discriminant function coefficient will not reliablyy assess the realative importance of the predictor variablesFACTOR ANALYSIS42is a statistical technique used to identify a realtive small number of factors that can be used to represent relationship among sets of many interrelated variables (Norusis, 1993 p.47)

The goal of factor analysis is to identify the not-directly-observable factors based on a set of observable variables

Two models of factor analysis:Exploratory factor analysis (EFA) to uncover the underlying structure of a realtively large set of variables. Theres no prior theory and one uses factor loadings to intuit the factor structure of the dataConfirmatory factor analysis (CFA) to determine if the number of factors and the loading if measured (indicator) variables in them conform ti what is expected on the basis of pre-established theory43The purposes of factor analysis:To reduce a large number if variables to a smaller number of factors for modelling purposes. Factor analysis is intergrated in structural equation modelling (SEM)To select a subset of variables from a larger set, based on which original variables have the highest correlations with the principal component factorsTo create a set of factors to be treated as uncorrelated variables as one approach to handling multicollinearity in such procedures as multiple regressionTo validate a scale or index by demonstrating that its constituent items load on the same factor, and to drop proposed scale items which cross-load on more than one factorTo establish that multiple tests measure the same factor, thereby giving justification for administering fewer testsTo identify clusters of cases and or outliers

Menguji konsep liberalism dengan faktor analysis

44ConceptDimensionsSub dimensionsLIBERALISMECONOMIC LIBERALISM hapus monopoli zona free trade potong subsidi privatisasi BUMN

PERSONAL LIBERALISM aborsi ekstramarital sex kebebasan beragama kesetaraan gender persamaan rasPOLITICAL LIBERALISM oposisi kebebasan berserikat kebebasan berpendapat multipartai ekstra parlementerCLUSTER ANALYSIS45Also called segementation analysis, classification analysis or numerical taxonomy analysis, is similar in purpose to Q-mode factor analysis both seek to identify homogenous subgroups of cases in a population. That is cluster analysis seeks to identify a set of groups which both minimize within-group variation and maximize between-group variation

Objects in each cluster tend to be similar to each other and dissimilar to objects in the other clusters

Suatu teknik statistik untuk mengelompokkan satuan-satuan analisis kedalam sejumlah cluster, berdasarkan kesamaan (similarities/likeness) atas sejumlah karakteristik yang dimiliki satuan analisisKonsep dasar dan situasi ideal clustering46Clustering variabel gaya hidup remaja dengan metode K-Means

47

Ditemukan empat buah cluster dari variable gaya hidup:demander adalah kelompok remaja yang mempunyai skor gaya hidup yang tinggi, sehingga mereka cenderung sering menjalankan aktivitas, memiliki opini serta minat terhadap semua simensi dalam gaya hidup (cluster 1)anti demander, dimana mereka mempunyai skor yang sangat rendah dalam pengukuran gaya hidup (cluster 3)escapist adalah kelompok individu yang cenderung mempunyai gaya hidup fun, hedonis serta tidak tanggap terhadap lingkungan sosial mereka (cluster 2)pro-social, yang bercirikan cukup responsif dalam meyikapi segala persoalan sosial yang terjadi di lingkungannya (cluster 4)

48

49Checks on the quality of clustering results:Perform cluster analysis on the same data using different measures. Compare the results across measures to determine the stability of the solutionsUse different method of clustering and compare the resultsSplit data randomly into halves. Perform clustering separately on each halfDelete variables randomly. Perform clustering based on the reduced set of variables. Compare the results with those obtained by clustering based on the entire set of variablesIn non hierarchical clustering, the solution may depend on the order of cases in the data set. Make multiple runs using different order of cases until the solution stabilizesTotal Variance Explained

ComponentInitial EigenvaluesExtraction Sums of Squared Loadings

Total% of VarianceCumulative %Total% of VarianceCumulative %

14.10024.11824.1184.10024.11824.118

21.6739.84233.9601.6739.84233.960

31.3868.15542.1151.3868.15542.115

41.0846.37948.4941.0846.37948.494

5.9615.65354.147

6.9285.45959.607

7.8695.11164.718

8.7954.67469.392

9.7624.48373.875

10.7384.34078.215

11.6613.88782.102

12.6343.72885.830

13.6023.54289.373

14.5453.20592.578

15.4602.70695.284

16.4362.56797.850

17.3652.150100.000

Extraction Method: Principal Component Analysis.

ANOVA

ClusterErrorFSig.

Mean SquaredfMean Squaredf

Hobby17.4663.199109987.883.000

Rekreasi_awal41.8123.2591099161.191.000

AK21.3643.242109988.391.000

AKS_TOT57.0183.3251099175.424.000

MTT33.8903.3281099103.174.000

MK17.1463.1671099102.904.000

MF24.6893.2011099122.563.000

MMM41.8903.3011099138.958.000

MP22.1263.2051099107.903.000

OD18.8313.1301099144.422.000

OS9.2393.126109973.375.000

OP11.1073.316109935.168.000

OE13.0083.253109951.336.000

OPT32.7113.1931099169.109.000

OF16.5783.1271099130.173.000

OM23.5023.1881099124.888.000

OB_factor7.4333.119109962.336.000

Number of Cases in each Cluster

Cluster1223.000

2262.000

3237.000

4381.000

Valid1103.000

Missing265.000

Final Cluster Centers

Cluster

1234

A_Hobby2.462.291.901.97

A_Rekreasi 2.752.571.962.00

A_Komunitas3.963.453.233.56

A_Keg sosial3.612.723.043.65

M_Temp Tinggal4.634.183.854.56

M_Komunitas4.083.733.413.79

M_Fashion4.083.973.383.63

M_Media Massa4.033.453.023.33

M_Prestasi4.484.153.724.11

O_Diri4.554.183.864.27

O_Sosial4.694.394.264.58

O_Politik2.792.392.722.82

O_Pendidikan3.943.833.423.60

O_Produk & tekno4.083.763.223.48

O_Masa depan4.564.173.944.37

O_Ekonomi4.033.493.273.51

O_Budaya3.823.623.383.59

Documents

Analisis Data Kuantitatif