Upload
anamaria-macka-macanovic
View
15
Download
3
Embed Size (px)
DESCRIPTION
Sociologija - statistika
Citation preview
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 1
LINEARNA REGRESIJA I KORELACIJA (REGRESIJSKA I KORELACIJSKA ANALIZA)
FRANCIS GALTON (1822.–1911.)
• "Regression Towards Mediocrity in Hereditary Stature" (1886.) – članak o korespondenciji između visine očeva i njihovih sinova
• Nalaz: u prosjeku, sinovi niskih ljudi nešto su viši od svojih očeva, ali niži od prosjeka populacije; sinovi visokih u prosjeku su niži od očeva, ali viši od prosjeka populacije
• Galtonov zaključak: postoji opća tendencija vraćanja (regresije; regression) visine potomstva prema prosjeku populacije; najbolja predikcija visine sinova jest vrijednost između visine očeva i prosjeka populacije
• Galton je vjerovao da ti nalazi ukazuju na općenitu tendenciju nasljednih osobina ("otac eugenike")
REGRESIJSKA ANALIZA
• Koristi se za procjenu najvjerojatnije vrijednosti "zavisne" varijable (Y) za određenu vrijednost "nezavisne" varijable (X)
• Cilj: predikcija rezultata na jednoj varijabli na temelju poznatih rezultata druge/drugih varijable/varijabli (jednostavna/multipla regresija)
• Predikcija rezultata na "zavisnoj" varijabli vrši se na temelju regresijskog pravca definiranog regresijskom jednadžbom
• Regresijski koeficijent – iskazuje očekivanu promjenu vrijednosti "zavisne" varijable povezanu s jediničnom promjenom "nezavisne" varijable (za koliko očekujemo da će se promijeniti Y ako se X promijeni za 1)
• Sociologija: predikcija uglavnom grubo formulirana
Npr.: "Što je u tradicionalnim zajednicama veće pokoravanje društvenim normama, viši je socijalni status"
(Regresijskom analizom procijenio bi se očekivani iznos promjene vrijednosti varijable kojom je mjeren socijalni status za jediničnu promjenu vrijednosti varijable kojom je mjereno pokoravanje normama)
KARL PEARSON (1857.–1936.) • daljnja matematičko–statistička razrada metode
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 2
KORELACIJSKA ANALIZA
• Analiza povezanosti (korelacije) varijabli (pojava)
• Povezanost varijabli ne implicira kauzalnu vezu! Ni vrlo visoka korelacija među varijablama X i Y ne mora značiti da je X uzrok Y ili da je Y uzrok X!
• Pojave (varijable) su povezane kad promjene u jednoj pojavi (varijabli) prate promjene u drugoj (na sustavan, razmjerno konzistentan način); npr.:
– Godine školovanja i socijalni status
– Stupanj obrazovanja i autoritarnost
– Osjetljivost za okoliš i prihvaćanje postmaterijalističkih vrijednosti
– Pokoravanje socijalnim normama i moć u zajednici
• Bivarijatna analiza – analiza povezanosti dviju varijabli
• Multivarijatna analiza – analiza povezanosti triju ili više varijabli • Regresijskom i korelacijskom analizom utvrđuje se:
– Oblik povezanosti (linearna, krivolinijska…)
– Smjer povezanosti (+, −)
– Jačina povezanosti (od −1 do +1)
(PEARSONOV) KOEFICIJENT KORELACIJE (r) – izražava jačinu i smjer linearne povezanosti dviju varijabli
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 3
DIJAGRAM RASPRŠENJA (RASIPANJA) (SCATTERPLOT, SCATTERGRAM, SCATTER DIAGRAM)
Regresijska analiza započinje izradom DIJAGRAMA RASPRŠENJA • Ukazuje na oblik i smjer povezanosti • Indicira jačinu (linearne) povezanosti Svaki ispitanik reprezentiran je točkom u dijagramu; koordinate te točke (Xi, Yi) rezultati su ispitanika na varijablama X i Y
• na apscisi (osi X) je obično "nezavisna varijabla" (prediktor)
• na ordinati (osi Y) je obično "zavisna varijabla" (kriterij)
X Y 10 35
17 32
18 26
22 27
23 23
26 20
32 18
40 10
45 4
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 4
LINEARNA POVEZANOST VARIJABLI
POTPUNA POZITIVNA POVEZANOST
• Porastu vrijednosti varijable X odgovara porast vrijednosti varijable Y • Jednoj vrijednosti varijable X odgovara samo jedna vrijednost varijable Y • Uvijek kada se vrijednost varijable X promijeni za iznos x, vrijednost
varijable Y promijeni se za iznos y • r = +1
POZITIVNA POVEZANOST
• Linearnom porastu vrijednosti jedne varijable u pravilu odgovara linearni porast vrijednosti druge
• Jednoj vrijednosti varijable X odgovara više vrijednosti varijable Y • 0 < r < +1
X
876543210
Y 8
7
6
5
4
3
2
1
0
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 5
NEMA POVEZANOSTI
• Jednoj vrijednosti varijable X odgovara bilo koja vrijednost varijable Y
• Na temelju vrijednosti varijable X ne možemo ništa zaključiti o vrijednosti varijable Y
• r = 0
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 6
POTPUNA NEGATIVNA POVEZANOST
• Porastu vrijednosti varijable X odgovara opadanje vrijednosti varijable Y (i obratno)
• Jednoj vrijednosti varijable X odgovara samo jedna vrijednost varijable Y • Uvijek kada se vrijednost varijable X promijeni za iznos x (−x),
vrijednost varijable Y promijeni se za iznos −y (y) • r = −1
NEGATIVNA POVEZANOST
• Linearnom porastu vrijednosti jedne varijable u pravilu odgovara linearno opadanje vrijednosti druge
• Jednoj vrijednosti varijable X odgovara više vrijednosti varijable Y • 0 > r > −1
X
876543210
Y 8
7
6
5
4
3
2
1
0
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 7
NELINEARNA POVEZANOST VARIJABLI
Linearna regresijska analiza primjerena je samo ako dijagram raspršenja ukazuje na linearnu povezanost varijabli (pa se tada njihova zajednička distribucija može adekvatno sumirati regresijskim pravcem) te ako su varijable kvantitativne i približno normalno distribuirane Isti uvjeti vrijede za računanje Pearsonova koeficijenta korelacije
Potpuna nelinearna (krivolinijska) povezanost !!! r = 0, ali varijable nisu nepovezane !!!
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 8
MODEL LINEARNE REGRESIJE PROBLEM: • U nekom mjestu otvara se tvornica za proizvodnju satova • Na natječaj za radno mjesto sklapanja satova javilo se 600 ljudi, a traži
se 50 • Kako odabrati najboljih 50? MOGUĆE RJEŠENJE: • Predviđanje brzine i preciznosti sklapanja satova na temelju perceptivnih
i motoričkih sposobnosti • Izgradnja linearnog modela koji omogućuje predikciju vrijednosti
zavisne varijable (kriterija) na temelju linearne transformacije nezavisne (prediktorske) varijable:
Ŷ – predviđena vrijednost Y za određenu vrijednost X
a – vrijednost Ŷ za X=0 ([0, a] – koordinate točke u kojoj regresijski pravac siječe os Y)
b – koeficijent regresije Y na X; očekivani iznos promjene vrijednosti varijable Y za jediničnu promjenu vrijednosti varijable X
• Test oblika: rezultat na testu jednak je vremenu potrebnom za njegovo rješavanje, izraženom u sekundama
• Ideja: na temelju rezultata na testu oblika (X) predicirati (predvidjeti) broj sklopljenih satova (Y); odrediti najvjerojatnije vrijednosti Y za pojedine vrijednosti X
bXaY +=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 9
• Koliko dobro test oblika predicira broj sklopljenih satova?
Rezultat na testu oblika
Broj sklopljenih satova/h
Xi Yi
13 23
20 18
10 35
33 10
15 27
Predikcija se vrši na temelju regresijskog pravca, pa trebamo:
• takvo rješenje jednadžbe regresijskog pravca koje omogućuje najtočniju moguću predikciju varijable Y na temelju rezultata varijable X
• pronaći pravac za koji bi suma kvadriranih odstupanja rezultata od pravca bila najmanja moguća (kriterij najmanjih kvadrata)
REGRESIJSKI PRAVAC je pravac za koji je suma kvadriranih odstupanja (REZIDUALA) pojedinih točaka od pravca (odstupanja stvarnih od predviđenih vrijednosti zavisne varijable) najmanja moguća (= best–fitting line)
X
50403020100
Y 50
40
30
20
10
0
5
4
3
2
1
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 10
Sličnost uloge regresijskog pravca u dijagramu raspršenja i aritmetičke sredine u univarijatnoj distribuciji rezultata • Aritmetička sredina:
– ona vrijednost od koje je suma kvadriranih odstupanja pojedinih rezultata najmanja
– najbolja procjena vrijednosti rezultata u (normalnoj) distribuciji • Regresijski pravac:
– suma kvadriranih odstupanja od pravca je minimalna
– najbolja procjena vrijednosti varijable Y za određenu vrijednost varijable X – na regresijskom pravcu leže procijenjene (predviđene) vrijednosti varijable Y za pojedine vrijednosti varijable X
– točnost procjene ovisi o raspršenju rezultata u bivarijatnoj distribuciji – iako je procjena na temelju regresijskog pravca najbolja moguća, ona može biti loša u slučaju velikog raspršenja
Da bi se definirao regresijski pravac, treba odrediti vrijednosti a i b:
Xi Yi Xi
2 XiYi 13 23 169 299 20 18 400 360 10 35 100 350 33 10 1089 330 15 27 225 405
Σ 91 113 1983 1744
( )( )( )2
XXΣ
YYXXΣb
−
−−= ( )22 XΣXΣN
YΣXΣXYΣNb
−−
=
XbYa −=
1744XYΣ
1983XΣ
113YΣ
91XΣ
5N
2
==
==
=( )
.95651634
1563b
82819915
102838720b
9119835
1139117445b
XΣXΣN
YΣXΣXYΣNb
2
22
−=−
=
−−
=
−××−×
=
−
−=
( )40.01a
18.2.95722.6a
XbYa
.957b
22.6Y
18.2X
=×−−=
−=
−==
=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 11
Ŷ = 40.01 – .9565X
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 12
STANDARDNA POGREŠKA PROGNOZE
Prognoza na temelju regresijskog pravca je najbolja moguća, ali je rijetko sasvim točna (jedino u slučaju potpune povezanosti varijabli) – stvarne vrijednosti Y u pravilu više ili manje odstupaju od prediciranih
Potrebna nam je mjera pogreške u predviđanju, mjera razlike između predviđenih i stvarnih vrijednosti zavisne varijable odnosno mjera raspršenja rezultata oko pravca regresije:
Standardna pogreška prognoze je standardna devijacija stvarnih rezultata od predviđenih (prediciranih regresijskim pravcem) Pri računanju sYX pretpostavlja se svojstvo homoscedastičnosti, podjednakog raspršenja rezultata oko regresijskog pravca čitavom njegovom duljinom (tj. raspršenje Y podjednako je za bilo koji X) U gornjem primjeru:
Xi Yi Ŷi = 40.01 – .9565X (Yi – Ŷi)2
13 23 27.58 20.98 20 18 20.88 8.29 10 35 30.45 20.70 33 10 8.45 2.40 15 27 25.66 1.80
Σ 54.17
Jednostavnija formula ako je poznata varijanca varijable Y (sY
2) te korelacija varijabli X i Y (r)
( )2NYY
s2
YX −∑ −
=
( )4.249
25
54.17
2N
YYs
2
YX =−
=−−
= ∑ ˆ
( )22YYX r1s
2N1N
s −−−
=
N – 2: po jedan stupanj slobode izgubljen je na procjeni a i b
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 13
PRIMJENA STANDARDNE POGREŠKE PROGNOZE PROCJENA VJEROJATNOSTI POJAVLJIVANJA ODREĐENE VRIJEDNOSTI VARIJABLE Y ZA NEKU VRIJEDNOST VARIJABLE X
PRIMJER: Koliko je vjerojatno da će netko tko je na testu oblika imao rezultat X = 22 sklapati 35 ili više satova/h?
Tablica proporcija površine ispod normalne distribucije:
• za z = 3.78 (3.80) proporcija površine “iza z” je .0001
• rezultat Y = 35 ili veći za X = 22 izuzetno je malo vjerojatan (oko 0.01%)
YX
YX s
YYz
−=
3.784.249
16.044
4.249
18.95635z
18.95621.05440.0122.95740.01Y
35 Y
22 X
YX ==−
=
=−=×−=
==
ˆ
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 14
FORMULE ZA RJEŠAVANJE REGRESIJSKE JEDNADŽBE regresije Y na X
Ŷ = aYX + bYXX
( ) ( )( )∑
∑−
−−=
2YXXX
YYXXb
( )22YXXXN
YXXYNb
∑∑∑∑∑
−
−=
( )N
XX
N
YXXY
b2
2
YX∑∑
∑∑∑
−
−=
XbYa YXYX −=
N
XbYa YX
YX∑∑ −
=
( )2N
YYs
2
YX −−
= ∑ ˆ
( )
Yi X varijabli korelacije tkoeficijen r
Yvarijable varijanca s
:je gdje
r1s2N
1Ns
2Y
22YYX
−−
−−−
=
YX
YX s
YYz
−=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 15
PRIMJER: ODNOS VISINE NADNICE (kn/h) I ZADOVOLJSTVA POSLOM X Visina nadnice Y Zadovoljstvo poslom
X Y X2 Y2 XY
Ivo 10.50 94.00 110.25 8836.00 987.00
Pero 9.50 89.00 90.25 7921.00 845.50
Jura 9.00 91.00 81.00 8281.00 819.00
Adrijan 8.25 90.00 68.06 8100.00 742.50
Tomo 8.00 84.00 64.00 7056.00 672.00
Marko 7.50 92.00 56.25 8464.00 690.00
Teo 6.25 86.00 39.06 7396.00 537.50
Štef 6.00 81.00 36.00 6561.00 486.00
Nino 5.75 86.00 33.06 7396.00 494.50
Boris 5.50 82.00 30.25 6724.00 451.00
Luka 4.50 74.00 20.25 5476.00 333.00
Igor 4.25 81.00 18.06 6561.00 344.25
Σ85.00 Σ1030.00 Σ646.50 Σ88772.00 Σ7402.25
= 7.08 Y = 85.83
1 Riješiti regresijsku jednadžbu regresije Y na X 2 Predicirati rezultat na skali zadovoljstva poslom uz nadnicu 12 kn 3 Koja je vjerojatnost da ćemo na skali zadovoljstva poslom dobiti rezultat 89 ili manji uz nadnicu 9.5 kn Ŷ = 68.866 + 2.396X Ŷ = 68.866 + 2.396 × 12 = 68.866 + 28.752 = 97.618
( )2.396
533
1277
7225–7758
87550–88827
85–646.512
103085–7042.2512
XXN
YXXYNb
222YX ===×
××=
∑−∑∑∑−∑=
68.86616.964–85.837.082.396–85.83XbYa YXYX ==×=−=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 16
Ŷ Y–Ŷ (Y–Ŷ)2
Ivo 10.50 94.00 94.02 –0.02 0.00
Pero 9.50 89.00 91.63 –2.63 6.91
Jura 9.00 91.00 90.43 0.57 0.32
Adrijan 8.25 90.00 88.63 1.37 1.87
Tomo 8.00 84.00 88.03 –4.03 16.27
Marko 7.50 92.00 86.84 5.16 26.67
Teo 6.25 86.00 83.84 2.16 4.66
Štef 6.00 81.00 83.24 –2.24 5.03
Nino 5.75 86.00 82.64 3.36 11.27
Boris 5.50 82.00 82.04 –0.04 0.00
Luka 4.50 74.00 79.65 –5.65 31.90
Igor 4.25 81.00 79.05 1.95 3.81
Σ108.71
Ŷ = 68.866 + (2.396 × 9.5) = 68.866 + 22.762 = 91.628
Prema tablici z–vrijednosti, vjerojatnost z ≤ –.80 jest .2119 Vjerojatnost da ćemo na skali zadovoljstva poslom dobiti rezultat 89 ili manji uz nadnicu 9.5 kn jest 21.19%
( )3.3010.871
10
108.71
2N
YYs
2
YX ===−
∑ −=
–.803.30
2.63–
3.30
91.6389
s
YYz
YX
YX ==−
=−
=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 17
OUTLIERI – (PRIKRIVENI) PROBLEM U REGRESIJSKOJ ANALIZI
OUTLIERI – podaci koji izrazito odstupaju od ostalih (od općega trenda) imaju veliki utjecaj na regresijski pravac, koeficijent korelacije i koeficijent determinacije
X MAMUTOVE
KOSTI
Y CRTEŽI
MAMUTA
Ŷ Y–Ŷ (Y–Ŷ)2
S. GARONNE 4 14 13.62 0.38 0.14
DRONNE 2 4 8.56 –4.56 20.79
ISLE 0 0 3.50 –3.50 12.25
VEZERE 2 7 8.56 –1.56 2.43
DORDOGNE 0 21 3.50 17.50 306.25
LOT 6 21 18.68 2.32 5.38
AVEYRON 0 0 3.50 –3.50 12.25
GERA 1 3 6.03 –3.03 9.18
J. GARONNE 0 3 3.50 –0.50 0.25
ARIEGE 0 0 3.50 –3.50 12.25
Σ 381.18 Primjer iz: Hamilton, L. C. (1990). Modern Data Analysis: A First Course in Applied Statistics.
Pacific Grove, CA: Brooks/Cole Publishing Company. (str. 462–467)
765 4 3 2 1 0
25
20
15
10
5
0
PREVALENCIJA MAMUTOVIH KOSTIJU
PR
EV
ALE
NC
IJA
M
AM
UT
A N
A P
EĆ
INS
KIM
CR
TE
ŽIM
A
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 18
Bivarijatni outlier u ovom primjeru je Dordogne: mnogo je crteža mamuta ali nema mamutovih kostiju; na temelju odsutnosti kostiju (X = 0) očekivali bismo – na temelju prognoze iz regresijskog pravca – 3.5% crteža mamuta, a ima ih 21% Više od 80% rezidualne sume kvadrata (Σ(Y–Ŷ)2) otpada na samo taj jedan slučaj Što se događa ako napravimo regresijsku analizu bez toga slučaja?
S DORDOGNE BEZ DORDOGNE
Ŷ Ŷ = 3.5 + 2.53 X Ŷ = .21 + 3.34 X
r2 .39 .96
r .627 (p > 0.05) .979 (p < 0.01)
20
7 6 5 4 3 2 1 0
15
10
5
0
PREVALENCIJA MAMUTOVIH KOSTIJU
PR
EV
ALE
NC
IJA
MA
MU
TA
NA
PEĆ
INS
KIM
CR
TE
ŽIM
A
S DORDOGNE
BEZ DORDOGNE
DORDOGNE
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 19
Razlika u iznosima statističkih pokazatelja pokazuje da pravac regresije bez Dordogne mnogo bolje objašnjava varijancu zavisne varijable; outlier je "odvukao" regresijski pravac od trenda koji slijede ostali podaci ALI: • bolje "uklapanje regresijskog pravca u podatke" nije samo po sebi
dovoljan razlog da izbacimo outliere iz analize • uvijek možemo dobiti bolji regresijski pravac ako izbacimo podatke koji
"smetaju", ne slažu se s našom teorijom (dok ne ostanu samo dvije točke kroz koje prolazi pravac, pa dobijemo maksimalnu korelaciju!)
• valja otkriti koji bi mogao biti uzrok pojave outliera
– možda u dolini Dordogne pećinski ljudi doista nisu lovili i jeli mamute
– možda se Dordogne pojavljuje kao outlier jer su tamošnji pećinski ljudi zakopali kosti negdje drugdje, a ne tamo gdje su ih arheolozi tražili, pa još nisu iskopane; u tom slučaju outlier se pojavljuje zbog pogreške mjerenja (daljnja istraživanja mogla bi Dordogne pozicionirati u trend ostalih podataka)
– možda nisu prikupljeni svi relevantni podaci; da su iskopavanja vršena i na nekim drugim lokacijama možda bismo pronašli još slučajeva da je prevalencija crteža mamuta u disproporciji s prevalencijom mamutovih kostiju
DAKLE: • "bolja statistika" nije dovoljan razlog za izbacivanje outliera, tu
odluku trebaju podržati još neke informacije ŠTO NAPRAVITI: • ako nedostaju potrebne dodatne informacije dobro je izvijestiti o
rezultatima regresijske analize provedene na oba načina: s outlierima i bez njih
OUTLIERE JE TEŠKO OTKRITI BEZ DIJAGRAMA RASPRŠENJA!!!
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 20
DVA PRAVCA REGRESIJE
Kut između regresijskih pravaca (ϕ) ukazuje na jačinu povezanosti varijabli:
• što je manji kut, to je jača povezanost među varijablama • kada je ϕ = 0º, korelacija varijabli je maksimalna (r = ±1) • kada je ϕ = 90º, r = 0
XbYa
XΣXXΣ
XΣYYXΣb
bXaY
X) na Y (regresija
pravac iregresijsk prvi
2
−=
−−
=
+=ˆ
Yb'Xa'
YΣYYΣ
YΣXYXΣb'
Yb'a'X
Y)na X (regresija
pravac iregresijskdrugi
2
−=
−−
=
+=ˆ
CENTROID – točka u kojoj se sijeku regresijski pravci
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 21
KOEFICIJENT DETERMINACIJE (r2)
UkupnI varijabilitet = protumačeni + neprotumačeni varijabilitet / :df Ukupna varijanca = protumačena + neprotumačena varijanca
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )( ) ( ) ( )222
2NN
22
11
YYΣYYΣYYΣ
Σ,/YYYYYY
YYYYYY
YYYYYY
ˆˆ
ˆˆ
ˆˆ
ˆˆ
−+−=−
−+−=−
−+−=−
−+−=−
...
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 22
Protumačena varijanca: dio varijance varijable Y(X) protumačen vezom s varijablom X(Y)
Neprotumačena (rezidualna) varijanca: dio varijance varijable Y(X) koji nije protumačen vezom s varijablom X(Y)
Odnos (omjer) protumačene i ukupne varijance je dobra mjera preciznosti procjene kriterija i povezanosti među varijablama
• što je udio protumačene u ukupnoj varijanci manji, to je veće odstupanje rezultata od pravca regresije, pa je procjena Y(X) na temelju X(Y) manje precizna, a povezanost među varijablama X i Y slabija
• što je udio protumačene u ukupnoj varijanci veći, to je manje odstupanje rezultata od pravca regresije, pa je procjena Y(X) na temelju X(Y) preciznija, a povezanost među varijablama X i Y jača
Dva ekstremna slučaja: 1 Protumačena je sva varijanca kriterija
( ) ( ) ( )( )( ) ( ) ( )( )( ) 1
YYΣ
YYΣ
YYΣ:/YYΣYYΣ
0YYΣ
YYΣYYΣYYΣ
2
2
222
2
222
=−
−
−−=−
=−
−+−=−
ˆ
ˆ
ˆ
ˆˆ
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 23
2 Nije protumačeno ništa od varijance kriterija
Dakle:
Izraz
može dobro poslužiti kao (standardizirana) mjera jakosti veze među varijablama
Značenje koeficijenta determinacije: npr.: r2 = .85 – 85% varijance varijable X protumačeno je njezinom vezom s varijablom Y; – 85% varijance varijable Y protumačeno je njezinom vezom s varijablom X; – varijable X i Y dijele 85% varijance; – zajednička varijanca varijabli X i Y iznosi 85%
( )( ) 1
YYΣ
YYΣ0
2
2
≤−−
≤ˆ
( )( ) 2
2
YYΣ
YYΣ
−−
( )( )2
22
YYΣ
YYΣrIJEDETERMINACTKOEFICIJEN
−−
=ˆ
>
( ) ( )( )( ) 0
YYΣ
YYΣ
YYΣ:/0YYΣ
2
2
22
=−−
−=−ˆ
ˆ
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 24
Za praktičnije računanje:
Alternativna (računska) formula za Pearsonov koeficijent korelacije:
( )( )2
2
YYΣ
YYΣrKORELACIJETKOEFICIJENPEARSONOV
−−
±=ˆ
( )( )( ) YXΣbYΣaYΣYYΣ
YΣYYXΣbYΣaYYΣ
YΣYYΣYYΣ
22
2
22
−−=−
−+=−
−=−
ˆ
ˆ
YΣYYΣ
YΣYYXΣbYΣar
2 −−+
=
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 25
PROTUMAČENA I NEPROTUMAČENA VARIJANCA – NUMERIČKI PRIMJER –
(Prema: Serdar, Vladimir i Ivan Šošić (1981). Uvod u Statistiku. Zagreb: Školska knjiga (str. 111–131)
GRAD
X
BROJ STANOVNIKA
(u tisućama)
Y
BROJ TRGOVINA Ŷ (Y – Y )2 (Y – Ŷ)2 (Ŷ – Y )2
Bjelovar 21 206 270.2 42849.0 4126.8 20380.5
Dubrovnik 31 353 312.2 3600.0 1662.3 10155.0
Karlovac 48 343 383.6 4900.0 1649.0 863.9
Osijek 95 543 581.0 16900.0 1440.4 28208.3
Pula 47 442 379.4 841.0 3917.6 1128.3
Rijeka 132 860 736.3 199809.0 15299.3 104529.3
Sisak 38 262 341.6 22801.0 6339.3 5095.1
Sl. Brod 39 313 345.8 10000.0 1077.1 4513.3
Split 153 728 824.5 99225.0 9309.4 169320.1
Šibenik 30 306 308.0 11449.0 4.1 11018.9
Varaždin 34 397 324.8 256.0 5209.3 7774.9
Vinkovci 29 316 303.8 9409.0 148.1 11918.0
Vukovar 30 241 308.0 29584.0 4492.9 11018.9
Zadar 43 472 362.6 3481.0 11965.3 2538.7
Prosjek 413
Suma 455104.0 66640.9 388463.1
Varijanca Ukupna Neprotumačena Protumačena
35008.0 5126.2 29881.8
Ŷ = 182.06 + 4.20X
.924r
.85435008.029881.8r2
+=
==
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)
PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 26
BROJ STANOVNIKA (U TISUĆAMA)
160140120100806040200
BR
OJ
TR
GO
VIN
A
900
800
700
600
500
400
300
200
100
0