13
dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.) PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 1 LINEARNA REGRESIJA I KORELACIJA (REGRESIJSKA I KORELACIJSKA ANALIZA) FRANCIS GALTON (1822.–1911.) "Regression Towards Mediocrity in Hereditary Stature" (1886.) – članak o korespondenciji između visine očeva i njihovih sinova Nalaz: u prosjeku, sinovi niskih ljudi nešto su viši od svojih očeva, ali niži od prosjeka populacije; sinovi visokih u prosjeku su niži od očeva, ali viši od prosjeka populacije Galtonov zaključak: postoji opća tendencija vraćanja (regresije; regression) visine potomstva prema prosjeku populacije; najbolja predikcija visine sinova jest vrijednost između visine očeva i prosjeka populacije Galton je vjerovao da ti nalazi ukazuju na općenitu tendenciju nasljednih osobina ("otac eugenike") REGRESIJSKA ANALIZA Koristi se za procjenu najvjerojatnije vrijednosti "zavisne" varijable (Y) za određenu vrijednost "nezavisne" varijable (X) Cilj: predikcija rezultata na jednoj varijabli na temelju poznatih rezultata druge/drugih varijable/varijabli (jednostavna/multipla regresija) Predikcija rezultata na "zavisnoj" varijabli vrši se na temelju regresijskog pravca definiranog regresijskom jednadžbom Regresijski koeficijent – iskazuje očekivanu promjenu vrijednosti "zavisne" varijable povezanu s jediničnom promjenom "nezavisne" varijable (za koliko očekujemo da će se promijeniti Y ako se X promijeni za 1) Sociologija: predikcija uglavnom grubo formulirana Npr.: "Što je u tradicionalnim zajednicama veće pokoravanje društvenim normama, viši je socijalni status" (Regresijskom analizom procijenio bi se očekivani iznos promjene vrijednosti varijable kojom je mjeren socijalni status za jediničnu promjenu vrijednosti varijable kojom je mjereno pokoravanje normama) KARL PEARSON (1857.–1936.) daljnja matematičko–statistička razrada metode dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.) PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 2 KORELACIJSKA ANALIZA Analiza povezanosti (korelacije) varijabli (pojava) Povezanost varijabli ne implicira kauzalnu vezu! Ni vrlo visoka korelacija među varijablama X i Y ne mora značiti da je X uzrok Y ili da je Y uzrok X! Pojave (varijable) su povezane kad promjene u jednoj pojavi (varijabli) prate promjene u drugoj (na sustavan, razmjerno konzistentan način); npr.: Godine školovanja i socijalni status Stupanj obrazovanja i autoritarnost Osjetljivost za okoliš i prihvaćanje postmaterijalističkih vrijednosti Pokoravanje socijalnim normama i moć u zajednici Bivarijatna analiza – analiza povezanosti dviju varijabli Multivarijatna analiza – analiza povezanosti triju ili više varijabli Regresijskom i korelacijskom analizom utvrđuje se: Oblik povezanosti (linearna, krivolinijska…) Smjer povezanosti (+, ) Jačina povezanosti (od 1 do +1) (PEARSONOV) KOEFICIJENT KORELACIJE (r) – izražava jačinu i smjer linearne povezanosti dviju varijabli

Regresijska i Korelacijska Analiza

Embed Size (px)

DESCRIPTION

Sociologija - statistika

Citation preview

Page 1: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 1

LINEARNA REGRESIJA I KORELACIJA (REGRESIJSKA I KORELACIJSKA ANALIZA)

FRANCIS GALTON (1822.–1911.)

• "Regression Towards Mediocrity in Hereditary Stature" (1886.) – članak o korespondenciji između visine očeva i njihovih sinova

• Nalaz: u prosjeku, sinovi niskih ljudi nešto su viši od svojih očeva, ali niži od prosjeka populacije; sinovi visokih u prosjeku su niži od očeva, ali viši od prosjeka populacije

• Galtonov zaključak: postoji opća tendencija vraćanja (regresije; regression) visine potomstva prema prosjeku populacije; najbolja predikcija visine sinova jest vrijednost između visine očeva i prosjeka populacije

• Galton je vjerovao da ti nalazi ukazuju na općenitu tendenciju nasljednih osobina ("otac eugenike")

REGRESIJSKA ANALIZA

• Koristi se za procjenu najvjerojatnije vrijednosti "zavisne" varijable (Y) za određenu vrijednost "nezavisne" varijable (X)

• Cilj: predikcija rezultata na jednoj varijabli na temelju poznatih rezultata druge/drugih varijable/varijabli (jednostavna/multipla regresija)

• Predikcija rezultata na "zavisnoj" varijabli vrši se na temelju regresijskog pravca definiranog regresijskom jednadžbom

• Regresijski koeficijent – iskazuje očekivanu promjenu vrijednosti "zavisne" varijable povezanu s jediničnom promjenom "nezavisne" varijable (za koliko očekujemo da će se promijeniti Y ako se X promijeni za 1)

• Sociologija: predikcija uglavnom grubo formulirana

Npr.: "Što je u tradicionalnim zajednicama veće pokoravanje društvenim normama, viši je socijalni status"

(Regresijskom analizom procijenio bi se očekivani iznos promjene vrijednosti varijable kojom je mjeren socijalni status za jediničnu promjenu vrijednosti varijable kojom je mjereno pokoravanje normama)

KARL PEARSON (1857.–1936.) • daljnja matematičko–statistička razrada metode

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 2

KORELACIJSKA ANALIZA

• Analiza povezanosti (korelacije) varijabli (pojava)

• Povezanost varijabli ne implicira kauzalnu vezu! Ni vrlo visoka korelacija među varijablama X i Y ne mora značiti da je X uzrok Y ili da je Y uzrok X!

• Pojave (varijable) su povezane kad promjene u jednoj pojavi (varijabli) prate promjene u drugoj (na sustavan, razmjerno konzistentan način); npr.:

– Godine školovanja i socijalni status

– Stupanj obrazovanja i autoritarnost

– Osjetljivost za okoliš i prihvaćanje postmaterijalističkih vrijednosti

– Pokoravanje socijalnim normama i moć u zajednici

• Bivarijatna analiza – analiza povezanosti dviju varijabli

• Multivarijatna analiza – analiza povezanosti triju ili više varijabli • Regresijskom i korelacijskom analizom utvrđuje se:

– Oblik povezanosti (linearna, krivolinijska…)

– Smjer povezanosti (+, −)

– Jačina povezanosti (od −1 do +1)

(PEARSONOV) KOEFICIJENT KORELACIJE (r) – izražava jačinu i smjer linearne povezanosti dviju varijabli

Page 2: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 3

DIJAGRAM RASPRŠENJA (RASIPANJA) (SCATTERPLOT, SCATTERGRAM, SCATTER DIAGRAM)

Regresijska analiza započinje izradom DIJAGRAMA RASPRŠENJA • Ukazuje na oblik i smjer povezanosti • Indicira jačinu (linearne) povezanosti Svaki ispitanik reprezentiran je točkom u dijagramu; koordinate te točke (Xi, Yi) rezultati su ispitanika na varijablama X i Y

• na apscisi (osi X) je obično "nezavisna varijabla" (prediktor)

• na ordinati (osi Y) je obično "zavisna varijabla" (kriterij)

X Y 10 35

17 32

18 26

22 27

23 23

26 20

32 18

40 10

45 4

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 4

LINEARNA POVEZANOST VARIJABLI

POTPUNA POZITIVNA POVEZANOST

• Porastu vrijednosti varijable X odgovara porast vrijednosti varijable Y • Jednoj vrijednosti varijable X odgovara samo jedna vrijednost varijable Y • Uvijek kada se vrijednost varijable X promijeni za iznos x, vrijednost

varijable Y promijeni se za iznos y • r = +1

POZITIVNA POVEZANOST

• Linearnom porastu vrijednosti jedne varijable u pravilu odgovara linearni porast vrijednosti druge

• Jednoj vrijednosti varijable X odgovara više vrijednosti varijable Y • 0 < r < +1

X

876543210

Y 8

7

6

5

4

3

2

1

0

Page 3: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 5

NEMA POVEZANOSTI

• Jednoj vrijednosti varijable X odgovara bilo koja vrijednost varijable Y

• Na temelju vrijednosti varijable X ne možemo ništa zaključiti o vrijednosti varijable Y

• r = 0

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 6

POTPUNA NEGATIVNA POVEZANOST

• Porastu vrijednosti varijable X odgovara opadanje vrijednosti varijable Y (i obratno)

• Jednoj vrijednosti varijable X odgovara samo jedna vrijednost varijable Y • Uvijek kada se vrijednost varijable X promijeni za iznos x (−x),

vrijednost varijable Y promijeni se za iznos −y (y) • r = −1

NEGATIVNA POVEZANOST

• Linearnom porastu vrijednosti jedne varijable u pravilu odgovara linearno opadanje vrijednosti druge

• Jednoj vrijednosti varijable X odgovara više vrijednosti varijable Y • 0 > r > −1

X

876543210

Y 8

7

6

5

4

3

2

1

0

Page 4: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 7

NELINEARNA POVEZANOST VARIJABLI

Linearna regresijska analiza primjerena je samo ako dijagram raspršenja ukazuje na linearnu povezanost varijabli (pa se tada njihova zajednička distribucija može adekvatno sumirati regresijskim pravcem) te ako su varijable kvantitativne i približno normalno distribuirane Isti uvjeti vrijede za računanje Pearsonova koeficijenta korelacije

Potpuna nelinearna (krivolinijska) povezanost !!! r = 0, ali varijable nisu nepovezane !!!

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 8

MODEL LINEARNE REGRESIJE PROBLEM: • U nekom mjestu otvara se tvornica za proizvodnju satova • Na natječaj za radno mjesto sklapanja satova javilo se 600 ljudi, a traži

se 50 • Kako odabrati najboljih 50? MOGUĆE RJEŠENJE: • Predviđanje brzine i preciznosti sklapanja satova na temelju perceptivnih

i motoričkih sposobnosti • Izgradnja linearnog modela koji omogućuje predikciju vrijednosti

zavisne varijable (kriterija) na temelju linearne transformacije nezavisne (prediktorske) varijable:

Ŷ – predviđena vrijednost Y za određenu vrijednost X

a – vrijednost Ŷ za X=0 ([0, a] – koordinate točke u kojoj regresijski pravac siječe os Y)

b – koeficijent regresije Y na X; očekivani iznos promjene vrijednosti varijable Y za jediničnu promjenu vrijednosti varijable X

• Test oblika: rezultat na testu jednak je vremenu potrebnom za njegovo rješavanje, izraženom u sekundama

• Ideja: na temelju rezultata na testu oblika (X) predicirati (predvidjeti) broj sklopljenih satova (Y); odrediti najvjerojatnije vrijednosti Y za pojedine vrijednosti X

bXaY +=

Page 5: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 9

• Koliko dobro test oblika predicira broj sklopljenih satova?

Rezultat na testu oblika

Broj sklopljenih satova/h

Xi Yi

13 23

20 18

10 35

33 10

15 27

Predikcija se vrši na temelju regresijskog pravca, pa trebamo:

• takvo rješenje jednadžbe regresijskog pravca koje omogućuje najtočniju moguću predikciju varijable Y na temelju rezultata varijable X

• pronaći pravac za koji bi suma kvadriranih odstupanja rezultata od pravca bila najmanja moguća (kriterij najmanjih kvadrata)

REGRESIJSKI PRAVAC je pravac za koji je suma kvadriranih odstupanja (REZIDUALA) pojedinih točaka od pravca (odstupanja stvarnih od predviđenih vrijednosti zavisne varijable) najmanja moguća (= best–fitting line)

X

50403020100

Y 50

40

30

20

10

0

5

4

3

2

1

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 10

Sličnost uloge regresijskog pravca u dijagramu raspršenja i aritmetičke sredine u univarijatnoj distribuciji rezultata • Aritmetička sredina:

– ona vrijednost od koje je suma kvadriranih odstupanja pojedinih rezultata najmanja

– najbolja procjena vrijednosti rezultata u (normalnoj) distribuciji • Regresijski pravac:

– suma kvadriranih odstupanja od pravca je minimalna

– najbolja procjena vrijednosti varijable Y za određenu vrijednost varijable X – na regresijskom pravcu leže procijenjene (predviđene) vrijednosti varijable Y za pojedine vrijednosti varijable X

– točnost procjene ovisi o raspršenju rezultata u bivarijatnoj distribuciji – iako je procjena na temelju regresijskog pravca najbolja moguća, ona može biti loša u slučaju velikog raspršenja

Da bi se definirao regresijski pravac, treba odrediti vrijednosti a i b:

Xi Yi Xi

2 XiYi 13 23 169 299 20 18 400 360 10 35 100 350 33 10 1089 330 15 27 225 405

Σ 91 113 1983 1744

( )( )( )2

XXΣ

YYXXΣb

−−= ( )22 XΣXΣN

YΣXΣXYΣNb

−−

=

XbYa −=

1744XYΣ

1983XΣ

113YΣ

91XΣ

5N

2

==

==

=( )

.95651634

1563b

82819915

102838720b

9119835

1139117445b

XΣXΣN

YΣXΣXYΣNb

2

22

−=−

=

−−

=

−××−×

=

−=

( )40.01a

18.2.95722.6a

XbYa

.957b

22.6Y

18.2X

=×−−=

−=

−==

=

Page 6: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 11

Ŷ = 40.01 – .9565X

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 12

STANDARDNA POGREŠKA PROGNOZE

Prognoza na temelju regresijskog pravca je najbolja moguća, ali je rijetko sasvim točna (jedino u slučaju potpune povezanosti varijabli) – stvarne vrijednosti Y u pravilu više ili manje odstupaju od prediciranih

Potrebna nam je mjera pogreške u predviđanju, mjera razlike između predviđenih i stvarnih vrijednosti zavisne varijable odnosno mjera raspršenja rezultata oko pravca regresije:

Standardna pogreška prognoze je standardna devijacija stvarnih rezultata od predviđenih (prediciranih regresijskim pravcem) Pri računanju sYX pretpostavlja se svojstvo homoscedastičnosti, podjednakog raspršenja rezultata oko regresijskog pravca čitavom njegovom duljinom (tj. raspršenje Y podjednako je za bilo koji X) U gornjem primjeru:

Xi Yi Ŷi = 40.01 – .9565X (Yi – Ŷi)2

13 23 27.58 20.98 20 18 20.88 8.29 10 35 30.45 20.70 33 10 8.45 2.40 15 27 25.66 1.80

Σ 54.17

Jednostavnija formula ako je poznata varijanca varijable Y (sY

2) te korelacija varijabli X i Y (r)

( )2NYY

s2

YX −∑ −

=

( )4.249

25

54.17

2N

YYs

2

YX =−

=−−

= ∑ ˆ

( )22YYX r1s

2N1N

s −−−

=

N – 2: po jedan stupanj slobode izgubljen je na procjeni a i b

Page 7: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 13

PRIMJENA STANDARDNE POGREŠKE PROGNOZE PROCJENA VJEROJATNOSTI POJAVLJIVANJA ODREĐENE VRIJEDNOSTI VARIJABLE Y ZA NEKU VRIJEDNOST VARIJABLE X

PRIMJER: Koliko je vjerojatno da će netko tko je na testu oblika imao rezultat X = 22 sklapati 35 ili više satova/h?

Tablica proporcija površine ispod normalne distribucije:

• za z = 3.78 (3.80) proporcija površine “iza z” je .0001

• rezultat Y = 35 ili veći za X = 22 izuzetno je malo vjerojatan (oko 0.01%)

YX

YX s

YYz

−=

3.784.249

16.044

4.249

18.95635z

18.95621.05440.0122.95740.01Y

35 Y

22 X

YX ==−

=

=−=×−=

==

ˆ

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 14

FORMULE ZA RJEŠAVANJE REGRESIJSKE JEDNADŽBE regresije Y na X

Ŷ = aYX + bYXX

( ) ( )( )∑

∑−

−−=

2YXXX

YYXXb

( )22YXXXN

YXXYNb

∑∑∑∑∑

−=

( )N

XX

N

YXXY

b2

2

YX∑∑

∑∑∑

−=

XbYa YXYX −=

N

XbYa YX

YX∑∑ −

=

( )2N

YYs

2

YX −−

= ∑ ˆ

( )

Yi X varijabli korelacije tkoeficijen r

Yvarijable varijanca s

:je gdje

r1s2N

1Ns

2Y

22YYX

−−

−−−

=

YX

YX s

YYz

−=

Page 8: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 15

PRIMJER: ODNOS VISINE NADNICE (kn/h) I ZADOVOLJSTVA POSLOM X Visina nadnice Y Zadovoljstvo poslom

X Y X2 Y2 XY

Ivo 10.50 94.00 110.25 8836.00 987.00

Pero 9.50 89.00 90.25 7921.00 845.50

Jura 9.00 91.00 81.00 8281.00 819.00

Adrijan 8.25 90.00 68.06 8100.00 742.50

Tomo 8.00 84.00 64.00 7056.00 672.00

Marko 7.50 92.00 56.25 8464.00 690.00

Teo 6.25 86.00 39.06 7396.00 537.50

Štef 6.00 81.00 36.00 6561.00 486.00

Nino 5.75 86.00 33.06 7396.00 494.50

Boris 5.50 82.00 30.25 6724.00 451.00

Luka 4.50 74.00 20.25 5476.00 333.00

Igor 4.25 81.00 18.06 6561.00 344.25

Σ85.00 Σ1030.00 Σ646.50 Σ88772.00 Σ7402.25

= 7.08 Y = 85.83

1 Riješiti regresijsku jednadžbu regresije Y na X 2 Predicirati rezultat na skali zadovoljstva poslom uz nadnicu 12 kn 3 Koja je vjerojatnost da ćemo na skali zadovoljstva poslom dobiti rezultat 89 ili manji uz nadnicu 9.5 kn Ŷ = 68.866 + 2.396X Ŷ = 68.866 + 2.396 × 12 = 68.866 + 28.752 = 97.618

( )2.396

533

1277

7225–7758

87550–88827

85–646.512

103085–7042.2512

XXN

YXXYNb

222YX ===×

××=

∑−∑∑∑−∑=

68.86616.964–85.837.082.396–85.83XbYa YXYX ==×=−=

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 16

Ŷ Y–Ŷ (Y–Ŷ)2

Ivo 10.50 94.00 94.02 –0.02 0.00

Pero 9.50 89.00 91.63 –2.63 6.91

Jura 9.00 91.00 90.43 0.57 0.32

Adrijan 8.25 90.00 88.63 1.37 1.87

Tomo 8.00 84.00 88.03 –4.03 16.27

Marko 7.50 92.00 86.84 5.16 26.67

Teo 6.25 86.00 83.84 2.16 4.66

Štef 6.00 81.00 83.24 –2.24 5.03

Nino 5.75 86.00 82.64 3.36 11.27

Boris 5.50 82.00 82.04 –0.04 0.00

Luka 4.50 74.00 79.65 –5.65 31.90

Igor 4.25 81.00 79.05 1.95 3.81

Σ108.71

Ŷ = 68.866 + (2.396 × 9.5) = 68.866 + 22.762 = 91.628

Prema tablici z–vrijednosti, vjerojatnost z ≤ –.80 jest .2119 Vjerojatnost da ćemo na skali zadovoljstva poslom dobiti rezultat 89 ili manji uz nadnicu 9.5 kn jest 21.19%

( )3.3010.871

10

108.71

2N

YYs

2

YX ===−

∑ −=

–.803.30

2.63–

3.30

91.6389

s

YYz

YX

YX ==−

=−

=

Page 9: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 17

OUTLIERI – (PRIKRIVENI) PROBLEM U REGRESIJSKOJ ANALIZI

OUTLIERI – podaci koji izrazito odstupaju od ostalih (od općega trenda) imaju veliki utjecaj na regresijski pravac, koeficijent korelacije i koeficijent determinacije

X MAMUTOVE

KOSTI

Y CRTEŽI

MAMUTA

Ŷ Y–Ŷ (Y–Ŷ)2

S. GARONNE 4 14 13.62 0.38 0.14

DRONNE 2 4 8.56 –4.56 20.79

ISLE 0 0 3.50 –3.50 12.25

VEZERE 2 7 8.56 –1.56 2.43

DORDOGNE 0 21 3.50 17.50 306.25

LOT 6 21 18.68 2.32 5.38

AVEYRON 0 0 3.50 –3.50 12.25

GERA 1 3 6.03 –3.03 9.18

J. GARONNE 0 3 3.50 –0.50 0.25

ARIEGE 0 0 3.50 –3.50 12.25

Σ 381.18 Primjer iz: Hamilton, L. C. (1990). Modern Data Analysis: A First Course in Applied Statistics.

Pacific Grove, CA: Brooks/Cole Publishing Company. (str. 462–467)

765 4 3 2 1 0

25

20

15

10

5

0

PREVALENCIJA MAMUTOVIH KOSTIJU

PR

EV

ALE

NC

IJA

M

AM

UT

A N

A P

INS

KIM

CR

TE

ŽIM

A

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 18

Bivarijatni outlier u ovom primjeru je Dordogne: mnogo je crteža mamuta ali nema mamutovih kostiju; na temelju odsutnosti kostiju (X = 0) očekivali bismo – na temelju prognoze iz regresijskog pravca – 3.5% crteža mamuta, a ima ih 21% Više od 80% rezidualne sume kvadrata (Σ(Y–Ŷ)2) otpada na samo taj jedan slučaj Što se događa ako napravimo regresijsku analizu bez toga slučaja?

S DORDOGNE BEZ DORDOGNE

Ŷ Ŷ = 3.5 + 2.53 X Ŷ = .21 + 3.34 X

r2 .39 .96

r .627 (p > 0.05) .979 (p < 0.01)

20

7 6 5 4 3 2 1 0

15

10

5

0

PREVALENCIJA MAMUTOVIH KOSTIJU

PR

EV

ALE

NC

IJA

MA

MU

TA

NA

PEĆ

INS

KIM

CR

TE

ŽIM

A

S DORDOGNE

BEZ DORDOGNE

DORDOGNE

Page 10: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 19

Razlika u iznosima statističkih pokazatelja pokazuje da pravac regresije bez Dordogne mnogo bolje objašnjava varijancu zavisne varijable; outlier je "odvukao" regresijski pravac od trenda koji slijede ostali podaci ALI: • bolje "uklapanje regresijskog pravca u podatke" nije samo po sebi

dovoljan razlog da izbacimo outliere iz analize • uvijek možemo dobiti bolji regresijski pravac ako izbacimo podatke koji

"smetaju", ne slažu se s našom teorijom (dok ne ostanu samo dvije točke kroz koje prolazi pravac, pa dobijemo maksimalnu korelaciju!)

• valja otkriti koji bi mogao biti uzrok pojave outliera

– možda u dolini Dordogne pećinski ljudi doista nisu lovili i jeli mamute

– možda se Dordogne pojavljuje kao outlier jer su tamošnji pećinski ljudi zakopali kosti negdje drugdje, a ne tamo gdje su ih arheolozi tražili, pa još nisu iskopane; u tom slučaju outlier se pojavljuje zbog pogreške mjerenja (daljnja istraživanja mogla bi Dordogne pozicionirati u trend ostalih podataka)

– možda nisu prikupljeni svi relevantni podaci; da su iskopavanja vršena i na nekim drugim lokacijama možda bismo pronašli još slučajeva da je prevalencija crteža mamuta u disproporciji s prevalencijom mamutovih kostiju

DAKLE: • "bolja statistika" nije dovoljan razlog za izbacivanje outliera, tu

odluku trebaju podržati još neke informacije ŠTO NAPRAVITI: • ako nedostaju potrebne dodatne informacije dobro je izvijestiti o

rezultatima regresijske analize provedene na oba načina: s outlierima i bez njih

OUTLIERE JE TEŠKO OTKRITI BEZ DIJAGRAMA RASPRŠENJA!!!

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 20

DVA PRAVCA REGRESIJE

Kut između regresijskih pravaca (ϕ) ukazuje na jačinu povezanosti varijabli:

• što je manji kut, to je jača povezanost među varijablama • kada je ϕ = 0º, korelacija varijabli je maksimalna (r = ±1) • kada je ϕ = 90º, r = 0

XbYa

XΣXXΣ

XΣYYXΣb

bXaY

X) na Y (regresija

pravac iregresijsk prvi

2

−=

−−

=

+=ˆ

Yb'Xa'

YΣYYΣ

YΣXYXΣb'

Yb'a'X

Y)na X (regresija

pravac iregresijskdrugi

2

−=

−−

=

+=ˆ

CENTROID – točka u kojoj se sijeku regresijski pravci

Page 11: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 21

KOEFICIJENT DETERMINACIJE (r2)

UkupnI varijabilitet = protumačeni + neprotumačeni varijabilitet / :df Ukupna varijanca = protumačena + neprotumačena varijanca

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )222

2NN

22

11

YYΣYYΣYYΣ

Σ,/YYYYYY

YYYYYY

YYYYYY

ˆˆ

ˆˆ

ˆˆ

ˆˆ

−+−=−

−+−=−

−+−=−

−+−=−

...

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 22

Protumačena varijanca: dio varijance varijable Y(X) protumačen vezom s varijablom X(Y)

Neprotumačena (rezidualna) varijanca: dio varijance varijable Y(X) koji nije protumačen vezom s varijablom X(Y)

Odnos (omjer) protumačene i ukupne varijance je dobra mjera preciznosti procjene kriterija i povezanosti među varijablama

• što je udio protumačene u ukupnoj varijanci manji, to je veće odstupanje rezultata od pravca regresije, pa je procjena Y(X) na temelju X(Y) manje precizna, a povezanost među varijablama X i Y slabija

• što je udio protumačene u ukupnoj varijanci veći, to je manje odstupanje rezultata od pravca regresije, pa je procjena Y(X) na temelju X(Y) preciznija, a povezanost među varijablama X i Y jača

Dva ekstremna slučaja: 1 Protumačena je sva varijanca kriterija

( ) ( ) ( )( )( ) ( ) ( )( )( ) 1

YYΣ

YYΣ

YYΣ:/YYΣYYΣ

0YYΣ

YYΣYYΣYYΣ

2

2

222

2

222

=−

−−=−

=−

−+−=−

ˆ

ˆ

ˆ

ˆˆ

Page 12: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 23

2 Nije protumačeno ništa od varijance kriterija

Dakle:

Izraz

može dobro poslužiti kao (standardizirana) mjera jakosti veze među varijablama

Značenje koeficijenta determinacije: npr.: r2 = .85 – 85% varijance varijable X protumačeno je njezinom vezom s varijablom Y; – 85% varijance varijable Y protumačeno je njezinom vezom s varijablom X; – varijable X i Y dijele 85% varijance; – zajednička varijanca varijabli X i Y iznosi 85%

( )( ) 1

YYΣ

YYΣ0

2

2

≤−−

≤ˆ

( )( ) 2

2

YYΣ

YYΣ

−−

( )( )2

22

YYΣ

YYΣrIJEDETERMINACTKOEFICIJEN

−−

>

( ) ( )( )( ) 0

YYΣ

YYΣ

YYΣ:/0YYΣ

2

2

22

=−−

−=−ˆ

ˆ

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 24

Za praktičnije računanje:

Alternativna (računska) formula za Pearsonov koeficijent korelacije:

( )( )2

2

YYΣ

YYΣrKORELACIJETKOEFICIJENPEARSONOV

−−

±=ˆ

( )( )( ) YXΣbYΣaYΣYYΣ

YΣYYXΣbYΣaYYΣ

YΣYYΣYYΣ

22

2

22

−−=−

−+=−

−=−

ˆ

ˆ

YΣYYΣ

YΣYYXΣbYΣar

2 −−+

=

Page 13: Regresijska i Korelacijska Analiza

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 25

PROTUMAČENA I NEPROTUMAČENA VARIJANCA – NUMERIČKI PRIMJER –

(Prema: Serdar, Vladimir i Ivan Šošić (1981). Uvod u Statistiku. Zagreb: Školska knjiga (str. 111–131)

GRAD

X

BROJ STANOVNIKA

(u tisućama)

Y

BROJ TRGOVINA Ŷ (Y – Y )2 (Y – Ŷ)2 (Ŷ – Y )2

Bjelovar 21 206 270.2 42849.0 4126.8 20380.5

Dubrovnik 31 353 312.2 3600.0 1662.3 10155.0

Karlovac 48 343 383.6 4900.0 1649.0 863.9

Osijek 95 543 581.0 16900.0 1440.4 28208.3

Pula 47 442 379.4 841.0 3917.6 1128.3

Rijeka 132 860 736.3 199809.0 15299.3 104529.3

Sisak 38 262 341.6 22801.0 6339.3 5095.1

Sl. Brod 39 313 345.8 10000.0 1077.1 4513.3

Split 153 728 824.5 99225.0 9309.4 169320.1

Šibenik 30 306 308.0 11449.0 4.1 11018.9

Varaždin 34 397 324.8 256.0 5209.3 7774.9

Vinkovci 29 316 303.8 9409.0 148.1 11918.0

Vukovar 30 241 308.0 29584.0 4492.9 11018.9

Zadar 43 472 362.6 3481.0 11965.3 2538.7

Prosjek 413

Suma 455104.0 66640.9 388463.1

Varijanca Ukupna Neprotumačena Protumačena

35008.0 5126.2 29881.8

Ŷ = 182.06 + 4.20X

.924r

.85435008.029881.8r2

+=

==

dr. sc. Krešimir Kufrin, izv. prof.; dr. sc. Ivan Landripet, v. asist.: OSNOVE SOCIOLOŠKE STATISTIKE (Odsjek za sociologiju, ak. god. 2014./2015.)

PREDAVANJE 12B – REGRESIJSKA I KORELACIJSKA ANALIZA 26

BROJ STANOVNIKA (U TISUĆAMA)

160140120100806040200

BR

OJ

TR

GO

VIN

A

900

800

700

600

500

400

300

200

100

0