Regresija 1

Embed Size (px)

Citation preview

Regresiona analiza

Relacije izme u varijabliReprezentuju neke fenomene Matemati ki modeli su matemati ki izrazi tih fenomena

GaussGauss-Markoff pretpostavka za linearnu regresijuFormula za izra unavanje koeficijenata u regresiji je BLUE (Best Linear Unbiased Estimators) Best Linear najefikasniji model sa najmanjom varijansom Unbiased Estimators o ekivane vrednosti zavisne varijable iste ili vrlo bliske populacionim vrednostima

2009/2010

S.Spasi

Normalna raspodela i konstantna varijansavrednosti y su normalno distribuirane oko regresione linije f za svaku vrednost x value, varijansa (rasipanje) oko regresione linije je isto

Kada je ovo realno?

y x1 x2 x regresiona linija2009/2010 S.Spasi

Regresiona analiza

Regresiona analiza se koristi da:objasni kakav efekat ima promena nezavisne varijable na zavisnu varijablu predvidi vrednost zavisne varijable na osnovu najmanje jedne nezavisne varijable

Zavisna varijabla: varijabla koju elimo da objasnimo ili predvidimo Nezavisna varijabla: varijabla koju koristimo da objasnimo zavisnu varijabluS.Spasi

2009/2010

Regresioni modeli

Izra avaju se jedna inom u kojoj je:1 numeri ka zavisna (odgovor) varijabla odgovor) varijabla 1 ili vi e numeri kih ili kategori kih nezavisnih varijabli

Prosta linearna regresijasamo jedna nezavisna varijabla x relacija izme u x i y izra ena je linearnom funkcijom

2009/2010

S.Spasi

Tipovi regresionih modelapozitivna linearna relacija nelinearna relacija

negativna linearna relacija

nema relacije

2009/2010

S.Spasi

Tipovi regresionih modelaPodela je zasnovana na broju nezavisnih promenljivih i prirodi zavisnosti izmedju x i y Regresioni modeli

1 nezavisna promenljiva

vi e nezavisnih promenljivih

prosti

multipli

linearni2009/2010

nelinearniS.Spasi

linearni

nelinearni

Linearna jedna ina

y

y = a + bxpromena u y b = nagib promena u x a = y-intercept yx

1984-1994 T/Maker Co.

2009/2010

S.Spasi

Ta kasti dijagram

Svi parovi (xi , yi)100 50 0 0 20 40 60

2009/2010

S.Spasi

Prost linearni regresioni model Relacija izme u varijabli je linearna funkcija Prava linija najbolje fituje podatkey intercept (konstanta) slu ajna gre ka

y i ! F 0 F1 x i I izavisna varijabla (odgovor)nagib

nezavisna varijabla (eksplanatorna)

2009/2010

S.Spasi

Populacioni linearni regresioni model

y

y i ! F 0 F1 x i I iIM = sluajna gre ka

dobijena vrednost

Q xy ! F 0 F1 x ixdobijena vrednost

2009/2010

S.Spasi

Prost linearni regresioni modeli

y i ! a bx iyi = predvi ena vrednost za zapa anje i xi = vrednost x za zapa anje i a = y - intercept za uzorak, koristi se za procenu populacionog 0 b = nagib za uzorak, koristi se za procenu populacionog 1

2009/2010

S.Spasi

Metoda najmanjih kvadrataKako povla imo liniju izme u ta aka? Kako procenjujemo koja linija najbolje obuhvata podatke?

Metoda najmanjih kvadrata Najbolje slaganje (fitovanje) zna i da je razlika izme u stvarne vrednosti y i izra unate vrednosti y najmanja

Iz srednje vrednosti x mo emo da izra unamo srednju vrednost y kada x odstupa od srednje vrednosti, mo emo da o ekujemo i da y odstupa od svoje srednje vrednosti x obja njava odstupanje y od srednje vrednosti2009/2010 S.Spasi

Metoda najmanjih kvadrata grafi ki prikazMetoda najmanjih kvadrata minimizuje sumu kvadriranih razlika (gre aka = e) izmedju stvarnih i pretpostavljenih vrednosti yn 2 2 ei2 ! e1 e 2 e 3 e 2 2 4 i!1

y e2 e1

y 2 ! a bx 2 e 2e4 e3

y ! a bxx

2009/2010

S.Spasi

Koeficijenti u jedna ini prave

Regresiona jedna ina

y ! a b x

Nagib prave

xy N x y b! x N x 2

2

Odse ak na y-osi y-

a ! y b xS.Spasi

2009/2010

Interpretacija koeficijenatab - nagibDaje promenu y (kao umno ak) za 1 jedinicu pove anja x

Primer: Primer: Ako je b = 2, onda je o ekivano y dva puta ve e za svaku 1 jedinicu pove anja u x

a - odse ak na y-osi yProse na vrednost y kada je x = 0

2009/2010

S.Spasi

Evaluacija modela

U kojoj meri model izra ava relaciju izmedju varijabli? varijabli? Pribli nost najboljem slaganjuto su ta ke bli e liniji to je slaganje bolje

Pribli nost pretpostavci Zna ajnost izra unatih parametara

2009/2010

S.Spasi

Stupnjevi u evaluaciji modelaIspitivanje veli ine varijacije Rezidualna analiza Testiranje zna ajnosti koeficijenata

y ! a bx

2009/2010

S.Spasi

Varijacija slu ajne gre keOdstupanje stvarnog y od pretpostavljenog Izra ava se standardnom gre kom odre ivanja oko regresione prave (Syx) Prose na gre ka je 0 Veli ina gre ke uti e na:

zna ajnost parametara ta nost predvidjanja

S yx !2009/2010

y2 aS.Spasi

y b xy

N 2

Mere varijacije u regresiji

Ukupna suma kvadrata (SKT):Mera varijacije dobijenog y od srednje vrednosti ysr (y i y ) 2

Suma kvadrata za koju postoji obja njenje (SKR) (SKVarijacija vezana za relaciju izmedju x i y 2 y y

Suma kvadrata za koju ne postoji obja njenje (SSE)Varijacija vezana za druge faktore

2 (y i y )2009/2010 S.Spasi

Mere varijacije u regresijiyi ySS T ! 7(y i y) 2 SS E ! 7(y i y) 2

y ! a bx SS R ! 7y y 2

y

X

xi

x

2009/2010

S.Spasi

Mere varijacije sume kvadrata

SST = Totalna suma kvadrata Totalnamera za varijaciju vrednosti y oko njihove srednje vrednosti identi na mera za varijaciju kao u ANOVI

SSR = Regresiona suma kvadrata Regresionaobja njiva varijacija vezana za relaciju izme u x i y odgovara sumi kvadrata izme u grupa

SSE = Suma kvadrata gre ke Sumaneobja njiva varijacija odgovara sumi kvadrata unutar grupa u ANOVI

2009/2010

S.Spasi

Koeficijent determinacijeSS R obja njiva varijacija ! ! r ! ukupna varijacija SS T2

0 e r2 e 1

!

a

yb

xy Ny

2

y 2 Ny 2

procenat varijacije u y koji je posledica varijacije u x2009/2010 S.Spasi

r2 - primeriy

r2 = 1y

r2 = 1y=ay=a-bx

y=a+bxx x

r2 = 0,8 0,8y y

r2 = 0

y=a+bxx

y=a+bxx

2009/2010

S.Spasi

Predvi anja uz pomo regresione analize

Vrste predvi anjaPredvidjanje jedne vrednosti (u jednoj ta ki) Predvidjanje intervala

ta se predvi aPopulacioni srednji odgovor (Qyx) za dato x Ta ka na populacionoj regresionoj liniji

Individualni odgovor (y) za dato x

2009/2010

S.Spasi

Korelacioni modeli

Daju odgovor na pitanje Koliko je jaka linearna korelacija izmedju dve varijable? varijable? Izra avaju se koeficijentom korelacijePopulacioni koeficijent korelacije se ozna ava sa V (rho) Vrednosti se kre u od -1 to +1 Izra ava stepen asocijacije

Koriste se uglavnom za razumevanje relacijaS.Spasi

2009/2010

Koeficijent korelacije

Pearson ov koeficijent korelacije: korelacije:

r ! koeficijen

t determinac

ije !

!

xy N x y x N x y 2 2S.Spasi

2

N y

2

2009/2010

Vrednosti koeficijenta korelacije

potpuna negativna korelacija

nema korelacije

potpuna pozitivna korelacija

-1.0

-0.5

0

+0.5

+1.0

pove anje stepena negativne korelacije2009/2010 S.Spasi

pove anje stepena pozitivne korelacije

Korelacija i regresiona linijay

r=1y

r = -1y=ay=a-bx

y=a+bxx x

r = 0,8 0,8y y

r=0

y=a+bxx

y=a+bxx

2009/2010

S.Spasi

Primert (C0) 24 28 29 29 33 36 372009/2010 S.Spasi

uno enje vode (mL) 480 600 750 810 960 1440 1440

Linearna regresija u MS-Excel-u MS-Excel

Tools, Data Analysis, Regression Input Y-range: obele iti zavisnu promenljivu Y-range: Input X-range: obele iti nezavisnu promenljivu X-range: Labels: ozna iti Labels: Confidence Level: 95% (ili 99%) Level: ozna iti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izve taj Residuals: ozna iti Residuals: Residuals Plots: ozna iti Plots: Line Fit Plots: ozna iti Plots: OKS.Spasi

2009/2010

Linearna regresija u MS-Excel-u MS-ExcelSUMMARY OUTPUT Regression Statistics Multiple R 0,97014 R Square 0,94118 Adjusted R Square 0,92942 Standard Error 101,698 Observations 7 ANOVA df Regression Residual Total 1 5 6 SS MS F Significance F 827458,76 827458,76 80,005429 0,0002911 51712,66376 10342,533 879171,4286 t Stat P-value -5,516 0,0026802 8,945 0,0002911 Lower 95% Upper 95% -2240,11 -815,96 56,67 102,37

Intercept temp

Coefficients Standard Error -1528,034934 277,0080568 79,5197 8,8903

y = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t2009/2010 S.Spasi

Interpretacija ANOVA rezultataF test testira nultu hipotezu da regresija ne obja njava zna ajnu proporciju varijacije u y Stepeni slobode za F-test su 1 i n-2 Fn U ovom primeru F = 80,1 sa 1 i 5 stepena slobode

t-test za b=0 je identi an F-testu za r2 = 0 F vrednost t za b = 0 je jednaka kvadratnom korenu iz F

2009/2010

S.Spasi

Linearna regresija u MS-Excel-u MS-ExcelSUMMARY OUTPUT Regression Statistics Multiple R 0,97014 R Square 0,94118 Adjusted R Square 0,92942 Standard Error 101,698 Observations 7 ANOVA df Regression Residual Total 1 5 6 SS MS F Significance F 827458,76 827458,76 80,005429 0,0002911 51712,66376 10342,533 879171,4286 t Stat P-value -5,516 0,0026802 8,945 0,0002911 Lower 95% Upper 95% -2240,11 -815,96 56,67 102,37

Intercept temp

Coefficients Standard Error -1528,034934 277,0080568 79,5197 8,8903

2009/2010

S.Spasi

Linearna regresija u MS-Excel-u MS-Excel-

1600 1400 1200 1000 mL 800 600 400 200 0 0 5 10 15 20 t 25 30 35 40

2009/2010

S.Spasi

Linearna regresija u MS-Excel-u MS-Excely = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t mL = - 1528,03 + 79,52 x 40 = 1652,8 mL = - 1528,03 + 79,52 x 20 = 62,4 mL = - 1528,03 + 79,52 x 10 = -732,8

2009/2010

S.Spasi

Linearna regresija u MS-Excel-u MS-Excel-

mL dobijeni 480 600 750 810 960 1440 1440

mL izra unati 380,4 698,5 778,0 778,0 1096,1 1334,7 1414,2

reziduali 99,6 -98,5 -28,0 32,0 -136,1 105,3 25,8

2009/2010

S.Spasi

Linearna regresija u MS-Excel-u MS-Excelt Residual Plot 150

100

50 Residuals

0 0 -50 5 10 15 20 25 30 35 40

-100

-150 t

2009/2010

S.Spasi

Linearna regresija u SPSS-u SPSS

Podaci se unose u dve kolone (nezavisna i zavisna promenljiva) Analyze, Regression, Linear Dependent : mL Independent: t Independent: Statistics: Regression coefficients: ozna iti Estimates i Confidence intervals ozna iti Model Fit Continue OKS.Spasi

2009/2010

LM :elbairaV tnednepeD .b T ,)tnatsnoC( :srotciderP .a 07,101 etamitsE eht fo rorrE .dtS 929, erauqS R detsujdA 149, erauqS Ra079, R

1 ledoM

y b rammuS

ledoM

LM :elbairaV tnednepeD .b .deretne selbairav detseuqer llA .a retnE dohteM , devomeR selbairaVaT deretnE selbairaV

1 ledoM

b

devomeR/deretnE selbairaV

2009/2010

Linearna regresija u SPSS-u SPSS-

S.Spasi

LM :elbairaV tnednepeD .a 273,201 766,65 479,518690,0422dnuoB reppU dnuoB rewoL B rof lavretnI ecnedifnoC %59 000, 300, .giS 549,8 615,5t 079, ateB st neiciffeoC dez idradnatS 098,8 025,97 800,772 530,8251rorrE .dtS B stneiciffeoC dezidradnatsnU T )tnatsnoC( 1 ledoM

s a tneiciffeoC

LM :elbairaV tnednepeD .b T ,)tnatsnoC( :srotciderP .a 6 5 1 fd latoT laudiseR noissergeR

a

000, .giS

500,08 F

335,24301 567,854728 erauqS naeM

4,171978 466,21715 8,854728 serauqS fo muS

1 ledoM

A b VONA

2009/2010

y = - 1528,03 + 79,52x, r = 0,970

Linearna regresija u SPSS-u SPSS-

S.Spasi

LM :elbairaV tnednepeD .a 7 7 7 7 N 319, 000,1 48,29 63,173 noitaiveD .dtS 000, 000, 31-E41,1 17,529 naeM 630,1 513,1 33,501 91,4141 mumixaM slaudiseR 833,1864,111,63144,083 muminiM laudiseR .dtS eulaV detciderP .dtS laudiseR eulaV detciderP

s a citsitatS

2009/2010

Linearna regresija u SPSS-u SPSS-

S.Spasi

Grafik u SPSS

Graphs Scatter Simple Define Y-axis: mL X-axis: t OK Kliknuti na sliku 2 puta, da se otvori Chart Editor U Chart Editoru otvoriti Chart Options ozna iti Fit Line: Total, OK Zatvoriti Chart Editor

2009/2010

S.Spasi

1600

1400

1200

1000

800

600

ML

400 22 24 26 28 30 32 34 36 38

T

2009/2010

S.Spasi