KORELACIJA I REGRESIJA - Универзитет у Београду, … semestar/Opsta...

Preview:

Citation preview

KORELACIJA I REGRESIJA

Osnovni pojmovi

U praksi se često može ustanoviti da izmeđudve ili više pojava postoji izvesna povezanost.

postoji određen stepen povezanosti izmeđunpr. padavina i oticaja na određenom slivnompodručju, iako su pojave padavina i oticaja sasliva slučajne veličine

Stepen ove vrste povezanosti naziva se korelacija

Osnovni pojmovi

ZADATAK korelacione analize je da definiše način (zakonitost) na koji nezavisno promenljiva X utiče na zavisno promenljivu slučajnu veličinu Y

OPŠTE: zavisnosti mogu biti Funkcionalne – y = f(x) Korelacione i stohastičke

Osnovni pojmovi Kod funkcionalne zavisnosti jedna određena

vrednost zavisno promenljive uvek jepovezana samo sa jednom odgovarajućomvrednošću nezavisno promenljive poodređenom zakonu

Ako je jedna određena vrednost zavisnopromenljive povezana sa više vrednostinezavisno promenljive, onda se zavisnostnaziva korelacionom

Kod stohasticke zavisnosti jednoj određenojvrednosti zavisno promenljive odgovara nizvrednosti nezavisno promenljive koje podležu određenom zakonu raspodele

x x x

y y y

Funkcionalna y = f(x) korelaciona stohastička

Korelacione zavisnosti

Prema Tipu veze

Linearne (pravolinijske) Nelinearne (krivolinijske)

Broju nezavisno promenljivih Prosta korelacija dve promenljive y = f(x) Višestruka korelacija y = f(x1, x2, ... Xn)

Prema tipu: linearne i nelinearne

KOEFICIJENTI LINEARNE KORELACIJE- kvantitativni pokazatelj čvrstine veze između dve slučajno promenljive x i y

Podaci (x1, y1) (x2, y2) . (xi, yi) . (xn, yn)

SREDNJA VREDNOST

n

iix

nx

1

1

n

iiy

ny

1

1

VARIJANSE

xx

n

ii S

nxx

nxVAR

11

11

1

2

yy

n

ii S

nyy

nyVAR

11

11

1

2

KOVARIJANSA

n

iiixy yyxx

nSyx

111,cov

KOVARIJANSA

n

iiixy yyxx

nSyx

111,cov

KOEFICIJENT KORELACIJE

yyxx

xyxy SS

Sr

Gde suSxx - suma kvadrata reziduala xSyy – suma kvadrata reziduala y

Osobine0.10.1 xyr

Znak koeficijenta korelacije

y y

yy

x x

xx

a) r = +1.0 b) r = +0.8

d) r = -1.0c) r = 0

Nekoliko primera korelacione zavisnosti x i y

y

x

r = 0

y

x

r = 0

Koeficijent korelacije nelinearnih funkcionalnih zavisnosti

y

x

r = 0.8 (sa A)r = 0 (bez A) A

Efekat uključivanja istorijskog događaja A

REGRESIJA

DEFINICIJA: Regresiona jednačina opisuje način kako je “zavisno promenljiva” y vezana sa jednom ili više “nezavisno promenljive” veličine xi.

NAČIN: Koristi se tehnika linearne korelacije primenom metode “najmanjih kvadrata”.

LINEARNA REGRESIJA DVE PROMENLJIVE

PRETPOSTAVKE: Da postoji linearna zavisnost između x i z Da se promenljiva x meri bez greške Da su greške modela i merenja promenljive y linearne i ne zavise

jedna od druge

Tj- matematički model LR

iii exxbay ni ,...,2,1

Jednačina LR

xxbay ii ˆˆ~ ni ...,2,1

xbxbay ii ˆˆˆ~

ii xbxbay ˆˆˆ~

ii xbay ˆ'ˆ~

Ocena parametara

'a bVrši se po metodi najmanjih kvadrata

n

iii yyH

1

2~ minimum

y

(x , y )1 1

(x , y )1 1

(x , y )1 1

(x , y )j 5(x , y )4 4

(x , y )3 3(x , y )2 2

(x , y )1 1

(x , y )2 2

(x , y )3 3

(x , y )j 5

(x , y )4 4

(x , y )2 2

(x , y )2 2

(x , y )3 3

(x , y )3 3 (x , y )4 4

(x , y )4 4

(x , y )5 5

(x , y )5 5

x

(a)

y

x

(b1)

y

x

(b2)

Grafička ilustracija metode“najmanjih kvadrata”

Minimiziranje po metodi “najmanjih kvadrata”

n

iii

n

iii xxbayyyH

1

2

1

2 ˆˆ~

n

iii xxbay

aH

1

2ˆˆ20

ya ˆ***

0ˆˆ201

n

iiii xxxxbay

bH

xx

xyn

ii

n

iii

SS

xy

xyyyb

1

***

xbaa ˆˆ'ˆ

Konstatacije

Jednačina LR predstavlja pravu liniju koja “najbolje” zadovoljava uslov minimiziranja sume kvadrata reziduala

• Parametar ajednak je srednjoj vrednosti zavisno promenljive y

• Regresiona prava prolazi kroz tačku

• Vrednost parametra

yx ,koja predstavlja centar “gravitacije” svih podataka

bmože se oceniti i preko koeficijenta korelacije rxy po jednačini

xx

yyxy S

Srb ˆ

Praktični primer

Na osnovu serija maksimalnih godišnjih proticaja za reku Dunav, v.s. Bogojevo -zavisno promenljive Y i maksimalnih godišnjih proticaja za reku Dunav, v.s. Bezdan - nezavisno promenljive X, Definisati jednačinu linearne regresije

između zavisno promenljive Y i nezavisno promenljive X

Sračunati koeficijent korelacije

Podaci

X – Bezdan Y – Bogojevo

BezdanBogojevoQbaQ maxmax

ˆ'ˆ

XbaY ˆ'ˆ

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

0 1000 2000 3000 4000 5000 6000 7000 8000 9000

proticaj reke Dunav u profilu v.s. Bezdan

prot

icaj

reke

DU

nav

u pr

ofilu

v.s

. Bog

ojev

o

Proračun elemenata neophodnih za proračun statističkih parametara

Srednje vrednosti

smn

xX

n

ii

/496040

19738231

smn

yY

n

ii

/578740

231796 31

Varijanse i kovarijanse

348521784960401018737626 22

1

2

XnxSn

iixx

521085365987401391868486 2

1

22

n

iiyy YnyS

40811578578749604011889275651

n

iiixy YXnyxS

Proračun koeficijenta korelacije

yyxx

xyxy SS

Sr

958.05210853534852178

40811578

xyr

Proračun parametara regresione jednačine

XXbaY 171.123.20ˆ'ˆ

5787ˆ Ya

171.13485217840811578ˆ

xx

xy

SS

b

23.204959171.15787ˆˆ'ˆ Xbaa

23.20171.1 maxmax BezdanBogojevo

QQ

Desni klik na bilo koju tacku

y = 0.0073x + 4R2 = 0.6381

0

2

4

6

8

10

12

14

0 200 400 600 800 1000 1200

vrednosti X

vred

nost

i Y

y = 3.399e0.0014x

R2 = 0.3984

0

2

4

6

8

10

12

14

16

0 200 400 600 800 1000 1200

vrednosti X

vred

nost

i Y

y = 1.4427Ln(x) - 5E-15R2 = 1

0

2

4

6

8

10

12

0 200 400 600 800 1000 1200

vrednosti X

vred

nost

i Y

Praktični primer

Na osnovu podataka o izvršenim hidrometrijskim merenjima definisati analitički oblik prike proticaja tipa

bHaQ podaci

201715131086532Q (m3/s)

200190180160130105100705020H (cm)

10987654321RB

18.89140.9739.05820.0208.979suma

2.9945.2951.6932.3011.3012020010

2.8035.1941.5132.2791.230171809

2.6525.0851.3832.2551.176151808

2.4554.8581.2412.2041.114131607

2.1144.4691.0002.1141.000101306

1.8254.0840.8152.0210.40381055

1.5564.0000.6052.0000.77861004

1.2903.4080.4891.8460.6995703

0.8102.8870.2281.6990.4773502

0.3921.6930.0911.3010.3012201

XYX2Y2X=logHY=logQQHRB

Urađen primer

Primenom tehnike linearne regresije sračunatisu sledeći statistički parametri

Srednje vrednosti

002.210020.20

X 898.010979.8

Y

Sume kvadrata

893.0080.40973.401

22

n

iixx XnxS

913.0978.17891.181

n

iiixy YXnyxS

Koeficijenti regresije

898.0ˆ Ya

025.1893.0913.0ˆ

xx

xy

SS

b

154.1002.2025.1898.0ˆˆ'ˆ Xbaa

Jednačina regresije

bHaQ

HbaQ logloglog YQ logXH log

'ˆlog aAa

XXbAY 102511540701.01010 154.1 aa025.10701.0 HQ

Vrelo Mlave – simulacija isticanja

0

2

4

6

8

10

12

14

16

1‐Jan‐71

1‐Mar‐

711‐M

ay‐71

1‐Jul‐

711‐S

ep‐71

1‐Nov

‐711‐J

an‐72

1‐Mar‐

721‐M

ay‐72

1‐Jul‐

721‐S

ep‐72

1‐Nov

‐721‐J

an‐73

1‐Mar‐

731‐M

ay‐73

1‐Jul‐

731‐S

ep‐73

1‐Nov

‐731‐J

an‐74

1‐Mar‐

741‐M

ay‐74

1‐Jul‐

741‐S

ep‐74

1‐Nov

‐74isticanje iz vrela Mlave Q (m

3 /s)

Qrealno Qračunsko

Vrelo Banje – Petničko vrelo -Period I

0

5

1 0

1 5

2 0

2 5

3 0

3 5

4 0

4 5

2 3 - De c - 9 0 2 - Ap r- 9 1 1 1 - J u l- 9 1 1 9 - O c t- 9 1 2 7 - J a n - 9 2 6 - Ma y- 9 2 1 4 - Au g - 9 2

day

NO

3 (m

g/dm

3 )

measured calculated

Vrelo Banje – Petničko vrelo -Period I

NO3VP = 5.056 + 0.607 NO3

VP(t-1) +

0.150 NO3V(t-2) +0.028 NO3

P(t-13)

+0.008 NO3P(t-16) + 0.037 NO3

P(t-19) +

0.040 P(t-6) + 0.027 P(t-13) +0.018 P(t-19)

r = 0.756

Vrelo Banje – Petničko vrelo -Period II

05

1015

2025

30

15-Jul-92 23-Oct-92 31-Jan-93 11-M ay-93

19-Aug-93 27-Nov-93 7-M ar-94

day

NO

3 (m

g/dm

3 )

measured calculated

Vrelo Banje – Petničko vrelo -Period II

NO3V = 1.036 + 0.655 NO3

V(t-1) + 0.253

NO3V(t-2) +0.018 NO3

P(t-12) +0.033

NO3P(t-19) + 0.039 NO3

P(t-22) + 0.053

NO3P(t-26) + 0.045 P(t-3)

r = 0.901

Recommended