Regresia simpla

8/2/2019 Regresia simpla

http://slidepdf.com/reader/full/regresia-simpla 1/22

2. Modelul simplu de regresie si regresia multifactoriala

2.1 Istoricul termenului

Termenul de regresie a fost introdus de Francis Galton şi a fost legat de

problema rela iei privind în l imea p rin ilor şi a copiilor, cu alte cuvinte:ţ ă ţ ă ţ

în l imea copiilor cu p rin i neaşteptat de înal i sau neaşteptat de scunziă ţ ă ţ ţ

tinde spre o în l ime medie a popula iei, rela ie cunoscut sub denumireaă ţ ţ ţ ă

de legea regresiei universale a lui Galton. Aceast lege a fost confirmat deă ă

Karl Pearson, care a adunat mai mult de 1000 de înregistr ri ale în l imiiă ă ţ

membrilor familiilor şi grupurilor. El a g sit c în l imea medie a fiilor dintr-ă ă ă ţ

un grup cu ta i înal i a fost mai mic decât în l imea ta ilor şi c mediaţ ţ ă ă ţ ţ ă

în l imii fiilor unui grup cu p rin i scunzi a fost mai mare decât în l imeaă ţ ă ţ ă ţ

p rin ilor, astfel c regresia fiilor scunzi şi înal i tinde c tre o medie aă ţ ă ţ ă

în l imii tuturor b rba ilor.ă ţ ă ţ

2.2.Definirea şi caracterizarea analizei de regresie şi a modeluluigeneral

Analiza de regresie se ocup aşadar cu descrierea şi evaluareaă

leg turii dintre o variabil dependent sau explicat şi una sau mai multeă ă ă ă

variabile independente sau explicative în scopul de a determina forma şi

direc ia leg turii dintre variabile precum şi de a previziona evolu ia medie aţ ă ţ

popula iei cercetate. (T. Andrei, S Stancu, A I Iacob; E Tuşa, Introducere înţ

econometrie utilizând EViews, Editura Economic , 2008,ă p.49)

Forma general a modelului de regresie dintre variabilele y şi x esteă

dat de rela ia:ă ţ

Y= f(xi), [1]

unde f(xi) este o func ie de variabila xţ i. În cazul regresiei simple i =1, deci avem o

singur variabil , în cazul regresie multiple, i=i......m, caz în care avem mă ă

variabile explicative.

În cazul în care leg tura dintre cele dou variabile este descrisă ă ă

complet, prin to i factorii care intervin într-un astfel de fenomen, cum esteţ

cazul în fizic , spunem c leg tura este determinat prin intermediul uneiă ă ă ă



ecua ii de tip determinist, aşa cum apare în ecua iaţ ţ [1].

În economie îns , nu se cunosc to i factorii care influen eaz un proces sauă ţ ţ ă

un fenomen, ceea ce face ca leg tura dintre variabila dependentă ă

(endogen ) y şi variabile independent (exogen ) x s nu genereze valoriă ă ă ă

unice, dar poate fi descris în termeni probabilistici, deci dependen a dintreă ţ

variabile este stocastic sau aleatoare.ă

În cazul dependen ei stocastice, forma general a modelului deţ ă

regresie devine:

Y= f(xi)+ ,ε [2]

Unde este eroarea de specificaε ieţ ce provine din faptul c nu suntă

cunoscu i to i factorii şi influen a celor necunoscu i se reg seşte în acestţ ţ ţ ţ ă termen (omiterea unor factori) la care se adaug efectul factorilor calitativiă

imposibil de m surat, erorile în specificarea în termeni de structura aă

modelului, lipsa unei specifica ii func ionale /rela ia dintre variabile nu esteţ ţ ţ

liniar ) şi erorile în înregistrarea, observarea fenomenă elor.

Deşi analizele statistice lucreaz cu dependen a unei variabile de alta,ă ţ

aceasta nu implic în mod necesar rela ia de cauzalitate. O rela ie statistică ţ ţ ă

puternic , sau sugestiv , poate s nu implice o conexiune de cauzalitate.ă ă ă

De asemenea, legat dar diferit conceptual de analiza de regresieă ă

este analiza de corela ie, aceasta din urm având ca scop s m soareţ ă ă ă

gradul sau puterea asocierii liniare dintre dou variabile.ă

Yt

Xt

t10t XaaY +=

ut

Y

X

• • • •

• • • • • • • • • • • • •

• •

XaaY 10 +=

2.3 Modelul clasic de regresie liniară

Pentru abordarea acestui subiect ne vom referi în primul rând la regr esia simpl , sauă

bivariabil , nu din considerente practice ci pentru c regresiile multiple suntă ă



o extensie a cazului simplu în care variabila dependent (regresat în cazulă ă

de mai sus consumul final al popula iei –ţ cfs, pentru cazul teoretic o vom nota y) este

legat de o singur variabil explicativ (regresor, notat pentru cazulă ă ă ă

teoretic cu x iar în cazul concret de mai sus este salariul mediu brut lunar pe

economie, adic -ă salb).

Din teorie se ştie c veniturile şi consumul evolueaz independent, şiă ă

s accept m pentru început ipoteza c la nivelul întregii popula ii consumulă ă ă ţ

depinde liniar de venit. În acest caz putem nota cu M(y, x) valoarea

anticipat a consumului final al popula iei, calculat ca valoare medieă ţ ă a

consumului pentru toate familiile cu venituri x, iar în ipoteza de liniaritate, putem scrie:

M(y/x) = a0 +a1X [3]

Parametrul a1 este considerat înclina ia marginal spre consum aţ ă

popula ieţ i înregistrate, iar a0 este înclina ia spre consum a popula iei a c rorţ ţ ă

venit este zero, considerând c şi aceă ast popula ie este nevoit s aib ună ţ ă ă ă

consum de subzisten fie din utilizarea economiilor agonisite fie dinţă

împrumut.

Valoarea anticipat a consumului final al popula iei (M(y/x)) difer deă ţ ă

valoarea real a consumului final (notat y în cazul teoretic) şi atunci ecua iaă ţ se rescrie inând seama de aceast valoare neobservat a abaterii ce oţ ă ă

not m cuă , ceea ce se scrie:ε

y = M(y/x)+ ε [4]

Dac se acceptă ă ipoteza de liniaritate din ecua ia [3], şi rela ia dintreţ ţ

valoarea anticipat şi valoarea real a variabilei y, atunci se poate scrieă ă

ecua ia [5], careţ este ecua ia drepteiţ de regresie:

y = a0 +a1X+ ε [5]Ipoteza de liniaritate poate fi interpretat în cel mai simplu mod caă

liniaritate ca liniaritate în variabile şi în parametri, ca liniaritate dintre

regresant (variabila dependent ) şi regresor (variabila independent ) şi dintreă ă

parametrii a0 şi a1aşa cum este în cazul ecua iilor [3] şi [5].ţ

Dac este de forma:ă Y =b+alnX atunci este neliniar în raport cu variabila

explicativ dară este liniar în raport cu cei doi parametri.

Dac îns modelul este de forma:ă ă Y= b+ln a*X acesta este liniar în raport



cu variabila explicativă dar este neliniar în raport cu cei doi parametri.

Modelele neliniare ce se pot transforma în modele liniare printr-o serie

de transform ri eă lementare astfel:

• modelul Log-Log sau dublu logaritmic:yt = a *xi

b , prin:

logyt = loga + blog xi

transformare ce conduce la un model liniar în raport cu variabilele logyi şi log xi .

• Modelul exponen ial sau modelul log:ţ

yt = a *xbi

logyi = loga + xi log b.

O serie de modele neliniare nu pot fi scrise sub forma unor modele

liniare prin simple transform ri elementare, procedeele de transformareă

fiind mai complexe şi nu fac obiectul acestei prezent ri.ă

Estimarea parametrilor din

În cazul seriilor de timp, ecua ia de regresie cuprinde şi variabila timp,ţ

notat t, iar ecua ia se rescrie:ă ţ

Yt = a0 +a1Xt+εt [6]

Seriile de timp ce sunt valori ale variabilei observate la momente diferite de timp,

ridic o problem extrem de delicat şi anume aceea a sta ionarit ii seriiloră ă ă ţ ăţ

de timp. O serie de timp este sta ionar dac valoarea medie şi varian aţ ă ă ţ

acesteia nu variaz sistematic în timp.ă

2.4 Metode de rezolvare a ecua iei de regresieţ

Determinarea parametrilor ecua iei de regresie se poate realiza prinţ

mai multe metode, cum ar fi metoda general a momă entelor, metoda celor

mai mici p trate, metoda verosimilit ii maxime şi altele.ă ăţ În continuare vom

prezenta metoda celor mai mici p trate.ă

2.4. 1.Metoda celor mai mici p trate (OLS)ă

Metoda cea mai simpl de determinare a parametrilor dreptei deă regresie este metoda celor mai mici p trate, ce const în minimizareaă ă



sumei p tratului erorilor. Se utilizeaz p tratul erorilor în scopul de a evitaă ă ă

compensarea erorilor pozitive cu cele negative în cazul unei simple

însum ri. care îns implic acceptarea unor ipoteze şi a unor propriet i aleă ă ă ăţ

estimatorilor. Grafic, criteriul aplicat în cazul metodei celor mai mici p trateă

este de a g si dreapta care asigur cea mai bun ajustare a puncteloră ă ă

empirice (dreapta de regresie) prin minimizarea sumei p tratelor abateriloră

dintre punctele de pe grafic şi punctele care au aceeaşi abcis pe dreaptaă

de regresie, abaterile fiind m surate vertical.ă

Yt

Xt

t10t XaaY +=

ut

Y

X

• • • • • • •

• • • • • • • • • •

• •

XaaYˆ

10 +=

Figura 1: Dreapta de regresie şi variabila reziduală

Analitic, se noteaz F(ă 10 ˆ,ˆ aa ) suma p tratelor abaterilor u dintre valorileă

înregistrate ale variabilei Y şi valorile calculate Y şi atunci:

( ) ( ) ( )∑∑∑===

−−=−==n

1t

2t10t

n

1t

2

tt

n

1t

2t10 XaaYYYua,aF

[7]

În func ia F, valorileţ 10 ˆ,ˆ aa sunt necunoscute, (deoarece valorile Xt şi Yt sunt valorile

din eşantion) iar pentru minimizarea func iei F este necesar a se calculaţ

derivatele par iale de ordinul 1 şi se egaleaz cu zero (ce sunt condi iile deţ ă ţ optim).

( ) ( ) ( )[ ]

( ) ( ) ( )[ ]

=+−−=∂∂

=+−−=∂∂

∑

∑

=

=

0XaaYX2a,aFa

0XaaY12a,aFa

n

1tt10tt10

1

n

1tt10t10

0

[8]

Prin rearanjarea ecua iilor [8] se ob ine un sţ ţ istem de ecua ii normale ţ :



+=

+=

∑ ∑ ∑

∑∑

= = =

==n

1t

n

1t

n

1t

2t1t0tt

n

1tt10

n

1tt

XaXaYX

XaanY

[9]

În sistem se cunoaşte n care este dimensiunea eşantionului (seriilor), iar

∑ t X , ∑ t Y

; t t Y X ∑ şi∑2t X

se pot calcula pe baza eşantionului, avem un

sistem de dou ecua ii cu dou necunosă ţ ă cute ce se poate rezolva.

Sistemul (7-9) poate fi scris:

=−

=−

∑∑

=

=n

1ttt

n

1tt

0uX2

0u2

echivalent cu [10]

=

=

∑

∑

=

=n

1t

tt

n

1tt

0uX

0u

[11]

Dac se noteaz mediile variabileloră ă , X Y , not m xă t =X- , X şi yt = Y-Y ,

devia iile de la medie, atunci putem scrie rela iile de calcul pentruţ ţ 0a

1a

astfel:

t t X aY a 10 ˆˆ −= [12]

Dac se calculeaz :ă ă X = n

X n

t t

∑=1

şi n

Y n

t t

∑== Υ 1

, atunci:

2

11

2

1 111

1

1

ˆ

−

−=

∑∑

∑ ∑∑

==

= ==

n

t

t

n

t

t

n

t

n

t

t t t

n

t

t

X n

X

Y X n

Y X

a

= ∑∑

−

−−2)(

))((

X X

Y Y X X

t

t t

= ∑∑

2t

t t

x

y x

[13]

2.4.2 Acurate ea ajust riiţ ă



În mod evident, un model este cu atât mai bun cu cât explic mai mult dină varia ia lui Y, pentru întreg eşantionul analizat. Pentru a evita compensareaţ abaterilor faş de medie, de obicei se calculeaz varia ia total a luiY.ă ă ţ ă

Varia ia total a lui Y ţ ă (VT):

( )∑=

−=n

1t

2t YYVT

[14]

Varia ia total explicat de model ţ ă ă (VTM):( )∑

=−=

n

1t

2

t YYVTM[15]

Varia ia rezidual ţ ă (VTR):∑

==

n

1t

2tuVTR

. [16]Se demonstreaz c :ă ă

– dac estimatorii sunt determina i pe baza metodei celor mai mici p trateă ţ ă

– iar ecua ia de regresie con ine şi termenul liber, atunciţ ţ

VT = VTM + VTR:

( ) ( ) ∑∑∑===

+−=−n

1t

2t

n

1t

2

t

n

1t

2t uYYYY

[17]

Coeficientul de determinare R2:

( )

( ) ( )∑

∑

∑

∑

=

=

=

=

−

−=

−

−==

n

1t

2t

n

1t

2t

n

1t

2t

n

1t

2

t2

YY

u

1

YY

YY

VT

VTMR

[18]

0 ≤ R 2 ≤ 1

• R 2 sau R-squared

R 2 m soar statistic succesul regresiei în predic ia valorilor variabileiă ă ţ

dependente în cadrul perioadei alese, şi poate fi interpretat ca partea

variabilei dependente explicat prin variabilele independente. Statistic,ă

valoarea ar fi 1 dac ecua ia ar realiza o predic ie perfect şi zero cândă ţ ţ ă predic ia nu este mai bun decât media simpl a variabilei dependente.ţ ă ă

• R 2 ajustat

O problem cuă R 2 ca m sur a eficien ei regresiei este c nu scade dacă ă ţ ă ă

se adaug mai multe variabile independente. În cazuri extreme se poateă

ob ine o valoare 1 pentruţ R 2 dac se adaug atâtea variabileă ă

independente câte observa iiţ are seria.

R 2 ajustat penalizeaz valoarea luiă R 2 dac se adaug variabileă ă



suplimentare care nu contribuie la explicitarea mai bun a modelului. Ră 2

ajustat nu este niciodat mai mare decât Ră 2 şi poate scade dac seă

adaug variabile independente, iar pentă ru modelele slab explicitate poate ajunge

chiar la valori negative.

Formula de calcul este:

k T

T R R

−−

−−=1

)1(1 22

2.5 Ipotezele modelului liniar de regresie unifactorialModelul liniar de regresie se bazeaz pe urm toarele ipoteze a c ror violareă ă ă

conduce la respingerea modelului. Setul de ipoteze formulate asupra

variabilelor reziduale şi asupra variabilei explicative prezentate sintetic în

tabelul de mai jos. De men ionat c ipotezele 4-8 se refer la distribu iaţ ă ă ţ

erorilor.

Ipoteza Expresia

matematică

Explica iiţ Violarea

1.Liniaritatea modelului Yt = a0 +a1Xt+εt Oricare ar fi cuplul Xt

Yt, leg tura dintreă cele dou esteă

liniar , modelulă este liniar înparametri şi învariabila X

Regresori greşi i;ţ neliniaritate

2.Variabila X aredispersia nenulă şi finită

Var(Xt) ≠ 0 Nu toatevariabileleexogene suntegale între ele,adic dispersiaă de selec ie aţ variabilei

trebuie s fie ună num r finită pozitiv

Erori în variabile

3.Variabila X nu estealeatoare

Cov(Xs, εt ) =0 Eroarea esteindependentă de variabilaexplicativă

Autoregresie

4. Erorile sunt aleatoriicu media zero

M(εt)=0, M= mediasau E(εt)=0 unde Eeste speran aţ

Speran aţ matematic aă erorii este nul ,ă deci eroareamedie este zero.

Abateri constante,modelul nu este binespecificat



5.Homoscedasticitate, dispersiaerorii esteconstantă

Var (εt)=σ2 = constant Erorile εt suntidentic distribuite,cu o dispersieconstant şiă finită

Heteroscedasticitate

6.Erorile sunt

independente

Cov(εt,εs)=0 pentru

orice t ≠ s

Erorile nu sunt

autocorelate,deci covarian aţ dintre oricaredou valori aleă variabilei deabatere estezero

Autocorela ieţ

7.Erorile sunt normaldistribuite

εt ~ N(0, σ2) Fiecare variabilă aleatoare esteaproximativdistribuită normal în jurulmediei

8.Rela iile nu suntţ liniare

0)( 2 ≠−∑ t t X X Num rulă observa iilorţ trebuie s fieă mai mare decâtnum rulă variabilelor

Multicoliniaritate

Ipotezele 6 şi7 pot fi scrise concentrat: matricea de varian - covarian aţă ţă

erorilor este

M (ε’ )=ε σ2ε I unde σ2

ε este valoarea comun a dispersiei erorilor iar I esteă

matricea unitate.

Ipotezele 4-7 pot fi însumate prin afirma ia: abaterile erorilorţ εt sunt

presupuse independente, normal distribuite, de medie zero şi dispersie

constant , oricare ar f ă i t.

2.6. Propriet ile estimatorilor în cazul metodei celor maiăţ mici p trate(OLS)ă

Modelul de regresie bazat pe metoda celor mai mici p trate seă

bazeaz pe o serie de propriet i ale estimatorilor.ă ăţ

Proprietatea Explica iiţ

1. Estimatorii 0a şi 1a sunt liniari

Deoarece valorile variabilei X suntconstante, se demonstreaz că ă

estimatorii sunt combina ii liniareţ ale valorilor de selec ie Yţ t



2.Estimatorii sunt nedeplasa iţ Dac variabila exogen X nu esteă ă aleatoare, sau dac este aleatoareă dar este independent de variabilaă de abatre εt, atunci estimatorii ob inu iţ ţ prin OLS sunt nedeplasa i.ţ

3.Estimatorii sunt consisten iţ Este specific selec iilor de volumă ţ mare, un estimator este consistentdac pe m sur ce creşte m rimeaă ă ă ă observa iilor valoarea estimatoruluiţ se apropie de de valoareaparametrului estimat.

4.Estimatorii nedeplasa i suntţ

eficien iţ

Un estimator al unui parametru esteeficient dac nu este deplasat şi nuă exist un altr estimator nedeplasată care are o dispersie mai mic .ă Pentrunum r mare de observa ii seă ţ analizeaz proprietatea de eficienă ţă asimptotic . Un estimator esteă asimptotic eficient dac esteă consistent şi nu exist un altă estimator consistent care are odispersie mai mic .ă

5. Estimatorii sunt normal distribui iţ Dac erorile sunt variabile aleratoareă distribuite normal, atunci distribu iaţ pentru selec ii repetate aleţ

estimatorilor 0a şi 1a este deasemenea normal .ă

6.Estimatorii sunt de verosimiliate maximă Un estimator este verosimil dacă

genereaz valori plauzibile pentruă

variabila endogen . Sunt de maximă ă

verosimilitate acei estimatori care

fiind fiind fixate valorile Xt,

genereaz cu o probabilitate maximă ă

valorile observate ale variabileiendogene Yt.

Principalele propriet i ale modelului liniarăţ de regresie în condi iile înţ

care parametrii sunt estima i prin metoda celor mai mici p trate suntţ ă

• Proprietatea 1

Estimatorul coeficientului dreptei de regresie determinat prin aplicarea

metodei celor mai mici p trate este un estimator nedeplasat şi deă dispersie minim ,ă



Ceea ce înseamn c :ă ă

E( a ) =a,

Var( a ) = ∑=−

n

i

i x x1

2

2

)ˆ(

ε σ

Urm rind ultima rela ie rezult c varian a estimatorului este cu atât maiă ţ ă ă ţ

mic cu cât varian a caracteristicii exogene este mai mare.ă ţ

În practic se calculeaz o singur estima ie, luână ă ă ţ d în considerare seriile

disponibile, deplasarea estimatorului a este calculat pe baza rela iei:ă ţ

B( a )= a-E( a ). Pentru un estimator nedeplasat aceast rela ie este egală ţ ă

cu zero. În egal m sur , în estimarea unui parametru ne intereseaz folosireaă ă ă ă

unor estimatori de dispersie cât mai mic .ă

Sunt trei factori care pot reduce varian a estimatorului:ţ• creşterea volumului eşantionului;• reducerea varian ei variabilei reziduale;ţ• utilizarea unor serii pentru variabilele explicative cu grad mai mare de dispersie.

• Proprietatea 2.

Estimatorul ob inut în urma aplic rii celor mai mici p trate (nota ie ls înţ ă ă ţ

programul EViews) este un estimator de dispersie minim , printreă

estimatorii nedeplasa i, exprima i ca func ie liniar de seria de valori:ţ ţ ţ ă

y1 y2 y3....... yn.

Aceast proprietate se mai numeşte şi teorema Gauss-Markov, iară

estimatorul ce satisface aceast proprietate se numeşte estimatoră

eficient.

Sintetic se exprim :ă

var( a *)=).ˆvar()( 2222 awaw i

ii

i ≥−+ ∑∑ ε ε σ σ

unde w reprezint ponderile combina iei liniare ale seriei.ă ţ

Egalitatea celor dou varian e are loc numai dac aă ţ ă i =wi.

• Proprietatea 3.Dac variabila rezidual urmeaz reparti ia normal , atunci estimatorulă ă ă ţ ă



a urmeaz o reparti ie normal de medie a şi abatere standard:ă ţ ă

x

an σ

σ σ

ε 1

*ˆ =

unde s-a notat cu xσ abaterea standard a variabilei exogene şi cu ε σ abaterea

standard a variabilei reziduale. Pentru a se ob ine cea mai bun estimareţ ă

a dreptei de regresie se recomand s se reduc abaterea standard aă ă ă

estimatorului pantei de regresie. Abaterea standard este direct

propor ional cu gradul de varia ie a observa iilorţ ă ţ ţ y1 y2 y3....... yn, în jurul dreptei

de regr esie şi invers propor ional cu num rul de observa ii şi gradul deţ ă ă ţ

varia ie al valorilor caracteristicii exogeneţ x1

x2

x3.......

xn.

Cu cât valorile variabilei exogene sunt mai dispersate, cu atât precizia

estim rii este mai mare(gradul de dispersie a seriei valoriloră

caracteristicilor exogene este m surat, de regul , prin abaterea standardă ă

a seriei).

Prin intermediul xσ se m soar efectul de pârghie.ă ă

• Proprietatea 4.Estimatorul termenului liber al dreptei de regresie ob inut prin aplicareaţ

metodei celor mai mici p trate este un estimator nedeplasat de variană ţă

minimă.

• Proprietatea 5

Matricea de covarian a estimatorilor modelului liniar de regresiţă e a şi b este reprezentat prin:ă

)ˆvar()ˆ,ˆcov()ˆ,ˆcov()ˆvar(

bab

baa

• Proprietatea 6Estimatorul a converge în probabilitate c tre parametrul a, şi în egală ă

m sur estimatorul termenului liber al modelului clasic de regresieă ă b converge în probabilitate c tre b.ă

Proprietatea 7

Covarian a luiţ a şi y pentru un xi fixat este nul .ă



2.7 Regresia multiplă

Model de regresie linear cu dependen e multiple:ă ţ

Yt = a0 + a1X1t + a2X2t + … + akXkt + et, t = 1, 2, …, n [19]

2.7.1. Estimarea parametrilor din modelul linear multifactorial

+++++=

+++++=

+++++=+++++=

+++++=

nknkn22n110n

ikiki22i110t

33kk23213103

22kk22212102

11kk21211101

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

[20]

Introducem urm toarele nota ii:ă ţ

=

=

=

=

n

3

2

1

k

2

1

0

knn2n1

3k2313

2k2212

1k2111

n

3

2

1

e

e

e

e

e,

a

a

a

a

A,

XXX1

XXX1

XXX1

XXX1

X,

Y

Y

Y

Y

Y

unde:– Y este un vector coloan , de dimensiuni nă × 1, care are drept componente cele n

înregistr ri ale variabilei explicate (endogene),ă – X este o matrice de dimensiuni n × (k+1), care con ine în prima coloan (ataşatţ ă ă

termenului liber) constanta 1, iar în celelalte k coloane înregistr rileă pentru fiecare dintre cele k variabile explicative;

– A este un vector coloan , de dimensiuni (k+1)ă × 1, care include cei k+1

parametri ai modelului;– e este un vector coloan , de dimensiuni nă × 1, care include cele n valori ale

variabilei de abatere (erorile din ecua ie de regresie)ţ

Sistemul (20) poate fi scris matriceal astfel: Y = XA + e [21]

Valorile estimate:

Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ [22]

Variabila rezidual :ă



Yt = Ŷt + ut, [23]

sau Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ + ut, [24]

Matricea: Y = XÂ + u [25]

unde

=

=

n

3

2

1

k

2

1

0

u

u

u

u

u,

a

a

a

a

A

Metoda celor mai mici p trate:ă

( )

( )∑

∑∑

=

==

−−−−−=

=−==

n

1t

2ktkt22t110t

n

1t

2tt

n

1t

2t

XaXaXaaY

YYuF

[26]

Matriceal F = u'u = (Y – XÂ)'(Y – XÂ) = Y'Y – Y'XÂ – Â'X'Y + Â'X'XÂ

Deoarece 1,11,1k1k,nn,11,nn,1k1k,1 gAX'YY'X'A =⋅=⋅⋅ ++++ unde g este un scalar,

expresia F se scrie: F = Y'Y – 2Â'X'Y + Â'X'XÂ [27]

Rezolvare:0AX'X2Y'X2

A

F=+−=

∂∂

[28]

(matricea X'X este pozitiv definit ).ă

X'XÂ = X'Y [29]

Â = (X'X)-1X'Y [30]4.4. Teste privind semnifica ia estimatorilorţ

−−−

=−

22

11

00

aa

aa

aa

AA

, ( ) ( )221100 aaaaaaAA −−−=′

−



( )( )( ) ( ) ( ) ( )( )

( ) ( ) ( ) ( ) ( )

( ) ( ) ( )( ) ( )

−−−−−−−−−−−−−−−

=′

−−2

2211220022

22112

110011

220011002

00

aaaaaaaaaa

aaaaaaaaaa

aaaaaaaaaa

AAAA

Var(Â) = M[(Â – A)(Â – A)'] =

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

21202

21101

10100

aVar a,aCova,aCov

a,aCovaVar a,aCova,aCova,aCovaVar

Cazul general:

( ) ( )( )

( ) ( )( )[ ] ( )( )[ ]

( )( )[ ] ( ) ( )( )[ ]

( )( )[ ] ( )( )[ ] ( )

−−−−−

−−−−−

−−−−−

=

=

′

−−=

2kk11kk00kk

kk11

2

110011

kk0011002

00

aaMaaaaMaaaaM

aaaaMaaMaaaaM

aaaaMaaaaMaaM

AAAAMAVar

Deoarece M(âi) = ai, Var(Â), matricea varian – covarian a vectoruluiţă ţă estimatorilor Â se poate scrie:

( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

=

k1k0k

k1101

k0100

aVar a,aCova,aCov

a,aCovaVar a,aCov

a,aCova,aCovaVar

AVar

4- 12

Pornind de la rela ia (4ţ -17): ( ) e'XX'XAA 1−+= , echivalent cuă

( ) e'XX'XAA 1−=− şi de la faptul c (X'X)ă -1 este o matrice simetric ,ă matricea Var(Â) poate fi calculat astfel:ă

( ) ( )( ) ( ) ( )[ ]11 X'XX'ee'XX'XMAAAAMAVar −−=

′

−−=

) ( ) ( ) ( )11

X'XX'eeM'XX'XAVar −−

= 4- 12( ) ( ) 2

e2tt eMeVar σ== , constant oricare ar fiă t şi

Cov(ei, e j) = M(ei, e j) = 0, oricare ar fi i ≠ j.

( ) n2e I'eeM σ= 4- 12

) ( ) ( ) ( )

( ) ( )

( ) 12e

112e

1n

2e

1

X'X

X'XX'XX'X

X'XXI'XX'XAVar

−

−−

−−

σ=

=σ=

=σ=

4- 12 Not m dă ij elementul situat la intersec ia dintre liniaţ i şi coloana j, atunci dij = d ji.



R ezult c dispersia estimatorului âă ă i, notată2ai

σ, este dat de expresia:ă

ii2e

2a d

iσ=σ

4- 12

unde

k,0i =.Abaterea standard a estimatorului âi se calculeaz prin extragerea r d ciniiă ă ă

p trate din dispersia estimatorului respectiv:ă

iiea di

σ=σ4- 12

Tot din compararea rela iilor (4ţ -19) şi (4-22) rezult :ă

( ) ( ) ji,da,aCov ij2e ji ≠∀σ=

4- 12adic , pentru a calcula covarian a dintre estimatorii âă ţ i şi â j se înmul eşteţ

Dar, în rela iile de calcul (4ţ -23), (4-24) şi (4-25), dispersia erorilor2eσ

nu este cunoscut .ă Se demonstreaz c :ă ă

u'u1kn

1s2

u −−=

, 1kn

us

n

1t

2t

2u −−

=∑

=

4- 12

este un estimator nedeplasat al dispersiei erorilor ( ) 2e

2usM σ= .

În aceste condi ii, un estimator nedeplasat al matricei Var(Â),ţ matricea de varian – covarian a vectorului estimatorilor Â, se calculeazţă ţă ă astfel:

( )

12

u

2

A X'XsS

−

= 4- 12

deoarece( ) )AVar SM 2

A=

.

Dispersia de selec ieţ2ai

s:

ii2u

2a dss

i=

4- 12

unde k,0i = .

Testul unilateral

Pasul 1: Se formulează H0: ai = a, H1: ai > a.Pasul 2: Se calculeaz statisticaă

i

ia

ia s

aat

−=

,Pasul 3: Din tabelul statisticii Student, pornind de la num rul gradelor deă

libertate (n–k–1) şi de la nivelul de semnifica ie ales (ţ α), se

selecteaz o vală oare∗

α− ,2ntastfel încât ( ) α=> ∗ttP .

Pasul 4: Dacă∗> tt

ia atunci se respinge H0

şi admitem c parametrul aăi

estesemnificativ mai mare decât a. Dac ipoteza alternativ este Hă ă 1: ai < a,



atunci se respinge H0 dacă∗−< tt

ia ∗−< tt De obicei, valoarea a este stabilit la nivelul aă = 0, astfel încât se testează

ipoteza H0: ai = 0 (variabilele Xi şi Y sunt independente). Respingerea acesteiipoteze înseamn acceptarea faptului c , statistic, exist o leg tur întreă ă ă ă ă

variabila endogen Y şi variabila explicativ Xă ă i.Pentru exemplificarea modului de calcul a dispersiei de selec ie aţ

variabilei reziduale (ca estimator nedeplasat al dispersiei erorilor), adispersiei estimatorilor şi a abaterilor standard în cazul numeric prezentat întabelul 4-1 este necesar ca tabelul 4-2 s fie completat cu o coloană ă

suplimentar , necesar pentru calculul bloculuiă ă ∑ 2tu

. Calculele sunt prezentateîn tabelul 4-3.

t Yt Ŷtut

2tu

1 2.0 2.476 -0.476 0.2269

2 0.5 1.077 -0.577 0.33273 1.5 1.378 0.122 0.01484 3.0 2.959 0.041 0.00175 1.0 1.716 -0.716 0.51246 0.0 0.045 -0.045 0.00217 2.1 1.936 0.164 0.02688 1.8 1.809 -0.008 0.00019 3.0 2.988 0.013 0.000210 0.7 0.812 -0.112 0.012611 0.5 0.380 0.120 0.014412 1.0 0.916 0.084 0.007113 1.4 1.859 -0.459 0.210614 1.2 1.372 -0.172 0.029615 0.8 0.189 0.612 0.373916 2.3 2.516 -0.216 0.046617 3.5 3.528 -0.027 0.000818 3.8 3.003 0.797 0.635519 1.8 1.764 0.036 0.001320 2.6 2.717 -0.117 0.013621 0.8 0.773 0.027 0.000822 1.2 0.905 0.295 0.0871

23 4.2 3.144 1.056 1.114924 0.8 0.645 0.155 0.024125 2.5 3.115 -0.615 0.3786

Suma: 44.0 44.0 0.000 4.0689

Pornind de la valorile din tabelul 4-3, se calculeaz :ă

18495.0325

0689.4

1kn

us

25

1t

2t

2u =

−=

−−=

∑=

28935.05645.118495.0dss00

2

u

2

a0

=⋅==

02669.01443.018495.0dss 112u

2a1

=⋅==



01323.00715.018495.0dss 222u

2a2

=⋅==unde doo, d11 şi d22 sunt elementele de pe diagonala principal a matricei (X'X)ă -1.Abaterile standard se calculeaz prin extragerea r d cinii p trate dină ă ă ă valorile dispersiilor corespunz toare:ă

430058.0su =53792.0s

0a =16338.0s

1a =11502.0s

2a =Pentru testarea semnifica iei parametrilor din modelulţ linear de

regresie multipl se procedeaz astfeă ă l:(a) Se calculeaz statisticile corespunz toare pentru estimatoriiă ă parametrilor

69.353792.0

984.1

s

at

0

0a

0a ===

70.216338.0

441.0

s

at

1

1a

1a ===

56.511502.0

639.0

s

at

2

2a

2a −=

−==

(b) Din tabelul distribu iei t–Student unilaterale, pentru n–k–1ţ = 22 gradede libertate şi α = 0.05 pragul de încredere, se identific valoarea critică ă t* = 1.717.

4.5. Acurate ea ajust rii. Criterii pentru specificarea modeluluiţ ă multifactorialCalculul coeficientului de determinare multipl R2ă

( )∑

∑

=

=

−−=−==

n

1t

2

t

n

1t

2

t

2

YY

u

1VT

VTR 1

VT

VTMR

4- 12

Calculul coeficientului de determinare corectat2

R

( )22 R 11kn

1n1R −

−−−

−=4- 12

t Yt ( ) 2t

YY −

1 2.0 0.062 0.5 1.593 1.5 0.074 3.0 1.545 1.0 0.58

6 0.0 3.107 2.1 0.12



t Yt ( ) 2t

YY −

8 1.8 0.009 3.0 1.5410 0.7 1.12

11 0.5 1.5912 1.0 0.5813 1.4 0.1314 1.2 0.3115 0.8 0.9216 2.3 0.2917 3.5 3.0318 3.8 4.1619 1.8 0.0020 2.6 0.7121 0.8 0.92

22 1.2 0.3123 4.2 5.9524 0.8 0.9225 2.5 0.55

Suma 44.0 30.08

În aplicarea rela iilor (4ţ -33) şi (4-34) se ine seama de faptul cţ ă volumul selec iei este nţ = 25, iar num rul variabilelor explicative este kă = 2.

De asemenea, se utilizeaz un rezultat prezentat în tabelul 4ă -3:

0689.4u

25

1t

2

t =∑=În aceste condi ii, coeficientul de determinare calculat potrivit rela ieiţ ţ

(4-33) este:

8647.008.30

0689.41R 2 =−=

iar un estimator nedeplasat pentru coeficientul de determinare corectat2

R , calculat potrivitrela iei (4ţ -34), este

( ) 8524.08647.01

22

241R 2 =−⋅−=

Cu excep ia situa iei în care Rţ ţ 2 = 1, coeficientul de determinare ajustat

2R este

întotdeauna mai mic decât coeficientul de determinare R 2. Mai mult, deşi R2 este o

m rime pozitiv subunitar ,ă ă ă2

R poate lua valori negative. De exemplu, dacă volumul selec iei este nţ = 25, num rul variabilelor explicative kă = 3, iarcoeficientul de determinare este R2 = 0.1, atunci, prin aplicarea formulei (4-34) se

deduce2

R = -0.0286. O valoare negativ a coeficientului de determinareă ajustat semnific faptul c modelul nu descrie întră ă -un mod satisf c toră ă evolu ia variabilei endogene.ţ

2.7.2 Criterii pentru specificarea modelului multifactorial



Un criteriu imediat pentru a decide dac admitem sau nu în model oă variabil suplimentar este urm torul:ă ă ă dac prin includerea unei (unor)ă variabile suplimentare suma p tratelor reziduurilor scade mai repede decât ă num rul gradelor de libertate, din punct de vedere econometric se justifică ă re inerea în model a variabilei (variabilelor) respective ţ .

Unul dintre cele mai cunoscute teste este criteriul informa ional Akaike ţ (Akaikeinformation criterion – AIC). Acest criteriu este definit astfel:

( ) ( )

n

1k2n

1t

2t

n

1k2

eun

1e

n

VTR AIC

+

=

+

⋅

=⋅

= ∑

[31]

sau, în expresie logaritmică

( )( )

n

1k2

n

ulnAICln

2t +

+

= ∑

Un alt test cunoscut este criteriul Schwartz :

n

1kn

1t

2t

n

1k

nun

1n

n

VTR SCHWARTZ

+

=

+

⋅

=⋅

= ∑

[32]

Se poate demonstra urm toarea proprietate:ă dac valoarea absolut aă ă testului t pentru un parametru din ecua ia de regresie linear multipl este ţ ă ă mai mic decât 1, atunci, eliminând din model variabila explicativ ă ă

asociat , valoarea coeficientului de determinare corectat ă2

R va creşte;dac se elimin o variabil pentru care t statistic este mai mare decât 1,ă ă ă

valoarea coeficientului de determinare corectat 2

R se va reduce (Ramanathan, R.,1992, pag. 170).

2.7.3. MulticolinearitateaExist o rela ie linear între valorile variabilelor explicative.ă ţ ă

Consecin e ale multicolinearit iiţ ăţS presupunem c în ecua ia de regresie:ă ă ţ

eXaXaaY 22110 +++= [33]

între variabilele X1 şi X2 exist o rela ie de f ă ţ orma

( ) t, bXaX t1t2 ∀+= [34]

unde a şi b sunt parametrii cunoscu i. Dac se înlocuieşte 4ţ ă -38 în rela ia 4ţ -37se ob ine:ţ

( ) ( ) eX baaaaa

eXaXaaY

12120

22110

++++==+++=

[35]sau



eXY 1 +β+α= [36]

unde

+=β

+=α

baa

aaa

21

20

[37]

Pe baza datelor din eşantionul selectat, se determin estimatoriiă α şi

β , pentru parametrii α respectiv β din ecua ia de regresie. Din nefericire, oricât deţ buni ar fi estimatorii respectivi, este imposibil de calculat valorile â0, â1 şi â2

corespunz tori rela iei ini iale.ă ţ ţ Aceasta deoarece sistemul cu necunoscutele â0, â1 şi â2 .

+=β

+=α

baaˆ

aaaˆ

21

20

[38]

este nedeterminat (are dou ecua ii şi trei necunoscute).ă ţ

Consecin e ale multicolinearit iiţ ăţ

a. Dac dou sau mai multe variabile explicative din modelulă ă de regresie multipl sunt perfect corelate, estimatoriiă parametrilor nu pot fi calcula i prin metoda celor mai miciţ

p trate.ăb. Dac anumite variabile explicative sunt relativ puternică

corelate, estimatorii ob inu i prin metoda celor mai miciţ ţ p trate sunt lineari, normal distribui i, nedeplasa i,ă ţ ţ consisten i şi de maxim verosimilitate.ţ ă

c. Efectul multicolinearit ii se manifest în creşterea abaterii standard aăţ ă estimatorilor calcula i pentru parametriţ i modelului, ceea ce reduce valoareatestului t statistic (Student). Aceasta face estimatorii mai pu in semnificativiţ (posibil chiar nesemnificativi). Totuşi, testul t r mâne valid.ă

d. Se reduce precizia estimatorilor calcula i pentru parametrii modelului, înţ

sensul c abaterea standard mare duce la creşterea intervalului deă încredere în care sunt garanta i parametrii.ţ

e. Deoarece covarian a între variabilele explicative corelateţ relativ puternic poate fi mare (în valoare absolut ),ă interpretarea parametrilor individuali este dificil .ă

Identificarea multicolinearit iiăţ

a. Coeficien ii de corela ie linear , calcula i pentru perechile deţ ţ ă ţ variabile explicative din model, sunt mari în valoareabsolut (sunt, în modul, apropiaă ţi de +1).

b. Determinantul matricei (X'X) are valori în apropierea lui zero.c. Coeficientul de determinare R 2 este mare, iar valorile testelor t (Student), calculate pentru



parametrii modelului sunt mici.d. Estimatorii parametrilor sunt sensibili la specificarea modelului.e. Aplicarea unor proceduri formale.Atenuarea multicolinearit iiăţ

a. Eliminarea unor variabile explicative

b. Realizarea unor observa ii suplimentare asupra variabilelorţ din model (se m reşte volumul eşantionului)ă

c. Prelucrarea primar a datelor (calculul ritmurilor de modificare, aă sporurilor, indicilor, logaritmarea valorilor observate etc.)

d. Regresia ridge

2.8. Erori de specificare a modelului multifactorial de regresielinearăOmiterea unor variabile explicative importantea. Dac o variabil important omis este corelat cel pu in cuă ă ă ă ă ţ

o variabil inclus în model, atunci estimatorii parametriloră ă re inu i în model sunt deplasa i şi nu sunt consisten iţ ţ ţ ţ

b. Chiar dac variabilele omise nu sunt corelate cu variabileleă re inute în model, estimatorul termenului liber (âţ 0) este, îngeneral, deplasat

c. Dispersiile estimate pentru parametrii variabilelor re inute în modelţ sunt estimatori deplasa i ai dispersiilor reale şi, în consecin , testulţ ţă t

privind semnifica ia estimatorilor nu este validţIncluderea unor variabile nerelevante

a. Dac o variabil explicativ nerelevant este inclus înă ă ă ă ă model, atunci estimatorii parametrilor pentru toate celelaltevariabile din model sunt nedeplasa i şi consisten iţ ţ

b. Dispersiile estimate pentru parametrii variabilelor din model sunt maimari decât în cazul neincluderii variabilelor nerelevante şi deciestimatori nu sunt eficien iţ

c. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t

privind semnifica ia estimatorilor este validţ

Documents

Regresia simpla