Upload
hgfeurwi-kfhgerugh
View
244
Download
0
Embed Size (px)
Citation preview
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 1/22
2. Modelul simplu de regresie si regresia multifactoriala
2.1 Istoricul termenului
Termenul de regresie a fost introdus de Francis Galton şi a fost legat de
problema rela iei privind în l imea p rin ilor şi a copiilor, cu alte cuvinte:ţ ă ţ ă ţ
în l imea copiilor cu p rin i neaşteptat de înal i sau neaşteptat de scunziă ţ ă ţ ţ
tinde spre o în l ime medie a popula iei, rela ie cunoscut sub denumireaă ţ ţ ţ ă
de legea regresiei universale a lui Galton. Aceast lege a fost confirmat deă ă
Karl Pearson, care a adunat mai mult de 1000 de înregistr ri ale în l imiiă ă ţ
membrilor familiilor şi grupurilor. El a g sit c în l imea medie a fiilor dintr-ă ă ă ţ
un grup cu ta i înal i a fost mai mic decât în l imea ta ilor şi c mediaţ ţ ă ă ţ ţ ă
în l imii fiilor unui grup cu p rin i scunzi a fost mai mare decât în l imeaă ţ ă ţ ă ţ
p rin ilor, astfel c regresia fiilor scunzi şi înal i tinde c tre o medie aă ţ ă ţ ă
în l imii tuturor b rba ilor.ă ţ ă ţ
2.2.Definirea şi caracterizarea analizei de regresie şi a modeluluigeneral
Analiza de regresie se ocup aşadar cu descrierea şi evaluareaă
leg turii dintre o variabil dependent sau explicat şi una sau mai multeă ă ă ă
variabile independente sau explicative în scopul de a determina forma şi
direc ia leg turii dintre variabile precum şi de a previziona evolu ia medie aţ ă ţ
popula iei cercetate. (T. Andrei, S Stancu, A I Iacob; E Tuşa, Introducere înţ
econometrie utilizând EViews, Editura Economic , 2008,ă p.49)
Forma general a modelului de regresie dintre variabilele y şi x esteă
dat de rela ia:ă ţ
Y= f(xi), [1]
unde f(xi) este o func ie de variabila xţ i. În cazul regresiei simple i =1, deci avem o
singur variabil , în cazul regresie multiple, i=i......m, caz în care avem mă ă
variabile explicative.
În cazul în care leg tura dintre cele dou variabile este descrisă ă ă
complet, prin to i factorii care intervin într-un astfel de fenomen, cum esteţ
cazul în fizic , spunem c leg tura este determinat prin intermediul uneiă ă ă ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 2/22
ecua ii de tip determinist, aşa cum apare în ecua iaţ ţ [1].
În economie îns , nu se cunosc to i factorii care influen eaz un proces sauă ţ ţ ă
un fenomen, ceea ce face ca leg tura dintre variabila dependentă ă
(endogen ) y şi variabile independent (exogen ) x s nu genereze valoriă ă ă ă
unice, dar poate fi descris în termeni probabilistici, deci dependen a dintreă ţ
variabile este stocastic sau aleatoare.ă
În cazul dependen ei stocastice, forma general a modelului deţ ă
regresie devine:
Y= f(xi)+ ,ε [2]
Unde este eroarea de specificaε ieţ ce provine din faptul c nu suntă
cunoscu i to i factorii şi influen a celor necunoscu i se reg seşte în acestţ ţ ţ ţ ă termen (omiterea unor factori) la care se adaug efectul factorilor calitativiă
imposibil de m surat, erorile în specificarea în termeni de structura aă
modelului, lipsa unei specifica ii func ionale /rela ia dintre variabile nu esteţ ţ ţ
liniar ) şi erorile în înregistrarea, observarea fenomenă elor.
Deşi analizele statistice lucreaz cu dependen a unei variabile de alta,ă ţ
aceasta nu implic în mod necesar rela ia de cauzalitate. O rela ie statistică ţ ţ ă
puternic , sau sugestiv , poate s nu implice o conexiune de cauzalitate.ă ă ă
De asemenea, legat dar diferit conceptual de analiza de regresieă ă
este analiza de corela ie, aceasta din urm având ca scop s m soareţ ă ă ă
gradul sau puterea asocierii liniare dintre dou variabile.ă
Yt
Xt
t10t XaaY +=
ut
Y
X
• • • •
• • • • • • • • • • • • •
• •
XaaY 10 +=
2.3 Modelul clasic de regresie liniară
Pentru abordarea acestui subiect ne vom referi în primul rând la regr esia simpl , sauă
bivariabil , nu din considerente practice ci pentru c regresiile multiple suntă ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 3/22
o extensie a cazului simplu în care variabila dependent (regresat în cazulă ă
de mai sus consumul final al popula iei –ţ cfs, pentru cazul teoretic o vom nota y) este
legat de o singur variabil explicativ (regresor, notat pentru cazulă ă ă ă
teoretic cu x iar în cazul concret de mai sus este salariul mediu brut lunar pe
economie, adic -ă salb).
Din teorie se ştie c veniturile şi consumul evolueaz independent, şiă ă
s accept m pentru început ipoteza c la nivelul întregii popula ii consumulă ă ă ţ
depinde liniar de venit. În acest caz putem nota cu M(y, x) valoarea
anticipat a consumului final al popula iei, calculat ca valoare medieă ţ ă a
consumului pentru toate familiile cu venituri x, iar în ipoteza de liniaritate, putem scrie:
M(y/x) = a0 +a1X [3]
Parametrul a1 este considerat înclina ia marginal spre consum aţ ă
popula ieţ i înregistrate, iar a0 este înclina ia spre consum a popula iei a c rorţ ţ ă
venit este zero, considerând c şi aceă ast popula ie este nevoit s aib ună ţ ă ă ă
consum de subzisten fie din utilizarea economiilor agonisite fie dinţă
împrumut.
Valoarea anticipat a consumului final al popula iei (M(y/x)) difer deă ţ ă
valoarea real a consumului final (notat y în cazul teoretic) şi atunci ecua iaă ţ se rescrie inând seama de aceast valoare neobservat a abaterii ce oţ ă ă
not m cuă , ceea ce se scrie:ε
y = M(y/x)+ ε [4]
Dac se acceptă ă ipoteza de liniaritate din ecua ia [3], şi rela ia dintreţ ţ
valoarea anticipat şi valoarea real a variabilei y, atunci se poate scrieă ă
ecua ia [5], careţ este ecua ia drepteiţ de regresie:
y = a0 +a1X+ ε [5]Ipoteza de liniaritate poate fi interpretat în cel mai simplu mod caă
liniaritate ca liniaritate în variabile şi în parametri, ca liniaritate dintre
regresant (variabila dependent ) şi regresor (variabila independent ) şi dintreă ă
parametrii a0 şi a1aşa cum este în cazul ecua iilor [3] şi [5].ţ
Dac este de forma:ă Y =b+alnX atunci este neliniar în raport cu variabila
explicativ dară este liniar în raport cu cei doi parametri.
Dac îns modelul este de forma:ă ă Y= b+ln a*X acesta este liniar în raport
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 4/22
cu variabila explicativă dar este neliniar în raport cu cei doi parametri.
Modelele neliniare ce se pot transforma în modele liniare printr-o serie
de transform ri eă lementare astfel:
• modelul Log-Log sau dublu logaritmic:yt = a *xi
b , prin:
logyt = loga + blog xi
transformare ce conduce la un model liniar în raport cu variabilele logyi şi log xi .
• Modelul exponen ial sau modelul log:ţ
yt = a *xbi
logyi = loga + xi log b.
O serie de modele neliniare nu pot fi scrise sub forma unor modele
liniare prin simple transform ri elementare, procedeele de transformareă
fiind mai complexe şi nu fac obiectul acestei prezent ri.ă
Estimarea parametrilor din
În cazul seriilor de timp, ecua ia de regresie cuprinde şi variabila timp,ţ
notat t, iar ecua ia se rescrie:ă ţ
Yt = a0 +a1Xt+εt [6]
Seriile de timp ce sunt valori ale variabilei observate la momente diferite de timp,
ridic o problem extrem de delicat şi anume aceea a sta ionarit ii seriiloră ă ă ţ ăţ
de timp. O serie de timp este sta ionar dac valoarea medie şi varian aţ ă ă ţ
acesteia nu variaz sistematic în timp.ă
2.4 Metode de rezolvare a ecua iei de regresieţ
Determinarea parametrilor ecua iei de regresie se poate realiza prinţ
mai multe metode, cum ar fi metoda general a momă entelor, metoda celor
mai mici p trate, metoda verosimilit ii maxime şi altele.ă ăţ În continuare vom
prezenta metoda celor mai mici p trate.ă
2.4. 1.Metoda celor mai mici p trate (OLS)ă
Metoda cea mai simpl de determinare a parametrilor dreptei deă regresie este metoda celor mai mici p trate, ce const în minimizareaă ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 5/22
sumei p tratului erorilor. Se utilizeaz p tratul erorilor în scopul de a evitaă ă ă
compensarea erorilor pozitive cu cele negative în cazul unei simple
însum ri. care îns implic acceptarea unor ipoteze şi a unor propriet i aleă ă ă ăţ
estimatorilor. Grafic, criteriul aplicat în cazul metodei celor mai mici p trateă
este de a g si dreapta care asigur cea mai bun ajustare a puncteloră ă ă
empirice (dreapta de regresie) prin minimizarea sumei p tratelor abateriloră
dintre punctele de pe grafic şi punctele care au aceeaşi abcis pe dreaptaă
de regresie, abaterile fiind m surate vertical.ă
Yt
Xt
t10t XaaY +=
ut
Y
X
• • • • • • •
• • • • • • • • • •
• •
XaaYˆ
10 +=
Figura 1: Dreapta de regresie şi variabila reziduală
Analitic, se noteaz F(ă 10 ˆ,ˆ aa ) suma p tratelor abaterilor u dintre valorileă
înregistrate ale variabilei Y şi valorile calculate Y şi atunci:
( ) ( ) ( )∑∑∑===
−−=−==n
1t
2t10t
n
1t
2
tt
n
1t
2t10 XaaYYYua,aF
[7]
În func ia F, valorileţ 10 ˆ,ˆ aa sunt necunoscute, (deoarece valorile Xt şi Yt sunt valorile
din eşantion) iar pentru minimizarea func iei F este necesar a se calculaţ
derivatele par iale de ordinul 1 şi se egaleaz cu zero (ce sunt condi iile deţ ă ţ optim).
( ) ( ) ( )[ ]
( ) ( ) ( )[ ]
=+−−=∂∂
=+−−=∂∂
∑
∑
=
=
0XaaYX2a,aFa
0XaaY12a,aFa
n
1tt10tt10
1
n
1tt10t10
0
[8]
Prin rearanjarea ecua iilor [8] se ob ine un sţ ţ istem de ecua ii normale ţ :
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 6/22
+=
+=
∑ ∑ ∑
∑∑
= = =
==n
1t
n
1t
n
1t
2t1t0tt
n
1tt10
n
1tt
XaXaYX
XaanY
[9]
În sistem se cunoaşte n care este dimensiunea eşantionului (seriilor), iar
∑ t X , ∑ t Y
; t t Y X ∑ şi∑2t X
se pot calcula pe baza eşantionului, avem un
sistem de dou ecua ii cu dou necunosă ţ ă cute ce se poate rezolva.
Sistemul (7-9) poate fi scris:
=−
=−
∑∑
=
=n
1ttt
n
1tt
0uX2
0u2
echivalent cu [10]
=
=
∑
∑
=
=n
1t
tt
n
1tt
0uX
0u
[11]
Dac se noteaz mediile variabileloră ă , X Y , not m xă t =X- , X şi yt = Y-Y ,
devia iile de la medie, atunci putem scrie rela iile de calcul pentruţ ţ 0a
1a
astfel:
t t X aY a 10 ˆˆ −= [12]
Dac se calculeaz :ă ă X = n
X n
t t
∑=1
şi n
Y n
t t
∑== Υ 1
, atunci:
2
11
2
1 111
1
1
ˆ
−
−=
∑∑
∑ ∑∑
==
= ==
n
t
t
n
t
t
n
t
n
t
t t t
n
t
t
X n
X
Y X n
Y X
a
= ∑∑
−
−−2)(
))((
X X
Y Y X X
t
t t
= ∑∑
2t
t t
x
y x
[13]
2.4.2 Acurate ea ajust riiţ ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 7/22
În mod evident, un model este cu atât mai bun cu cât explic mai mult dină varia ia lui Y, pentru întreg eşantionul analizat. Pentru a evita compensareaţ abaterilor faş de medie, de obicei se calculeaz varia ia total a luiY.ă ă ţ ă
Varia ia total a lui Y ţ ă (VT):
( )∑=
−=n
1t
2t YYVT
[14]
Varia ia total explicat de model ţ ă ă (VTM):( )∑
=−=
n
1t
2
t YYVTM[15]
Varia ia rezidual ţ ă (VTR):∑
==
n
1t
2tuVTR
. [16]Se demonstreaz c :ă ă
– dac estimatorii sunt determina i pe baza metodei celor mai mici p trateă ţ ă
– iar ecua ia de regresie con ine şi termenul liber, atunciţ ţ
VT = VTM + VTR:
( ) ( ) ∑∑∑===
+−=−n
1t
2t
n
1t
2
t
n
1t
2t uYYYY
[17]
Coeficientul de determinare R2:
( )
( ) ( )∑
∑
∑
∑
=
=
=
=
−
−=
−
−==
n
1t
2t
n
1t
2t
n
1t
2t
n
1t
2
t2
YY
u
1
YY
YY
VT
VTMR
[18]
0 ≤ R 2 ≤ 1
• R 2 sau R-squared
R 2 m soar statistic succesul regresiei în predic ia valorilor variabileiă ă ţ
dependente în cadrul perioadei alese, şi poate fi interpretat ca partea
variabilei dependente explicat prin variabilele independente. Statistic,ă
valoarea ar fi 1 dac ecua ia ar realiza o predic ie perfect şi zero cândă ţ ţ ă predic ia nu este mai bun decât media simpl a variabilei dependente.ţ ă ă
• R 2 ajustat
O problem cuă R 2 ca m sur a eficien ei regresiei este c nu scade dacă ă ţ ă ă
se adaug mai multe variabile independente. În cazuri extreme se poateă
ob ine o valoare 1 pentruţ R 2 dac se adaug atâtea variabileă ă
independente câte observa iiţ are seria.
R 2 ajustat penalizeaz valoarea luiă R 2 dac se adaug variabileă ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 8/22
suplimentare care nu contribuie la explicitarea mai bun a modelului. Ră 2
ajustat nu este niciodat mai mare decât Ră 2 şi poate scade dac seă
adaug variabile independente, iar pentă ru modelele slab explicitate poate ajunge
chiar la valori negative.
Formula de calcul este:
k T
T R R
−−
−−=1
)1(1 22
2.5 Ipotezele modelului liniar de regresie unifactorialModelul liniar de regresie se bazeaz pe urm toarele ipoteze a c ror violareă ă ă
conduce la respingerea modelului. Setul de ipoteze formulate asupra
variabilelor reziduale şi asupra variabilei explicative prezentate sintetic în
tabelul de mai jos. De men ionat c ipotezele 4-8 se refer la distribu iaţ ă ă ţ
erorilor.
Ipoteza Expresia
matematică
Explica iiţ Violarea
1.Liniaritatea modelului Yt = a0 +a1Xt+εt Oricare ar fi cuplul Xt
Yt, leg tura dintreă cele dou esteă
liniar , modelulă este liniar înparametri şi învariabila X
Regresori greşi i;ţ neliniaritate
2.Variabila X aredispersia nenulă şi finită
Var(Xt) ≠ 0 Nu toatevariabileleexogene suntegale între ele,adic dispersiaă de selec ie aţ variabilei
trebuie s fie ună num r finită pozitiv
Erori în variabile
3.Variabila X nu estealeatoare
Cov(Xs, εt ) =0 Eroarea esteindependentă de variabilaexplicativă
Autoregresie
4. Erorile sunt aleatoriicu media zero
M(εt)=0, M= mediasau E(εt)=0 unde Eeste speran aţ
Speran aţ matematic aă erorii este nul ,ă deci eroareamedie este zero.
Abateri constante,modelul nu este binespecificat
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 9/22
5.Homoscedasticitate, dispersiaerorii esteconstantă
Var (εt)=σ2 = constant Erorile εt suntidentic distribuite,cu o dispersieconstant şiă finită
Heteroscedasticitate
6.Erorile sunt
independente
Cov(εt,εs)=0 pentru
orice t ≠ s
Erorile nu sunt
autocorelate,deci covarian aţ dintre oricaredou valori aleă variabilei deabatere estezero
Autocorela ieţ
7.Erorile sunt normaldistribuite
εt ~ N(0, σ2) Fiecare variabilă aleatoare esteaproximativdistribuită normal în jurulmediei
8.Rela iile nu suntţ liniare
0)( 2 ≠−∑ t t X X Num rulă observa iilorţ trebuie s fieă mai mare decâtnum rulă variabilelor
Multicoliniaritate
Ipotezele 6 şi7 pot fi scrise concentrat: matricea de varian - covarian aţă ţă
erorilor este
M (ε’ )=ε σ2ε I unde σ2
ε este valoarea comun a dispersiei erorilor iar I esteă
matricea unitate.
Ipotezele 4-7 pot fi însumate prin afirma ia: abaterile erorilorţ εt sunt
presupuse independente, normal distribuite, de medie zero şi dispersie
constant , oricare ar f ă i t.
2.6. Propriet ile estimatorilor în cazul metodei celor maiăţ mici p trate(OLS)ă
Modelul de regresie bazat pe metoda celor mai mici p trate seă
bazeaz pe o serie de propriet i ale estimatorilor.ă ăţ
Proprietatea Explica iiţ
1. Estimatorii 0a şi 1a sunt liniari
Deoarece valorile variabilei X suntconstante, se demonstreaz că ă
estimatorii sunt combina ii liniareţ ale valorilor de selec ie Yţ t
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 10/22
2.Estimatorii sunt nedeplasa iţ Dac variabila exogen X nu esteă ă aleatoare, sau dac este aleatoareă dar este independent de variabilaă de abatre εt, atunci estimatorii ob inu iţ ţ prin OLS sunt nedeplasa i.ţ
3.Estimatorii sunt consisten iţ Este specific selec iilor de volumă ţ mare, un estimator este consistentdac pe m sur ce creşte m rimeaă ă ă ă observa iilor valoarea estimatoruluiţ se apropie de de valoareaparametrului estimat.
4.Estimatorii nedeplasa i suntţ
eficien iţ
Un estimator al unui parametru esteeficient dac nu este deplasat şi nuă exist un altr estimator nedeplasată care are o dispersie mai mic .ă Pentrunum r mare de observa ii seă ţ analizeaz proprietatea de eficienă ţă asimptotic . Un estimator esteă asimptotic eficient dac esteă consistent şi nu exist un altă estimator consistent care are odispersie mai mic .ă
5. Estimatorii sunt normal distribui iţ Dac erorile sunt variabile aleratoareă distribuite normal, atunci distribu iaţ pentru selec ii repetate aleţ
estimatorilor 0a şi 1a este deasemenea normal .ă
6.Estimatorii sunt de verosimiliate maximă Un estimator este verosimil dacă
genereaz valori plauzibile pentruă
variabila endogen . Sunt de maximă ă
verosimilitate acei estimatori care
fiind fiind fixate valorile Xt,
genereaz cu o probabilitate maximă ă
valorile observate ale variabileiendogene Yt.
Principalele propriet i ale modelului liniarăţ de regresie în condi iile înţ
care parametrii sunt estima i prin metoda celor mai mici p trate suntţ ă
• Proprietatea 1
Estimatorul coeficientului dreptei de regresie determinat prin aplicarea
metodei celor mai mici p trate este un estimator nedeplasat şi deă dispersie minim ,ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 11/22
Ceea ce înseamn c :ă ă
E( a ) =a,
Var( a ) = ∑=−
n
i
i x x1
2
2
)ˆ(
ε σ
Urm rind ultima rela ie rezult c varian a estimatorului este cu atât maiă ţ ă ă ţ
mic cu cât varian a caracteristicii exogene este mai mare.ă ţ
În practic se calculeaz o singur estima ie, luână ă ă ţ d în considerare seriile
disponibile, deplasarea estimatorului a este calculat pe baza rela iei:ă ţ
B( a )= a-E( a ). Pentru un estimator nedeplasat aceast rela ie este egală ţ ă
cu zero. În egal m sur , în estimarea unui parametru ne intereseaz folosireaă ă ă ă
unor estimatori de dispersie cât mai mic .ă
Sunt trei factori care pot reduce varian a estimatorului:ţ• creşterea volumului eşantionului;• reducerea varian ei variabilei reziduale;ţ• utilizarea unor serii pentru variabilele explicative cu grad mai mare de dispersie.
• Proprietatea 2.
Estimatorul ob inut în urma aplic rii celor mai mici p trate (nota ie ls înţ ă ă ţ
programul EViews) este un estimator de dispersie minim , printreă
estimatorii nedeplasa i, exprima i ca func ie liniar de seria de valori:ţ ţ ţ ă
y1 y2 y3....... yn.
Aceast proprietate se mai numeşte şi teorema Gauss-Markov, iară
estimatorul ce satisface aceast proprietate se numeşte estimatoră
eficient.
Sintetic se exprim :ă
var( a *)=).ˆvar()( 2222 awaw i
ii
i ≥−+ ∑∑ ε ε σ σ
unde w reprezint ponderile combina iei liniare ale seriei.ă ţ
Egalitatea celor dou varian e are loc numai dac aă ţ ă i =wi.
• Proprietatea 3.Dac variabila rezidual urmeaz reparti ia normal , atunci estimatorulă ă ă ţ ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 12/22
a urmeaz o reparti ie normal de medie a şi abatere standard:ă ţ ă
x
an σ
σ σ
ε 1
*ˆ =
unde s-a notat cu xσ abaterea standard a variabilei exogene şi cu ε σ abaterea
standard a variabilei reziduale. Pentru a se ob ine cea mai bun estimareţ ă
a dreptei de regresie se recomand s se reduc abaterea standard aă ă ă
estimatorului pantei de regresie. Abaterea standard este direct
propor ional cu gradul de varia ie a observa iilorţ ă ţ ţ y1 y2 y3....... yn, în jurul dreptei
de regr esie şi invers propor ional cu num rul de observa ii şi gradul deţ ă ă ţ
varia ie al valorilor caracteristicii exogeneţ x1
x2
x3.......
xn.
Cu cât valorile variabilei exogene sunt mai dispersate, cu atât precizia
estim rii este mai mare(gradul de dispersie a seriei valoriloră
caracteristicilor exogene este m surat, de regul , prin abaterea standardă ă
a seriei).
Prin intermediul xσ se m soar efectul de pârghie.ă ă
• Proprietatea 4.Estimatorul termenului liber al dreptei de regresie ob inut prin aplicareaţ
metodei celor mai mici p trate este un estimator nedeplasat de variană ţă
minimă.
• Proprietatea 5
Matricea de covarian a estimatorilor modelului liniar de regresiţă e a şi b este reprezentat prin:ă
)ˆvar()ˆ,ˆcov()ˆ,ˆcov()ˆvar(
bab
baa
• Proprietatea 6Estimatorul a converge în probabilitate c tre parametrul a, şi în egală ă
m sur estimatorul termenului liber al modelului clasic de regresieă ă b converge în probabilitate c tre b.ă
Proprietatea 7
Covarian a luiţ a şi y pentru un xi fixat este nul .ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 13/22
2.7 Regresia multiplă
Model de regresie linear cu dependen e multiple:ă ţ
Yt = a0 + a1X1t + a2X2t + … + akXkt + et, t = 1, 2, …, n [19]
2.7.1. Estimarea parametrilor din modelul linear multifactorial
+++++=
+++++=
+++++=+++++=
+++++=
nknkn22n110n
ikiki22i110t
33kk23213103
22kk22212102
11kk21211101
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
[20]
Introducem urm toarele nota ii:ă ţ
=
=
=
=
n
3
2
1
k
2
1
0
knn2n1
3k2313
2k2212
1k2111
n
3
2
1
e
e
e
e
e,
a
a
a
a
A,
XXX1
XXX1
XXX1
XXX1
X,
Y
Y
Y
Y
Y
unde:– Y este un vector coloan , de dimensiuni nă × 1, care are drept componente cele n
înregistr ri ale variabilei explicate (endogene),ă – X este o matrice de dimensiuni n × (k+1), care con ine în prima coloan (ataşatţ ă ă
termenului liber) constanta 1, iar în celelalte k coloane înregistr rileă pentru fiecare dintre cele k variabile explicative;
– A este un vector coloan , de dimensiuni (k+1)ă × 1, care include cei k+1
parametri ai modelului;– e este un vector coloan , de dimensiuni nă × 1, care include cele n valori ale
variabilei de abatere (erorile din ecua ie de regresie)ţ
Sistemul (20) poate fi scris matriceal astfel: Y = XA + e [21]
Valorile estimate:
Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ [22]
Variabila rezidual :ă
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 14/22
Yt = Ŷt + ut, [23]
sau Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ + ut, [24]
Matricea: Y = XÂ + u [25]
unde
=
=
n
3
2
1
k
2
1
0
u
u
u
u
u,
a
a
a
a
A
Metoda celor mai mici p trate:ă
( )
( )∑
∑∑
=
==
−−−−−=
=−==
n
1t
2ktkt22t110t
n
1t
2tt
n
1t
2t
XaXaXaaY
YYuF
[26]
Matriceal F = u'u = (Y – XÂ)'(Y – XÂ) = Y'Y – Y'XÂ – Â'X'Y + Â'X'XÂ
Deoarece 1,11,1k1k,nn,11,nn,1k1k,1 gAX'YY'X'A =⋅=⋅⋅ ++++ unde g este un scalar,
expresia F se scrie: F = Y'Y – 2Â'X'Y + Â'X'XÂ [27]
Rezolvare:0AX'X2Y'X2
A
F=+−=
∂∂
[28]
(matricea X'X este pozitiv definit ).ă
X'XÂ = X'Y [29]
 = (X'X)-1X'Y [30]4.4. Teste privind semnifica ia estimatorilorţ
−−−
=−
22
11
00
aa
aa
aa
AA
, ( ) ( )221100 aaaaaaAA −−−=′
−
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 15/22
( )( )( ) ( ) ( ) ( )( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )( ) ( )
−−−−−−−−−−−−−−−
=′
−−2
2211220022
22112
110011
220011002
00
aaaaaaaaaa
aaaaaaaaaa
aaaaaaaaaa
AAAA
Var(Â) = M[(Â – A)(Â – A)'] =
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
21202
21101
10100
aVar a,aCova,aCov
a,aCovaVar a,aCova,aCova,aCovaVar
Cazul general:
( ) ( )( )
( ) ( )( )[ ] ( )( )[ ]
( )( )[ ] ( ) ( )( )[ ]
( )( )[ ] ( )( )[ ] ( )
−−−−−
−−−−−
−−−−−
=
=
′
−−=
2kk11kk00kk
kk11
2
110011
kk0011002
00
aaMaaaaMaaaaM
aaaaMaaMaaaaM
aaaaMaaaaMaaM
AAAAMAVar
Deoarece M(âi) = ai, Var(Â), matricea varian – covarian a vectoruluiţă ţă estimatorilor  se poate scrie:
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
=
k1k0k
k1101
k0100
aVar a,aCova,aCov
a,aCovaVar a,aCov
a,aCova,aCovaVar
AVar
4- 12
Pornind de la rela ia (4ţ -17): ( ) e'XX'XAA 1−+= , echivalent cuă
( ) e'XX'XAA 1−=− şi de la faptul c (X'X)ă -1 este o matrice simetric ,ă matricea Var(Â) poate fi calculat astfel:ă
( ) ( )( ) ( ) ( )[ ]11 X'XX'ee'XX'XMAAAAMAVar −−=
′
−−=
) ( ) ( ) ( )11
X'XX'eeM'XX'XAVar −−
= 4- 12( ) ( ) 2
e2tt eMeVar σ== , constant oricare ar fiă t şi
Cov(ei, e j) = M(ei, e j) = 0, oricare ar fi i ≠ j.
( ) n2e I'eeM σ= 4- 12
) ( ) ( ) ( )
( ) ( )
( ) 12e
112e
1n
2e
1
X'X
X'XX'XX'X
X'XXI'XX'XAVar
−
−−
−−
σ=
=σ=
=σ=
4- 12 Not m dă ij elementul situat la intersec ia dintre liniaţ i şi coloana j, atunci dij = d ji.
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 16/22
R ezult c dispersia estimatorului âă ă i, notată2ai
σ, este dat de expresia:ă
ii2e
2a d
iσ=σ
4- 12
unde
k,0i =.Abaterea standard a estimatorului âi se calculeaz prin extragerea r d ciniiă ă ă
p trate din dispersia estimatorului respectiv:ă
iiea di
σ=σ4- 12
Tot din compararea rela iilor (4ţ -19) şi (4-22) rezult :ă
( ) ( ) ji,da,aCov ij2e ji ≠∀σ=
4- 12adic , pentru a calcula covarian a dintre estimatorii âă ţ i şi â j se înmul eşteţ
Dar, în rela iile de calcul (4ţ -23), (4-24) şi (4-25), dispersia erorilor2eσ
nu este cunoscut .ă Se demonstreaz c :ă ă
u'u1kn
1s2
u −−=
, 1kn
us
n
1t
2t
2u −−
=∑
=
4- 12
este un estimator nedeplasat al dispersiei erorilor ( ) 2e
2usM σ= .
În aceste condi ii, un estimator nedeplasat al matricei Var(Â),ţ matricea de varian – covarian a vectorului estimatorilor Â, se calculeazţă ţă ă astfel:
( )
12
u
2
A X'XsS
−
= 4- 12
deoarece( ) )AVar SM 2
A=
.
Dispersia de selec ieţ2ai
s:
ii2u
2a dss
i=
4- 12
unde k,0i = .
Testul unilateral
Pasul 1: Se formulează H0: ai = a, H1: ai > a.Pasul 2: Se calculeaz statisticaă
i
ia
ia s
aat
−=
,Pasul 3: Din tabelul statisticii Student, pornind de la num rul gradelor deă
libertate (n–k–1) şi de la nivelul de semnifica ie ales (ţ α), se
selecteaz o vală oare∗
α− ,2ntastfel încât ( ) α=> ∗ttP .
Pasul 4: Dacă∗> tt
ia atunci se respinge H0
şi admitem c parametrul aăi
estesemnificativ mai mare decât a. Dac ipoteza alternativ este Hă ă 1: ai < a,
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 17/22
atunci se respinge H0 dacă∗−< tt
ia ∗−< tt De obicei, valoarea a este stabilit la nivelul aă = 0, astfel încât se testează
ipoteza H0: ai = 0 (variabilele Xi şi Y sunt independente). Respingerea acesteiipoteze înseamn acceptarea faptului c , statistic, exist o leg tur întreă ă ă ă ă
variabila endogen Y şi variabila explicativ Xă ă i.Pentru exemplificarea modului de calcul a dispersiei de selec ie aţ
variabilei reziduale (ca estimator nedeplasat al dispersiei erorilor), adispersiei estimatorilor şi a abaterilor standard în cazul numeric prezentat întabelul 4-1 este necesar ca tabelul 4-2 s fie completat cu o coloană ă
suplimentar , necesar pentru calculul bloculuiă ă ∑ 2tu
. Calculele sunt prezentateîn tabelul 4-3.
t Yt Ŷtut
2tu
1 2.0 2.476 -0.476 0.2269
2 0.5 1.077 -0.577 0.33273 1.5 1.378 0.122 0.01484 3.0 2.959 0.041 0.00175 1.0 1.716 -0.716 0.51246 0.0 0.045 -0.045 0.00217 2.1 1.936 0.164 0.02688 1.8 1.809 -0.008 0.00019 3.0 2.988 0.013 0.000210 0.7 0.812 -0.112 0.012611 0.5 0.380 0.120 0.014412 1.0 0.916 0.084 0.007113 1.4 1.859 -0.459 0.210614 1.2 1.372 -0.172 0.029615 0.8 0.189 0.612 0.373916 2.3 2.516 -0.216 0.046617 3.5 3.528 -0.027 0.000818 3.8 3.003 0.797 0.635519 1.8 1.764 0.036 0.001320 2.6 2.717 -0.117 0.013621 0.8 0.773 0.027 0.000822 1.2 0.905 0.295 0.0871
23 4.2 3.144 1.056 1.114924 0.8 0.645 0.155 0.024125 2.5 3.115 -0.615 0.3786
Suma: 44.0 44.0 0.000 4.0689
Pornind de la valorile din tabelul 4-3, se calculeaz :ă
18495.0325
0689.4
1kn
us
25
1t
2t
2u =
−=
−−=
∑=
28935.05645.118495.0dss00
2
u
2
a0
=⋅==
02669.01443.018495.0dss 112u
2a1
=⋅==
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 18/22
01323.00715.018495.0dss 222u
2a2
=⋅==unde doo, d11 şi d22 sunt elementele de pe diagonala principal a matricei (X'X)ă -1.Abaterile standard se calculeaz prin extragerea r d cinii p trate dină ă ă ă valorile dispersiilor corespunz toare:ă
430058.0su =53792.0s
0a =16338.0s
1a =11502.0s
2a =Pentru testarea semnifica iei parametrilor din modelulţ linear de
regresie multipl se procedeaz astfeă ă l:(a) Se calculeaz statisticile corespunz toare pentru estimatoriiă ă parametrilor
69.353792.0
984.1
s
at
0
0a
0a ===
70.216338.0
441.0
s
at
1
1a
1a ===
56.511502.0
639.0
s
at
2
2a
2a −=
−==
(b) Din tabelul distribu iei t–Student unilaterale, pentru n–k–1ţ = 22 gradede libertate şi α = 0.05 pragul de încredere, se identific valoarea critică ă t* = 1.717.
4.5. Acurate ea ajust rii. Criterii pentru specificarea modeluluiţ ă multifactorialCalculul coeficientului de determinare multipl R2ă
( )∑
∑
=
=
−−=−==
n
1t
2
t
n
1t
2
t
2
YY
u
1VT
VTR 1
VT
VTMR
4- 12
Calculul coeficientului de determinare corectat2
R
( )22 R 11kn
1n1R −
−−−
−=4- 12
t Yt ( ) 2t
YY −
1 2.0 0.062 0.5 1.593 1.5 0.074 3.0 1.545 1.0 0.58
6 0.0 3.107 2.1 0.12
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 19/22
t Yt ( ) 2t
YY −
8 1.8 0.009 3.0 1.5410 0.7 1.12
11 0.5 1.5912 1.0 0.5813 1.4 0.1314 1.2 0.3115 0.8 0.9216 2.3 0.2917 3.5 3.0318 3.8 4.1619 1.8 0.0020 2.6 0.7121 0.8 0.92
22 1.2 0.3123 4.2 5.9524 0.8 0.9225 2.5 0.55
Suma 44.0 30.08
În aplicarea rela iilor (4ţ -33) şi (4-34) se ine seama de faptul cţ ă volumul selec iei este nţ = 25, iar num rul variabilelor explicative este kă = 2.
De asemenea, se utilizeaz un rezultat prezentat în tabelul 4ă -3:
0689.4u
25
1t
2
t =∑=În aceste condi ii, coeficientul de determinare calculat potrivit rela ieiţ ţ
(4-33) este:
8647.008.30
0689.41R 2 =−=
iar un estimator nedeplasat pentru coeficientul de determinare corectat2
R , calculat potrivitrela iei (4ţ -34), este
( ) 8524.08647.01
22
241R 2 =−⋅−=
Cu excep ia situa iei în care Rţ ţ 2 = 1, coeficientul de determinare ajustat
2R este
întotdeauna mai mic decât coeficientul de determinare R 2. Mai mult, deşi R2 este o
m rime pozitiv subunitar ,ă ă ă2
R poate lua valori negative. De exemplu, dacă volumul selec iei este nţ = 25, num rul variabilelor explicative kă = 3, iarcoeficientul de determinare este R2 = 0.1, atunci, prin aplicarea formulei (4-34) se
deduce2
R = -0.0286. O valoare negativ a coeficientului de determinareă ajustat semnific faptul c modelul nu descrie întră ă -un mod satisf c toră ă evolu ia variabilei endogene.ţ
2.7.2 Criterii pentru specificarea modelului multifactorial
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 20/22
Un criteriu imediat pentru a decide dac admitem sau nu în model oă variabil suplimentar este urm torul:ă ă ă dac prin includerea unei (unor)ă variabile suplimentare suma p tratelor reziduurilor scade mai repede decât ă num rul gradelor de libertate, din punct de vedere econometric se justifică ă re inerea în model a variabilei (variabilelor) respective ţ .
Unul dintre cele mai cunoscute teste este criteriul informa ional Akaike ţ (Akaikeinformation criterion – AIC). Acest criteriu este definit astfel:
( ) ( )
n
1k2n
1t
2t
n
1k2
eun
1e
n
VTR AIC
+
=
+
⋅
=⋅
= ∑
[31]
sau, în expresie logaritmică
( )( )
n
1k2
n
ulnAICln
2t +
+
= ∑
Un alt test cunoscut este criteriul Schwartz :
n
1kn
1t
2t
n
1k
nun
1n
n
VTR SCHWARTZ
+
=
+
⋅
=⋅
= ∑
[32]
Se poate demonstra urm toarea proprietate:ă dac valoarea absolut aă ă testului t pentru un parametru din ecua ia de regresie linear multipl este ţ ă ă mai mic decât 1, atunci, eliminând din model variabila explicativ ă ă
asociat , valoarea coeficientului de determinare corectat ă2
R va creşte;dac se elimin o variabil pentru care t statistic este mai mare decât 1,ă ă ă
valoarea coeficientului de determinare corectat 2
R se va reduce (Ramanathan, R.,1992, pag. 170).
2.7.3. MulticolinearitateaExist o rela ie linear între valorile variabilelor explicative.ă ţ ă
Consecin e ale multicolinearit iiţ ăţS presupunem c în ecua ia de regresie:ă ă ţ
eXaXaaY 22110 +++= [33]
între variabilele X1 şi X2 exist o rela ie de f ă ţ orma
( ) t, bXaX t1t2 ∀+= [34]
unde a şi b sunt parametrii cunoscu i. Dac se înlocuieşte 4ţ ă -38 în rela ia 4ţ -37se ob ine:ţ
( ) ( ) eX baaaaa
eXaXaaY
12120
22110
++++==+++=
[35]sau
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 21/22
eXY 1 +β+α= [36]
unde
+=β
+=α
baa
aaa
21
20
[37]
Pe baza datelor din eşantionul selectat, se determin estimatoriiă α şi
β , pentru parametrii α respectiv β din ecua ia de regresie. Din nefericire, oricât deţ buni ar fi estimatorii respectivi, este imposibil de calculat valorile â0, â1 şi â2
corespunz tori rela iei ini iale.ă ţ ţ Aceasta deoarece sistemul cu necunoscutele â0, â1 şi â2 .
+=β
+=α
baaˆ
aaaˆ
21
20
[38]
este nedeterminat (are dou ecua ii şi trei necunoscute).ă ţ
Consecin e ale multicolinearit iiţ ăţ
a. Dac dou sau mai multe variabile explicative din modelulă ă de regresie multipl sunt perfect corelate, estimatoriiă parametrilor nu pot fi calcula i prin metoda celor mai miciţ
p trate.ăb. Dac anumite variabile explicative sunt relativ puternică
corelate, estimatorii ob inu i prin metoda celor mai miciţ ţ p trate sunt lineari, normal distribui i, nedeplasa i,ă ţ ţ consisten i şi de maxim verosimilitate.ţ ă
c. Efectul multicolinearit ii se manifest în creşterea abaterii standard aăţ ă estimatorilor calcula i pentru parametriţ i modelului, ceea ce reduce valoareatestului t statistic (Student). Aceasta face estimatorii mai pu in semnificativiţ (posibil chiar nesemnificativi). Totuşi, testul t r mâne valid.ă
d. Se reduce precizia estimatorilor calcula i pentru parametrii modelului, înţ
sensul c abaterea standard mare duce la creşterea intervalului deă încredere în care sunt garanta i parametrii.ţ
e. Deoarece covarian a între variabilele explicative corelateţ relativ puternic poate fi mare (în valoare absolut ),ă interpretarea parametrilor individuali este dificil .ă
Identificarea multicolinearit iiăţ
a. Coeficien ii de corela ie linear , calcula i pentru perechile deţ ţ ă ţ variabile explicative din model, sunt mari în valoareabsolut (sunt, în modul, apropiaă ţi de +1).
b. Determinantul matricei (X'X) are valori în apropierea lui zero.c. Coeficientul de determinare R 2 este mare, iar valorile testelor t (Student), calculate pentru
8/2/2019 Regresia simpla
http://slidepdf.com/reader/full/regresia-simpla 22/22
parametrii modelului sunt mici.d. Estimatorii parametrilor sunt sensibili la specificarea modelului.e. Aplicarea unor proceduri formale.Atenuarea multicolinearit iiăţ
a. Eliminarea unor variabile explicative
b. Realizarea unor observa ii suplimentare asupra variabilelorţ din model (se m reşte volumul eşantionului)ă
c. Prelucrarea primar a datelor (calculul ritmurilor de modificare, aă sporurilor, indicilor, logaritmarea valorilor observate etc.)
d. Regresia ridge
2.8. Erori de specificare a modelului multifactorial de regresielinearăOmiterea unor variabile explicative importantea. Dac o variabil important omis este corelat cel pu in cuă ă ă ă ă ţ
o variabil inclus în model, atunci estimatorii parametriloră ă re inu i în model sunt deplasa i şi nu sunt consisten iţ ţ ţ ţ
b. Chiar dac variabilele omise nu sunt corelate cu variabileleă re inute în model, estimatorul termenului liber (âţ 0) este, îngeneral, deplasat
c. Dispersiile estimate pentru parametrii variabilelor re inute în modelţ sunt estimatori deplasa i ai dispersiilor reale şi, în consecin , testulţ ţă t
privind semnifica ia estimatorilor nu este validţIncluderea unor variabile nerelevante
a. Dac o variabil explicativ nerelevant este inclus înă ă ă ă ă model, atunci estimatorii parametrilor pentru toate celelaltevariabile din model sunt nedeplasa i şi consisten iţ ţ
b. Dispersiile estimate pentru parametrii variabilelor din model sunt maimari decât în cazul neincluderii variabilelor nerelevante şi deciestimatori nu sunt eficien iţ
c. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t
privind semnifica ia estimatorilor este validţ