Upload
api-17536607
View
638
Download
9
Embed Size (px)
Citation preview
Økonometri Løsningsforslag
a)Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) for hhv. treatment-gruppen og kontrollgruppen.
Treatment Group Control Groupbet age bet age
Mean 68.6 41.2 47.8 40.7St.dev 30.2 10.5 29.8 8.5# obs. 78 72
b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen.
c)Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen, alder og kjønn. Presenter resultatene fra de to modellene i oppgave b og c i en tabell.
Avhengig Variabel: bet
Modell 1 Modell 2
Infrequent 20,79*** 20,95***
[4,90] [4,95]
Age -0,32
[0,26]
Male 0,07
[4,95]
constant 47,78*** 60,58***
[3,54] [11,32]
# obs. 150 150
R2-adj. 0,10 0,10
Note: *: p>0,10 , **:p>0,05, ***:p>0,01.
d)Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Hva tyder dette på?
Den estimerte betaen synes ikke å lide av forventningsskjevhet. Estimatet til (infrequent) fra modell 1 er tilnærmet likt estimatet i modell 2. Dersom Treatment-variabelen er tilfeldig fordelt vil OLS-estimatoren for (infrequent) være lik i de to modellene, og eksperimentet virker å være robust (ikke problemer med intern validitet)
e)Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet;ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig?
Dersom i) de utelatte variablene (alder og kjønn) er korrelert med innsats i lotteriet (bet) og ii) de utelatte variablene gir forklaring til den avhengige variabel, vil en modell med data fra et eksperiment der treatment ikke er tilfeldig fordelt bryte antagelsen om 0| ii XuE , og
OLS-estimatet vil være forventningsskjevt.
f)Gjør en test for om treatment-variabelen er tilfeldig fordelt.
Dersom treatmenten er tilfeldig fordelt vil (infrequent) være ukorrelert med observerbare individuelle karakteristikker. Hypotesen om at treatment er tilfeldig fordelt kan testes ved å teste om koeffisientene til alder og kjønn er null i en regresjon hvor treatment er avhengig variabel.
Datalab 21.09.09
Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i filen miljømerkemedløsninger.xls.
Datasettet Miljømerke.xls inneholder informasjon om kjøp av miljømerket fisk. Variablene er som følger:
Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne
Estimer modellene
Pr(Kjøp=1)= a+b*Pris
og
Pr(Kjøp=1)= a+b*Medlem
Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?
Modell 1.Ark 4. Med en p-verdi på 0.039 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.
I ruten B21 regnes sannsynligheten for at en respondent kjøper miljømerket fisk med gjennomsnittsprisen. Den er 0.378 eller 37.8%
Modell 2.Ark 5. Med en p-verdi på 0.001 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes.
I ruten B20 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.174 og lik konstantleddet i rute b17.
I ruten B21 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.714.
Estimer så modellen
Pr(Kjøp=1)= a+b1*Pris+b2*Medlem
Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?
Ark 6. Med en p-verdi på 0.002 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med en p-verdi på 0.114 kan nullhypotesen om at prisen påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.
I ruten B22 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.
I ruten B23 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.682.
Estimer så modellen
Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn
Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?
Ark 7. Med en p-verdi på 0.005 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med p-verdier på 0.090 og 0,083 kan nullhypotesen om at prisen og kjønn påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% men ikke på et 10% signifikansnivå.
I ruten B22 regnes sannsynligheten for at menn som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.
I ruten B23 regnes sannsynligheten for at menn som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.525.
I ruten B24 regnes sannsynligheten for at kvinner som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.341.
I ruten B25 regnes sannsynligheten for at kvinner som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.
Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.
Ny kolnne, inter i datasettet, ark 1. Resultater fra regresjonen i Ark 8
Datalab 21.09.09
Datasettet Miljømerke.xls inneholder infromasjon om kjøp av miljømerket fisk. Variablene er som følger:
Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne
Estimer modellene
Pr(Kjøp=1)= a+b*Pris
og
Pr(Kjøp=1)= a+b*Medlem
Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?
Estimer så modellen
Pr(Kjøp=1)= a+b1*Pris+b2*Medlem
Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?
Estimer så modellen
Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn
Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?
Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.
Datalab 14.09.09
Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i artket Datalab 14.09.09.xls. Jeg sletter kolonnene i det opprinnelige datasettet for seriene på nivåform, for days at sea og for år 2006
Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.
Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)
En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.
Estimer kostnadsfunksjonen
A) c=a0+b1q+b2fp+b3w+b4brt
Outputten fines i Ark 1
Test hypotesene
1) b1=b2=b3=b4=0
Dette er F-statistikken i rute E12. F12 gir p-verdi some er et svært lite tall. Følgelig forkastes nullhypotesen.
2) b2=b3=b4=0
Her må vi først kjøre den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1qOutputten fines i Ark 2
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B25 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).
Dette gir en F-statistikk på 692,4. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er
antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 692,4>2,60 kan vi forkaste nullhypotesen om at b2=b3=b4=0
3) b3=0, b4=0
Fremgangsmåten er her som over.
Vi kjørr først den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1q+b2fpOutputten fines i Ark 3
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B26 i Ark 1). q=antall restriksjoner som er 2, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).
Dette gir en F-statistikk på 785,1. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 2 er kritisk verdi 3.00. Da 785,1>3.00 kan vi forkaste nullhypotesen om at b3=b4=0
4) b2+b3=1
Her må vi først transformere modellen for å kunne estimere modellen med restriksjonen pålagt. En alternativ formulering av restriksjonen er
b3=1-b2Ved å sette dette inn i den opprinnelige ligningen får vi
c=a0+b1q+b2fp+(1-b2)w+b4brtLøser opp parantesen
=>c=a0+b1q+b2fp+w-b2w+b4brtFlytter w over på venstresiden, og samler termene hvor b2 inngår
=>c-w=a0+b1q+b2(fp-w)+b4brtFor å kunne kjøre denne regresjonen må vi generere de nye variablene c-w og fp-w. Dette er gjort i kolonnnene T til W i dataarket sammen med de opprinnelige q og brt variablene, hvor lcostr=c-w og lfuelpr=fp-w.
Kjører så regresjonen på disse variablene (kolonne T er y-variabel og kolonnen U-W er x-variablene). Outputen er i Ark 4.
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B27 i Ark 1). q=antall restriksjoner som er 1, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4), og R2 fra den begrensede regresjonen er 0.815.
Dette gir en F-statistikk på 568,9. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 1 er kritisk verdi 3.84. Da 568,9>3.84 kan vi forkaste nullhypotesen om at b2+b3=1
Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;
B) c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn
Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til K er uavhengige variabler.
Test hypotesen om at det ikke er systematiske regionale forskjeller.
Modellen med regionale dummier er mer generell enn modellen uten. Modell B) er følgelig den ubegrensede regresjonen, mens modell A) er den begrensede regresjonen. Nullhypotesen er at
cF=cT=cN=0
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B29 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 7variabler i den ubegrensede regresjonen (k=7).
Dette gir en F-statistikk på 3.01. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 3.01>2.60 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå (men ikke på et 1% nivå.
Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;
c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn+D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005
Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til R er uavhengige variabler.
Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B30 i Ark 1). q=antall restriksjoner som er 10, n er antall observasjoner (252), og det er 14variabler i den ubegrensede regresjonen (k=14).
Dette gir en F-statistikk på 8.67. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 1.83. Da 8.67>1.83 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.
Test b2+b3=1
For å gjennomføre denne testen benytter vi de samme variablene som i tilsvarende begrensede regresjon over, men benytter også de forskjellige dummiene. Den begrensede regresjonen kjøres følgelig ved å benytte kolonne T som avhengig variabel, og kolonnene U til AG som uavhengige variabler.
Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B31 i Ark 1). q=antall restriksjoner som er 1, n er antall observasjoner (252), og det er 14variabler i den ubegrensede regresjonen (k=14).
Dette gir en F-statistikk på 618.5. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 3.84. Da 618.5>3.84 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.
Datalab 14.09.09
Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.
Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)
En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.
Estimer kostnadsfunksjonen
c=a0+b1q+b2fp+b3w+b4brt
Test hypotesene
1) b1=b2=b3=b4=0
2) b2=0, b3=0, b4=0
3) b3=0, b4=0
4) b2+b3=1
Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;
c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn
Test hypotesen om at det ikke er systematiske regionale forskjeller.
Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;
c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn +D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005+D8d2006
Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller
Test b2+b3=1
Eksamen økonometri MØA145 Onsdag 25. februar 2008, kl 0900-1300
Emneansvarlig: Sigbjørn Tveterås
Tillatte hjelpemidler: Alle kalkulatorer
Oppgave 1 (15%)
Forklar kort følgende begreper knyttet til multivariat regresjonsanalyse
a) p-verdib) Perfekt multikollinaritetc) Imperfekt multikollinaritetd) Heteroskedastisitete) Justert R2
Oppgave 2 (20%)
a) Anta at du har tverrsnittsdata som du skal analysere ved bruk av multivariat regresjonsanalyse. Hva er de fire forutsetninger som må være oppfylte for at minste kvadraters metode (OLS) skal ha de rette statistiske egenskapene som estimator for β’ene i følge Stock og Watson (læreboken)?
b) Forklar kort betydningen av hver av forutsetningene og hva som er konsekvensen hvis de blir brutt for OLS estimeringen.
Oppgave 3 (25%)
I et forsøk på å bestemme om deltakelse på forelesninger forbedret karakterene til studentene utviklet David Roemer følgende likning
ai = f(X
1i, X
2i)
hvor ai er karakteren til student i (behandlet som en kontinuerlig variabel), X
1 er andelen av
forelesninger studenten deltar på, og X2 er andelen oppgavesett som studenten løser. Den beste
oppnåelige karakteren er 1,0 og den verste er 6,0. Vi estimerte regresjonsligningen for et økonometrikurs og fant
âi = 4,50 – 1,50X
1i – 0,60X
2i. R
2
= 0,33.
a) Tilsvarer de estimerte resultatene dine forventninger? Forklar.b) For å få en bedre forståelse av størrelsen på de estimerte koeffisientene antar vi at der er
25 timer med forelesninger i et semester og at det tar omtrent 50 timer å løse oppgavesettene i et semester. Anta at en student kun har en ekstra time å bruke på økonometri og ønsker å maksimere effekten på hans eller hennes karakter. Bør studenten bruke en ekstra time på forelesninger eller bruke en ekstra time på å løse oppgavesettene?
c) Vil svaret ditt i deloppgave b) bli annerledes dersom der var 50 timer forelesning og det tar i gjennomsnitt 10 timer for en student å løse alle oppgavesettene?
d) Hva menes med R2
= 0.33?
e) Er det sannsynlig at det kun er tilstedeværelse på forelesninger og oppgaveløsing som påvirker karakteren du får på kurset? Forklar.
Oppgave 4 (20%)
Anta at du i 1990 ble hyret inn av helsevesenet i USA for å studere faktorer som påvirker røykeatferd i befolkningen. Du estimerer den følgende modellen basert på data fra 1988 hvoralle 50 stater er inkludert (standardfeil rapportert i paranteser)
(3,0) (1,0) (0,04) (1,0) (0,5)
hvor y er daglig konsum av sigaretter per person (antall sigaretter per person) i stat i, x1 er gjennomsnittlig antall år med utdanning for personer over 21, x2 er gjennomsnittlig inntekt (i 1000 US$), x3 er skatteavgift per sigarettpakke (i cents), x4 er antall TV-annonser mot røyking, og x5 er antall radioannonser mot røyking.
a) Hvilke parametere er signifikant forskjellig fra null på 5% nivå? Har disse parametrene de forventede fortegnene?
b) En av grunnene for å estimere regresjonslikningen er for å analysere om annonsekampanjer mot røyking på TV og radio er effektivt. Var TV- og radiokampanjene effektive? Anta at kostnaden for en TV annonse er ti ganger høyere enn en radioannonse. Basert på resultatene fra modellen, ville du heller ha kjørt 1 TV annonse i stedet for 10 radioannonser?
c) I forhold til problematikk med irrelevante variabler, på den ene siden, og utelatte variabler, på den andre, ser du noe som kan eller bør justeres med modellen?
Oppgave 5(20%)
a) Hvilke metoder kan du benytte for å bestemme hvor mange lag du skal inkludere i en autoregressiv (AR) modell? Med andre ord hvordan bestemme hvor stor p skal være i AR(p)?
b) Anta du skal lage en prognosemodell basert på en autoregressiv distributed lag modell (ADL). Hvilken test kan du benytte for å bestemme om du bør inkludere laggede verdier av en variabel X1 i modellen?
c) Hva kjennetegner gjennomsnitt, varians og autokorrelasjoner til en tidsserievariabel som følger en stasjonær prosess?
d) Anta en autoregressiv modell av første orden AR(1):
Er denne AR(1) prosessen stasjonær dersom ? Og hvis ? Forklar.
Kapittel 4Lineær regresjon med en
forklaringsvariabel
MØA145
Hva er økonometri?
• Definisjon: Bruk av statistikk og økonomisk teori til åanalysere økonomiske data
• Hva er effekten av høyere utdanning på inntekt?
• Hvordan vil økt rente påvirke valutakursen?
• Hva er effekten av økte miljøavgifter på bensin på drivstofforbruket?
• Kvantitative spørsmål som gir kvantitative svar
Kausale effekter
• Ideelt sett ønsker vi å utføre eksperiment for å avdekke kausale effekter mellom økonomiske variabler
• Kausalitet betyr at en spesifikk handling (mer utdanning) leder til et spesifikt, målbart resultat (høyere inntekt)
• I et eksperiment har man en forsøkgruppe og en kontrollgruppe, slik at man kan sammenligne resultatene (de kausale effektene) av en behandling på de to gruppene
• Imidlertid må vi i økonomiske analyser som oftest nøye oss med observerte data
Datatyper
• Eksperimentelle data• Observerte data
– Tverrsnittsdata (cross-sectional data)• Data (observasjoner) for mange individer observert over en
periode
– Tidsseriedata (time series data)• Data (observasjoner) for ett individ observert over mange
perioder
– Panel data (longitudinal data)• Data (observasjoner) for mange individer observert over
mange perioder
Betingede fordelinger
• Anta vi har to tilfeldige (stokastiske) variabler, X og Y, som er relatert
• Tilfeldige variabler vil si variabler som kan ta ulike tilfeldige verdier
• Anta videre at sannsynlighetsfordelingen til Y kan uttrykkes som betinget på X, Pr(Y = y | X = x)
• Dersom der ikke er noen sammenheng mellom Y og X så er den betingede fordelingen Pr(Y = y | X = x) = Pr(Y = y)
• Regresjonsanalyse bygger på betingede fordelinger
Regresjonsanalyse
• Mer generelt kan vi si at regresjonsanalyse er studie av hvordan en økonomisk størrelse avhenger av en annen – BNP i Norge avhenger av oljepris
– Utgifter til konsum avhenger av inntektsnivå
– Lønn avhenger av utdannelse
• Regresjonsanalyse er det mest sentrale verktøyet i økonometri, og OLS (ordinary least squares), eller minste kvadraters metode på norsk, er den mest brukte estimatoren
Lineær modell
• En eksakt lineær sammenheng mellom to variabler kan beskrives som
1) Y = 0 + 1X
• Y er den avhengige variabelen (dependent variable)• X er forklaringsvariabelen (independent variable, regressor)• 0 er en konstant (intercept)• 1 er helningskoeffisienten (slope)
• Anta at 0 = 5 og 1 = 2
• Ved å sette inn for ulike verdier av X får vi følgende graf:
Lineær modell
0
5
10
15
1 2 3 4 5 6
X
Y
• Statistiske sammenhenger er ikke eksakte som i forrige eksempel
• La oss i stedet anta at sammenhengen mellom Y og X er lineær i statistisk forstand, dvs. ikke eksakt
• Vi kan da modifisere ligningen:
2) Y = 0 + 1X + u
• u er feilleddet (error term) som tillater at den lineære sammenhengen ikke er eksakt
Lineær modell
Lineær modell
0
5
10
15
1 2 3 4 5 6
X
Y
Lineær modell
• Anta at det er 1/3 sannsynlighet for at Y tar en av de tre verdiene assosiert med hver verdi av X. Fordelingen av mulige Y-verdier er dermed betinget av X.
– hvis X = 3 er sannsynligheten for at Y tar hver av verdiene 7, 9 eller 11 lik 1/3. Forventningsverdien av Y blir da:
• Regresjonslinjen skjærer gjennom alle forventningsverdiene til Y for de kjente verdiene av X
• Feilledet består av utelatte faktorer, eller muligens målefeil i beregningen av Y. Generelt er disse utelatte faktorene andre variabler enn X som påvirker Y
911)3/1(9)3/1(7)3/1(][ YYE
Lineær regresjon med enforklaringsvariabel
• Lineær regresjon tillater oss å estimere og gjøre inferens påpopulasjonsparametere (slik som helningskoeffisienten b1). – Vårt mål er å estimere kausale effekter på Y av en enhets endring i X, men
foreløpig bare tenk på problemet med å finne en lineær sammenheng basert på data av to variabler, Y og X.
• Statistisk inferens betyr å si noe om hele populasjonen basert på et datautvalg
Statistisk inferens vedrørende helningskoeffisienten 1 innebærer
• Estimering:– Hvordan finne helningskoeffisienten (Vårt svar: OLS,
men det finnes mange andre metoder).
• Hypotese testing:– Hvordan teste om helningen er lik null?
• Konfidensintervall:– Hvordan konstruere et konfidensintervall for
helningskoeffisienten?
Lineær regresjonsanalyse
Test score
STR
Regresjonslinjen for populasjonen:
Test Score = 0 + 1STR
1 = helningen til regresjonslinjen
=
= endring i resultater (test score) for en enhets endring i student/lærer-forholdet (STR)
Hvorfor er 0 og 1 “populasjons-”parametere?Vi ønsker å vite den (sanne) populasjonsverdien av 1.Vi kjenner ikke den sanne 1, så vi må estimere den ved å bruke data
Feilleddet ui blir målt som avstanden til regresjonslinjen
Minste kvadraters metode (OLS)
Hvordan kan vi estimere 0 og 1 fra data?
Gjennomsnittet Y er estimatoren for Y: Y løser,
2
1
min ( )n
m ii
Y m
Analogt, så vil vi fokusere på minste kvadraters metode (OLS)
estimatoren for de ukjente parametrene 0 og 1, som løser,
0 1
2, 0 1
1
min [ ( )]n
b b i ii
Y b b X
Minste kvadraters metode
• Som navnet ’minste kvadraters metode’ antyder gir teknikken den minste summen av de kvadrerte feilleddene. Summen av feilleddene forkortes som SSR (Sum ofSquared Residuals)
2]ˆ[ ii YYSSR
210 )]([ ii XbbYSSR
OLS estimatorenRegresjonslinjen for populasjonen: Test Score = 0 + 1STR
1 = Test score
STR
= ??
Resultatene fra California datasettet caschool.xls
Estimert helningskoeffisient = 1 = – 2.28
Estimert konstantledd = 0 = 698.9
Estimert regresjonslinje = Test Score = 698.9 – 2.28 x STR
Fortolkning avregresjonsresultatene
Test Score = 698.9 – 2.28 x STR
Distrikter med en mer elev per lærer har i gjennomsnitt test resultater som er
2.28 poeng lavere.
Dvs., Test score
STR
= –2.28
Konstanten betyr at i følge den estimerte linjen så vil distrikter med null
studenter per lærer ha et predikert test resultat på 698.9.
Denne fortolkningen gir begrenset mening – den ekstrapolerer linjen utenfor
dataområdet – så i dette tilfeller er ikke konstanten meningsfull i økonomisk
forstand.
Prediksjon og feilledd
• Prediksjon består i å beregne Y gitt verdier av X og de estimerte parametrene 0 og 1 fra OLS
• Et av distriktene i datasette caschool.xls er Antelope, CA, hvor STR = 19.33 og Test Score = 657.8
• Predikert verdi: Y^ = 698.9 – 2.28 x 19.33 = 654.8
• Feilledd: u^ = Y – Y^ = 657.8 – 654.8 = 3.0
Vurdering av regresjonen
• Et naturlig spørsmål er hvor bra regresjonslinjen ”passer” eller forklarer dataene. Der er to statistiske mål som gir komplementære mål for kvaliteten på forklaringskraften:
• Determinasjonskoeffisienten, R2, fra regresjonen måler andelen av variansen til Y som blir forklart av X; denne strekker seg fra null (ingen forklaringskraft) til en (perfekt forklaringskraft)
• Standardfeilen, SER, (standard error of the regression) til regresjonen måler størrelsen på et typisk feilledd fra regresjonen i Y sine enheter.
Gjennomsnitt, faktiske og predikerteverdier av Y
300
350
400
450
500
550
600
650
10 30 50 70 90 110 130
Statens oljeinntekter (mrd. kr)
Sta
ten
s u
tgif
ter
(mrd
. kr)
Uforklart avvik
Forklart avvik
Totalt avvik
R2 er andelen av variansen i Yi som blir forklart av regresjonen.
Yi = iY + ˆiu = OLS prediksjon + OLS feilledd
var (Y) = var( iY ) + var( ˆiu )
sum av kvadrerte totale avvik (TSS) = sum av kvadrerte “forklarte” avvik (ESS)
+ sum av kvadrerte “uforklarte” avvik (SSR)
Definisjon av R2: R2 = ESS
TSS =
2
1
2
1
ˆ ˆ( )
( )
n
iin
ii
Y Y
Y Y
=1-SSR/TSS
R2 = 0 betyr at ESS = 0
R2 = 1 betyr at ESS = TSS
0 ≤ R2 ≤ 1
For regresjon med en enkel X, R2 = den kvadrerte korrelasjonkoeffisienten mellom X og Y
Standardfeilen til regresjonen(SER)
SER måler spredingen i distribusjonen til u. SER er estimatet av
standardavviket til OLS feilleddet:
SER = 2
1
1ˆ ˆ( )
2
n
ii
u un
= 2
1
1ˆ
2
n
ii
un
(Den andre likheten holder fordi u = 1
1ˆ
n
ii
un = 0).
SER = 2
1
1ˆ
2
n
ii
un
SER:
har enhetene til u, som er enhetene til Y
måler den gjennomsnittlige “størrelsen” på OLS feilleddene
(den gjennomsnittlige “feilen” som blir lagt av OLS
regresjonslinjen)
Root mean squared error (RMSE) er nært relatert til SER:
RMSE = 2
1
1ˆ
n
ii
un
Denne måler det samme som SER – den lille forskjellen er
divisjon med 1/n i stedet for 1/(n–2).
Eksempel på R2 og SER
TestScore = 698.9 – 2.28 x STR, R2 = .05, SER = 18.6
• STR forklarer bare en liten andel av variasjonen i testresultatene. Gir dette mening? Betyr dette at STR ikke er viktig?
Minste kvadraters metodeantakelsene
• Hva, i presis forstand, er egenskapene til OLS estimatoren? Vi vil at den skal være forventningsrett og at den har liten varians. Har den? Under hvilke betingelser er den en forventningsrett estimator av de sanne populasjonsparametrene?
• For å besvare disse spørsmålene trenger vi å gjøre visse antakelser om hvordan Y og X er relatert til hverandre, og om hvordan de ble samlet (metoden for datautvelgelse)
• Disse antakelsene – det er tre – er kjent som minste kvadraters metode antakelsene.
Minste kvadraters metodeantakelsene
Yi = 0 + 1Xi + ui, i = 1,…, n
1. Den betingede fordelingen til u gitt X har et gj.snitt lik null, dvs., E(u|X = x) = 0.
Dette betyr at 1 er forventningsrett2. (Xi,Yi), i =1,…,n, er i.i.d
Dette er sant hvis X, Y er valgt ved tilfeldig utvalgDette gir sannsynlighetsfordelingen for 0 og 1
3. Store uteligger i X og/eller Y er sjeldne.Teknisk, X og Y har endelige fjerde momenterUteliggere kan resultere i meningsløse verdier av 1
OLS antakelse #1:E(u|X = x) = 0.For enhver gitt verdi av X, så er gjennomsnittet til u lik 0
• Eksempel: Test Scorei = 0 + 1STRi + ui, ui = andre faktorer
� Hva er noen av disse “andre faktorene”?
• Er E(u|X=x) = 0 sannsynlig for disse andre faktorene?
OLS antakelse #1
Et utgangspunkt for å tenke om denne antakelsen er ved å betrakte et ideelt randomisert kontrollert eksperiment:
X blir tilfeldig tildelt folk (elever tilfeldig tildelt til ulikeklassestørrelser; pasienter tilfeldig tildelt medisinsk behandling). Randomisering blir gjort med datamaskin – uten noe bruk av informasjon om individene.
Siden X er tildelt tilfeldig, alle andre karakteristika ved individene –de tingene som u bbestår av – er fordelt uavhengig av X
Derfor, i et ideelt randomisert kontrollert eksperiment, E(u|X = x) = 0 (dvs, OLS antakelse #1 holder)
I faktiske eksperiment, eller med dataobservasjoner, må vi tenke nøye gjennom om E(u|X = x) = 0 holder.
• i.i.d - independently, identically distributed
• Dette vil automatisk være tilfelle dersom størrelsen (individ, distrikt) er valgt ut ved tilfeldig utvalg
• Hvor vi i størst grad vil støte på datautvalg som ikke er i.i.d. er når data er samlet over tid (“tidsseriedata”) – dette vil introdusere noen ytterligere komplikasjoner.
OLS antakelse #2:(Xi,Yi), i = 1,…,n er i.i.d.
OLS kan være sensitiv til en uteligger:
· Er det ensomme punktet en uteligger i X eller Y?
· I praksis er uteliggere ofte feil i data (koding/innsamlingsproblemer) –så sjekk data for uteliggere! Den enkleste måten er å lage et kryssplot.
En stor uteligger er en ekstrem verdi av X eller Y
Med et teknisk språk, hvis X og Y er lukkede mengder, såhar de endelige fjerde momenter. (Standardiserte testresultater tilfredstiller automatisk dette; STR, familieinntekt, etc. tilfredstiller også dette).
Imidlertid, kjernen i denne antakelsen er at store uteliggere i sterk grad kan påvirke resultatene
OLS antakelse #3: Store uteliggereer sjeldneTeknisk forklaring: E(X4) < og E(Y4) <
Sannsynlighetsfordelingen til OLSestimatoren
OLS estimatoren blir beregnet ut ifra et datautvalg: et forskjellig utvalg gir en annen verdi på den estimerte 1. Dette er kilden til ”utvalgsusikkerheten” knyttet til 1. Vi ønsker å:– Kvantifisere denne utvalgsusikkerheten assosiert med 1
– Bruke 1 til å teste hypoteser slik som 1 = 0
– Konstruere konfidensintervaller for 1
– Alle disse krever at vi finner ut av sannsynlighetsfordelingen til OLS estimatoren. To steg for å komme dit…
• Sannsynlighetsrammeverket knyttet til en lineær regresjon
• Sannsynlighetsfordelingen til OLS estimatoren
Sannsynlighetsfordeling til en lineærregresjon
Det statistiske rammeverket for en lineær regresjon er oppsummert med de tre OLS antakelsene.
• Populasjon– Gruppen vi er interessert i (eks: alle mulige skoledistrikter)
• Stokastiske (tilfeldige) variabler: Y, X• Eks: (Test Score, STR)• Simultane fordelinger til (Y, X)
– Populasjonsregresjonen er lineær– E(u|X) = 0 (1. OLS antakelse)– X, Y har endelige fjerdemomenter (3. OLS antakelse)
• Datainnsamling med tilfeldig utvalg:– {(Xi, Yi)}, i = 1,…, n, er i.i.d. (2. OLS antakelse)
Sannsynlighetsfordelingen tilSom Y , har 1 en sannsynlighetsfordeling.
Hva er E( 1 )? (hvor er den sentrert?)
Hvis E( 1 ) = 1, så er OLS forventningsrett – det er bra!
Hva er var( 1 )? (måler utvalgsusikkerheten)
Hva er fordelingen til 1 i små utvalg?
Generelt så kan den være veldig komplisert, men vi
antar vanligvis t-fordelt
Hva er fordelingen til 1 i store utvalg?
Det viser seg å være relativt enkelt – i store utvalg er 1normalfordelt.
1
Hva er sannsynlighetsfordelingen tilDen eksakte sannsynlighetsfordelingen er komplisert – den
avhenger av populasjonsfordelingene til (Y, X) – men når n er
stor får vi noen enkle (og gode) approksimasjoner:
(1) Siden var( 1 ) 1/n og E( 1 ) = 1, 1 p
1
(2) Når n er stor er sannsynlighetsfordelingen til 1 bra
approksimert av normalfordelingen (sentralgrenseteoremet)
Husk sentralgrenseteoremet: anta {vi}, i = 1,…, n er i.i.d. med
E(v) = 0 og var(v) = 2. Da, når n er stor, 1
1 n
ii
vn er tilnærmelsvis
fordelt N(0, 2 /v n ).
1
Større varians for X medfører mindrevarians for Matematikken
var( 1 – 1) = 4
var[( ) ]1 i x i
X
X u
n
hvor 2X = var(Xi). Variansen til X opptrer kvadrert i nevneren –
så økende spredning hos X reduserer variansen i
Intuisjonen
Hvis der er mer variasjon i X så er der mer informasjon i
dataene som du kan bruke til å tilpasse regresjonslinjen. Dette er
lettere å se i en figur …
1
1
Der er samme antall sorte og blå punkter – hvilke ville du valgt av for å estimere OLS?
Oppsummering av sannsynlighetsfordelingentil OLS estimatoren:
Hvis de tre OLS antakelsene holder, så
Den eksakte (endelig utvalg) utvalgsfordelingen til 1 har:
E( 1 ) = 1 (dvs, 1 er forventningsrett)
var( 1 ) = 4
var[( ) ]1 i x i
X
X u
n
1
n.
Bortsett fra gjennomsnitt og varianse er den eksakte fordelingen til 1 komplisert og avhenger av fordelingen til(X,u)
1p
1 (dvs, 1 er konsistent)
Når n er stor, 1 1
1
ˆ ˆ( )
ˆvar( )
E
~ N(0,1) (sentralgrenseteoremet)
Estimering av dynamiske kausale effekter
Kapittel 15
• Seksjon 15.5 utgår av pensum– Denne seksjonen tar for seg andre måter enn OLS å
estimere DL modeller
Kausale effekter i tidsseriesammenheng
• En dynamisk kausal effekt er effekten på Y av en endring av X over tid
Eksempler• Effekten av en økt tobakksavgift på konsumet av røyk i år, i
neste år og om 5 år
• Effekten av Sentralbankens endring av styringsrenten påinflasjonen denne måneden, om 6 måneder og om et år
• Effekten av frostdager i Florida på prisen av appelsinjuice-konsentrat denne måneden, neste måned, om 2 måneder
Dynamiske kausale effekter
• I forbindelse med tidsserieanalyse er dataene vi analyserer sjelden et resultat av et kontrollert eksperiment
• Husk også at i tidsserie følger vi kun ett individ:– I tverrsnittsdata har vi et tilfeldig utvalg av mange
individer– ”Populasjonen” av individer i tidsserieanalyse er altså et
individ observert i ulike tidsperioder– Om de ulike ”individene” blir trukket fra samme fordeling
(dvs. serien er stasjonær) så kan kausale dynamiske effekter bli beregnet med OLS estimering av en DL-modell
Distributed lag modell
• Dette er en modell der vi estimerer Y påkontemporære og laggede verdier av X
Yt = 0 + 1Xt + … + rXt–r + ut
• 1 = kontemporer effekt av endret X• 2 = 1-periode dynamisk multiplikator• 3 = 1-periode dynamisk multiplikator• Kumulative dynamiske multiplikatorer
– Ex: 2-perioders kumulative dynamiske multiplikator • = 1 + 2 + 3
Eksogenitet
• Vi har tidligere sett at endogenitet er et problem, dvs. når E(ut|X) ≠ 0
• For at en DL modell skal gi forventningsrette estimater må forklaringsvariablene være eksogene
To typer eksogenitet:
1. Svak eksogenitet: E(ut|Xt,Xt-1,Xt-2,…) ≠ 0
2. Sterk eksogenitet: E(ut|…,Xt+1,Xt,Xt-1,…) ≠ 0
• Dersom forklaringsvariablene er eksogene kan vi estimere DL-modellen med OLS
Distributed lag modell forutsetningene
1. E(ut|Xt,Xt–1,Xt–2,…) = 0 (X er eksogen)
2. (a) Y og X stasjonære fordelinger;(b) (Yt,Xt) og (Yt–j,Xt–j) blir uavhenige når j blir stor
3. Y og X har åtte endelige momenter større enn null
4. Der er ingen perfekt multikollinearitet
Egenskaper til OLS estimatoren av en DL modell
• OLS gir konsistente estimater (men som kan være forventningsskjeve)
• De estimerte koeffisientene er normalfordelte
• MEN variansen er ikke den samme som vi kjenner fra tverrsnittsdata fordi feilleddet ut kan være autokorrelert
• Følgelig kan standardfeilene (SE) til koeffisientene i Excel bli feil
• En kan bruke SE som er robuste både mot autokorrelasjon og heteroskedastisitet…
Trenger vi å benytte HAC-estimator når vi estimerer en AR eller ADL modell?
• Nei, bare hvis feilleddet ut er autokorrelert
• Dersom du har inkludert tilstrekkelig med lag av den avhengige variabelen Y vil ikke feilleddet være autokorrelert– I det tilfelle vil vi ikke kunne predikere ut med laggede
variabler av Y
Når kan man estimere dynamiske kausale effekter?
• Konsistente estimater av dynamiske kausale effekter beror på at X er eksogen
• I hvert enkelt tilfelle må man tenke nøye gjennom om det er fornuftig å anta eksogenitet
Eksempler:1. Y = appelsinjuice priser, X = FDD i Orlando 2. Y = eksport fra Australia, X = BNP I USA (effekten av inntekt i
USA på eksportetterspørsel fra Australia)3. Y = EU eksport, X = BNP I USA (effekten av inntekt i USA på
eksportetterspørsel fra EU)4. Y = Inflasjonsraten i USA, X = prosentvis endring i verdensprisen
for olje (som bestemt av OPEC) (effekten av OPEC oljeprisøkning på inflasjon)
5. Y = BNP vekst, X = Styringsrenten (effekten av pengepolitikk påproduksjon)
Oppsummering
• Når X er eksogen kan man estimere dynamiske kausale effekter ved bruke av en distributed lag modell (evt. en ADL modell)
• Dersom u er autokorrelert så vil de konvensjonelle feilleddene til OLS være feil, og man må bruke HAC standardfeil
• Tenk nøye gjennom om det er realistisk å tro at X er eksogen – Ofte vil X være endogen
Autoregressive distributed lag model (ADL)
• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:
Yt = 0 + 1Yt–1 + … + pYt–p + 0Xt + … + rXt–r + ut
• p viser til antall lag for Y og q for antall lag for X
• Finn langsiktige parametre ved å anta likevekt slik at Yt=Yt-1=Yt-2, etc. og tilsvarende for X
Kointegrasjon
• Vi har hele tiden antatt stasjonaritet• Hvis dataseriene ikke er stasjonære, bryter de
fleste forutsetningene for inferens sammen• Rammeverket en da benytter er vektor
autoregresjon og kointegrasjon• To eller flere ikke-stasjonære dataserier sies å
være kointegrerte når de har en felles stokastisk trend– Viktig i noen typer finans og makroøkonomiske
analyser
Kapittel 5Kapittel 5LineLineæær regresjon med enr regresjon med en
forklaringsvariabelforklaringsvariabel
Hypotesetester og konfidensintervall
MØA 145
Regresjon med en forklaringsvariabel: Hypotesetester og konfidensintervall
Vi ønsker å lære om de sanne populasjonsparametrene fra regresjonen ved bruk av et datautvalg (slik at der er utvalgsusikkerhet). Der er fire steg for å nå dette målet:
1. Definer hvilken populasjonen som er av interesse
2. Utled sannsynlighetsfordelingen til en estimator (dette krever visse antakelser)
3. Estimer variansen til sannsynlighetsfordelingen (som sentralgrenseteoremet sier er alt du trenger å vite hvis n erstor) – dvs., å finne standardfeilen (SE) til estimatoren –ved kun å bruke informasjon fra datautvalget!
4. Bruk estimatoren ( 1 ) for å få et punktestimat og med dens SE, hypotesetester og konfidensintervall.
Vi er interessert i 1 iYi = 0 + 1Xi + ui, i = 1,…, n
1 = Y/X, for en uavhengig endring i X (kausal effekt)
Minste kvadraters metode (OLS) forutsetningene:
1. E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, er i.i.d.
3. Store uteligger er sjeldne (E(X4) < , E(Y4) < .
Sannsynlighetsfordelingen til 1 :
Gitt OLS forutsentingene så er 1 tilnærmet normalfordelt når n
er tilstrekkelig stor
1 ~ 2
1 4, v
X
Nn
, hvor vi = (Xi – X)ui
Hypotesetest og standardfeil til(Seksjon 5.1)
Målet er å teste hypoteser (påstander) som for eksempel at 1 = 0
ved bruk av data. Dette leder til en tentativ konklusjon
vedrørende om (null-)hypotesen er korrekt eller inkorrekt.
Generelt oppsett
Nullhypotese og tosidet alternativ:
H0: 1 = 1,0 mot H1: 1 1,0
hvor 1,0 er den hypoteseverdien under null hypotesen.
Nullhypotese og ensidet alternativ:
H0: 1 = 1,0 mot H1: 1 < 1,0
1
Generell tilnærming: konstruer t-observator og beregn p-verdi (eller sammenlign med N(0,1) kritisk verdi)
Generelt: nestimatoretililstandardferdihypoteseveestimator
t
hvor standardfeilen (SE) til en estimator er kvadratroten til
variansen av estimatoren.
For å teste gjennomsnittet til Y: t = ,0
/Y
Y
Y
s n
For å teste 1, t = 1 1,0
1
ˆ
ˆ( )SE
,
Formel for SE( )1Uttrykket for variansen til 1 (stor n):
var( 1 ) = 2 2
var[( ) ]
( )i x i
X
X u
n
= 2
4v
Xn
, hvor vi = (Xi – X)ui.
Estimatoren til variansen til 1 erstatter de ukjente populasjonsverdiene 2
og 4X med estimatorer konstruert fra
dataene:
1
2ˆˆ
= 2
2 2
1 estimator of
(estimator of )v
Xn
=
2
12
2
1
1ˆ
1 2
1( )
n
ii
n
ii
vn
nX X
n
hvor ˆiv = ˆ( )i iX X u .
1
2ˆˆ
=
2
12
2
1
1ˆ
1 2
1( )
n
ii
n
ii
vn
nX X
n
, hvor iv = ˆ( )i iX X u .
SE( 1 ) = 1
2ˆˆ
= standardfeilen til 1
OK, dette er litt grisete, men:
Det er mindre komplisert enn det ser ut til. Telleren estimerer
var(v) og nevneren estimerer var(X).
Hvorfor frihetsgradjustering n – 2? Fordi to koeffesienter har
blitt estimert (0 og 1).
SE( 1 ) blir beregnet av Excel
Oppsummering: For å testeH0: 1 = 1,0 v. H1: 1 1,0, Konstruer t-observator
t = 1 1,0
1
ˆ
ˆ( )SE
=
1
1 1,0
2ˆ
ˆ
ˆ
Forkast på 5% signifikansnivå hvis |t| > 1.96
P-verdien er p = Pr[|t| > |tact|] = sannsynligheten i halene til
normalfordelingen utenfor |tact|; du forkaster på 5%
signifikansnivå dersom p-verdien er < 5%.
Denne prosedyren er avhengig av store-n tilnærming; typisk
er n = 50 stort nok for at tilnærmingen skal bli bra.
Eksempel: Test Scores og STR,California dataEstimert regresjonslinje: �TestScore = 698.9 – 2.28STR
Excel rapporterer standardfeilene:
SE( 0 ) = 10.4 SE( 1 ) = 0.52
t-observator som tester om
1,0 = 0 = 1 1,0
1
ˆ
ˆ( )SE
=
2.28 0
0.52
= –4.38
Den 1% 2-sidete signifikansnivå er 2.58, så vi forkaster
nullhypotesen på 1% signifikansnivå.
Alternativt så kan vi beregne p-verdien…
P-verdien basert på store-n standard normal tilnærming til t-
observatoren er 0.00001 (10–5)
Konfidensintervaller til 1(Seksjon 5.2)
Legg merke til at et 95% konfidensintervall tilsvarer:
Settet av punkter som ikke kan bli forkastet på et 5% signifikansnivå;
Et intervall som er funksjon av dataene og som inneholder den sanne parameterverdien 95% av tiden i repeterte utvalg.
Siden t-observatoren for 1 er fordelt som N(0,1) i store utvalg så
er konstruksjon av et 95% konfidensintervall for 1 akkurat som for utvalgsgjennomsnittet:
95% konfidensintervall for 1 = { 1 1.96SE( 1 )}
Konfidensintervall eksempel: Test Scores og STR
Estimatert regresjonslinje: �TestScore = 698.9 – 2.28STR
SE( 0 ) = 10.4 SE( 1 ) = 0.52
95% konfidensintervall for 1 :
{ 1 1.96SE( 1 )} = {–2.28 1.960.52}
= (–3.30, –1.26)
De følgende to utsagnene er ekvivalente (hvorfor?)
95% konfidensintervallet inkluderer ikke null;
Hypotesen 1 = 0 blir forkastet på 5% signifikansnivå
En presis (og konvensjonell) måte årapportere regresjoner:Sett standardfeilene i paranteser under de estimerte
koeffisientene som de tilhører.�TestScore = 698.9 – 2.28STR, R2 = .05, SER = 18.6
(10.4) (0.52)
Dette uttrykket gir mye informasjon
Den estimerte regresjonslinjen er�TestScore = 698.9 – 2.28STR
Standardfeilen til 0 er 10.4
Standardfeilen til 1 er 0.52
R2 er .05; standardfeilen til regrsjonen er 18.6
Oppsummering av statistiskinferens om 0 og 1:Estimering:
OLS estimatorer 0 og 1 0 og 1 har tilnærmelsvis normal sannsynlighetsfordeling i store
utvalgTest:
H0: 1 = 1,0 v. 1 1,0 (1,0 er verdien til 1 under H0)
t = ( 1 – 1,0)/SE( 1 ) p-verdi = område under standard normalfordeling utenfor tact (stor
n)Konfidensintervaller:
95% konfidensintervall for 1 er { 1 1.96SE( 1 )} Dette er settet av 1–verdier som ikke blir forkastet på 5% nivå 95% konfidensintervallet inneholder den sanne 1 i 95% av alle
utvalg
Regresjon når X er binær(Seksjon 5.3)
Noen ganger er forklaringsvariabelen binær:
X = 1 hvis liten skoleklasse, = 0 hvis ikke X = 1 hvis kvinne, = 0 hvis mann X = 1 hvis behandlet (med medisin), = 0 hvis ikke
Binære forklaringsvariabler blir noen ganger kalt for “dummy”
variabler.
Så langt har 1 blitt kalt for “helningen,” men det er ikke meningsfullt
hvis X er binær.
Hvordan fortolker vi en regresjon med en binær variabel?
Fortolking av regresjoner medbinær forklaringsvariabel
Yi = 0 + 1Xi + ui, hvor X er binær (Xi = 0 or 1):
Når Xi = 0, Yi = 0 + ui
Gjennomsnittet til Yi er 0
dvs, E(Yi|Xi=0) = 0
Når Xi = 1, Yi = 0 + 1 + ui
gjennomsnittet til Yi er 0 + 1
dvs, E(Yi|Xi=1) = 0 + 1
slik at:
1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= populasjonsforskjellen gjennomsnitt mellom grupper
Eksempel: Let Di = 1 if 20
0 if 20i
i
STR
STR
OLS regresjon: �TestScore = 650.0 + 7.4D
(1.3) (1.8)
Gruppegjennomsnitt:
Class Size Average score (Y ) Std. dev. (sY) NSmall (STR > 20) 657.4 19.4 238Large (STR ≥ 20) 650.0 17.9 182
Forskjell i gjennomsnitt: small largeY Y = 657.4 – 650.0 = 7.4
Standardfeil: SE =2 2s l
s l
s s
n n =
2 219.4 17.9
238 182 = 1.8
Oppsummering: regresjon når Xi erbinær (0/1)
Yi = 0 + 1Xi + ui
0 = gjennomsnitt til Y når X = 0
0 + 1 = gjennomsnitt til Y når X = 1
1 = forskjell i guppegj.snitt, X =1 minus X = 0
SE( 1 ) har den vanlige fortolkingen
t-observator og konfidensintervaller konstruert som vanlig
Dette er en enkel måte å analysere forskjeller i gjennomsnitt
Regresjonsformuleringen med binære variabler veldig nyttig
når vi har flere forklaringsvariabler (som vi skal se i kap. 6)
Heteroskedastisitet og homoskedastistet(Seksjon 5.4)
Hva…?
Konsekvenser av homoskedastisitet
Implikasjoner for å beregne standardfeil
Hva betyr disse to begrepene?
Hvis var(u|X=x) er konstant – dvs., Hvis variansen til den
betingede fordelingen til u gitt X ikke avhenger av X – så sier
vi at u homoskedastisk. Hvis ikke så er u heteroskedastisk.
Homoskedastisitet visuelt:
E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)
Variansen til u avhenger ikke av x
Heteroskedastisitet visuelt:
E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)
Variansen til u avhenger av x: u er heteroskedastisk.
Et eksempel med faktiske data: gjennomsnitttimelønn og antall år utdanning (datakilde: Current Population Survey):
Heteroskedastisk eller homoskedastisk?
Skoleklasse data:
Heteroskedastisk eller homoskedastisk?
Så langt har vi (uten å si det) antatt at ukan være heteroskedastisk.
Husk de tre OLS forutsetningene:
1. E(u|X = x) = 0
2. (Xi,Yi), i =1,…,n, er i.i.d.
3. Store uteliggere er sjeldne
Heteroskedastisitet og homoskedastisitet omhandler var(u|X=x).
Siden vi ikke eksplisitt at antatt homoskedastiske feilledd, så har
vi tillatt for heteroskedastisitet.
Hva hvis feilleddet faktisk erhomoskedastisk?
Formelen for variansen til 1 og OLS standardfeilen blir
enklere: Hvis var(ui|Xi=x) = 2u , så
var( 1 ) = 2 2
var[( ) ]
( )i x i
X
X u
n
= 2 2
2 2
[( ) ]
( )i x i
X
E X u
n
= 2
2u
Xn
Legg merke til: var( 1 ) er omvendt proposjonal til var(X):
mer spredning i X betyr mer informasjon om 1 - vi diskuterte dette tidligere men dette kommer klarere frem i denne formelen.
I tillegg til denne formelen for variansen til 1 , har vi en
formel for standardfeil når feilledde er homoskedastiske:
Standardfeil formel:
SE( 1 ) =
2
1
2
1
1ˆ
1 21
( )
n
ii
n
ii
un
nX X
n
.
Noen synes denne formelen er enklere. For eksempel er dette
den standard formelen som brukes i Excel.
Vi har nå to formler for standardfeilen til 1Standardfeil når feilledd er homoskedastiske – disse er kun
gyldige når feilleddene er homoskedastiske.
Heteroskedastiske robuste standardfeil, som er gyldige
uansett om feilleddene er heteroskedastiske.
Hovedfordelen med den første er at formelen er enklere.
Bakdelen er at formelen generelt bare er korrekt dersom
feilledene faktisk er homoskedastiske.
Konklusjon: Hvis feilleddene enten er homoskedastiske eller
heteroskedastiske og du bruker heteroskedastisk-robuste
standardfeil, så er det greit
Hvis feilleddene er heteroskedastiske og du bruker formel for
standardfeil basert på homoskedastiske feilledd vil ikke
standardfeilene dine være korrekte (den homoskedastiske
estimatoren av variansen til 1 er ikke konsistent hvis der er
heteroskedastisitet).
Formlene sammenfaller når n er stor
De fleste benytter formelen for homoskedastiske feilledd. Kan man, så brukes ofte bruke heteroskedastisk-robuste standardfeil
Kapittel 6Kapittel 6Regresjon med flere forklaringsvarRegresjon med flere forklaringsvar
MØA 145
Utelatte variabler –forventningsskjevhet (SW Seksjon 6.1)
Feilleddet u oppstår fordi der finnes faktorer som påvirker Y som
ikke er inkludert i regresjonen – derfor vil der være alltid utelatte
variabler.
Men, noen ganger vil utelatelse av variabler lede til
forventningsskjevhet i OLS estimatoren.
Utelatte variabler –forventningsskjevhetFor at OLS estimatoren skal være forventningsskjev må den
utelatte faktoren “Z”:
1. delvis forklare variansen i Y (dvs. Z er del av u); og
2. være korrelert med forklaringsvariabelen X (dvs.
corr(Z,X) 0)
Begge betingelsene må holde for at utelatelsen av Z medfører
forventningsskjevhet i estimeringen av X.
Utelatte variabler –forventningsskjevhetI testscore (Californiaskolene) eksempelet:
1. Engelspråklig evne (om eleven har engelsk som første eller andre
språk) påvirker sannsynligvis resultatene på de standardiserte
testene: Z forklarer Y.
2. Immigranter er vanligvis mindre velstående og har derfor mindre
penger til skolegang – og høyere STR: Z er korrelert med X.
Følgelig er 1 forventningsskjev. I hvilken retning trekker denne
forventningsskjevheten?
Vi har en formel for forventningsskjevhet
Utelatte variabler –forventningsskjevhet
En formel for forventningsskjevhet pga. utelatt variabel:
1 – 1 = 1
2
1
( )
( )
n
i ii
n
ii
X X u
X X
= 1
2
1
1
n
ii
X
vnn
sn
Hvor vi = (Xi – X )ui (Xi – X)ui. Under OLS forutsetning 1,
E[(Xi – X)ui] = cov(Xi,ui) = 0.
Men hva hvis E[(Xi – X)ui] = cov(Xi,ui) = Xu 0?
Utelatte variabler –forventningsskjevhetGenerelt (dvs., selv om antakelse #1 ikke er sann),
1 – 1 = 1
2
1
1( )
1( )
n
i ii
n
ii
X X un
X Xn
p
2Xu
X
= u Xu
X X u
= u
XuX
,
Hvor Xu = corr(X,u). Hvis antakelse #1 er gyldig, så Xu = 0,
men ikke hvis vi har at….
Formelen for forventningsskjevhetved utelatt variabel :
1p
1 + uXu
X
…en utelatt faktor Z både:
(1) forklarer del av variansen i Y (dvs. at den er en del av u); og
(2) er korrelert med X,
Når Xu 0 er følgelig OLS estimatoren 1 forventningsskjev (og ikke konsistent).
Formelen klargjør ideen om at når distrikter med få fremmed-språklige elever (1) gjør det bedre på standardiserte tester og (2) har mindre klasser (større budsjetter), så overdriver vi effekten av klassestørrelse når vi ignorerer den fremmedspråklige faktoren.
Skjer dette i CA dataene?
Distrikter med færre som lærer engelsk (lav PctEL) har bedre
testresultater
Distrikter med lavere PctEL har mindre klasser
I distrikter med sammenlignbar PctEL er effekten av klassestørrelse
liten (husk generelt gap i testresultater = 7.4)
Digresjon om kausalitet ogregresjonsanalyseHva ønsker vi å estimere?
Hva er en kausal effekt?
En fornuftsbasert forståelse av kausalitet er ikke presist nok
for vårt formål.
I dette kurset definerer vi kausal effekt som effekten som blir
målt i et ideelt tilfeldig kontrollert eksperiment.
Ideelt tilfeldig kontrollert eksperiment Ideelt: alle deltakere følger behandlingsprotokoll – fullt
samsvar, ingen feil i rapportering, etc.! Tilfeldig: deltakere fra populasjonen av interesse blir
tilfeldig tildelt til en behandlings- eller kontrollgruppe Kontrollert: en kontrollgruppe gjør det mulig å måle
effekten av behandlingen som forskjellen mellom de to gruppene
Eksperiment: behandlingen blir tildelt som del av eksperimentet: deltakerne har ikke noe valg slik at der ikke er noen “omvendt kausalitet” hvor deltakerne velger behandlingen de tror vil fungere best.
Tilbake til klassestørrelse: Tenk et ideelt tilfeldig kontrollert eksperiment for å måle
effekten på Test Score av å redusere STR…
Hvordan avviker våre dataobservasjoner fra dette idealet?
Behandlingen er ikke tilfeldig tildelt
Tenk på PctEL – prosent som lærer engelsk – i distriktet.
Den tilfredstiller med stor sannsynlighet de to kriteriene for
forventningsskjevhet ved utelatt variabel: Z = PctEL:
1. forklarer variasjon i Y; og
2. er korrelert med forklaringsvariabelen X.
“Kontroll-” og “behandlings-” gruppene avviker på en
systematisk måte – corr(STR,PctEL) 0
Tilfeldige kontrollerte eksperimenter:
Tilfeldig trekning + kontrollgruppe betyr at enhver forskjell
mellom behandlings- og kontrollgrupper er tilfeldig – det er
ikke tilfeldig relatert til behandlingen
Vi kan fjerne forskjellen mellom i PctEL mellom de store
(kontroll) og små (behandling) gruppene ved å
sammenligne effekten av klassestørrelse mellom distrikter
som har samme PctEL.
Hvis den eneste systematiske forskjellen mellom store og små klasser er
pga PctEL, så er vi da tilbake til det tilfeldig kontrollerte eksperimentet –
innenfor hver PctEL gruppe.
Dette er en måte å “kontrollere” for effekten til PctEL når vi
estimerer effekten av STR.
Utelatte variabler –forventningsskjevhet
Tre måter å løse problemet med utelatt variabel forventningsskjevhet
1. Kjør et tilfeldig kontrollert eksperiment der behandlingen (STR) blir tilfeldig tildelt: da er PctEL fremdeles en forklaringsvariabel for TestScore, men PctELer ikke korrelert med STR. (Men dette er ikke realistisk i praksis)
2. Bruk “krysstabuleringsmetoden” med finere inndeling av STR og PctEL – innen hver gruppe har alle klassene samme PctEL, slik at vi har kontrollert for PctEL(Men snart vil vi gå tom for data og hva med andre forklaringsvariabler slik som familieinntekt og foreldres utdanning?)
3. Bruk en regresjon hvor den utelatte variabelen (PctEL) ikke lenger er utelatt: inkluder PctEL som en ytterliggere forklaringsvariabel i regresjonen.
Regresjonsmodell med flereforklaringsvariabler (SW Seksjon 6.2)
Se på tilfellet med to forklaringsvariabler:
Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n
Y er den avhengige variabelen
X1, X2 er to forklaringsvariabler
(Yi, X1i, X2i) betegner observasjon i for Y, X1 og X2.
0 = ukjent populasjonskonstant
1 = effekten på Y av en endring i X1, når X2 holdes konstant
2 = effekten på Y av en endring i X2, når X1 holdes konstant
ui = feilleddet (utelatte faktorer)
Fortolking av koeffisientene iregresjonen
Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n
Tenk at X1 endres med X1 mens X2 holdes konstant:
Populasjonens regresjonslinje før endringen:
Y = 0 + 1X1 + 2X2
Populasjonens regresjonslinje etter endringen:
Y + Y = 0 + 1(X1 + X1) + 2X2
Før: Y = 0 + 1X1 + 2X2
Etter: Y + Y = 0 + 1(X1 + X1) + 2X2
Forskjell: Y = 1X1
Slik at:
1 = 1
Y
X
, X2 holdes konstant
2 = 2
Y
X
, X1 holdes konstant
0 = predikert verdi for Y når X1 = X2 = 0.
OLS estimatoren med flereforklaringsvariabler (SW seksjon 6.3)
Med to forklaringsvariabler løser OLS estimatoren:
0 1 2
2, , 0 1 1 2 2
1
min [ ( )]n
b b b i i ii
Y b b X b X
OLS estimatoren minimerer gjennomsnittlig kvadrert avstand
for de faktiske verdiene til Yi og prediksjonen basert på den
estimerte linjen.
Dette minimeringsproblemet ble løst ved hjelp av
matriseregning
Dette gir OLS estimatorene for 0, 1og 2.
Eksempel: California skoledata
Regresjon av TestScore på STR:
�TestScore = 698.9 – 2.28STR
Inkluderer så present som lærer engelsk i distriktet (PctEL):
�TestScore = 686.0 – 1.10STR – 0.65PctEL
Hva skjer med koeffisienten til STR?
Hvorfor? (Legg merke til at: corr(STR, PctEL) = 0.19)
Modellevaluering (SW Seksjon 6.4)
Faktisk = predikert + feilledd: Yi = iY + ˆiu
SER = standardavvik til ˆiu (med frihetsgradkorreksjon)
R2 = andel av variansen i Y forklart av X
2R = “justert R2” = R2 med en frihetsgradkorreksjon
som justerer for usikkerhet i estimering; 2R < R2
SER
Akkurat som i en regresjon med en enkel forklaringsvariabel
måler standardfeilen til regresjonen SER spredningen til Y
observasjonene omkring regresjonslinjen:
SER = 2
1
1ˆ
1
n
ii
un k
R2 og 2R
R2 er den samme som før:
R2 = ESS
TSS = 1
SSR
TSS ,
hvor ESS = 2
1
ˆ ˆ( )n
ii
Y Y
, SSR = 2
1
ˆn
ii
u , TSS = 2
1
( )n
ii
Y Y
.
R2 øker alltid når du legger til en ny forklaringsvariabel
(hvorfor?) – utgjør et problem når man skal måle hvor bra
modellen er
R2 og , forts.
2R (“justert R2”) korrigerer dette problemet ved å “straffe” deg
for å inkludere en ytterligere forklaringsvariabel – 2R øker ikke
nødvendigvis når du legger til en ytterligere forklaringsvariabel.
Justert R2: 2R = 1
11
n SSR
n k TSS
Legg merke til at 2R < R2, imidlertid hvis n er stor vil de to være
veldig nærme hverandre.
2R
Modellevaluering, forts.
Test score eksempel:
(1) �TestScore = 698.9 – 2.28STR,
R2 = .05, SER = 18.6
(2) �TestScore = 686.0 – 1.10STR – 0.65PctEL,
R2 = .426, 2R = .424, SER = 14.5
Hva – presist – forteller dette deg om hvor mye modell 2) forklarer (2) sammenlignet med modell (1)?
Hvorfor er R2 og 2R så like i (2)?
OLS antakelsene (SW Seksjon 6.5)
Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n
1. Den betingede fordelingen til u gitt X’s har snitt lik null,
dvs., E(u|X1 = x1,…, Xk = xk) = 0.
2. (X1i,…,Xki,Yi), i =1,…,n, er i.i.d.
3. Store uteliggere er sjeldne: X1,…, Xk, og Y har fjerde
momenter: E( 41iX ) < ,…, E( 4
kiX ) < , E( 4iY ) < .
4. Der er ingen perfekt multikollinearitet.
Antakelse #1: den betingede forventnings-verdien til u gitt de inkluderte X’ene er null.
E(u|X1 = x1,…, Xk = xk) = 0
Dette har samme fortolking som en regresjon med kun en
forklaringsvariabel.
Hvis en utelatt variabel (1) tilhører ligningen (slik at den er
i u) og (2) er korrelert med inkludert X, så holder ikke
denne betingelsen
Brudd på denne betingelsen fører til utelatt variabel
forventningsskjevhet
Løsning – hvis mulig – er å inkludere den utelatte
variabelen i regresjonen.
Antakelse #2: (X1i,…,Xki,Yi), i =1,…,n, are i.i.d.
Denne er automatisk tilfredstilt dersom dataene er samlet som
tilfeldig utvalg.
Antakelse #3: store uteliggere er sjeldne (endelig fjerde
momenter)
Som i tilfellet med en forklaringsvariabel kan OLS være sensitive
i forhold til store uteligger, så du trenger å sjekke dataene
(kryspplott!) for å være sikker der ikke er noen vanvittige verdier.
Antakelse #4: Der er ikke perfekt multikollinearitet
Perfekt multikollineariet er når en av forklaringsvariablene er en
eksakt lineær funksjon av de andre forklaringsvariablene.
Sannsynlighetsfordelingen til OLSestimatoren (SW Seksjon 6.6)Under de fire OLS antakelse,
Den eksakte fordelingen av 1 har gj.snitt 1 med var( 1 )
som er omvendt proposjonal til n; så gjelder også for 2 .
Utenom gj.snitt og varians er den eksakte fordelingen til 1veldig komplisert; men for stor n…
1 er konsistent: 1p
1 (store talls lov)
1 1
1
ˆ ˆ( )
ˆvar( )
E
er tilnærmet fordelt N(0,1)
(sentralgrenseteoremet)
Det gjelder også for 2 ,…, ˆk
Begrepsmessig er der ikke noe nytt her!
Dummy-variabelfellenAnta du har flere dummyvariabler (variabler som tar verdien 0
eller 1) som er gjensidig utelukkende og uttømmende. Dvs. der er flere kategorier og hver observasjon faller i en og kun en kategori (mann eller kvinne; høy inntekt, middels inntekt, lav inntekt…). Hvis du inkluderer alle disse dummyvariablene og en konstant, så vil du få perfekt multikollinearitet – dette er noe som kalles dummy-variabelfellen. Hvorfor er der perfekt multikollinearitet her?
Løsningen for dummy-variabelfellen:
1. Utelat en gruppene (f.eks. mann), eller
2. Utelat konstanten
Hva er konsekvensene av (1) eller (2) for fortolking av koeffisientene?
Perfekt multikollineariet
Perfekt multikollinearitet reflekterer vanligvis en feil i
definisjonen av forklaringsvariablene eller særhet i dataene
Hvis du har perfekt multikollinearitet vil din statistiske
programvarepakke (i vårt tilfelle Excel) informere deg – enten
ved å kræsje, ved en feilmelding, eller ved å ”droppe” vilkårlig
en av variablene
Løsningen på perfekt multikollinearitet er å endre listen av
forklaringsvariabler slik at du ikke lenger har perfekt
multikollinearitet.
Imperfekt multikollinearitet
Imperfekt og perfekt multikollinearitet er ganske forskjellig på
tross av navnelikheten.
Imperfekt multikollinearitet opptrer når to eller flere av
forklaringsvariablene er sterkt korrelerte.
Hvorfor dette begrepet? Hvis to forklaringsvariabler er
sterkt korrelerte så vil et kryssplott mellom dem ligne på en
rett linje, men med mindre korrelasjonen er eksakt lik 1 så
er kollineariteten imperfekt.
Imperfekt multikollinearitet, forts.
Imperfekt multikollinearitet medfører at en eller flere av koeffisientene i regresjonen vil bli estimert upresist. Intuisjon: -koeffisienten til X1 er effekten av X1 når X2
holdes konstant. Hvis X1 og X2 er sterkt korrelerte er der veldig lite variasjon i X1 straks X2 blir holdt konstant – slik at dataene er lite informative om hva som skjer når X1 endres.Variansen til OLS estimatoren til -koeffisienten tilhørendeX1 vil bli stor.
Imperfekt multikollinearitet resulterer i store standardfeil for en eller flere av OLS koeffisientene.
Matten? Se SW, App. 6.2
KapittelKapittel 77
Hypotesetester og konfidensintervall med flere forklaringsvariabler
Hypotesetest og konfidensintervall for en enkelt koeffisient (SW Seksjon 7.1)
1 1
1
ˆ ˆ( )
ˆvar( )
E
er tilnærmelsesvis fordelt N(0,1)
(sentralgrenseteoremet).
Derfor kan hypoteser om 1 bli testet med den vanlige t-
observatoren og intervaller blir konstruert som
{ 1 1.96SE( 1 )}.
Gjelder også for 2,…, k.
1 og 2 er generelt ikke uavhengig fordelt – derfor er heller
ikke deres t-observatorer uavhengige (mer om dette senere).
Eksempel: Klassestørrelse i California
(1) �TestScore = 698.9 – 2.28STR
(10.4) (0.52)
(2) �TestScore = 686.0 – 1.10STR – 0.650PctEL
(8.7) (0.43) (0.031)
Koeffisienten til STR i (2) er effekten på TestScores av en enhets endring i STR når prosent engelsklærende i distriktet holdes konstant
Størrelsen til koeffisient til STR blir halverto p-verdien er 0.011
o 95% konfidensintervallet for koeffisienten til STR i (2) er {–1.10 1.960.43} = (–1.95, –0.26)
o t-observatoren for å teste STR = 0 er t = –1.10/0.43 = –2.54, så vi forkaster nullhypotesen på 5% signifikansnivå
F-test
F-observatoren tester alle deler av en felles hypotese samtidig.
Formelen for spesialtilfellet med en felles hypotese 1 = 1,0 og2 = 2,0 i en regresjon med to forklaringsvariabler:
F = 1 2
1 2
2 21 2 , 1 2
2,
ˆ21ˆ2 1
t t
t t
t t t t
hvor1 2,ˆ t t estimerer korrelasjonen mellom t1 og t2.
Forkast når F er stor (Hva som er stor bestemmes av valgt
signifikansnivå og sannsynlighetsforedlingen)
F-observator tester 1 og 2:
F = 1 2
1 2
2 21 2 , 1 2
2,
ˆ21ˆ2 1
t t
t t
t t t t
F-observatoren er stor når t1 og/eller t2 er stor
F-observatoren korrigerer for korrelasjonen mellom t1 og t2.
Kan inneholde så mange ’er som ønskelig
Fordeling ved store utvalg til F-observatorenBetrakt spesialtilfellet at t1 og t2 er uavhengige, slik at
1 2,ˆ t tp
0;
i store utvalg blir formelen
F = 1 2
1 2
2 21 2 , 1 2
2,
ˆ21ˆ2 1
t t
t t
t t t t
2 21 2
1( )
2t t
Under nullhypotesen har t1 og t2 standard normalfordelingsom i dette spesialtilfeller er uavhengige
Fordelingen til F-observatoren ved store utvalg er fordelingen av gjennomsnittet til to uavhengige fordelte kvadrerte standard normalfordelte tilfeldige variabler.
Kji-kvadrat fordelingen med q frihetsgrader ( 2q ) er definert som
fordelingen til summen av q uavhengige kvadrerte standard
normalfordelte variabler.
I store utvalg er F fordelt som 2q /q.
Valgte kritiske verdier for store utvalg til 2q /q
q 5% kritisk verdi
1 3.84
2 3.00
3 2.60
4 2.37
5 2.21
F-test eksempel: Klassestørrelse iCaliforniareg testscr str expn_stu pctel, r;
Regression with robust standard errors Number of obs = 420 F( 3, 416) = 147.20 Prob > F = 0.0000 R-squared = 0.4366 Root MSE = 14.353
------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203 expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751 pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446 _cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641------------------------------------------------------------------------------
NOTE
test str expn_stu; The test command follows the regression
( 1) str = 0.0 There are q=2 restrictions being tested ( 2) expn_stu = 0.0
F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00Prob > F = 0.0047 Stata computes the p-value for you
F-observator med homoskedastisitet
Når feilleddet er homoskedastisk er der en enkel formel for F-
observatoren:
Kjør to regresjoner, en for nullhypotesen (“restricted
regression”) og en for alternativhypotesen (“unrestricted
regression”).
Sammenlign modellenes tilpasning til dataene – R2’ene – og
forkast nullhypotesen hvis modellen som er “unrestricted”
forklarer mye mer av vaiasjonen i Y.
Regresjon med og uten restriksjon
Eksempel: er koeffisientene til STR og Expn null?
Regresjon uten regresjon (under H1):TestScorei = 0 + 1STRi + 2Expni + 3PctELi + ui
Regresjon med restriksjon (dvs., under H0):TestScorei = 0 + 3PctELi + ui
Antall restriksjoner under H0 er q = 2. R2 vil være høyere i regresjonen uten restriksjon
Hvor mye må R2 øke for at koeffisientene til Expn og PctEL skal bli anslått som statistisk signifikante?
F-observator med homoskedastiskefeilledd:
F = 2 2
2
( ) /
(1 ) /( 1)unrestricted restricted
unrestricted unrestricted
R R q
R n k
hvor: 2restrictedR = R2 for regresjon med restriksjon2unrestrictedR = R2 for regresjon uten restriksjon
q = antall restriksjoner under nullhypotesenkunrestricted = antall forklaringsvariabler i regrsjon uten
restriksjon.
Dess større forskjellen er mellom de to modellene sine R2,dess større forbedring i modellen er assosiert med å legge til variablene som testes og dess større er F-observatoren.
Eksempel:Restricted regression:�TestScore = 644.7 –0.671PctEL, 2
restrictedR = 0.4149
(1.0) (0.032)
Unrestricted regression:�TestScore = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL
(15.5) (0.48) (1.59) (0.032)2unrestrictedR = 0.4366, kunrestricted = 3, q = 2
so F = 2 2
2
( ) /
(1 ) /( 1)unrestricted restricted
unrestricted unrestricted
R R q
R n k
= (.4366 .4149) / 2
(1 .4366) /(420 3 1)
= 8.01
13
Eksempel:Vi tester to restriksjoner (at parameteret til EXPN og STR er 0
Det betyr at q=2
Vi har 420 observasjoner slik at n=420. Antall parametre som
estimeres i den ikke begrensede regresjonen i tillegg til
konstantleddet er 3
Vi skal da finne kritisk verdi for en F2,416 fordeling
Siden 416 er mye større enn 100, bruker vi tabellen for 2
restriksjoner og uendelig mange observasjoner
Kritisk verdi på 5% signifikansnivå er 3.00
Forkast nullhypotesen
Legg merke til: Heteroskedastisk-robust F = 5.43…
F-observatoren med homoskedastisitet: Oppsummering
F = 2 2
2
( ) /
(1 ) /( 1)unrestricted restricted
unrestricted unrestricted
R R q
R n k
F-observatoren med homoskedastiske feilledd forkaster H0
når to ytterliggere variabler øker R2 “tilstrekkelig” Hvis feilleddet er homoskedastisk har formelen over fordeling
i store utvalg som 2q /q.
Men hvis feilleddene er heteroskedastiske er fordelingen istore utvalg grisete og ikke lik 2
q /q
F-observator med homoskedastisitet: Oppsummering Disse er kun berettiget under veldig sterke betingelser –
sterkere enn det som er realistisk i praksis.o Imidlertid er det den som vanligvis brukes, og som må brukes i
Excel.
o Hvis du har anledning bør du bruke heteroskedastisk-robuste F-
observator med 2q /q (dvs., Fq,) kritiske verdier.
For n ≥ 100, er F-fordelingen i bunn og grunn 2q /q
fordelingen.
For små n bruker forskere av og til F fordelingen fordi den
har store kritiske verdier og er i så henseende mer
konservativ.
Oppsummering: testing avhypoteser på flere koeffisienter “En om gangen” tilnærmingen ved hypotestesting av
koeffisienter vil føre til at t-observatoren overskrider 1.96 mer
enn 5% av gangene under H0 (dvs. at størrelsen på testen er
større enn det ønskede signifikansnivået)
Heteroskedastiske-robuste F-statistikk er innbygd i fleste
statistikkprogrammer.
For stor n er F-statistikken fordelt 2q /q (= Fq,)
Versjonen av F-statistikken med homoskedastiske feilledd
kan hjelpe intusjonen, men er ikke gyldig når der er
heteroskedastisitet.
Konfidenssett for flere koeffisienter(SW Seksjon 7.4)
Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n
Hva er det felles konfidenssettet for 1 og 2?Et 95% felles konfidenssett er:Et verdisettfunksjon av dataene som inneholder de sanne
parametrene i 95% i hypotetisk repeterte utvalg.Settet av parameterverdier som ikke kan bli forkastet ved 5%
signifikansnivå.Du kan finne et 95% konfidenssett som settet av (1, 2) som
ikke kan bli forkastet på et 5% nivå ved å bruke F-test.
Konfidenssett for flere koeffisienter,forts.La F(1,0,2,0) være F-observator som tester hypotesen at 1 = 1,0 and 2 = 2,0:
95% konfidenssett = {1,0, 2,0: F(1,0, 2,0) < 3.00} 3.00 er den 5% kritiske verdien til F2,-fordelingen Dette settet har en dekningsrate på 95% fordi testen som det
er basert på har størrelse på 5%5% av tiden så forkaster testen feilaktig nullhypotesen når den er sann, slik at i 95% av tiden gjør den ikke; derfor er konfidenssettet konstruert som de ikke-forkastede verdiene inneholder de sanne verdiene 95% av tiden..
Konfidenssettet basert på F-observatoren er en ellipse
{1, 2: F = 1 2
1 2
2 21 2 , 1 2
2,
ˆ21ˆ2 1
t t
t t
t t t t
≤ 3.00}
Nå
F = 1 2
1 2
2 21 2 , 1 22
,
1ˆ2
ˆ2(1 ) t tt t
t t t t
1 2
1 2
2,
2 2
2 2,0 1 1,0 1 1,0 2 2,0,
2 1 1 2
1ˆ2(1 )
ˆ ˆ ˆ ˆˆ2
ˆ ˆ ˆ ˆ( ) ( ) ( ) ( )
t t
t tSE SE SE SE
dette er kvadratisk form av 1,0 og 2,0 – derfor er grensene til
settet F = 3.00 er ellipse.
Konfidenssettet basert på åinvertere F-testen
En generell tilnærming for å velgevariabler og “modellspesifikasjon”Spesifiser en “grunn-” eller “benchmark-”modell.
Spesifiser utvalget av plausible alternative modeller som
inkluderer ytterligere kandidatvariabler.
Endrer en kandidatvariabel koeffisienten vi er interessert i
(1)?
Er kandidatvariabelen statistisk signifikant?
Bruk vurdering, ikke noen mekanisk oppskrift …
Ikke bare prøv å maksimere R2!
Digresjon om modellevaluering…
Det er lett å falle i fellen å maksimere R2 og 2R – men da mister vi av synet det virkelige målet, en forventningsrett estimator av effekten av klassestørrelse.En høy R2 (eller 2R ) betyr forklaringsvariablene ”forklarer”
variasjonen i Y, men ikke atdu har fjernet forventningsskjevhet pga utelatte variabler.du har en forventningsrett estimator av en kausal effekt (1).de inkluderte variablene er statistisk signifikante – dette må
avgjøres med hypotesetest.
Mer California data…
Presentasjon av resultater fraregresjonsanalyse Vi lager ofte flere regresjonsmodeller som vi sammenligner
og da er det vanskelig å sammenligne dem når de blir skrevet som ligningsuttrykk, så i stedet rapporterer vi resultatene i en tabell.
En tabell med regresjonsresultater bør inkludere: De estimerte koeffisientene
Standardfeil
Modellevalueringsmål (R2, SER,..)
Antall observasjoner
Relevant F-statistikk, hvis noe
Enhver annen aktuell informasjon.
Finn denne informasjonen i følgende tabell:
Oppsummering: Regresjon medflere forklaringsvariabler Regresjoner med flere forklaringsvariabler tillater deg å
estimere effekten på Y av en endring i X1 når X2 (og X3, X4…)
holdes konstant.
Hvis du kan måle en variabel kan du unngå forventingsskjevhet
ved utelatt variabel ved å inkludere den.
Der er ingen enkel oppskrift for å bedømme hvilke variabler
som hører til i en regresjon – du må gjøre dine vurderinger.
En tilnærming til å spesifisere en grunnmodell – ved å basere
seg på a-priori argumenter – og deretter undersøke
sensitiviteten til nøkkelestimatene ved alternative
spesifikasjoner.
Kapittel 9Kapittel 9
Evaluering av regresjonsanalyser
2
Et rammeverk for å evaluerestatistiske studier: Intern og eksternvaliditet (SW seksjon 9.1)
Intern validitet: statistisk inferens om kausale effekter
er valid (gyldig) for populasjonen som blir studert.
Ekstern validitet: statistisk inferens kan generaliseres
fra populasjonen og rammen for studien til andre
populasjoner og rammer (hvor “rammen” refererer til
miljø, institusjoner, politisk og kulturelt bakteppe,
fysiske miljø og andre fremtredende kjennetegn).
3
Trusler mot ekstern validitet
1. Forskjeller mellom populasjoner Mus og mennesker
Studenter versus husholdninger
Populasjonsforskjeller mellom land
Kjønn
2. Forskjeller i rammer Laberatoriet og den ”virkelige verden”
Sosialdemokrati og diktatur
4
Trusler mot intern validitet (SW seksjon 9.2)
Fem trusler mot intern validitet i studier med
regresjonsanalyser:
1. Forventningsskjevhet ved utelatte variabler
2. Feil funksjonsform
3. Forventningsskjevhet pga målefeil (errors-in-variables
bias)
4. Utvalgsfeil (sample selection bias)
5. Simultanitet (simultaneous causality bias)
Alle disse innebærer at E(ui|X1i,…,Xki) 0 – som igjen betyr at
OLS estimatoren er forventningsskjev og inkonsistent.
5
1. Forventningsskjevhet vedutelatte variablerForventningsskjevhet ved utelatt variabel oppstår dersom
en utelatt variabel både:
(i) forklarer del av variasjonen i Y og
(ii) korrelert med minst en inkludert
forklaringsvariabel.
Vi diskuterte dette problemet først i en regresjon med en
enkel X, men forventningsskjevhet ved utelatt variabel vil
også oppstå når det er mange X’er hvis den utelatte
variabelen tilfredstiller betingelse (i) og (ii) over.
6
Mulige løsninger ved utelattevariabler1. Hvis utelatt variabel kan bli målt så inkluder den som
en ytterligere forklaringsvariabel i regresjonen;
2. I noen tilfeller kan paneldata brukes for å kontrollere
for effekten av den utelatte variabelen;
3. Hvis variabelen ikke kan bli målt bruk
instrumentvariabel regresjon;
4. Kjør et tilfeldig kontrollert eksperiment.
Hvorfor virker dette? Husk – hvis X blir tilfeldig
tildelt så vil X nødvendigvis bli fordelt uavhengig av
u; slik at E(u|X = x) = 0.
7
2. Feil funksjonsform
Oppstår dersom funskjonsformen ikke er korrekt – for eksempel
dersom et interaksjonsledd feilaktig blir utelatt så vil inferens om
kausale effekter være forventningsskjeve.
Mulig løsning for feilspesifikasjon av funksjonsform
1. Kontinuerlig avhengig variabel: bruk den “passende” ikke-
lineære spesifikasjonen av X (logaritmer, interaksjon, etc.)
2. Diskret (eksempel: binær) avhengig variabel: vi trenger en
utvidelse av metode for regresjonsanalyse (“probit” eller
“logit” analyse for binære avhengige variabler).
8
3. Målefeil
Så langt har vi antatt at X er målt presist.
I realiteten inneholder ofte økonomiske data målefeil
Registreringsfeil
Problemer med hukommelse i spørreundersøkelser (når startet
du med din nåværende job? Når kjøpte du sist en bok?)
Problem med tvetydige spørsmål (hva var din inntekt forrige
år?)
Tilsiktet feil svar på spørreundersøkerlser (Hva er
formuesverdien av dine eiendeler? Hvor ofte kjører du i beruset
tilstand?)
9
Generelt så fører målefeil tilforventningskjevhet
Mulige løsninger
1. Få tak på bedre data.
2. Utvikle en spesifikk modell for målefeilprosessen. Dette er
kun mulig hvis du vet mye om hvordan måelfeilen oppstår
3. Instrumentvariabelregresjon.
10
4. Utvalgsfeil
Så langt har vi forutsatt tilfeldige utvalg fra populasjonen. I noen
tilfeller blir tilfeldige utvalg “skjeve” fordi utvalget i praksis
“velger seg selv.”
Utvalgsfeil oppstår når utvalgsprosessen:
(i) påvirker tilgjengeligheten av data og
(ii) denne prosessen er relatert til den avhengige variabelen.
Eksempel: vi ønsker å måle effekten av univeristetsutdanning på inntekt og velger utvalg av universitetsutdannede i arbeid – utvalgsprossessen gjør at (i) det er kun universitetsutdannede med lønnet inntekt som blir trukket ut og dermed (ii) mister vi observasjoner for den avhengige variabelen inntekt der denne er lik null
11
5. Simultanitet
Så langt har vi antatt at X forårsaker Y.
Hva om også Y forårsker X?
Eksempel: Klassestørrelseeffekt
Lav STR resulterer i bedre test resultater
Men anta at distrikter med dårlige testresultater får bevilget
ekstra ressurser: som et resultat av den politiske prosessen så
får de også en lav STR
Hvordan påvirker dette regresjonen av TestScore på STR?
12
Simultane ligninger
(a) Kausal effekt på Y av X: Yi = 0 + 1Xi + ui
(b) Kausal effekt på X av Y: Xi = 0 + 1Yi + vi
Stor ui betyr stor Yi, som impliserer stor Xi (hvis 1>0)
Derfor corr(Xi,ui) 0
Derfor er 1 forventningsskjev og inkonsistent.
Eksempel: Et distrikt med særlig dårlige testresultater gitt
STR (negativ ui) mottar ekstra ressurser og derved reduserer
STR; så STRi og ui er korrelerte
13
Mulig løsning ved simultanitet
1. Tilfeldige kontrollerte eksperiment.
2. Utvikle og estimer en komplett modell med kausalitet i begge
retninger. Dette er f.eks. ideen bak mange store
makroøkonomimodeller til sentralbanker. Dette kan være
veldig vanskelig i praksis.
3. Bruk instrumentvariabelregresjon for å estimere den kausale
effekten (effekten av X på Y).
14
Intern og ekstern validitet når vi brukerregresjon til å lage prognoser(forecasting) (SW seksjon 9.3)Lage prognoser og estimere kausale sammenhenger er
ganske ulike målsettinger.
For prognoser,
2R er viktig (veldig!)
Utelatte variabler er ikke noe problem!
Fortolking av koeffisienter i prognosemodeller er ikke
viktig – det viktige er god føyning og en modell du kan
“stole” på at virker i din anvendelse
Ekstern validitet betyr alt: modellen blir estimert ved
bruk av historiske data og må holde stikk i (nær)
fremtid
Regresjon med paneldata
Kapittel 10
Introduksjon
• Paneldata er data med flere individer målt over flere tidsperioder
• Tillater oss å kontrollere for noen typer utelatte variabler, uten at vi behøver å ha data på disse– Variabler som varierer mellom individer men er
konstant over tid– Variabler som varierer over tid men ikke over
individer
• Ideen er at utelatte variabler som er konstante over tid kan ikke forklare endringer over tid
Introduksjon
• Individer i et paneldatasett kan for eksempel være– Land– Arbeidstakere– Kommuner– Bedrifter– Husholdninger– Konsumenter– Skoler– Fiskefartøy– Pasienter– Etc.
Introduksjon
• Skiller mellom balansert og ubalansert panel– Et balansert panel observasjoner for alle individene
i alle tidsperiodene– Et ubalansert panel vil mangle noen observasjoner
Notasjon for paneldata• Anta en avhengig variabel Y og k forklarings-
variabler X:
Yit, X1it, X2it,…,Xkit, der i = 1,…,n og t = 1,…,T
n – antall individerT – antall tidsperioder
Trafikkdødelighet og skattlegging av alkohol i USA
• Observasjoner: et år i en amerikansk stat• 48 amerikanske stater: n = 48• 7 år (1982,…, 1988): T = 7• Balansert panel: antall observasjoner = 7x48 =
336
Variabler• Trafikkdødelighet (antall døde i trafikken målt per
10,000 innbyggere i respektiv stat for et gitt år)• Skatt for en kasse øl• Andre (aldersgrense for sertifikat, lover knyttet
til kjøring i beruset tilstand, etc.)
Regresjon med kun 1982-data
Regresjon med kun 1988-data
Hva kan forklare dette?
• Hvilke andre faktorer kan forklare at i stater med høyere alkoholavgifter har høyere dødstall knyttet til trafikkulykker?
Andre faktorer som påvirker ulykkestall i trafikken:• Kvalitet (alder) på biler• Kvaliteten på veiene• “Kultur” knyttet til kjøring i beruset tilstand• Trafikktetthet på veiene
Utelatte variabler I
Eksempel 1: trafikktetthet. Anta:
i. Høy trafikktetthet betyr flere trafikkulykkerii. Stater på vestkysten som har lavere trafikktetthet har
også lavere alkoholavgifter
• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye alkoholavgifter”kan reflektere “høy trafikktetthet” (slik at OLS koeffisienten er forventningsskjev i positiv retning –høye avgifter (=høy trafikktetthet), flere dødsulykker)
• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat
Utelatte variabler II
Eksempel 2: Kulturelle holdninger til alkohol og kjøring:
i. påvirker trafikkdødelighetii. Er potensielt korrelert med alkoholavgifter, slik at
skattetrykket på alkohol kan plukke opp kulturforskjeller mellom stater
• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye avgifter” kan reflektere “kulturelle holdninger til alkohol” (slik at OLS koeffisienten blir forventningsskjev)
• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat
Paneldata med 2 år
Betrakt paneldatamodellen
FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit
• Zi er en faktor som ikke endrer seg over tid (trafikktetthet, kulturelle holdninger), i alle fall ikke i de årene vi har data fra
• Anta Zi ikke blir observert slik at utelatelse kan føre til forventningsskjevhet i estimeringen
• Effekten av Zi kan bli eliminert ved bruk av T = 2 år
Paneldata med 2 år
Enhver endring i trafikkdødelighet fra 1982 til 1988 kan ikke ha blitt forårsaket av Zi, fordi Zi (ved antakelse) endrer seg ikke mellom 1982 og 1988.
Betrakt trafikkdødelighet i 1988 og 1982:
FatalityRatei1988 = 0 + 1BeerTaxi1988 + 2Zi + ui1988
FatalityRatei1982 = 0 + 1BeerTaxi1982 + 2Zi + ui1982
Anta E(uit|BeerTaxit, Zi) = 0
Hvis man trekker 1988 ligningen fra 1982 ligningen (dvs. kalkulerer endringen mellom de to årene), så blir effekten av Zi eliminert
Paneldata med 2 år
FatalityRatei1988 – FatalityRatei1982 =1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982)
• Det nye feilleddet, (ui1988 – ui1982), er ukorrelert med både BeerTaxi1988 og BeerTaxi1982
• Denne “differanse”-ligningen kan bli estimert med OLS, selv om Zi ikke er observert
• Den utelatte variabelen Zi endres ikke, så den kan ikke forklare endringen i Y
Paneldata med 2 år
’Fixed effect’ modell (T > 2)
Hva gjør dersom vi har flere enn 2 perioder (T > 2)?
Yit = 0 + 1Xit + 2Zi + uit, i =1,…,n, t = 1,…,T
Vi kan omskrive denne regresjonen på to måter:1) Regresjonsmodell med n-1 dummyvariabler2) ‘Fixed Effects’ regresjonsmodellen
1) Dummyvariabelmodellen
Yit = 0 + 1Xit + 2D2i + … + nDni + uit
hvor D2i = 1 for individ 2 og = 0 for alle andre individer etc
• Først lag dummyvariablene D2i,…,Dni
• Deretter estimer (1) med OLS• Statistisk inferens (hypotesetester,
konfidensintervaller) er som vanlig• Denne metoden er upraktisk når n er veldig stor
(for eksempel hvis n = 1000 arbeidere)
2) “Fixed Effects” regresjonsmodellen
• ‘Fixed effects’ (individfaste effekter) regresjonsmodellen:
Yit = 1Xit + i + uit
• Vi kan beskrive gjennomsnittet for individene inneholdt i Y slik:
Yisnitt = 1Xi
snitt + i + uisnitt
• Avvik fra gjennomsnittet:Yit – Yit
snitt = 1Xit - Xitsnitt + uit – uit
snitt
• Den siste ligningen er den som estimeres
2) “Fixed Effects” regresjonsmodellen
Altså,
• Først, for hver variabel, trekk fra gjennomsnittet for de enkelte individene– For eksempel trekk fra gjennomnsnittlig årlig trafikkdødelighet i Arizona i
årene 1982-1988 fra faktisk trafikkdødelighet i Arizona i de gitt årene
• Estimer modellen med de transformerte variablene
• Inferens er som vanlig
• Dette er som ’endrings-’metoden når T=2 bortsett fra at nå ser vi på avvik fra et gjennomsnitt i stedet for endring over to perioder
Tidsfaste effekter
• En utelatt variabel kan tenkes å variere over tid men ikke over individer:
• Sikrere biler (airbag, etc.); endringer i nasjonale lover• Slike endringer fører til endringer i konstanten 0 over
tid• La disse endringene (“sikrere biler”) bli betegnet med
variabelen St, som endrer over tid men ikke over stater
• Dette resulterer i den følgende regresjonsmodellen:
Yit = 0 + 1Xit + 2Zi + 3St + uit
To formuleringer for å beregne tidsfaste effekter
1. “T-1 dummyvariabel” formuleringen:
Yit = 0 + 1Xit + 2B2t + … TBTt + uit
hvor B2t = 0 når t=2 og = 0 ellers osv.
2. “Tidseffekt” formuleringen:
Yit = 1Xit + t + uit
’Fixed effect” og tidseffekt i samme modell
Der er forskjellige metoder for å både tillate individeffekter og tidseffekter:
• Differense (endring) og konstant (bare når T = 2)
• Entity demeaning & T – 1 time indicators• Time demeaning & n – 1 Entity indicators• T – 1 time indicators & n – 1 entity indicators • Entity & time demeaning
Antakelser for fixed-effect modellen
Betrakt en enkelt X:
Yit = 1Xit + i + uit, i = 1,…,n, t = 1,…, T
• E(uit|Xi1,…,XiT,i) = 0.• (Xi1,…,XiT,Yi1,…,YiT), i =1,…,n, er i.i.d. trekninger fra
simultanfordeling• (Xit, Yit) har endelige fjerdemomenter• Der er ingen perfekt multikollinearitet (ved flere X’er)• corr(uit,uis|Xit,Xis,i) = 0 for t ≠ s.
• Antakelsene 3 og 4 er de samme som før• Antakelsene 1 og 2 er forskjellige• Antakelse 5 er ny
Fyllekjøring datasett
• n = 48 amerikanske stater, T = 7 år (1982,…,1988) (balansert)
Variabler• Drafikkdødelighetsraten (antall drepte per 10,000
innbygger)• Avgift på en kasse øl (Beertax)• Aldersgrense for alkohol• Minimumsstraffen for å kjøre med promille:
– Mandatory Jail– Manditory Community Service– Ellers så vil straffen kun være en mulkt
• Antall kjørte mil per sjåfør (US DOT)• Økonomiske data for statene (Realinntekt per
innbygger, etc.)
Hvordan kan paneldata hjelpe?
• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer mellom stater men er konstante over tid:– Drikkekultur– Kvalitet på veiene– Alderen på bilparken
bruk effekter som er faste for staten (fixed effect)
• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer over tid men er konstante mellom stater:– Forbedringer i bilsikkerhet– Endring i nasjonale holdninger til promillekjøring
Bruk tidsfaste effekter
Fordeler og begrensninger ved bruk av fixed effect modeller
Fordeler• Du kan kontrollere for variabler som:
– varierer mellom individer (stater) men ikke over tid, og/eller
– varierer over tid men ikke mellom individer (stater)
• Flere observasjoner gir deg mer informasjon• Estimering er ganske rett frem utvidelse av
multivariat OLS (men problematisk i Excel)
Begrensninger/utfordringer• Nødvendig med variasjon i X over tid for individene• Korrelasjon og kausalitet knyttet til tidssdimensjonen
kan by på problemer (dette skal vi snakke mer om i kap 14 og 15)
Oppsummering
‘Fixed effects’ regresjoner kan gjøres på tre måter:1. “Endrings”-metoden når T = 2 (mulig å gjøre i
Excel)2. “n-1 dummyvariabler” metoden når n er liten3. “Fixed effects”-regresjon (med transformerte
variabler)
• Disse metodene kan benyttes om man vil bare ha ‘fixed effects’ eller tidseffekter eller begge deler
• Statistisk inferens: som i multivariat regresjon
Regresjon med binær avhengig variabel
Kapittel 11
Introduksjon
• En binær variabel er en variabel som bare tar to verdier, vanligvis 0 eller 1
• Modeller med binær avhengig variabel, ogsåkjent som diskret valg modeller, benyttes når vi kan observere adferd– Kjøper eller kjøper ikke noe– Får lån eller får ikke lån– Vil bevare en foss eller ikke– Er for vindmøller eller ikke
3
The Linear Probability Model(SW Section 11.1)
La oss begynne med en regresjon med en forklaringsvariabel
(regressor):
Yi = 0 + 1Xi + ui
Men:
Hva er 1 når Y er binær? Er 1 = Y
X
?
Hva betyr linjen 0 + 1X når Y er binær?
Hva betyr den predikerte verdien Y når Y er binær? For
eksempel, hva betyr det at Y = 0.26?
4
The linear probability model, ctd.
Yi = 0 + 1Xi + ui
OLS antagelse #1: E(ui|Xi) = 0, so
E(Yi|Xi) = E(0 + 1Xi + ui|Xi) = 0 + 1Xi
Når Y er binær,
E(Y) = 1Pr(Y=1) + 0Pr(Y=0) = Pr(Y=1)
Slik at
E(Y|X) = Pr(Y=1|X)
5
The linear probability model, ctd.Når Y er binær kalles den lineære regresjonsmodellen
Yi = 0 + 1Xi + ui
Den linear probability model (den lineære
sannsynlighetsmodellen)
Den predikerte verdien fra modellen er en sannsynlighet:
E(Y|X=x) = Pr(Y=1|X=x) = prob. at Y = 1 gitt x
Y = den predikerte sannsynligheten for at Yi = 1, gitt
X
1 = endringen i sannsynligheten for at Y = 1 for gitt x:
1 = Pr( 1 | ) Pr( 1 | )Y X x x Y X x
x
6
Example: linear probability model, HMDA data
Mortgage denial v. ratio of debt payments to income
(P/I ratio) in the HMDA data set (subset)
7
Linear probability model: HMDA data, ctd.
�deny = -.080 + .604P/I ratio (n = 2380) (.032) (.098)
Hva er den predikerte verdien for at P/I ratio = .3?�Pr( 1 | / .3)deny P Iratio = -.080 + .604.3 = .151
Hva er effekten av at P/I ratio øker fra .3 to .4:�Pr( 1 | / .4)deny P Iratio = -.080 + .604.4 = .212Sannsynligheten for et avslag når P/I ratio øker fra .3 to .4 is øker med .061, eller med 6.1 prosent.
8
Linear probability model: HMDA data, ctd
Vi inkluderer så en dummy variable for om søkeren er farget:�deny = -.091 + .559P/I ratio + .177black
(.032) (.098) (.025)
Predikert sannsynlighet for avslag: For fargede søkere med P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1771 = .254
For hvite søkere med, P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1770 = .077
Forskjellen = .177 = 17.7 prosent Parameteret for black er significant på et 5% nivå Men det er stor sannsynlighet for skjevheter i estimatet på
grunn av utelatt variable…
9
The linear probability model: Oppsummering
Modellerer Pr(Y=1|X) som en lineær funksjon av X Fordeler:
Lett å estimere og å tolke Statistisk inferens er den samme som for en vanlig
regresjon Men R2 er bare tull
Ulemper: Kan en sannsynlighet være lineær i X? I modellen kan predikerte sannsynligheter bli <0 eller
>1! Disse ulempene kan unngåes ved ikke-linære
sannsynlighetsmodeller: probit eller logit modeller
10
Probit and Logit Regression(SW Section 11.2)
Et hovedproblem med den lineære sannsynlighetsmodellen
er at sannynligheten er lineære, slik at den kan predikeres til
å bli store enn 1 eller mindre enn 0.
Pr(Y = 1|X) = 0 + 1X
Man ønsker at:
0 ≤ Pr(Y = 1|X) ≤ 1 for alle X
Pr(Y = 1|X) skal være økende i X (for 1>0)
Dette fordrer at vi benytter en ikke-linære funksjon. Et
alternative er en “S-kurve”…
11
Probit og logit modeler har at
0 ≤ Pr(Y = 1|X) ≤ 1 for alle X
Pr(Y = 1|X) er økende i X (for 1>0)
12
En Probit model spesifiserer sannsynligheten for Y=1 using
ved hjelp av en kummulativ standard normal fordeling
evaluert for z = 0 + 1X:
Pr(Y = 1|X) = (0 + 1X)
er den kummulative normalfordelingen.
z = 0 + 1X er “z-verdien” for probit modellen for
forskjellige X.
Eksempel: Anta 0 = -2, 1= 3, X = .4, slik at
Pr(Y = 1|X=.4) = (-2 + 3.4) = (-0.8)
Pr(Y = 1|X=.4) = området under standard normal fordelingen
til venstre for = -.8, som er…
13
Pr(Z ≤ -0.8) = .2119
14
Probit regression, ctd.
Hvorfor benytte den kummulative normalfordelingen?
“S-kurven” gir en funksjon hvor:
0 ≤ Pr(Y = 1|X) ≤ 1 for all X
Pr(Y = 1|X) er økende i X (for 1>0)
Lett å bruke – sannsynligheten finne let fra tabellen for
normalfordelingen
Relativt grei tolkning:
z-verdi = 0 + 1X
0 + 1 X er den predikerte z-verdien, gitt X
1 er endringen i z-verdien for en enhets endring i X
15
STATA Example: HMDA data . probit deny p_irat, r;
Iteration 0: log likelihood = -872.0853 We’ll discuss this laterIteration 1: log likelihood = -835.6633Iteration 2: log likelihood = -831.80534Iteration 3: log likelihood = -831.79234
Probit estimates Number of obs = 2380 Wald chi2(1) = 40.68 Prob > chi2 = 0.0000Log likelihood = -831.79234 Pseudo R2 = 0.0462
------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901 _cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082------------------------------------------------------------------------------
�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)
(.16) (.47)
16
STATA Example: HMDA data, ctd.�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)
(.16) (.47)
Positive coefficient: does this make sense?
Standard errors have the usual interpretation
Predicted probabilities:
�Pr( 1| / .3)deny P Iratio = (-2.19+2.97 .3)
= (-1.30) = .097
Effect of change in P/I ratio from .3 to .4:
�Pr( 1| / .4)deny P Iratio = (-2.19+2.97 .4) = .159
Predicted probability of denial rises from .097 to .159
17
Probit modell med flere forklaringsvariabler
Pr(Y = 1|X1, X2) = (0 + 1X1 + 2X2)
er den kummulative normalfordelingen.
z = 0 + 1X1 + 2X2 er “z-verdien”.
1 er effekten av en enhets endring i X1, gitt at X2 holdes
konstant
18
STATA Example: HMDA data . probit deny p_irat black, r;
Iteration 0: log likelihood = -872.0853Iteration 1: log likelihood = -800.88504Iteration 2: log likelihood = -797.1478Iteration 3: log likelihood = -797.13604
Probit estimates Number of obs = 2380 Wald chi2(2) = 118.18 Prob > chi2 = 0.0000Log likelihood = -797.13604 Pseudo R2 = 0.0859
------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------
19
STATA Example, ctd.: predicted probit probabilities
. probit deny p_irat black, r;
Probit estimates Number of obs = 2380 Wald chi2(2) = 118.18 Prob > chi2 = 0.0000Log likelihood = -797.13604 Pseudo R2 = 0.0859
------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------
. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;
. display "Pred prob, p_irat=.3, white: " normprob(z1);
Pred prob, p_irat=.3, white: .07546603
NOTE_b[_cons] is the estimated intercept (-2.258738)_b[p_irat] is the coefficient on p_irat (2.741637)sca creates a new scalar which is the result of a calculationdisplay prints the indicated information to the screen
20
STATA Example, ctd.
�Pr( 1| / , )deny P I black= (-2.26 + 2.74 P/I ratio + .71 black)
(.16) (.44) (.08) Is the coefficient on black statistically significant? Estimated effect of race for P/I ratio = .3:�Pr( 1|.3,1)deny = (-2.26+2.74 .3+.71 1) = .233
�Pr( 1|.3,0)deny = (-2.26+2.74 .3+.71 0) = .075
Difference in rejection probabilities = .158 (15.8 percentage points)
Still plenty of room still for omitted variable bias…
21
Logit modell
Logit model benytter en logistisk fordeling heller en
normalfordelingen
Var en fordel at den var lettere å regne med en
normalfordelingen før PC-ene ble kraftig nok
Ellers så godt som identisk i forhold til modell og tolkning
22
The HMDA Data Set
Data on individual characteristics, property
characteristics, and loan denial/acceptance
The mortgage application process circa 1990-1991:
Go to a bank or mortgage company
Fill out an application (personal+financial info)
Meet with the loan officer
Then the loan officer decides – by law, in a race-blind
way. Presumably, the bank wants to make profitable
loans, and the loan officer doesn’t want to originate
defaults.
23
The loan officer’s decision
Loan officer uses key financial variables:
P/I ratio
housing expense-to-income ratio
loan-to-value ratio
personal credit history
The decision rule is nonlinear:
loan-to-value ratio > 80%
loan-to-value ratio > 95% (what happens in default?)
credit score
24
Modell spesifikasjon
Pr(deny=1|black, other X’s) = … linear probability model probit
Main problem with the regressions so far: potential omitted variable bias. All these (i) enter the loan officer decision function, all (ii) are or could be correlated with race:
wealth, type of employment credit history family status
25
26
Table 11.2, ctd.
27
Table 11.2, ctd.
Regresjon med instrumentvariabler
Kapittel 12
Introduksjon
• Instrumentvariabelregresjon (IV) er en teknikk for åfå en konsistent estimator av populasjonsregresjons-funksjonen når forklaringsvariabelen X er korrelert med feilleddet u, dvs når E(u|X) ≠ 0
Gjelder brudd på intern validitet i tre tilfeller:1. Forventningsskjevhet ved (uobserverte) utelatte
variabler2. Forventningsskjevhet ved simultan kausalitet
(simultanitetsproblemet);3. Målefeil i variablene
• Betegnes mer generelt som problem med endogeneforklaringsvariabler
Instrumentvariabler
Yi = 0 + 1Xi + ui
IV-regresjon deler X i to: 1. en del som er korrelert med u2. en del som ikke er det
– Ved å isolere den delen som ikke er korrelert med uer det mulig å estimere 1.
• Dette gjøres med en instrumentvariabel Zi som er ukorrelert med ui.
• Instrumentvariabelen finner bevegelser i Xi som ikke er korrelert med ui, og bruker disse til å estimere 1.
Endogenitet og eksogenitet
• En endogen variabel er korrelert med u
• En eksogen variabel er ikke korrelert med u
• I denne sammenheng er det snakk om høyresidevariablene (forklaringsvariablene)
• I likhet med problemet med utelatte variabler medfører endogene variabler at OLS estimatoren blir forventningsskjev og ikke-konsistent:
• Problemet skyldes kausalitet som går to veier og hvor begge effektene blir plukket opp i den estimerte 1.
pu
1 1 XuX
ˆ +
Gyldige instrumentvariabler Z
Yi = 0 + 1Xi + ui
• For at en instrumentvariabel (et “instrument”) Z skal være gyldig må den oppfylle to betingelser:
1. Instrument relevans: corr(Zi,Xi) ≠ 0– Z forklarer noe av X
2. Instrument eksogenitet: corr(Zi,ui) = 0– Z er ikke korrelert med u; forklarer kun Y gjennom X
Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum
• IV regresjon ble opprinnelig utviklet for å estimere etterspørselselastisiteter for jordbruksprodukter, for eksempel for smør:
lnQi = 0 + 1lnPi + ui
• 1 = priselastisitet til smør = % endring i etterspurt kvantum Q for en 1% endring i prisen P
• Data: observasjoner på priser og kvantum for ulike år
• OLS-regresjonen lnQ på lnP har forventningsskjevhet pga simultan kausalitet
Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum
Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum
Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum
Inferens med TSLS-estimator
• 1TSLS er normalfordelt
• Statistisk inferens er lik som ved ‘vanlige’ regresjoner
• Normalfordelingsantakelsene baserer seg på store utvalg (som vanlig)
• Dette bygger på antakelsen om gyldige instrumenter
• Viktig om standardfeil:– OLS standardfeilene fra den 2. stegs-regresjonen er feil – de tar
ikke høyde for estimeringen i 1. steg.
– I stedet må man bruke programvare (annet enn Excel) som har ferdige programmerte rutiner for å beregne korrekt standardfeil for TSLS estimatoren. I praksis oversees vdenne feilen i enkle statistikkpakker som Excel
Den generelle IV-regresjonsmodellen
Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui
• Yi er den avhengige variabelen
• X1i,…, Xki er endogene forklaringsvariablene (potensielt korrelert med ui)
• W1i,…,Wri er de inkluderte eksogene forklaringsvariablene (ukorrelert med ui)
• 0, 1,…, k+r er de ukjente regresjonskoeffisientene
• Z1i,…,Zmi er instrumentvariablene (de ekskluderte eksogene variablene)
• Koeffisientene er overidentifiserte hvis m > k; eksakt identifisert hvis m = k; og underidentifisert hvis m < k.
Fremgangsmåte for estimering av generell TSLS modell
Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui
• m instrumenter: Z1i,…, Zm
• 1. stegsregresjoner– Kjør regresjon av Xi på alle de eksogen
forklaringsvariablene: W1,…,Wr, Z1,…, Zm med OLS– Beregn predikerte verdier, i = 1,…,n
• 2. stegsregresjon– Kjør regresjon av Y på de predikerte X1,…,Xk og de
ekspogene variablene W1,…,Wr med OLS– Koeffisientene fra 2. stegs-regresjonen er TSLS
estimatorene
Antakelse for IV-regresjonsmodellen
Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui
1. E(ui|W1i,…,Wri) = 0– De eksogene forklaringsvariablene er eksogene
2. (Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi) er i.i.d.
3. X’ene, W’ene, Z’ene og Y har endelige 4. momenter
4. Instrumentene (Z1i,…,Zmi) er gyldige.
• Med antakelsene 1-4 er TSLS og dens t-observator normalfordelt
Undersøke instrumenter
• Kanskje det viktigste spørsmålet knyttet til instrumentvariabelregresjon er om instrumentene våre er gyldige
Husk:1. Relevans
– Minst en av instrumentene Z må inngå i populasjonsregresjonen til X i 1. stegsregresjonen; corr(Zi,Xi) ≠ 0
2. Eksogenitet– Alle instrumentene må være ukorrelerte med feilleddet
u; corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0
Instrument relevans: svake instrumenter
Vi ser på tilfellet med en endogen forklaringsvariabel:Yi = 0 + 1Xi + 2W1i + … + +rWri + ui
1. stegsregresjon:Xi = 0 + 1Z1i +…+ mZmi + m+1W1i +…+ m+kWki + ui
• Instrumentene er relevante dersom minst en avkoeffisientene 1,…,m er ulik null.
• Instrumentene er svake dersom 1,…,m enten er null ellernærme null.
• Svake instrumenter forklarer veldig lite av variansen i X utover den som blir forklart av W’ene
Instrument relevans: svake instrumenter
• Med svake instrumenter går nevneren i 1TSLS mot null
– Nevneren er målet på corr(Zi,Xi); sZX
• I det tilfelle er TSLS estimatoren og tilhørende t-observator selv i store utvalg ikke normalfordelt
Instrument relevans: svake instrumenter
Test for svake instrumenter
1. Kjør 1.stegsregresjonen med X på Z1,..,Zm,W1,…,Wk
2. Lag en F-test der nullhypotesen er at Z1,..,Zm alle er lik null
3. Dersom F-observatoren er lavere enn 10 er settet avinstrumentvariabler svake
• Det finnes mer sofistikerte tester for svake instrumenter, men det går utover pensum for dette kurset
Eksogene instrumenter
• Instrument eksogeneitet: Alle instrumentene er ukorrelerte med feilleddet: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0
• Dersom instrumentene er korrelert med feilleddet sågreier ikke 1. stegsregresjon av TSLS å isolere den komponenten av X som er ukorrelert med feilleddet, og 2.stegs TSLS-estimator blir dermed ikke konsistent.
• Hvis der er flere instrumenter enn endogene forklaringsvariabler er det mulig å teste for instrument eksogenitet.
Eksogene instrumenter
Test for eksogene instrumenter
• Intuisjon: Dersom du har to potensielle instrumenter Z1 og Z2 som benyttes til å beregne to forskjellige TSLS estimatorer, 1
TSLS1 og 1TSLS2, vil det være rart
om disse to estimatorene er veldig forskjellige
• Enten er den ene eller den andre instrumentvariabelen ugyldig
• J-test for overidentifiserende restriksjoner gjør nettopp en slik avveining
Sigarettetterspørsel estimert med TSLS
Oppsummering IV-estimering
• IV-estimering benyttes når man har variabler med endogene forklaringsvariabler som fører til forventingsskjevhet– Utelatte variabler– Målefeil– Utvalgsproblemer (ikke representativt utvalg)– Simultan kausalitet
• Den største trusselen mot intern validitet i IV-estimering er instrument som ikke er gyldige1. Svake instrument (lav relevans)2. Endogene instrument (corr(Z, u)≠0)
Begrepsapparat for instrumentvariabler
• Endogene variabler• Eksogene variabler• Gyldige instrument
– Relevans– Eksogenitet
• Tostegs minste kvadraters metode (2SLS/3SLS)– Første- og andrestegsregresjon– Redusert form– Førstestegs F-test
• Identifikasjon– Eksakt identifisert– Overidentifisert– Underidentifisert
• Svake instrument• J-test
Repetisjon av statistikk og sannsynlighetsregning
Kapittel 1-2-3
I statistikk skiller vi mellom
• Beskrivende statistikk (eller deskriptiv statistikk):– I denne grenen av statistikk beskriver vi et statistisk
tallmateriale vha. ulike måltall som gjennomsnitt, median, varians, kovarians, korrelasjon, osv. Man gjør ikke noen antagelser om statistiske sannsynlighetsfordelinger som ligger bak de observerte tallene, eller prøver å si noe om populasjonen på grunnlaget av utvalget av data, eller predikere fremtidige verdier av en tallstørrelse på grunnlag av historiske tall.
• Statistisk inferens (eller statistisk analyse): – I denne grenen av statistikk prøver man å si noe om
populasjonen ut fra data på et utvalg (f.eks. om populasjonen av privatbilister ut fra et utvalg av bilister som har kjøpt drivstoff på Statoil-stasjoner), eller man prøver å si noe om fremtidige verdier av en tallstørrelse basert på historiske data (f.eks. om fremtidige oljepriser basert på historiske oljepriser). Man må da pålegge noen forutsetninger om sannsynlighetsfordelingen til den stokastiske variabelen, f.eks.at den er normalfordelt.
Viktige begreper som anvendes til statistisk inferens
• Populasjon, tilfeldige (stokastiske) variabler, ogfordeling
• Momenter til en fordeling (gjennomsnitt, varians, standardavvik, kovarians, korrelasjon)
• Betingede fordelinger og betingede gjennomsnitt(forventningsverdier)
• Fordeling til et datautvalg trukket tilfeldig fra en populasjon: Y1,…, Yn
Hva er økonometri?
• Når man kombinerer statistisk inferens med økonomisk teori kaller man det gjerne for økonometri
• I praksis vil økonometri som regel bety at man anvender regresjonsanalyse for å analysere relasjoner mellom økonomiske variabler
Typer data
• Tverrsnittsdata (cross-sectional data)– Data (observasjoner) for mange individer observert
over en periode
• Tidsseriedata (time series data)– Data (observasjoner) for ett individ observert over
mange perioder
• Panel data (longitudinal data)– Data (observasjoner) for mange individer observert
over mange perioder
Tilfeldige (stokastiske) variabler og sannsynlighetsfordelinger
Grunnleggende begreper fra statistikk:
• Utfall • Sannsynlighet (for utfall)• Utfallsrommet (alle mulige utfall)• Hendelse (et utvalg av utfall)• Tilfeldig variabler• Diskrete tilfeldige variabler• Kontinuerlige tilfeldige variabler
Populasjon og tilfeldig variabel
Populasjon• Gruppen eller samlingen bestående av alle mulige
enheter vi er interessert i (studenter, oljebedrifter)
• Vi vil betrakte populasjoner som uendelig store (∞ eren tilnærming til “veldig stor”)
Tilfeldig variabel Y• Numerisk oppsummering av en tilfeldig et tilfeldig
utfall (gjennomsnittlig høyde, gjennomsnittligoljeutvinning)
Sannsynlighetsfordelingen til populasjonen Y
• Sier noe om hvor sannsynlig det er et Y tar ulike verdier – eks. P[Y=1.70] som høyde for studenter
• Sannsynlighetsfordelingen blir definert ved en rekke momenter– Gjennomsnitt– Varians– Standardavvik– Kovarians– Korrelasjon– Skjevhet– Kurtosis
Sannsynlighetsfordelingen til populasjonen Y
Gjennomsnitt = forventningsverdi til Y= E(Y) = Y
= gjennomsnittlig verdi på Y vedgjentatte realiseringer av Y
Varians = E(Y – Y)2
= Y2
= mål på den kvadrerte spredningen tilsannsynlighetsfordelingen
Standardavvik = (Y2)1/2 = Y
Sannsynlighetsfordelingen til populasjonen Y
• Skjevhet =
= mål på assymetri i fordelingen• skjevhet = 0: fordelingen er symmetrisk• skjevhet > (<) 0: fordelingen har en lang høyre-
(venstre-) hale
• Kurtosis =
= mål på masse i halene= mål på sannynlighet for store verdier
• kurtosis = 3: normalfordeling• kurtosis > 3: store haler (“leptokurtotisk”)
3
3
Y
Y
E Y
4
4
Y
Y
E Y
Kovarians
• To tilfeldige variabler X og Z har en simultanfordeling(joint distribution)
• Kovariansen mellom X og Z ercov(X,Z) = E[(X – X)(Z – Z)] = XZ
• Kovariansen måler graden av lineær avhengighetmellom X og Y
• cov(X,Z) > 0 betyr en positiv relasjon mellom X og Z
• Hvis X og Z er uavhengig fordelt, så er cov(X,Z) = 0
• Kovarianse til en tilfeldig variabel med seg selv erdens varians:
• cov(X,X) = E[(X – X)(X – X)] = E[(X – X)2] = X2
Kovariansen mellom Test Score og STR (student-teacher-ratio) er negativ:
Korrelasjon
• corr(X,Z) = = rXZ
• –1 ≤ corr(X,Z) ≤ 1
• corr(X,Z) = 1 betyr perfekt positiv lineærsammenheng
• corr(X,Z) = –1 betyr perfekt positiv lineærsammenheng
• corr(X,Z) = 0 betyr ingen lineær sammenheng
cov( , )
var( ) var( )XZ
X Z
X Z
X Z
• Korrelasjons-koeffisientenmåler lineær sammenheng mellom to tilfeldige variabler
Betingede sannsynlighetsfordelinger (conditional distribution)
Betinget sannsynlighetsfordeling• Fordelingen til Y betinget på verdier til en annen
tilfeldig variabel, X• Eks: Inntektsfordeling for de som har høyere
utdanning (HU) = 3 år
Betingede forventninger og betingede momenter• Betinget forventing = gjennomsnitt til den betingede
fordelingen= E(Y|X = x)
• Betinget varians = varians til den betingede fordelingen
• Eks.: E(Inntekt|HU = 3) = gjennomsnittlig inntekt for de som har tre år med høyere utdanning
Betingede fordelinger (conditionaldistribution)
• Forskjellen i gjennomsnitt mellom to betingedefordelinger:
• = E(Inntekt|HU=3) – E(Inntekt|HU=0)
Andre eksempler på betingede gjennomsnitt:• Lønn til kvinner i arbeid (Y = timelønn, X = kjønn)• Dødelighetsraten til de som blir gitt en eksperimentell
behandling (Y = leve/dø; X = behandlet/ikkebehandlet)
• Hvis E(X|Z) = konstant, da er corr(X,Z) = 0 (men ikkenødvendigvis motsatt)
• Betinget gjennomsnitt er nært relartert tilgjennomsnittet av en gruppe (dvs. ‘vanlig’gjennomsnitt)
Sannsynlighetsfordeling til tilfeldige utvalg (random sampling)
Vi antar at vi har tilfeldige utvalg• Velger et indvidid (fylke, bedrift, elev) tilfeldig fra
populasjonen
Stokastikk og data• Før datautvelgelsen er verdien av Y tilfeldig fordi
individet vil bli trukket tilfeldig• Når individet har blitt trukket og verdien av Y er
kjent, så er Y bare et nummer – ikke stokastisk• Datasettet er (Y1, Y2,…, Yn), hvor Yi = verdien til
Y for det i’te individet (fylke, bedrift, elev) som erutvalgt
Tilfeldige utvalg: i.i.d. sannsynlighetsfordeling
• Siden individene #1 og #2 er tilfeldig utvalgt såinneholder Y1 ikke noe informasjon om Y2:
• Y1 og Y2 er uavhengig (independently) fordelt
• Y1 og Y2 kommer fra samme fordeling (samme populasjon), dvs. at Y1 og Y2 er identisk fordelt
• Det betyr at ved tilfeldige utvalg er Y1 og Y2 uavhengig og identisk fordelt (i.i.d)
• Skrevet på en mer generell måte kan vi si at {Yi}, i = 1,…, n, er i.i.d.
Dette tillater oss å bedrive statistisk inferens om fordelingen til en populasjon ved å bruke et utvalg av data fra den populasjonen
Sannsynlighetsfordelingen til et utvalg
• Når vi har et datautvalg og ønsker å si noe om hele populasjonen, så ønsker vi:
• En forventningsrett estimator av gjennomsnittet:E(Y) = Y
– Gjennomsnittet av utvalget som Y er trukket fra er lik populasjonsgjennomsnittet Y
• En konsistent estimator av gjennomsnittet:E(Y) Y når n blir stor
– Dette er store talls lov som sier at når antall observasjoner vokser går estimatet av gjennomsnittet mot populasjonsgjennomsnittet Y
Sannsynlighetsfordelingen til et utvalg
Gjennomsnitt: E(Y ) = E(1
1 n
ii
Yn ) =
1
1( )
n
ii
E Yn =
1
1 n
Yin
= Y
Varians: var(Y ) = E[Y – E(Y )]2
= E[Y – Y]2
= E2
1
1 n
i Yi
Yn
= E2
1
1( )
n
i Yi
Yn
Sannsynlighetsfordelingen til et utvalg
så var(Y ) = E2
1
1( )
n
i Yi
Yn
= 1 1
1 1( ) ( )
n n
i Y j Yi j
E Y Yn n
= 2
1 1
1( )( )
n n
i Y j Yi j
E Y Yn
= 2
1 1
1cov( , )
n n
i ji j
Y Yn
= 22
1
1 n
Yin
= 2Y
n
Sannsynlighetsfordelingen når antall observasjoner n er stor
• For små utvalg er det vanskelig å beregne fordelingen til et gjennomsnitt av Y
• For store utvalg er det enkelt!
• Når n øker blir fordelingen tettere rundt Y (store talls lov)
• Videre så konvergerer fordelingen til Y(snitt) - Ymot normalfordelingen (sentralgrenseteoremet)
Law of Large Numbers (store talls lov)
An estimator is consistent if the probability that its falls within an interval of the true population value tends to one as the sample size increases.
If (Y1,…,Yn) are i.i.d. and 2Y < , then Y is a consistent
estimator of Y, that is,
Pr[|Y – Y| < ] 1 as n
which can be written, Yp
Y
(“Yp
Y” means “Y converges in probability to Y”).
(the math: as n , var(Y ) = 2Y
n
0, which implies that
Pr[|Y – Y| < ] 1.)
Central Limit Theorem(sentralgrenseteoremet)
If (Y1,…,Yn) are i.i.d. and 0 < 2Y < , then when n is large
the distribution of Y is well approximated by a normal distribution.
Y is approximately distributed N(Y, 2Y
n
) (“normal
distribution with mean Y and variance 2Y /n”)
n (Y – Y)/Y is approximately distributed N(0,1) (standard normal)
That is, “standardized” Y = ( )
var( )
Y E Y
Y
=
/Y
Y
Y
n
is
approximately distributed as N(0,1) The larger is n, the better is the approximation.
( )
var( )
Y E Y
Y
Et standardisert gjennomsnitt av Y:
Hypotesetesting
• En hypotesetest (av gjennomsnittet) er utformetslik at vi kan ta en foreløpig beslutning basert påbevisene om en nullhypotese er sann, elleralternativt, om den alternative hypotesen ersann:
• H0: E(Y) = Y,0 vs. H1: E(Y) > Y,0 (1-sidig, >)
• H0: E(Y) = Y,0 vs. H1: E(Y) < Y,0 (1-sidig, <)
• H0: E(Y) = Y,0 vs. H1: E(Y) Y,0 (2-sidig)
Terminologi for hypotesetesting
• p-verdi = sannsynligheten for å trekke en observator (eks. Y(snitt)) som er minst like langtfra nullhypotesen som den verdien du estimertemed dataene, gitt at nullhypotesen er sann
• Signifikansnivået til en test er en forhåndsvalgtsannsynlighet av å feilaktige forkastenullhypotesen når den faktisk er sann.
• Beregning av p-verdien basert på :
p-value =
• Hvor er verdien av Y(snitt) som man faktiske observerer (ikke-tilfeldig)
0 ,0 ,0Pr [| | | |]actH Y YY Y
actY
Hypotesetesting med t-test
• I stedet for å bruke p-verdien kan vi bruke en t- testved hypotesetesting
Student t distribution• Dersom Yi, i = 1,…, n is i.i.d. N(Y), da er t-
observatoren fordelt som en Student t-fordeling med n – 1 frihetsgrader.
• Kritiske verdier tilhørende Student t-fordelingenfinnes I tabeller bak i alle statistikk/økonometri-bøker. Oppskriften:1. Beregn t-observatoren2. Beregn antall frihetsgrader, som er n – 13. Finn 5% kritisk verdi4. Dersom t-observatoren er større (i absoluttverdi) enn
den kritiske verdien forkaster vi nullhypotesen
To typer feil ved statistisk hypotesetesting
Type I feil• Nullhypotesen blir forkastet når den er sann
– Signifikansnivået sier hvor stor sannsynlighet det er for å begå type I feil
Type II feil• Nullhypotesen blir ikke forkastet når den faktisk er
usann
Størrelsen (size) til en test• Sannsynligheten for å begå type I feil
Teststyrke (power)• Sannsynligheten for at testen korrekt forkaster
nullhypotesen når den alternative er sann
Konfidensintervaller
• Et 95% konfidensintervall for Y er et intervallsom inneholder den sanne verdien av Y i 95% av gjentatte utvalg.
• Et 95% konfidensintervall kan alltid bli konstruertsom settet av verdier av Y som ikke blirforkastet av en hypotesetest med et 5% signifikansnivå.
• Beregning av 95% konfidensintervall:Y = {Y(snitt) 1.96SE(Y(snitt))
Oppsummering av det statistiske rammeverket
Vi har to grunnleggende forutsetning:1. Tilfeldige utvalg fra populasjon, som betyr at
{Yi, i =1,…,n} er i.i.d.2. 0 < E(Y4) <
Vi har gjennomgått (raskt) for store datautvalg (stor n):• Teori om estimering (sannsynlighetsfordelingen til
utvalget ) • Teori om hypotestesting (stor-n fordelingen til t-
observatoren og beregning av p-verdi)• Teori om konfidensintervaller• Er forutsetningene (1) og (2) rimelige i praksis? Ja
Tidsserieøkonometri
Kapittel 14
Hva er poenget …?
• Hva er poenget med tidsserie-modeller?
• Hvilke hovedgrupper av modeller har vi?
• Hva er hovedutfordringene ved estimering og testing?
• Hva mener vi med stasjonaritet og ikke-stasjonaritet?
Inflasjon i USA, 1960-2004 (KPI)
Arbeidsledighet i USA, 1960-2004
Tidsserievariabler – transformasjoner m.m.
• Tidslag (time lag)
• Førstedifferanse (first difference)
• Logaritme
• Indekser
• Vekstrater
Tidslag
• Dersom vi tidsforskyver en variabel, Yt, j antall perioder, kan vi omtale den som j’te lag av Yt og skrives som Yt-j
• Introduserer dynamikk i modeller– Kortsiktige og langsiktige effekter
• Dersom det er likt antall observasjoner for alle variabler vil introduksjon av j’te lag av en variabel redusere antall observasjoner med j– Dynamikk i modeller krever en del observasjoner
Hvorfor tidsetterslep?
Det økonomiske grunnlaget for tregheter
• Psykologiske grunner– Rigide preferanser (vaner)– Usikkerhet (midlertidige vs. varige endringer)
• Teknologiske grunner– Treg faktorsubstitusjon– Kapitaldannelse tar tid (likviditet)– Ufullkommen informasjon
• Institusjonelle årsaker– Kontraktmessige forpliktelser (f. eks. i riggmarkedet)– Lover og regler (f. eks. i arbeidsmarkedet)
• Dynamiske teorier– Statiske teorier kan dynamiseres, estimeres og testes
Eksempel: Konsumfunksjon
En person får en inntektsøkning på 20000 kroner per år . . .
• Gradvis opptrapping av forbruket– 8000 kr mer første året– 6000 kr i tillegg andre året– 4000 kr i tillegg i år 3
• Samlet årlig forbruksøkning– 18000 kroner– Eller 90 prosent av
inntektsøkningen
8000 kroner
6000 kroner
4000 kroner18000 kroner
Årlig forbruk
Tid
Førstedifferensen og logaritme
• Endring i Y fra periode t - 1 til t er Yt – Yt-1:
Yt = Yt – Yt-1
• Logaritme av en førstedifferanse kan tolkes som vekstrate
ln(Yt) = ln(Yt) – ln(Yt-1)
• Dvs ln(Yt) er tilnærmet lik (Yt – Yt-1)/Yt-1– Den logaritmiske approksimasjonen til vekstraten blir
mer unøyaktig dess større prosentvis endring i Yt
Førstedifferensen og logaritme
• Standardavviket vil ofte være proporsjonalt med nivået til en tidsserie– En logaritmisk transformasjon av Yt gir tilnærmet
konstant standardavvik
• Logaritmer er også nyttige for å transformere Cobb-Douglas funksjoner til lineære sammenhenger som kan estimeres med OLS
– Eksempel: Den aggregerte produktfunksjonen
Y = F(K,L) = AKL
ln(Y) = ln(A) + ln(K) + ln(L)
Autokorrelasjon
• Korrelasjon av en tidsserie med egne laggede verdier kalles autokorrelasjon eller seriekorrelasjon
• Den første autokorrelasjonen til Yt er corr(Yt,Yt–1)• Den første autokovariansen til Yt er cov(Yt,Yt–1)• Dvs
• Disse er populasjonskorrelasjonen som beskriversimultanfordelingen til (Yt, Yt–1)
1
1
11
)var()var(
),cov(),(
tt
tttt
YY
YYYYcorr
Autokorrelasjon
• Generalisering av autokorrelasjon til j’te lag til Yt
Eksempel
1. Kvartalsvis inflasjon i USA2. Førstedifferansen av kvartalsvis inflasjon
• Inflasjonsraten er sterkt autokorrelert (1 = .84)• Siste kvartals inflasjonsrate inneholder mye informasjon
om dette kvartals inflasjonsrate• Plottet er dominert av svingninger over flere år• Men der er fremdeles overraskende bevegelser
Eksempler på andre tidsserier
Eksempler på andre tidsserier
DL-, AR- og ADL-modeller
Laggede eksogene og endogene variabler
• ”Distributed lag”-modell (DL):
• Autoregressiv modell (AR)
• Autoregressiv ”distributed lag” modell (ADL):
tttt uyxy 1
tttttt uyxxxy 122110
ttttt uxxxy 22110
Restriksjoner på DL-modellen
Koeffisientene varierer systematisk over lag-strukturen
Tid
x
x
x
xx
x
x
i
0 1 2 3 4 5 6 7
x
Tid
x
x
x
x
x
x
x
i
0 1 2 3 4 5 6 7
x
Geometriske lag
Koeffisientene varierer systematisk over lag-strukturen
Tid
x
x
x
x
x x x
i
0 1 2 3 4 5 6 7
x
0
i
Tid
x
x
xx
x x x
i
0 1 2 3 4 5 6 7
x
0
i
Forenklende forutsetninger
Variabler uten trend og fravær av autokorrelasjon
• Stasjonære data
• Ingen simultanitet
• Ingen autokorrelasjon
0)|( xuE t
st
stxuuE st
,0
,)|(
2
)0(~ Ixt
-60
-40
-20
0
20
40
60
80
100
1982 1987 1992 1997 2002
OLS forutsetninger for tidsserieregresjon
1. E(ut| Y, X1,…,Xk) = 0 • hvor det kun inngår laggede verdier av de betingede
variablene Y, X1,…,Xk
2. a) De tilfeldige variablene Y, X1,…,Xk har stasjonære fordelinger og
b) (Yt, X1t,…,Xkt) og (Yt-j, X1t-j,…,Xkt-j) blir uavhengige ettersom j vokser
• weakly dependent – korrelasjon med laggede verdier avtar dess større tidsgapet blir
3. Y, X1,…,Xk har endelige fjerdemomenter• Ingen observasjoner med ekstreme verdier
4. Der er ikke noen perfekt multikollinearitet
Stasjonaritet
• er en viktig egenskap for en regresjon med tidsseriedata for å ha ekstern validitet
• Stasjonaritet sier at historien er relevant
• Vi antar stasjonære tidsserier inntil videre
Autoregressjonsmodeller (AR)
• Regresjoner av Y på laggede verdier av seg selv• Dersom p antall lag brukes omtaler vi
autoregresjonen som p’te ordens autoregresjon og skrives som AR(p)
• Førsteordens autoregresjon, AR(1):
Yt = 0 + 1Yt-1 + ut
• Her har ikke 0 og 1 en kausal fortolking• Denne modellen kan benyttes til å lage
prognoser• En test om 1 = 0 vs. 1 ≠ 0 er en test om Yt-1
kan benyttes til å lage prognoser av Yt
Prognoser og prognosefeil
• En prognose (forecast) for neste periode T+1 kan skrives som:
YT+1|T = 0 + 1YT
• Hvor 0 og 1 er estimert med historiske data fra periode 1 til T; ”in-sample” observasjoner
• ”Out-of-sample” prognosefeil er
Prognosefeil = YT+1 – YT+1|T
Mål på prognosefeil
• Root mean squared forecast error (RMSFE)
• RMSFE har to feilkilder:
1. Det ukjente stokastiske elementet ut
2. Feilanslag av 0 og 1
• Dersom den første feilkilden er mye større enn den andre er RMSFE tilnærmet lik var(ut)1/2
])ˆ[(RMSFE 2|11 TTT YYE
P’te ordens autoregresjon
• Kan også bruke flere laggede variabler i en autoregresjon:
Yt = 0 + 1Yt–1 + 2Yt–2 + … + pYt–p + ut
• Dette omtales som en AR(p) hvor AR(1) er et spesialtilfelle
• Kan bruke en F-test for å avgjøre om Yt-2,…, Yt-pbidrar til prognostikken av Yt
• Det finnes metoder for å beregne antall lag som bør inkluderes (F-test, BIC, AIC m.f.)
Distributed lag model (DL)
Laggede eksogene variabler
• Forhåndsbestemt k: ”finite distributed lag model”
• Uendelig k: ”infinite distributed lag model”:
k
ttktk
tktktttt
ux
uxxxxy
0
22110 ...
0ttktkt uxy
Distributed lag model (DL)
Virkninger på kort og lang sikt
• Effekter fordelt over tid:
• Langsiktig effekt av vedvarende endring:
it
iti
it
t
x
y
x
y
,
tktktttt uxxxxy ...22110
k
ii
k
i it
t
x
y
00
k
ii
k
i t
it
x
y
00
Ad-hoc estimering av DL-modellen
Eksempel på sekvensiell tilnærming
321
21
1
020.0022.0063.0108.032.8ˆ
055.0071.0109.027.8ˆ
064.0111.027.8ˆ
171.037.8ˆ
ttttt
tttt
ttt
tt
xxxxy
xxxy
xxy
xy
• I hvilken ende skal vi begynne estimeringen?
• Når og hvor skal vi stoppe?
Autoregressive distributed lag model (ADL)
• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:
Yt = 0 + 1Yt–1 + … + pYt–p + 1Xt–1 + … + rXt–r + ut
• p viser til antall lag for Y og q for antall lag for X
• Det kan være fornuftig å inkludere X for å øke prediksjonskraften til modellen
• Utgangspunktet er en enkel DL-modell:
• Problemstillingen er å tallfeste p• OLS gir skjeve og inkonsistente estimat dersom den
valgte lag-lengden er mindre enn den korrekte• OLS gir konsistente estimater for for konstantleddet
med (p+d) laggede verdier for x• Justert R2 er en mulig teststørrelse (men ikke veldig
vanlig):
Testing for korrekt lag-lengde
Eksempel på sekvensiell tilnærming
p
ititit uxy
0
)1(1
1 22 Rpn
nR
• Vanligere er Akaike’s (1973) informasjonskriterium:
• . . . eller Scwartz-kriteriet (som tilsvarer BIC):
• Med utgangspunkt i en maksimal lag-lengde reduseres modellen trinnvis for å minimere verdien av disse kriteriene
• Disse teststørrelsene er innarbeidet i moderne økonometriprogrammer som PC-Give og Stata
Testing for korrekt lag-lengde
Eksempel på sekvensiell tilnærming
Tp
TpAIC
2)1(ln)(
ee'
)2(ln)()(
TTp
pAICpSC
Eksempel på bruk av BIC og AIC
0.2040.9181.0466
0.2040.9061.0165
0.2040.8950.9864
0.2030.8840.9573
0.1810.9000.9552
0.0561.0301.0671
0.0001.0761.0950
R2AICBIC# Lags
Eksempel på bruk av BIC og AIC
Et tydeligere bilde
0,80
0,90
1,00
1,10
1,20
0 1 2 3 4 5 6
0,00
0,05
0,10
0,15
0,20
0,25R2 (h.a.)BICAIC
Detection of structural break
Endogenising the time point of the structural break
Chow testMoving break point
0
10
20
30
40
50
60
1995 1999 2003
0
0,2
0,4
0,6
0,8
1
Test statistic p value (rhs)
Model qualityMoving break point
100
105
110
115
120
125
1995 1999 2003
0
0,2
0,4
0,6
0,8
1
Hansen J p value (rhs)
GMM estimation with shift parameters for error-correction term and four control variables (xit = [cit, vit, rit, oit])
Ikke-stasjonaritet: Trender
• Dersom enten den avhengige variabelen eller forklaringsvariablene er ikke-stasjonære fører det til at hypotesetesting, konfidensintervaller og prognoser blir uåplitelige
• En kilde til ikke-stasjonaritet er trender
• Trender er veldig vanlig i økonomiske tidsserievariabler, fordi mange økonomiske størrelser vokser over tid
To typer trender
• Vi skiller mellom deterministiske trender og stokastiske trender
• En deterministisk trend er en ikke-tilfeldig funksjon av tid– Vanligste form er en lineær trend– For eksempel 0.1t er en deterministisk trend der for hver
tidsperiode t vokser den avhengige variabelen Y med 0.1
• En stokastisk trend varierer tilfeldig over tid– I økonomi er det ofte mer tilforlatelig å tenke på trender
som stokastiske fordi vanligvis kjennetegner endring i økonomiske størrelser med en god porsjon uforutsigbarhet
Random walk
• er den enkleste modellen av en variabel som har en stokastisk trend
• En tidsserie sies å følge en random walk dersom endringen i Yt er i.i.d:
Yt = Yt-1 + ut
• Verdien i morgen avhenger av verdien i dag pluss et tilfeldig ”steg” ut (der ut er i.i.d)
• Beste prediksjon på Yt er Yt-1. Bygger på at forventningen til ut er null (E(ut|Yt-1, Yt-2,…)=0)
Random walk med drift
• Dersom vi setter på en konstantledd i den enkle random walk modellen får vi en random walkmed drift
Yt = 0 + Yt-1 + ut
• Hvor 0 er driftparameteren som skaper en trend
• I en slik modell er best prognose for i morgen dagens verdi pluss driften 0
En random walk er ikke-stasjonær
• I en random walk vokser variansen med antall tidsperioder, slik at fordelingen til Yt endres over tid
Var(Yt) = var(u1 + u2 +…+ ut) = tu2
• En kan tenke seg at en random walk er en AR(1) der 1 = 1. I så tilfelle vil vi si at tidsserien har en enhetsrot (unit root) som i praksis betyr en stokastisk trend og at serien er ikke-stasjonær.
• Dersom 1 < 1 er tidsserien stasjonær
Problemer med stokastiske trender
1. Autoregressive koeffisienter er forventningsskjeve mot null
2. t-observatoren er ikke normalfordelt
3. Spuriøse regresjoner• Er når to tidsserier som ikke har noen relasjon
fremtrer som relaterte i en tidsserieregresjon
• En vanlig måte å gjøre en serie med en stokastisk trend stasjonær, slik at vi kan bruke standard OLS, er å ta første differansen av serien, Yt
Oppsummering
• Hva er poenget med tidsserie-modeller?
• Hvilke hovedgrupper av modeller har vi?
• Hva er hovedutfordringene ved estimering og testing?
• Hva mener vi med stasjonaritet og ikke-stasjonaritet?
Eksamen økonometri MØA145Fredag 22. februar 2008, kl 0900-1300
Emneansvarlig: Sigbjørn Tveterås (telefon 33757 og 97535064)Tillatte hjelpemidler: Alle kalkulatorer
Oppgave 1 (10 poeng)Du har følgende 15 observasjoner for kjøttproduksjon (Y) i kilo og bruken av dyrefór (X) i kilo:Y 0,58 1,1 1,2 1,3 1,95 2,55 2,6 2,9 3,45 3,5 3,6 4,1 4,35 4,4 4,5X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
a) Bruk OLS til å estimere 1 og 2 i produksjonsfunksjonen tt10t uXββY hvor u er
feilleddet. For å forenkle utregningene kan du benytte120 tX , 12402 tX , 08,42 tY , 53,418 tt YX
b) Gi en økonomisk fortolkning av de estimerte parametrene.
Oppgave 2 (10 poeng)Du tror den økonomiske sammenhengen mellom Y og X er tt10t uXββY , og du estimerer
regresjonsmodellen tt10t uXββY ˆˆˆ .
a) Er 1 en tilfeldig variabel? Forklar.c) Er Yt en tilfeldig variabel? Forklar.
d) Er 0β en tilfeldig variabel? Forklar.
Oppgave 3 (20 poeng) a) Hva er utelatt variable forventningsskjevhet?b) Hvilke typer utelatte variabler kan ‘fixed effect’ paneldata modeller redegjøre for?c) Du ønsker å estimere modellen tiit1it uXβY , hvor i er en individfast effekt.
Kan du kort forklare to ekvivalente teknikker for å estimere denne ‘fixed effect’modellen når du benytter et panel med n individer og t tidsperioder, når t > 2.
Oppgave 4 (20 poeng)For å teste hypotesen om at en økning i energiprisen fører til en reduksjon i produksjonen gitt de eksisterende kapital- og arbeidskraftsressursene estimerte John A. Tatom den følgende produksjonsfunksjonen for USA ved bruk av kvartalsvise data for perioden 1948 til 1978:
ln(Y/K) = 1,55 + 0,71ln(L/K) – 0,11ln(Pe/P) + 0,0045t (16,33) (21,69) (-6,42) (15,86)
hvor Y er realproduksjon, k er et mål på bruken av kapital, L er arbeidskraft malt i timer, Pe er en produsentpris på energi, P er en produsentprisindeks på andre innsatsfaktorer, og t er tid. Tallene i parentesene er t verdier.
a) Støtter resultatene hypotesen til forskeren?b) Mellom 1972 og 1977 økte den relative prisen på energi, Pe/P, med 60 prosent. Fra den
estimerte regresjonsfunksjonen, hva er det korresponderende tapet i produksjon (Y/K)?c) Hvordan vil du fortolke den estimerte koeffisientverdien 0,71 til ln(L/K)?
d) Etter at man har kontrollert for endringer i (L/K) og (Pe/P), hva har vært den årlige prosentvise endringer vekstraten i produktiviteten i utvalgsperioden?
Oppgave 5 (20 poeng)a) Når kan det være nyttig med instrumentvariabelregresjon?b) Forklar de to betingelsene som må være oppfylt for å ha et gyldig instrument?c) Hvordan vil et svakt instrument påvirke TSLSβ1 estimatoren?d) Beskriv en testprosedyre for svake instrumenter.
Problem 6 (20 points)a) Forklar kort hva som menes med autokorrelerte feilledd u i en tidsserieregresjon?b) Hvorfor kan autokorrelerte feilledd være et problem?c) I en ‘random walk’ modell er ikke residualene svakt avhengige (weakly dependent).
Hva er ment med svakt avhengige residualer u?d) Svak avhengighet er en av to antakelser i tidsserieregresjon som erstatter den
tradisjonelle i.i.d. antakelsen i OLS estimering. Hva er denne andre antakelsen?Forklar.
Vedlegg 1
Noen av disse formlene kan kanskje være til hjelp.
Forkortelser:ESS = explained sum of squares SSR = sum of squared residuals TSS = total sum of squares
TSS
SSR
TSS
ESSR 12
1
kn
SSRSER
XY 10
n
ii
n
iii
XX
XXYY
1
2
11
)(
))((
)βSE(
ββt
1
1,01
ˆ
ˆ
)1/()1(
/)(2
22
restrictededunrestrict
restrictededunrestrict
knR
qRRF
MØA 145 Økonometri,Høst 2009
Foreleser: Professor Frank Asche (FA), D-429, [email protected]
Klaus Mohn (KM)
Kristoffer Eriksen (KE)
Forelesningstid: Mandag 08.15-10, AR G-202 (Bortsett fra når det er spesielt annonsert,
vil denne forelesningen begynne klokken 09.15)
Mandag 10.15-12.00 AR V-102. Etter at forelesningen er ferdig (10
eller 11) vil det etter behov være datalab
Onsdag 08.15-10, AR G-101
Planlagte forelseningsdager
24.08.09, 09.15 Kapittel 4 (FA) Ingen datalab
26.08.09, 08.15 Kapittel 5 (FA)
31.08.09, 09.15 Kapittel 6 (FA)
02.09.09, 08.15 Kapittel 7(FA)
07.09.09, 08.15 Merk tiden Kapittel 8 (KM) Ingen datalab
09.09.09, 08.15 Kapittel 9 (FA)
14.09.09, 09.15 Kapittel 10 (FA)
16.09.09, 08.15 Ingen forelesning
21.09.09, 09.15 Kapittel 11 (FA)
23.09.09, 08.15 Kapittel 12 (FA)
28.09.09, 08.15 Merk tiden Kapittel 14 (KM) Ingen datalab
30.09.09, 08.15 Kapittel 13 (KE)
05.10.09, 09.15 Kapittel 13 (KE)
07.10.09, 08.15 Kapittel 15 (FA)
12.10.09, 09.15 Kapittel 16 (FA)
14.10.09, 08.15 Oppsummering (FA)
Eventuelle endringer vil bli annonsert på It’s Learning. Hvis nødvendig vil det også bli flere
forelesninger.
Obligatorisk oppgave, MØA 145
Oppgaven skal leveres senest mandag 26.oktober klokken 12. Det kan gjøres skriftlig i min posthylle i administrasjonen på det teknisk naturvitenskapelige fakultet eller elektronisk ved å sende mail til [email protected]. Den innelverte oppgaven må inneholde både en tekst med oppgaveløsning og utskrift fra den programvaren hvor regresjonene ble kjørt (Excel eller annet økonometriprogram).
Datasettet Økonometritrålere.xls inneholder følgende informasjon om norske ferskfisktrålere:
År=fangstårID = Identifikasjonskode for fartøyFylke= F=Finmark, T=Troms, N=Norland, M=Møre og RomsdalBRT=fartøysstørrelseDøgn i sjøen= Antall døgn fartøyet var aktivtTorskekvantum=Antall kilo fanget av torskTorskeverdi=Verdi torskefangst i kronerSeikvantum=Antall kilo fanget av seiSeiverdi=Verdi seifangst i kronerAnnenkvantum=Antall kilo fanget av annen fiskAnnenverdi=Verdi fangst annenfisk i kroner
Totalverdien R kan finnes som summen av fangsverdien for de forskjellige artene. Pris kan finnes som verdi delt på kvantum.
Et innsatsmål, e, som skal benyttes her er døgn i sjøen multiplisert med fartøysstørrelse i brt.
I det følgende denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.
La bokstaven t være torsk, s være sei og a annen fisk, og p være prisene
Estimer inntekstsfunksjonen
r=b0+b1tp+b2sp+b3ap+b4e
Tolk resultatene. Diskuter hver enkelt variabels og ligningens forklaringskraft.
Test hypotesene
1) b1=b2=b3=b4=0
2) b1=b2=b3=0
3) b1+b2+b3=1
Vi antar så at det er systematiske regionale forskjeller. Generer og benytt dummyene for fylke til å estimer modellen med slike effekter;
Test hypotesen om at det ikke er systematiske regionale forskjeller.
Anta så at det er ikke er systematiske regionale forskjeller, men at det er systematiske tidsforskjeller. Generer og benytt dummyene for år til å estimer modellen med slike effekter;
Test hypotesen om at det ikke er systematiske tidsforskjeller.
Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter.
Tolk resultatene.
Test hypotesene om at det ikke er a) Systematiske regionale b) Systematiske tidsforskjeller forskjellerc) Systematiske regionale eller systematiske tidsforskjeller forskjeller
Test så hypotesene
A) b1=b2=b3=0
B) b1+b2+b3=1
Hvilken modell mener du er den beste?
OppgaveOppgavene bygger på data fra et eksperiment som undersøker investeringsbeslutninger og evalueringshyppighet. Deltakerne er 50 finansrådgivere fra sparebanken1 SR-bank. Instruksjoner for eksperimentet finner dere som dokumentet InstruksjonerFinAdv.doc. Her finner dere instruksjonene for kontrollgruppen (hyppig evaluering av lotteriutfall) og for treatment-gruppen (sjelden evaluering av lotteriutfall). I denne oppgaven skal dere estimere innsatsen i lotteriet. Bruk datasettet FinAdv.xls. Datafilen viser variabelen (bet), som gir gjennomsnitts innsats i lotteriet i hver bolk av tre perioder (periode 1-3, 4-6 og 7-9) målt i kroner for de to gruppene. I tillegg er der oppgitt
Dummy for deltakelse i treatment-gruppen (infrequent=1) Dummy for kjønn, (male=1) Alder (age). Bolk, angir hvilken treperiodebolk variabelen (bet) er fra. (bolk=1 for periode 1-3,
bolk=2 for periode 4-6 og bolk=3 for periode 7-9. Deltaker ID, (subject)
Anta at verdiene til (bet) er uavhengige. a) Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) i hhv.
treatment-gruppen og kontrollgruppen.b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er
deltakelse i treatment-gruppen.c) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er
deltakelse i treatment-gruppen i første regresjon og deltaklese i treatment-gruppen,alder og kjønn i andre regresjon. Presenter resultatene fra modellene i oppgave b og c i en tabell.
d) Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Kommenter.
e) Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet; ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig? Kommenter.
f) Gjør en test for om treatment-variabelen er tilfeldig fordelt.
Oppgaver fra boken
Flere har spurt etter hva jeg mener er de beste oppgaveforslagene i boken. Under følger en liste for de kapitlene vi har gått igjennom. Jeg har per i dag ikke noen fasit på oppgavene, men forsøker å få tilgang til det fra forlaget.
Kappittel 4
4.1, 4.2, 4.3, 4.6, 4.9
Kapittel 5
5.2, 5.4, 5.5, 5.6, 5.7
Kapittel 6
6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.9
Kapittel 7
7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8 a, 7.8 c, 7.9, 7.10
Kapittel 8
8.2, 8.3, 8.4, 8.6, 8.7
Kapittel 9
9.1, 9.3, 9.5, 9.7, 9.8, 9.9