331
Økonometri Løsningsforslag a) Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) for hhv. treatment-gruppen og kontrollgruppen. Treatment Group Control Group bet age bet age Mean 68.6 41.2 47.8 40.7 St.dev 30.2 10.5 29.8 8.5 # obs. 78 72 b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen. c) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen, alder og kjønn. Presenter resultatene fra de to modellene i oppgave b og c i en tabell. Avhengig Variabel: bet Modell 1 Modell 2 Infrequent 20,79*** 20,95*** [4,90] [4,95] Age -0,32 [0,26] Male 0,07 [4,95] constant 47,78*** 60,58*** [3,54] [11,32] # obs. 150 150 R2-adj. 0,10 0,10 Note: *: p>0,10 , **:p>0,05, ***:p>0,01.

Møa 145

Embed Size (px)

Citation preview

Page 1: Møa 145

Økonometri Løsningsforslag

a)Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) for hhv. treatment-gruppen og kontrollgruppen.

Treatment Group Control Groupbet age bet age

Mean 68.6 41.2 47.8 40.7St.dev 30.2 10.5 29.8 8.5# obs. 78 72

b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen.

c)Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen, alder og kjønn. Presenter resultatene fra de to modellene i oppgave b og c i en tabell.

Avhengig Variabel: bet

Modell 1 Modell 2

Infrequent 20,79*** 20,95***

[4,90] [4,95]

Age -0,32

[0,26]

Male 0,07

[4,95]

constant 47,78*** 60,58***

[3,54] [11,32]

# obs. 150 150

R2-adj. 0,10 0,10

Note: *: p>0,10 , **:p>0,05, ***:p>0,01.

Page 2: Møa 145

d)Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Hva tyder dette på?

Den estimerte betaen synes ikke å lide av forventningsskjevhet. Estimatet til (infrequent) fra modell 1 er tilnærmet likt estimatet i modell 2. Dersom Treatment-variabelen er tilfeldig fordelt vil OLS-estimatoren for (infrequent) være lik i de to modellene, og eksperimentet virker å være robust (ikke problemer med intern validitet)

e)Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet;ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig?

Dersom i) de utelatte variablene (alder og kjønn) er korrelert med innsats i lotteriet (bet) og ii) de utelatte variablene gir forklaring til den avhengige variabel, vil en modell med data fra et eksperiment der treatment ikke er tilfeldig fordelt bryte antagelsen om 0| ii XuE , og

OLS-estimatet vil være forventningsskjevt.

f)Gjør en test for om treatment-variabelen er tilfeldig fordelt.

Dersom treatmenten er tilfeldig fordelt vil (infrequent) være ukorrelert med observerbare individuelle karakteristikker. Hypotesen om at treatment er tilfeldig fordelt kan testes ved å teste om koeffisientene til alder og kjønn er null i en regresjon hvor treatment er avhengig variabel.

Page 3: Møa 145

Datalab 21.09.09

Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i filen miljømerkemedløsninger.xls.

Datasettet Miljømerke.xls inneholder informasjon om kjøp av miljømerket fisk. Variablene er som følger:

Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne

Estimer modellene

Pr(Kjøp=1)= a+b*Pris

og

Pr(Kjøp=1)= a+b*Medlem

Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?

Modell 1.Ark 4. Med en p-verdi på 0.039 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.

I ruten B21 regnes sannsynligheten for at en respondent kjøper miljømerket fisk med gjennomsnittsprisen. Den er 0.378 eller 37.8%

Modell 2.Ark 5. Med en p-verdi på 0.001 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes.

I ruten B20 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.174 og lik konstantleddet i rute b17.

I ruten B21 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.714.

Estimer så modellen

Pr(Kjøp=1)= a+b1*Pris+b2*Medlem

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Page 4: Møa 145

Ark 6. Med en p-verdi på 0.002 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med en p-verdi på 0.114 kan nullhypotesen om at prisen påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.

I ruten B22 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

I ruten B23 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.682.

Estimer så modellen

Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Ark 7. Med en p-verdi på 0.005 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med p-verdier på 0.090 og 0,083 kan nullhypotesen om at prisen og kjønn påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% men ikke på et 10% signifikansnivå.

I ruten B22 regnes sannsynligheten for at menn som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

I ruten B23 regnes sannsynligheten for at menn som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.525.

I ruten B24 regnes sannsynligheten for at kvinner som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.341.

I ruten B25 regnes sannsynligheten for at kvinner som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.

Ny kolnne, inter i datasettet, ark 1. Resultater fra regresjonen i Ark 8

Page 5: Møa 145

Datalab 21.09.09

Datasettet Miljømerke.xls inneholder infromasjon om kjøp av miljømerket fisk. Variablene er som følger:

Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne

Estimer modellene

Pr(Kjøp=1)= a+b*Pris

og

Pr(Kjøp=1)= a+b*Medlem

Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?

Estimer så modellen

Pr(Kjøp=1)= a+b1*Pris+b2*Medlem

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Estimer så modellen

Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.

Page 6: Møa 145

Datalab 14.09.09

Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i artket Datalab 14.09.09.xls. Jeg sletter kolonnene i det opprinnelige datasettet for seriene på nivåform, for days at sea og for år 2006

Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.

Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)

En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

Estimer kostnadsfunksjonen

A) c=a0+b1q+b2fp+b3w+b4brt

Outputten fines i Ark 1

Test hypotesene

1) b1=b2=b3=b4=0

Dette er F-statistikken i rute E12. F12 gir p-verdi some er et svært lite tall. Følgelig forkastes nullhypotesen.

2) b2=b3=b4=0

Her må vi først kjøre den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1qOutputten fines i Ark 2

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B25 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).

Dette gir en F-statistikk på 692,4. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er

Page 7: Møa 145

antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 692,4>2,60 kan vi forkaste nullhypotesen om at b2=b3=b4=0

3) b3=0, b4=0

Fremgangsmåten er her som over.

Vi kjørr først den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1q+b2fpOutputten fines i Ark 3

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B26 i Ark 1). q=antall restriksjoner som er 2, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).

Dette gir en F-statistikk på 785,1. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 2 er kritisk verdi 3.00. Da 785,1>3.00 kan vi forkaste nullhypotesen om at b3=b4=0

4) b2+b3=1

Her må vi først transformere modellen for å kunne estimere modellen med restriksjonen pålagt. En alternativ formulering av restriksjonen er

b3=1-b2Ved å sette dette inn i den opprinnelige ligningen får vi

c=a0+b1q+b2fp+(1-b2)w+b4brtLøser opp parantesen

=>c=a0+b1q+b2fp+w-b2w+b4brtFlytter w over på venstresiden, og samler termene hvor b2 inngår

=>c-w=a0+b1q+b2(fp-w)+b4brtFor å kunne kjøre denne regresjonen må vi generere de nye variablene c-w og fp-w. Dette er gjort i kolonnnene T til W i dataarket sammen med de opprinnelige q og brt variablene, hvor lcostr=c-w og lfuelpr=fp-w.

Kjører så regresjonen på disse variablene (kolonne T er y-variabel og kolonnen U-W er x-variablene). Outputen er i Ark 4.

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B27 i Ark 1). q=antall restriksjoner som er 1, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4), og R2 fra den begrensede regresjonen er 0.815.

Dette gir en F-statistikk på 568,9. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 1 er kritisk verdi 3.84. Da 568,9>3.84 kan vi forkaste nullhypotesen om at b2+b3=1

Page 8: Møa 145

Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

B) c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn

Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til K er uavhengige variabler.

Test hypotesen om at det ikke er systematiske regionale forskjeller.

Modellen med regionale dummier er mer generell enn modellen uten. Modell B) er følgelig den ubegrensede regresjonen, mens modell A) er den begrensede regresjonen. Nullhypotesen er at

cF=cT=cN=0

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B29 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 7variabler i den ubegrensede regresjonen (k=7).

Dette gir en F-statistikk på 3.01. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 3.01>2.60 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå (men ikke på et 1% nivå.

Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn+D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005

Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til R er uavhengige variabler.

Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B30 i Ark 1). q=antall restriksjoner som er 10, n er antall observasjoner (252), og det er 14variabler i den ubegrensede regresjonen (k=14).

Dette gir en F-statistikk på 8.67. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 1.83. Da 8.67>1.83 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.

Page 9: Møa 145

Test b2+b3=1

For å gjennomføre denne testen benytter vi de samme variablene som i tilsvarende begrensede regresjon over, men benytter også de forskjellige dummiene. Den begrensede regresjonen kjøres følgelig ved å benytte kolonne T som avhengig variabel, og kolonnene U til AG som uavhengige variabler.

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B31 i Ark 1). q=antall restriksjoner som er 1, n er antall observasjoner (252), og det er 14variabler i den ubegrensede regresjonen (k=14).

Dette gir en F-statistikk på 618.5. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 3.84. Da 618.5>3.84 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.

Page 10: Møa 145

Datalab 14.09.09

Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.

Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)

En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

Estimer kostnadsfunksjonen

c=a0+b1q+b2fp+b3w+b4brt

Test hypotesene

1) b1=b2=b3=b4=0

2) b2=0, b3=0, b4=0

3) b3=0, b4=0

4) b2+b3=1

Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn

Test hypotesen om at det ikke er systematiske regionale forskjeller.

Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn +D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005+D8d2006

Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller

Page 11: Møa 145

Test b2+b3=1

Page 12: Møa 145

Eksamen økonometri MØA145 Onsdag 25. februar 2008, kl 0900-1300

Emneansvarlig: Sigbjørn Tveterås

Tillatte hjelpemidler: Alle kalkulatorer

Oppgave 1 (15%)

Forklar kort følgende begreper knyttet til multivariat regresjonsanalyse

a) p-verdib) Perfekt multikollinaritetc) Imperfekt multikollinaritetd) Heteroskedastisitete) Justert R2

Oppgave 2 (20%)

a) Anta at du har tverrsnittsdata som du skal analysere ved bruk av multivariat regresjonsanalyse. Hva er de fire forutsetninger som må være oppfylte for at minste kvadraters metode (OLS) skal ha de rette statistiske egenskapene som estimator for β’ene i følge Stock og Watson (læreboken)?

b) Forklar kort betydningen av hver av forutsetningene og hva som er konsekvensen hvis de blir brutt for OLS estimeringen.

Oppgave 3 (25%)

I et forsøk på å bestemme om deltakelse på forelesninger forbedret karakterene til studentene utviklet David Roemer følgende likning

ai = f(X

1i, X

2i)

hvor ai er karakteren til student i (behandlet som en kontinuerlig variabel), X

1 er andelen av

forelesninger studenten deltar på, og X2 er andelen oppgavesett som studenten løser. Den beste

oppnåelige karakteren er 1,0 og den verste er 6,0. Vi estimerte regresjonsligningen for et økonometrikurs og fant

âi = 4,50 – 1,50X

1i – 0,60X

2i. R

2

= 0,33.

a) Tilsvarer de estimerte resultatene dine forventninger? Forklar.b) For å få en bedre forståelse av størrelsen på de estimerte koeffisientene antar vi at der er

25 timer med forelesninger i et semester og at det tar omtrent 50 timer å løse oppgavesettene i et semester. Anta at en student kun har en ekstra time å bruke på økonometri og ønsker å maksimere effekten på hans eller hennes karakter. Bør studenten bruke en ekstra time på forelesninger eller bruke en ekstra time på å løse oppgavesettene?

c) Vil svaret ditt i deloppgave b) bli annerledes dersom der var 50 timer forelesning og det tar i gjennomsnitt 10 timer for en student å løse alle oppgavesettene?

d) Hva menes med R2

= 0.33?

Page 13: Møa 145

e) Er det sannsynlig at det kun er tilstedeværelse på forelesninger og oppgaveløsing som påvirker karakteren du får på kurset? Forklar.

Oppgave 4 (20%)

Anta at du i 1990 ble hyret inn av helsevesenet i USA for å studere faktorer som påvirker røykeatferd i befolkningen. Du estimerer den følgende modellen basert på data fra 1988 hvoralle 50 stater er inkludert (standardfeil rapportert i paranteser)

(3,0) (1,0) (0,04) (1,0) (0,5)

hvor y er daglig konsum av sigaretter per person (antall sigaretter per person) i stat i, x1 er gjennomsnittlig antall år med utdanning for personer over 21, x2 er gjennomsnittlig inntekt (i 1000 US$), x3 er skatteavgift per sigarettpakke (i cents), x4 er antall TV-annonser mot røyking, og x5 er antall radioannonser mot røyking.

a) Hvilke parametere er signifikant forskjellig fra null på 5% nivå? Har disse parametrene de forventede fortegnene?

b) En av grunnene for å estimere regresjonslikningen er for å analysere om annonsekampanjer mot røyking på TV og radio er effektivt. Var TV- og radiokampanjene effektive? Anta at kostnaden for en TV annonse er ti ganger høyere enn en radioannonse. Basert på resultatene fra modellen, ville du heller ha kjørt 1 TV annonse i stedet for 10 radioannonser?

c) I forhold til problematikk med irrelevante variabler, på den ene siden, og utelatte variabler, på den andre, ser du noe som kan eller bør justeres med modellen?

Oppgave 5(20%)

a) Hvilke metoder kan du benytte for å bestemme hvor mange lag du skal inkludere i en autoregressiv (AR) modell? Med andre ord hvordan bestemme hvor stor p skal være i AR(p)?

b) Anta du skal lage en prognosemodell basert på en autoregressiv distributed lag modell (ADL). Hvilken test kan du benytte for å bestemme om du bør inkludere laggede verdier av en variabel X1 i modellen?

c) Hva kjennetegner gjennomsnitt, varians og autokorrelasjoner til en tidsserievariabel som følger en stasjonær prosess?

d) Anta en autoregressiv modell av første orden AR(1):

Er denne AR(1) prosessen stasjonær dersom ? Og hvis ? Forklar.

Page 14: Møa 145

Kapittel 4Lineær regresjon med en

forklaringsvariabel

MØA145

Page 15: Møa 145

Hva er økonometri?

• Definisjon: Bruk av statistikk og økonomisk teori til åanalysere økonomiske data

• Hva er effekten av høyere utdanning på inntekt?

• Hvordan vil økt rente påvirke valutakursen?

• Hva er effekten av økte miljøavgifter på bensin på drivstofforbruket?

• Kvantitative spørsmål som gir kvantitative svar

Page 16: Møa 145

Kausale effekter

• Ideelt sett ønsker vi å utføre eksperiment for å avdekke kausale effekter mellom økonomiske variabler

• Kausalitet betyr at en spesifikk handling (mer utdanning) leder til et spesifikt, målbart resultat (høyere inntekt)

• I et eksperiment har man en forsøkgruppe og en kontrollgruppe, slik at man kan sammenligne resultatene (de kausale effektene) av en behandling på de to gruppene

• Imidlertid må vi i økonomiske analyser som oftest nøye oss med observerte data

Page 17: Møa 145

Datatyper

• Eksperimentelle data• Observerte data

– Tverrsnittsdata (cross-sectional data)• Data (observasjoner) for mange individer observert over en

periode

– Tidsseriedata (time series data)• Data (observasjoner) for ett individ observert over mange

perioder

– Panel data (longitudinal data)• Data (observasjoner) for mange individer observert over

mange perioder

Page 18: Møa 145

Betingede fordelinger

• Anta vi har to tilfeldige (stokastiske) variabler, X og Y, som er relatert

• Tilfeldige variabler vil si variabler som kan ta ulike tilfeldige verdier

• Anta videre at sannsynlighetsfordelingen til Y kan uttrykkes som betinget på X, Pr(Y = y | X = x)

• Dersom der ikke er noen sammenheng mellom Y og X så er den betingede fordelingen Pr(Y = y | X = x) = Pr(Y = y)

• Regresjonsanalyse bygger på betingede fordelinger

Page 19: Møa 145

Regresjonsanalyse

• Mer generelt kan vi si at regresjonsanalyse er studie av hvordan en økonomisk størrelse avhenger av en annen – BNP i Norge avhenger av oljepris

– Utgifter til konsum avhenger av inntektsnivå

– Lønn avhenger av utdannelse

• Regresjonsanalyse er det mest sentrale verktøyet i økonometri, og OLS (ordinary least squares), eller minste kvadraters metode på norsk, er den mest brukte estimatoren

Page 20: Møa 145

Lineær modell

• En eksakt lineær sammenheng mellom to variabler kan beskrives som

1) Y = 0 + 1X

• Y er den avhengige variabelen (dependent variable)• X er forklaringsvariabelen (independent variable, regressor)• 0 er en konstant (intercept)• 1 er helningskoeffisienten (slope)

• Anta at 0 = 5 og 1 = 2

• Ved å sette inn for ulike verdier av X får vi følgende graf:

Page 21: Møa 145

Lineær modell

0

5

10

15

1 2 3 4 5 6

X

Y

Page 22: Møa 145

• Statistiske sammenhenger er ikke eksakte som i forrige eksempel

• La oss i stedet anta at sammenhengen mellom Y og X er lineær i statistisk forstand, dvs. ikke eksakt

• Vi kan da modifisere ligningen:

2) Y = 0 + 1X + u

• u er feilleddet (error term) som tillater at den lineære sammenhengen ikke er eksakt

Lineær modell

Page 23: Møa 145

Lineær modell

0

5

10

15

1 2 3 4 5 6

X

Y

Page 24: Møa 145

Lineær modell

• Anta at det er 1/3 sannsynlighet for at Y tar en av de tre verdiene assosiert med hver verdi av X. Fordelingen av mulige Y-verdier er dermed betinget av X.

– hvis X = 3 er sannsynligheten for at Y tar hver av verdiene 7, 9 eller 11 lik 1/3. Forventningsverdien av Y blir da:

• Regresjonslinjen skjærer gjennom alle forventningsverdiene til Y for de kjente verdiene av X

• Feilledet består av utelatte faktorer, eller muligens målefeil i beregningen av Y. Generelt er disse utelatte faktorene andre variabler enn X som påvirker Y

911)3/1(9)3/1(7)3/1(][ YYE

Page 25: Møa 145

Lineær regresjon med enforklaringsvariabel

• Lineær regresjon tillater oss å estimere og gjøre inferens påpopulasjonsparametere (slik som helningskoeffisienten b1). – Vårt mål er å estimere kausale effekter på Y av en enhets endring i X, men

foreløpig bare tenk på problemet med å finne en lineær sammenheng basert på data av to variabler, Y og X.

• Statistisk inferens betyr å si noe om hele populasjonen basert på et datautvalg

Page 26: Møa 145

Statistisk inferens vedrørende helningskoeffisienten 1 innebærer

• Estimering:– Hvordan finne helningskoeffisienten (Vårt svar: OLS,

men det finnes mange andre metoder).

• Hypotese testing:– Hvordan teste om helningen er lik null?

• Konfidensintervall:– Hvordan konstruere et konfidensintervall for

helningskoeffisienten?

Page 27: Møa 145

Lineær regresjonsanalyse

Test score

STR

Regresjonslinjen for populasjonen:

Test Score = 0 + 1STR

1 = helningen til regresjonslinjen

=

= endring i resultater (test score) for en enhets endring i student/lærer-forholdet (STR)

Hvorfor er 0 og 1 “populasjons-”parametere?Vi ønsker å vite den (sanne) populasjonsverdien av 1.Vi kjenner ikke den sanne 1, så vi må estimere den ved å bruke data

Page 28: Møa 145

Feilleddet ui blir målt som avstanden til regresjonslinjen

Page 29: Møa 145

Minste kvadraters metode (OLS)

Hvordan kan vi estimere 0 og 1 fra data?

Gjennomsnittet Y er estimatoren for Y: Y løser,

2

1

min ( )n

m ii

Y m

Analogt, så vil vi fokusere på minste kvadraters metode (OLS)

estimatoren for de ukjente parametrene 0 og 1, som løser,

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X

Page 30: Møa 145

Minste kvadraters metode

• Som navnet ’minste kvadraters metode’ antyder gir teknikken den minste summen av de kvadrerte feilleddene. Summen av feilleddene forkortes som SSR (Sum ofSquared Residuals)

2]ˆ[ ii YYSSR

210 )]([ ii XbbYSSR

Page 31: Møa 145

OLS estimatorenRegresjonslinjen for populasjonen: Test Score = 0 + 1STR

1 = Test score

STR

= ??

Page 32: Møa 145
Page 33: Møa 145

Resultatene fra California datasettet caschool.xls

Estimert helningskoeffisient = 1 = – 2.28

Estimert konstantledd = 0 = 698.9

Estimert regresjonslinje = Test Score = 698.9 – 2.28 x STR

Page 34: Møa 145

Fortolkning avregresjonsresultatene

Test Score = 698.9 – 2.28 x STR

Distrikter med en mer elev per lærer har i gjennomsnitt test resultater som er

2.28 poeng lavere.

Dvs., Test score

STR

= –2.28

Konstanten betyr at i følge den estimerte linjen så vil distrikter med null

studenter per lærer ha et predikert test resultat på 698.9.

Denne fortolkningen gir begrenset mening – den ekstrapolerer linjen utenfor

dataområdet – så i dette tilfeller er ikke konstanten meningsfull i økonomisk

forstand.

Page 35: Møa 145

Prediksjon og feilledd

• Prediksjon består i å beregne Y gitt verdier av X og de estimerte parametrene 0 og 1 fra OLS

• Et av distriktene i datasette caschool.xls er Antelope, CA, hvor STR = 19.33 og Test Score = 657.8

• Predikert verdi: Y^ = 698.9 – 2.28 x 19.33 = 654.8

• Feilledd: u^ = Y – Y^ = 657.8 – 654.8 = 3.0

Page 36: Møa 145

Vurdering av regresjonen

• Et naturlig spørsmål er hvor bra regresjonslinjen ”passer” eller forklarer dataene. Der er to statistiske mål som gir komplementære mål for kvaliteten på forklaringskraften:

• Determinasjonskoeffisienten, R2, fra regresjonen måler andelen av variansen til Y som blir forklart av X; denne strekker seg fra null (ingen forklaringskraft) til en (perfekt forklaringskraft)

• Standardfeilen, SER, (standard error of the regression) til regresjonen måler størrelsen på et typisk feilledd fra regresjonen i Y sine enheter.

Page 37: Møa 145

Gjennomsnitt, faktiske og predikerteverdier av Y

300

350

400

450

500

550

600

650

10 30 50 70 90 110 130

Statens oljeinntekter (mrd. kr)

Sta

ten

s u

tgif

ter

(mrd

. kr)

Uforklart avvik

Forklart avvik

Totalt avvik

Page 38: Møa 145

R2 er andelen av variansen i Yi som blir forklart av regresjonen.

Yi = iY + ˆiu = OLS prediksjon + OLS feilledd

var (Y) = var( iY ) + var( ˆiu )

sum av kvadrerte totale avvik (TSS) = sum av kvadrerte “forklarte” avvik (ESS)

+ sum av kvadrerte “uforklarte” avvik (SSR)

Definisjon av R2: R2 = ESS

TSS =

2

1

2

1

ˆ ˆ( )

( )

n

iin

ii

Y Y

Y Y

=1-SSR/TSS

R2 = 0 betyr at ESS = 0

R2 = 1 betyr at ESS = TSS

0 ≤ R2 ≤ 1

For regresjon med en enkel X, R2 = den kvadrerte korrelasjonkoeffisienten mellom X og Y

Page 39: Møa 145

Standardfeilen til regresjonen(SER)

SER måler spredingen i distribusjonen til u. SER er estimatet av

standardavviket til OLS feilleddet:

SER = 2

1

1ˆ ˆ( )

2

n

ii

u un

= 2

1

2

n

ii

un

(Den andre likheten holder fordi u = 1

n

ii

un = 0).

Page 40: Møa 145

SER = 2

1

2

n

ii

un

SER:

har enhetene til u, som er enhetene til Y

måler den gjennomsnittlige “størrelsen” på OLS feilleddene

(den gjennomsnittlige “feilen” som blir lagt av OLS

regresjonslinjen)

Root mean squared error (RMSE) er nært relatert til SER:

RMSE = 2

1

n

ii

un

Denne måler det samme som SER – den lille forskjellen er

divisjon med 1/n i stedet for 1/(n–2).

Page 41: Møa 145

Eksempel på R2 og SER

TestScore = 698.9 – 2.28 x STR, R2 = .05, SER = 18.6

• STR forklarer bare en liten andel av variasjonen i testresultatene. Gir dette mening? Betyr dette at STR ikke er viktig?

Page 42: Møa 145

Minste kvadraters metodeantakelsene

• Hva, i presis forstand, er egenskapene til OLS estimatoren? Vi vil at den skal være forventningsrett og at den har liten varians. Har den? Under hvilke betingelser er den en forventningsrett estimator av de sanne populasjonsparametrene?

• For å besvare disse spørsmålene trenger vi å gjøre visse antakelser om hvordan Y og X er relatert til hverandre, og om hvordan de ble samlet (metoden for datautvelgelse)

• Disse antakelsene – det er tre – er kjent som minste kvadraters metode antakelsene.

Page 43: Møa 145

Minste kvadraters metodeantakelsene

Yi = 0 + 1Xi + ui, i = 1,…, n

1. Den betingede fordelingen til u gitt X har et gj.snitt lik null, dvs., E(u|X = x) = 0.

Dette betyr at 1 er forventningsrett2. (Xi,Yi), i =1,…,n, er i.i.d

Dette er sant hvis X, Y er valgt ved tilfeldig utvalgDette gir sannsynlighetsfordelingen for 0 og 1

3. Store uteligger i X og/eller Y er sjeldne.Teknisk, X og Y har endelige fjerde momenterUteliggere kan resultere i meningsløse verdier av 1

Page 44: Møa 145

OLS antakelse #1:E(u|X = x) = 0.For enhver gitt verdi av X, så er gjennomsnittet til u lik 0

• Eksempel: Test Scorei = 0 + 1STRi + ui, ui = andre faktorer

� Hva er noen av disse “andre faktorene”?

• Er E(u|X=x) = 0 sannsynlig for disse andre faktorene?

Page 45: Møa 145

OLS antakelse #1

Et utgangspunkt for å tenke om denne antakelsen er ved å betrakte et ideelt randomisert kontrollert eksperiment:

X blir tilfeldig tildelt folk (elever tilfeldig tildelt til ulikeklassestørrelser; pasienter tilfeldig tildelt medisinsk behandling). Randomisering blir gjort med datamaskin – uten noe bruk av informasjon om individene.

Siden X er tildelt tilfeldig, alle andre karakteristika ved individene –de tingene som u bbestår av – er fordelt uavhengig av X

Derfor, i et ideelt randomisert kontrollert eksperiment, E(u|X = x) = 0 (dvs, OLS antakelse #1 holder)

I faktiske eksperiment, eller med dataobservasjoner, må vi tenke nøye gjennom om E(u|X = x) = 0 holder.

Page 46: Møa 145

• i.i.d - independently, identically distributed

• Dette vil automatisk være tilfelle dersom størrelsen (individ, distrikt) er valgt ut ved tilfeldig utvalg

• Hvor vi i størst grad vil støte på datautvalg som ikke er i.i.d. er når data er samlet over tid (“tidsseriedata”) – dette vil introdusere noen ytterligere komplikasjoner.

OLS antakelse #2:(Xi,Yi), i = 1,…,n er i.i.d.

Page 47: Møa 145

OLS kan være sensitiv til en uteligger:

· Er det ensomme punktet en uteligger i X eller Y?

· I praksis er uteliggere ofte feil i data (koding/innsamlingsproblemer) –så sjekk data for uteliggere! Den enkleste måten er å lage et kryssplot.

Page 48: Møa 145

En stor uteligger er en ekstrem verdi av X eller Y

Med et teknisk språk, hvis X og Y er lukkede mengder, såhar de endelige fjerde momenter. (Standardiserte testresultater tilfredstiller automatisk dette; STR, familieinntekt, etc. tilfredstiller også dette).

Imidlertid, kjernen i denne antakelsen er at store uteliggere i sterk grad kan påvirke resultatene

OLS antakelse #3: Store uteliggereer sjeldneTeknisk forklaring: E(X4) < og E(Y4) <

Page 49: Møa 145

Sannsynlighetsfordelingen til OLSestimatoren

OLS estimatoren blir beregnet ut ifra et datautvalg: et forskjellig utvalg gir en annen verdi på den estimerte 1. Dette er kilden til ”utvalgsusikkerheten” knyttet til 1. Vi ønsker å:– Kvantifisere denne utvalgsusikkerheten assosiert med 1

– Bruke 1 til å teste hypoteser slik som 1 = 0

– Konstruere konfidensintervaller for 1

– Alle disse krever at vi finner ut av sannsynlighetsfordelingen til OLS estimatoren. To steg for å komme dit…

• Sannsynlighetsrammeverket knyttet til en lineær regresjon

• Sannsynlighetsfordelingen til OLS estimatoren

Page 50: Møa 145

Sannsynlighetsfordeling til en lineærregresjon

Det statistiske rammeverket for en lineær regresjon er oppsummert med de tre OLS antakelsene.

• Populasjon– Gruppen vi er interessert i (eks: alle mulige skoledistrikter)

• Stokastiske (tilfeldige) variabler: Y, X• Eks: (Test Score, STR)• Simultane fordelinger til (Y, X)

– Populasjonsregresjonen er lineær– E(u|X) = 0 (1. OLS antakelse)– X, Y har endelige fjerdemomenter (3. OLS antakelse)

• Datainnsamling med tilfeldig utvalg:– {(Xi, Yi)}, i = 1,…, n, er i.i.d. (2. OLS antakelse)

Page 51: Møa 145

Sannsynlighetsfordelingen tilSom Y , har 1 en sannsynlighetsfordeling.

Hva er E( 1 )? (hvor er den sentrert?)

Hvis E( 1 ) = 1, så er OLS forventningsrett – det er bra!

Hva er var( 1 )? (måler utvalgsusikkerheten)

Hva er fordelingen til 1 i små utvalg?

Generelt så kan den være veldig komplisert, men vi

antar vanligvis t-fordelt

Hva er fordelingen til 1 i store utvalg?

Det viser seg å være relativt enkelt – i store utvalg er 1normalfordelt.

1

Page 52: Møa 145

Hva er sannsynlighetsfordelingen tilDen eksakte sannsynlighetsfordelingen er komplisert – den

avhenger av populasjonsfordelingene til (Y, X) – men når n er

stor får vi noen enkle (og gode) approksimasjoner:

(1) Siden var( 1 ) 1/n og E( 1 ) = 1, 1 p

1

(2) Når n er stor er sannsynlighetsfordelingen til 1 bra

approksimert av normalfordelingen (sentralgrenseteoremet)

Husk sentralgrenseteoremet: anta {vi}, i = 1,…, n er i.i.d. med

E(v) = 0 og var(v) = 2. Da, når n er stor, 1

1 n

ii

vn er tilnærmelsvis

fordelt N(0, 2 /v n ).

1

Page 53: Møa 145

Større varians for X medfører mindrevarians for Matematikken

var( 1 – 1) = 4

var[( ) ]1 i x i

X

X u

n

hvor 2X = var(Xi). Variansen til X opptrer kvadrert i nevneren –

så økende spredning hos X reduserer variansen i

Intuisjonen

Hvis der er mer variasjon i X så er der mer informasjon i

dataene som du kan bruke til å tilpasse regresjonslinjen. Dette er

lettere å se i en figur …

1

1

Page 54: Møa 145

Der er samme antall sorte og blå punkter – hvilke ville du valgt av for å estimere OLS?

Page 55: Møa 145

Oppsummering av sannsynlighetsfordelingentil OLS estimatoren:

Hvis de tre OLS antakelsene holder, så

Den eksakte (endelig utvalg) utvalgsfordelingen til 1 har:

E( 1 ) = 1 (dvs, 1 er forventningsrett)

var( 1 ) = 4

var[( ) ]1 i x i

X

X u

n

1

n.

Bortsett fra gjennomsnitt og varianse er den eksakte fordelingen til 1 komplisert og avhenger av fordelingen til(X,u)

1p

1 (dvs, 1 er konsistent)

Når n er stor, 1 1

1

ˆ ˆ( )

ˆvar( )

E

~ N(0,1) (sentralgrenseteoremet)

Page 56: Møa 145

Estimering av dynamiske kausale effekter

Kapittel 15

Page 57: Møa 145

• Seksjon 15.5 utgår av pensum– Denne seksjonen tar for seg andre måter enn OLS å

estimere DL modeller

Page 58: Møa 145

Kausale effekter i tidsseriesammenheng

• En dynamisk kausal effekt er effekten på Y av en endring av X over tid

Eksempler• Effekten av en økt tobakksavgift på konsumet av røyk i år, i

neste år og om 5 år

• Effekten av Sentralbankens endring av styringsrenten påinflasjonen denne måneden, om 6 måneder og om et år

• Effekten av frostdager i Florida på prisen av appelsinjuice-konsentrat denne måneden, neste måned, om 2 måneder

Page 59: Møa 145
Page 60: Møa 145

Dynamiske kausale effekter

• I forbindelse med tidsserieanalyse er dataene vi analyserer sjelden et resultat av et kontrollert eksperiment

• Husk også at i tidsserie følger vi kun ett individ:– I tverrsnittsdata har vi et tilfeldig utvalg av mange

individer– ”Populasjonen” av individer i tidsserieanalyse er altså et

individ observert i ulike tidsperioder– Om de ulike ”individene” blir trukket fra samme fordeling

(dvs. serien er stasjonær) så kan kausale dynamiske effekter bli beregnet med OLS estimering av en DL-modell

Page 61: Møa 145

Distributed lag modell

• Dette er en modell der vi estimerer Y påkontemporære og laggede verdier av X

Yt = 0 + 1Xt + … + rXt–r + ut

• 1 = kontemporer effekt av endret X• 2 = 1-periode dynamisk multiplikator• 3 = 1-periode dynamisk multiplikator• Kumulative dynamiske multiplikatorer

– Ex: 2-perioders kumulative dynamiske multiplikator • = 1 + 2 + 3

Page 62: Møa 145

Eksogenitet

• Vi har tidligere sett at endogenitet er et problem, dvs. når E(ut|X) ≠ 0

• For at en DL modell skal gi forventningsrette estimater må forklaringsvariablene være eksogene

To typer eksogenitet:

1. Svak eksogenitet: E(ut|Xt,Xt-1,Xt-2,…) ≠ 0

2. Sterk eksogenitet: E(ut|…,Xt+1,Xt,Xt-1,…) ≠ 0

• Dersom forklaringsvariablene er eksogene kan vi estimere DL-modellen med OLS

Page 63: Møa 145

Distributed lag modell forutsetningene

1. E(ut|Xt,Xt–1,Xt–2,…) = 0 (X er eksogen)

2. (a) Y og X stasjonære fordelinger;(b) (Yt,Xt) og (Yt–j,Xt–j) blir uavhenige når j blir stor

3. Y og X har åtte endelige momenter større enn null

4. Der er ingen perfekt multikollinearitet

Page 64: Møa 145

Egenskaper til OLS estimatoren av en DL modell

• OLS gir konsistente estimater (men som kan være forventningsskjeve)

• De estimerte koeffisientene er normalfordelte

• MEN variansen er ikke den samme som vi kjenner fra tverrsnittsdata fordi feilleddet ut kan være autokorrelert

• Følgelig kan standardfeilene (SE) til koeffisientene i Excel bli feil

• En kan bruke SE som er robuste både mot autokorrelasjon og heteroskedastisitet…

Page 65: Møa 145

Trenger vi å benytte HAC-estimator når vi estimerer en AR eller ADL modell?

• Nei, bare hvis feilleddet ut er autokorrelert

• Dersom du har inkludert tilstrekkelig med lag av den avhengige variabelen Y vil ikke feilleddet være autokorrelert– I det tilfelle vil vi ikke kunne predikere ut med laggede

variabler av Y

Page 66: Møa 145
Page 67: Møa 145
Page 68: Møa 145

Når kan man estimere dynamiske kausale effekter?

• Konsistente estimater av dynamiske kausale effekter beror på at X er eksogen

• I hvert enkelt tilfelle må man tenke nøye gjennom om det er fornuftig å anta eksogenitet

Eksempler:1. Y = appelsinjuice priser, X = FDD i Orlando 2. Y = eksport fra Australia, X = BNP I USA (effekten av inntekt i

USA på eksportetterspørsel fra Australia)3. Y = EU eksport, X = BNP I USA (effekten av inntekt i USA på

eksportetterspørsel fra EU)4. Y = Inflasjonsraten i USA, X = prosentvis endring i verdensprisen

for olje (som bestemt av OPEC) (effekten av OPEC oljeprisøkning på inflasjon)

5. Y = BNP vekst, X = Styringsrenten (effekten av pengepolitikk påproduksjon)

Page 69: Møa 145

Oppsummering

• Når X er eksogen kan man estimere dynamiske kausale effekter ved bruke av en distributed lag modell (evt. en ADL modell)

• Dersom u er autokorrelert så vil de konvensjonelle feilleddene til OLS være feil, og man må bruke HAC standardfeil

• Tenk nøye gjennom om det er realistisk å tro at X er eksogen – Ofte vil X være endogen

Page 70: Møa 145

Autoregressive distributed lag model (ADL)

• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:

Yt = 0 + 1Yt–1 + … + pYt–p + 0Xt + … + rXt–r + ut

• p viser til antall lag for Y og q for antall lag for X

• Finn langsiktige parametre ved å anta likevekt slik at Yt=Yt-1=Yt-2, etc. og tilsvarende for X

Page 71: Møa 145

Kointegrasjon

• Vi har hele tiden antatt stasjonaritet• Hvis dataseriene ikke er stasjonære, bryter de

fleste forutsetningene for inferens sammen• Rammeverket en da benytter er vektor

autoregresjon og kointegrasjon• To eller flere ikke-stasjonære dataserier sies å

være kointegrerte når de har en felles stokastisk trend– Viktig i noen typer finans og makroøkonomiske

analyser

Page 72: Møa 145

Kapittel 5Kapittel 5LineLineæær regresjon med enr regresjon med en

forklaringsvariabelforklaringsvariabel

Hypotesetester og konfidensintervall

MØA 145

Page 73: Møa 145

Regresjon med en forklaringsvariabel: Hypotesetester og konfidensintervall

Vi ønsker å lære om de sanne populasjonsparametrene fra regresjonen ved bruk av et datautvalg (slik at der er utvalgsusikkerhet). Der er fire steg for å nå dette målet:

1. Definer hvilken populasjonen som er av interesse

2. Utled sannsynlighetsfordelingen til en estimator (dette krever visse antakelser)

3. Estimer variansen til sannsynlighetsfordelingen (som sentralgrenseteoremet sier er alt du trenger å vite hvis n erstor) – dvs., å finne standardfeilen (SE) til estimatoren –ved kun å bruke informasjon fra datautvalget!

4. Bruk estimatoren ( 1 ) for å få et punktestimat og med dens SE, hypotesetester og konfidensintervall.

Page 74: Møa 145

Vi er interessert i 1 iYi = 0 + 1Xi + ui, i = 1,…, n

1 = Y/X, for en uavhengig endring i X (kausal effekt)

Minste kvadraters metode (OLS) forutsetningene:

1. E(u|X = x) = 0.

2. (Xi,Yi), i =1,…,n, er i.i.d.

3. Store uteligger er sjeldne (E(X4) < , E(Y4) < .

Sannsynlighetsfordelingen til 1 :

Gitt OLS forutsentingene så er 1 tilnærmet normalfordelt når n

er tilstrekkelig stor

1 ~ 2

1 4, v

X

Nn

, hvor vi = (Xi – X)ui

Page 75: Møa 145

Hypotesetest og standardfeil til(Seksjon 5.1)

Målet er å teste hypoteser (påstander) som for eksempel at 1 = 0

ved bruk av data. Dette leder til en tentativ konklusjon

vedrørende om (null-)hypotesen er korrekt eller inkorrekt.

Generelt oppsett

Nullhypotese og tosidet alternativ:

H0: 1 = 1,0 mot H1: 1 1,0

hvor 1,0 er den hypoteseverdien under null hypotesen.

Nullhypotese og ensidet alternativ:

H0: 1 = 1,0 mot H1: 1 < 1,0

1

Page 76: Møa 145

Generell tilnærming: konstruer t-observator og beregn p-verdi (eller sammenlign med N(0,1) kritisk verdi)

Generelt: nestimatoretililstandardferdihypoteseveestimator

t

hvor standardfeilen (SE) til en estimator er kvadratroten til

variansen av estimatoren.

For å teste gjennomsnittet til Y: t = ,0

/Y

Y

Y

s n

For å teste 1, t = 1 1,0

1

ˆ

ˆ( )SE

,

Page 77: Møa 145

Formel for SE( )1Uttrykket for variansen til 1 (stor n):

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2

4v

Xn

, hvor vi = (Xi – X)ui.

Estimatoren til variansen til 1 erstatter de ukjente populasjonsverdiene 2

og 4X med estimatorer konstruert fra

dataene:

1

2ˆˆ

= 2

2 2

1 estimator of

(estimator of )v

Xn

=

2

12

2

1

1 2

1( )

n

ii

n

ii

vn

nX X

n

hvor ˆiv = ˆ( )i iX X u .

Page 78: Møa 145

1

2ˆˆ

=

2

12

2

1

1 2

1( )

n

ii

n

ii

vn

nX X

n

, hvor iv = ˆ( )i iX X u .

SE( 1 ) = 1

2ˆˆ

= standardfeilen til 1

OK, dette er litt grisete, men:

Det er mindre komplisert enn det ser ut til. Telleren estimerer

var(v) og nevneren estimerer var(X).

Hvorfor frihetsgradjustering n – 2? Fordi to koeffesienter har

blitt estimert (0 og 1).

SE( 1 ) blir beregnet av Excel

Page 79: Møa 145

Oppsummering: For å testeH0: 1 = 1,0 v. H1: 1 1,0, Konstruer t-observator

t = 1 1,0

1

ˆ

ˆ( )SE

=

1

1 1,0

ˆ

ˆ

Forkast på 5% signifikansnivå hvis |t| > 1.96

P-verdien er p = Pr[|t| > |tact|] = sannsynligheten i halene til

normalfordelingen utenfor |tact|; du forkaster på 5%

signifikansnivå dersom p-verdien er < 5%.

Denne prosedyren er avhengig av store-n tilnærming; typisk

er n = 50 stort nok for at tilnærmingen skal bli bra.

Page 80: Møa 145

Eksempel: Test Scores og STR,California dataEstimert regresjonslinje: �TestScore = 698.9 – 2.28STR

Excel rapporterer standardfeilene:

SE( 0 ) = 10.4 SE( 1 ) = 0.52

t-observator som tester om

1,0 = 0 = 1 1,0

1

ˆ

ˆ( )SE

=

2.28 0

0.52

= –4.38

Den 1% 2-sidete signifikansnivå er 2.58, så vi forkaster

nullhypotesen på 1% signifikansnivå.

Alternativt så kan vi beregne p-verdien…

Page 81: Møa 145

P-verdien basert på store-n standard normal tilnærming til t-

observatoren er 0.00001 (10–5)

Page 82: Møa 145

Konfidensintervaller til 1(Seksjon 5.2)

Legg merke til at et 95% konfidensintervall tilsvarer:

Settet av punkter som ikke kan bli forkastet på et 5% signifikansnivå;

Et intervall som er funksjon av dataene og som inneholder den sanne parameterverdien 95% av tiden i repeterte utvalg.

Siden t-observatoren for 1 er fordelt som N(0,1) i store utvalg så

er konstruksjon av et 95% konfidensintervall for 1 akkurat som for utvalgsgjennomsnittet:

95% konfidensintervall for 1 = { 1 1.96SE( 1 )}

Page 83: Møa 145

Konfidensintervall eksempel: Test Scores og STR

Estimatert regresjonslinje: �TestScore = 698.9 – 2.28STR

SE( 0 ) = 10.4 SE( 1 ) = 0.52

95% konfidensintervall for 1 :

{ 1 1.96SE( 1 )} = {–2.28 1.960.52}

= (–3.30, –1.26)

De følgende to utsagnene er ekvivalente (hvorfor?)

95% konfidensintervallet inkluderer ikke null;

Hypotesen 1 = 0 blir forkastet på 5% signifikansnivå

Page 84: Møa 145

En presis (og konvensjonell) måte årapportere regresjoner:Sett standardfeilene i paranteser under de estimerte

koeffisientene som de tilhører.�TestScore = 698.9 – 2.28STR, R2 = .05, SER = 18.6

(10.4) (0.52)

Dette uttrykket gir mye informasjon

Den estimerte regresjonslinjen er�TestScore = 698.9 – 2.28STR

Standardfeilen til 0 er 10.4

Standardfeilen til 1 er 0.52

R2 er .05; standardfeilen til regrsjonen er 18.6

Page 85: Møa 145

Oppsummering av statistiskinferens om 0 og 1:Estimering:

OLS estimatorer 0 og 1 0 og 1 har tilnærmelsvis normal sannsynlighetsfordeling i store

utvalgTest:

H0: 1 = 1,0 v. 1 1,0 (1,0 er verdien til 1 under H0)

t = ( 1 – 1,0)/SE( 1 ) p-verdi = område under standard normalfordeling utenfor tact (stor

n)Konfidensintervaller:

95% konfidensintervall for 1 er { 1 1.96SE( 1 )} Dette er settet av 1–verdier som ikke blir forkastet på 5% nivå 95% konfidensintervallet inneholder den sanne 1 i 95% av alle

utvalg

Page 86: Møa 145

Regresjon når X er binær(Seksjon 5.3)

Noen ganger er forklaringsvariabelen binær:

X = 1 hvis liten skoleklasse, = 0 hvis ikke X = 1 hvis kvinne, = 0 hvis mann X = 1 hvis behandlet (med medisin), = 0 hvis ikke

Binære forklaringsvariabler blir noen ganger kalt for “dummy”

variabler.

Så langt har 1 blitt kalt for “helningen,” men det er ikke meningsfullt

hvis X er binær.

Hvordan fortolker vi en regresjon med en binær variabel?

Page 87: Møa 145

Fortolking av regresjoner medbinær forklaringsvariabel

Yi = 0 + 1Xi + ui, hvor X er binær (Xi = 0 or 1):

Når Xi = 0, Yi = 0 + ui

Gjennomsnittet til Yi er 0

dvs, E(Yi|Xi=0) = 0

Når Xi = 1, Yi = 0 + 1 + ui

gjennomsnittet til Yi er 0 + 1

dvs, E(Yi|Xi=1) = 0 + 1

slik at:

1 = E(Yi|Xi=1) – E(Yi|Xi=0)

= populasjonsforskjellen gjennomsnitt mellom grupper

Page 88: Møa 145

Eksempel: Let Di = 1 if 20

0 if 20i

i

STR

STR

OLS regresjon: �TestScore = 650.0 + 7.4D

(1.3) (1.8)

Gruppegjennomsnitt:

Class Size Average score (Y ) Std. dev. (sY) NSmall (STR > 20) 657.4 19.4 238Large (STR ≥ 20) 650.0 17.9 182

Forskjell i gjennomsnitt: small largeY Y = 657.4 – 650.0 = 7.4

Standardfeil: SE =2 2s l

s l

s s

n n =

2 219.4 17.9

238 182 = 1.8

Page 89: Møa 145

Oppsummering: regresjon når Xi erbinær (0/1)

Yi = 0 + 1Xi + ui

0 = gjennomsnitt til Y når X = 0

0 + 1 = gjennomsnitt til Y når X = 1

1 = forskjell i guppegj.snitt, X =1 minus X = 0

SE( 1 ) har den vanlige fortolkingen

t-observator og konfidensintervaller konstruert som vanlig

Dette er en enkel måte å analysere forskjeller i gjennomsnitt

Regresjonsformuleringen med binære variabler veldig nyttig

når vi har flere forklaringsvariabler (som vi skal se i kap. 6)

Page 90: Møa 145

Heteroskedastisitet og homoskedastistet(Seksjon 5.4)

Hva…?

Konsekvenser av homoskedastisitet

Implikasjoner for å beregne standardfeil

Hva betyr disse to begrepene?

Hvis var(u|X=x) er konstant – dvs., Hvis variansen til den

betingede fordelingen til u gitt X ikke avhenger av X – så sier

vi at u homoskedastisk. Hvis ikke så er u heteroskedastisk.

Page 91: Møa 145

Homoskedastisitet visuelt:

E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)

Variansen til u avhenger ikke av x

Page 92: Møa 145

Heteroskedastisitet visuelt:

E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)

Variansen til u avhenger av x: u er heteroskedastisk.

Page 93: Møa 145

Et eksempel med faktiske data: gjennomsnitttimelønn og antall år utdanning (datakilde: Current Population Survey):

Heteroskedastisk eller homoskedastisk?

Page 94: Møa 145

Skoleklasse data:

Heteroskedastisk eller homoskedastisk?

Page 95: Møa 145

Så langt har vi (uten å si det) antatt at ukan være heteroskedastisk.

Husk de tre OLS forutsetningene:

1. E(u|X = x) = 0

2. (Xi,Yi), i =1,…,n, er i.i.d.

3. Store uteliggere er sjeldne

Heteroskedastisitet og homoskedastisitet omhandler var(u|X=x).

Siden vi ikke eksplisitt at antatt homoskedastiske feilledd, så har

vi tillatt for heteroskedastisitet.

Page 96: Møa 145

Hva hvis feilleddet faktisk erhomoskedastisk?

Formelen for variansen til 1 og OLS standardfeilen blir

enklere: Hvis var(ui|Xi=x) = 2u , så

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2 2

2 2

[( ) ]

( )i x i

X

E X u

n

= 2

2u

Xn

Legg merke til: var( 1 ) er omvendt proposjonal til var(X):

mer spredning i X betyr mer informasjon om 1 - vi diskuterte dette tidligere men dette kommer klarere frem i denne formelen.

Page 97: Møa 145

I tillegg til denne formelen for variansen til 1 , har vi en

formel for standardfeil når feilledde er homoskedastiske:

Standardfeil formel:

SE( 1 ) =

2

1

2

1

1 21

( )

n

ii

n

ii

un

nX X

n

.

Noen synes denne formelen er enklere. For eksempel er dette

den standard formelen som brukes i Excel.

Page 98: Møa 145

Vi har nå to formler for standardfeilen til 1Standardfeil når feilledd er homoskedastiske – disse er kun

gyldige når feilleddene er homoskedastiske.

Heteroskedastiske robuste standardfeil, som er gyldige

uansett om feilleddene er heteroskedastiske.

Hovedfordelen med den første er at formelen er enklere.

Bakdelen er at formelen generelt bare er korrekt dersom

feilledene faktisk er homoskedastiske.

Page 99: Møa 145

Konklusjon: Hvis feilleddene enten er homoskedastiske eller

heteroskedastiske og du bruker heteroskedastisk-robuste

standardfeil, så er det greit

Hvis feilleddene er heteroskedastiske og du bruker formel for

standardfeil basert på homoskedastiske feilledd vil ikke

standardfeilene dine være korrekte (den homoskedastiske

estimatoren av variansen til 1 er ikke konsistent hvis der er

heteroskedastisitet).

Formlene sammenfaller når n er stor

De fleste benytter formelen for homoskedastiske feilledd. Kan man, så brukes ofte bruke heteroskedastisk-robuste standardfeil

Page 100: Møa 145

Kapittel 6Kapittel 6Regresjon med flere forklaringsvarRegresjon med flere forklaringsvar

MØA 145

Page 101: Møa 145

Utelatte variabler –forventningsskjevhet (SW Seksjon 6.1)

Feilleddet u oppstår fordi der finnes faktorer som påvirker Y som

ikke er inkludert i regresjonen – derfor vil der være alltid utelatte

variabler.

Men, noen ganger vil utelatelse av variabler lede til

forventningsskjevhet i OLS estimatoren.

Page 102: Møa 145

Utelatte variabler –forventningsskjevhetFor at OLS estimatoren skal være forventningsskjev må den

utelatte faktoren “Z”:

1. delvis forklare variansen i Y (dvs. Z er del av u); og

2. være korrelert med forklaringsvariabelen X (dvs.

corr(Z,X) 0)

Begge betingelsene må holde for at utelatelsen av Z medfører

forventningsskjevhet i estimeringen av X.

Page 103: Møa 145

Utelatte variabler –forventningsskjevhetI testscore (Californiaskolene) eksempelet:

1. Engelspråklig evne (om eleven har engelsk som første eller andre

språk) påvirker sannsynligvis resultatene på de standardiserte

testene: Z forklarer Y.

2. Immigranter er vanligvis mindre velstående og har derfor mindre

penger til skolegang – og høyere STR: Z er korrelert med X.

Følgelig er 1 forventningsskjev. I hvilken retning trekker denne

forventningsskjevheten?

Vi har en formel for forventningsskjevhet

Page 104: Møa 145

Utelatte variabler –forventningsskjevhet

En formel for forventningsskjevhet pga. utelatt variabel:

1 – 1 = 1

2

1

( )

( )

n

i ii

n

ii

X X u

X X

= 1

2

1

1

n

ii

X

vnn

sn

Hvor vi = (Xi – X )ui (Xi – X)ui. Under OLS forutsetning 1,

E[(Xi – X)ui] = cov(Xi,ui) = 0.

Men hva hvis E[(Xi – X)ui] = cov(Xi,ui) = Xu 0?

Page 105: Møa 145

Utelatte variabler –forventningsskjevhetGenerelt (dvs., selv om antakelse #1 ikke er sann),

1 – 1 = 1

2

1

1( )

1( )

n

i ii

n

ii

X X un

X Xn

p

2Xu

X

= u Xu

X X u

= u

XuX

,

Hvor Xu = corr(X,u). Hvis antakelse #1 er gyldig, så Xu = 0,

men ikke hvis vi har at….

Page 106: Møa 145

Formelen for forventningsskjevhetved utelatt variabel :

1p

1 + uXu

X

…en utelatt faktor Z både:

(1) forklarer del av variansen i Y (dvs. at den er en del av u); og

(2) er korrelert med X,

Når Xu 0 er følgelig OLS estimatoren 1 forventningsskjev (og ikke konsistent).

Formelen klargjør ideen om at når distrikter med få fremmed-språklige elever (1) gjør det bedre på standardiserte tester og (2) har mindre klasser (større budsjetter), så overdriver vi effekten av klassestørrelse når vi ignorerer den fremmedspråklige faktoren.

Skjer dette i CA dataene?

Page 107: Møa 145

Distrikter med færre som lærer engelsk (lav PctEL) har bedre

testresultater

Distrikter med lavere PctEL har mindre klasser

I distrikter med sammenlignbar PctEL er effekten av klassestørrelse

liten (husk generelt gap i testresultater = 7.4)

Page 108: Møa 145

Digresjon om kausalitet ogregresjonsanalyseHva ønsker vi å estimere?

Hva er en kausal effekt?

En fornuftsbasert forståelse av kausalitet er ikke presist nok

for vårt formål.

I dette kurset definerer vi kausal effekt som effekten som blir

målt i et ideelt tilfeldig kontrollert eksperiment.

Page 109: Møa 145

Ideelt tilfeldig kontrollert eksperiment Ideelt: alle deltakere følger behandlingsprotokoll – fullt

samsvar, ingen feil i rapportering, etc.! Tilfeldig: deltakere fra populasjonen av interesse blir

tilfeldig tildelt til en behandlings- eller kontrollgruppe Kontrollert: en kontrollgruppe gjør det mulig å måle

effekten av behandlingen som forskjellen mellom de to gruppene

Eksperiment: behandlingen blir tildelt som del av eksperimentet: deltakerne har ikke noe valg slik at der ikke er noen “omvendt kausalitet” hvor deltakerne velger behandlingen de tror vil fungere best.

Page 110: Møa 145

Tilbake til klassestørrelse: Tenk et ideelt tilfeldig kontrollert eksperiment for å måle

effekten på Test Score av å redusere STR…

Hvordan avviker våre dataobservasjoner fra dette idealet?

Behandlingen er ikke tilfeldig tildelt

Tenk på PctEL – prosent som lærer engelsk – i distriktet.

Den tilfredstiller med stor sannsynlighet de to kriteriene for

forventningsskjevhet ved utelatt variabel: Z = PctEL:

1. forklarer variasjon i Y; og

2. er korrelert med forklaringsvariabelen X.

“Kontroll-” og “behandlings-” gruppene avviker på en

systematisk måte – corr(STR,PctEL) 0

Page 111: Møa 145

Tilfeldige kontrollerte eksperimenter:

Tilfeldig trekning + kontrollgruppe betyr at enhver forskjell

mellom behandlings- og kontrollgrupper er tilfeldig – det er

ikke tilfeldig relatert til behandlingen

Vi kan fjerne forskjellen mellom i PctEL mellom de store

(kontroll) og små (behandling) gruppene ved å

sammenligne effekten av klassestørrelse mellom distrikter

som har samme PctEL.

Hvis den eneste systematiske forskjellen mellom store og små klasser er

pga PctEL, så er vi da tilbake til det tilfeldig kontrollerte eksperimentet –

innenfor hver PctEL gruppe.

Dette er en måte å “kontrollere” for effekten til PctEL når vi

estimerer effekten av STR.

Page 112: Møa 145

Utelatte variabler –forventningsskjevhet

Tre måter å løse problemet med utelatt variabel forventningsskjevhet

1. Kjør et tilfeldig kontrollert eksperiment der behandlingen (STR) blir tilfeldig tildelt: da er PctEL fremdeles en forklaringsvariabel for TestScore, men PctELer ikke korrelert med STR. (Men dette er ikke realistisk i praksis)

2. Bruk “krysstabuleringsmetoden” med finere inndeling av STR og PctEL – innen hver gruppe har alle klassene samme PctEL, slik at vi har kontrollert for PctEL(Men snart vil vi gå tom for data og hva med andre forklaringsvariabler slik som familieinntekt og foreldres utdanning?)

3. Bruk en regresjon hvor den utelatte variabelen (PctEL) ikke lenger er utelatt: inkluder PctEL som en ytterliggere forklaringsvariabel i regresjonen.

Page 113: Møa 145

Regresjonsmodell med flereforklaringsvariabler (SW Seksjon 6.2)

Se på tilfellet med to forklaringsvariabler:

Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n

Y er den avhengige variabelen

X1, X2 er to forklaringsvariabler

(Yi, X1i, X2i) betegner observasjon i for Y, X1 og X2.

0 = ukjent populasjonskonstant

1 = effekten på Y av en endring i X1, når X2 holdes konstant

2 = effekten på Y av en endring i X2, når X1 holdes konstant

ui = feilleddet (utelatte faktorer)

Page 114: Møa 145

Fortolking av koeffisientene iregresjonen

Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n

Tenk at X1 endres med X1 mens X2 holdes konstant:

Populasjonens regresjonslinje før endringen:

Y = 0 + 1X1 + 2X2

Populasjonens regresjonslinje etter endringen:

Y + Y = 0 + 1(X1 + X1) + 2X2

Page 115: Møa 145

Før: Y = 0 + 1X1 + 2X2

Etter: Y + Y = 0 + 1(X1 + X1) + 2X2

Forskjell: Y = 1X1

Slik at:

1 = 1

Y

X

, X2 holdes konstant

2 = 2

Y

X

, X1 holdes konstant

0 = predikert verdi for Y når X1 = X2 = 0.

Page 116: Møa 145

OLS estimatoren med flereforklaringsvariabler (SW seksjon 6.3)

Med to forklaringsvariabler løser OLS estimatoren:

0 1 2

2, , 0 1 1 2 2

1

min [ ( )]n

b b b i i ii

Y b b X b X

OLS estimatoren minimerer gjennomsnittlig kvadrert avstand

for de faktiske verdiene til Yi og prediksjonen basert på den

estimerte linjen.

Dette minimeringsproblemet ble løst ved hjelp av

matriseregning

Dette gir OLS estimatorene for 0, 1og 2.

Page 117: Møa 145

Eksempel: California skoledata

Regresjon av TestScore på STR:

�TestScore = 698.9 – 2.28STR

Inkluderer så present som lærer engelsk i distriktet (PctEL):

�TestScore = 686.0 – 1.10STR – 0.65PctEL

Hva skjer med koeffisienten til STR?

Hvorfor? (Legg merke til at: corr(STR, PctEL) = 0.19)

Page 118: Møa 145

Modellevaluering (SW Seksjon 6.4)

Faktisk = predikert + feilledd: Yi = iY + ˆiu

SER = standardavvik til ˆiu (med frihetsgradkorreksjon)

R2 = andel av variansen i Y forklart av X

2R = “justert R2” = R2 med en frihetsgradkorreksjon

som justerer for usikkerhet i estimering; 2R < R2

Page 119: Møa 145

SER

Akkurat som i en regresjon med en enkel forklaringsvariabel

måler standardfeilen til regresjonen SER spredningen til Y

observasjonene omkring regresjonslinjen:

SER = 2

1

1

n

ii

un k

Page 120: Møa 145

R2 og 2R

R2 er den samme som før:

R2 = ESS

TSS = 1

SSR

TSS ,

hvor ESS = 2

1

ˆ ˆ( )n

ii

Y Y

, SSR = 2

1

ˆn

ii

u , TSS = 2

1

( )n

ii

Y Y

.

R2 øker alltid når du legger til en ny forklaringsvariabel

(hvorfor?) – utgjør et problem når man skal måle hvor bra

modellen er

Page 121: Møa 145

R2 og , forts.

2R (“justert R2”) korrigerer dette problemet ved å “straffe” deg

for å inkludere en ytterligere forklaringsvariabel – 2R øker ikke

nødvendigvis når du legger til en ytterligere forklaringsvariabel.

Justert R2: 2R = 1

11

n SSR

n k TSS

Legg merke til at 2R < R2, imidlertid hvis n er stor vil de to være

veldig nærme hverandre.

2R

Page 122: Møa 145

Modellevaluering, forts.

Test score eksempel:

(1) �TestScore = 698.9 – 2.28STR,

R2 = .05, SER = 18.6

(2) �TestScore = 686.0 – 1.10STR – 0.65PctEL,

R2 = .426, 2R = .424, SER = 14.5

Hva – presist – forteller dette deg om hvor mye modell 2) forklarer (2) sammenlignet med modell (1)?

Hvorfor er R2 og 2R så like i (2)?

Page 123: Møa 145

OLS antakelsene (SW Seksjon 6.5)

Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n

1. Den betingede fordelingen til u gitt X’s har snitt lik null,

dvs., E(u|X1 = x1,…, Xk = xk) = 0.

2. (X1i,…,Xki,Yi), i =1,…,n, er i.i.d.

3. Store uteliggere er sjeldne: X1,…, Xk, og Y har fjerde

momenter: E( 41iX ) < ,…, E( 4

kiX ) < , E( 4iY ) < .

4. Der er ingen perfekt multikollinearitet.

Page 124: Møa 145

Antakelse #1: den betingede forventnings-verdien til u gitt de inkluderte X’ene er null.

E(u|X1 = x1,…, Xk = xk) = 0

Dette har samme fortolking som en regresjon med kun en

forklaringsvariabel.

Hvis en utelatt variabel (1) tilhører ligningen (slik at den er

i u) og (2) er korrelert med inkludert X, så holder ikke

denne betingelsen

Brudd på denne betingelsen fører til utelatt variabel

forventningsskjevhet

Løsning – hvis mulig – er å inkludere den utelatte

variabelen i regresjonen.

Page 125: Møa 145

Antakelse #2: (X1i,…,Xki,Yi), i =1,…,n, are i.i.d.

Denne er automatisk tilfredstilt dersom dataene er samlet som

tilfeldig utvalg.

Antakelse #3: store uteliggere er sjeldne (endelig fjerde

momenter)

Som i tilfellet med en forklaringsvariabel kan OLS være sensitive

i forhold til store uteligger, så du trenger å sjekke dataene

(kryspplott!) for å være sikker der ikke er noen vanvittige verdier.

Antakelse #4: Der er ikke perfekt multikollinearitet

Perfekt multikollineariet er når en av forklaringsvariablene er en

eksakt lineær funksjon av de andre forklaringsvariablene.

Page 126: Møa 145

Sannsynlighetsfordelingen til OLSestimatoren (SW Seksjon 6.6)Under de fire OLS antakelse,

Den eksakte fordelingen av 1 har gj.snitt 1 med var( 1 )

som er omvendt proposjonal til n; så gjelder også for 2 .

Utenom gj.snitt og varians er den eksakte fordelingen til 1veldig komplisert; men for stor n…

1 er konsistent: 1p

1 (store talls lov)

1 1

1

ˆ ˆ( )

ˆvar( )

E

er tilnærmet fordelt N(0,1)

(sentralgrenseteoremet)

Det gjelder også for 2 ,…, ˆk

Begrepsmessig er der ikke noe nytt her!

Page 127: Møa 145

Dummy-variabelfellenAnta du har flere dummyvariabler (variabler som tar verdien 0

eller 1) som er gjensidig utelukkende og uttømmende. Dvs. der er flere kategorier og hver observasjon faller i en og kun en kategori (mann eller kvinne; høy inntekt, middels inntekt, lav inntekt…). Hvis du inkluderer alle disse dummyvariablene og en konstant, så vil du få perfekt multikollinearitet – dette er noe som kalles dummy-variabelfellen. Hvorfor er der perfekt multikollinearitet her?

Løsningen for dummy-variabelfellen:

1. Utelat en gruppene (f.eks. mann), eller

2. Utelat konstanten

Hva er konsekvensene av (1) eller (2) for fortolking av koeffisientene?

Page 128: Møa 145

Perfekt multikollineariet

Perfekt multikollinearitet reflekterer vanligvis en feil i

definisjonen av forklaringsvariablene eller særhet i dataene

Hvis du har perfekt multikollinearitet vil din statistiske

programvarepakke (i vårt tilfelle Excel) informere deg – enten

ved å kræsje, ved en feilmelding, eller ved å ”droppe” vilkårlig

en av variablene

Løsningen på perfekt multikollinearitet er å endre listen av

forklaringsvariabler slik at du ikke lenger har perfekt

multikollinearitet.

Page 129: Møa 145

Imperfekt multikollinearitet

Imperfekt og perfekt multikollinearitet er ganske forskjellig på

tross av navnelikheten.

Imperfekt multikollinearitet opptrer når to eller flere av

forklaringsvariablene er sterkt korrelerte.

Hvorfor dette begrepet? Hvis to forklaringsvariabler er

sterkt korrelerte så vil et kryssplott mellom dem ligne på en

rett linje, men med mindre korrelasjonen er eksakt lik 1 så

er kollineariteten imperfekt.

Page 130: Møa 145

Imperfekt multikollinearitet, forts.

Imperfekt multikollinearitet medfører at en eller flere av koeffisientene i regresjonen vil bli estimert upresist. Intuisjon: -koeffisienten til X1 er effekten av X1 når X2

holdes konstant. Hvis X1 og X2 er sterkt korrelerte er der veldig lite variasjon i X1 straks X2 blir holdt konstant – slik at dataene er lite informative om hva som skjer når X1 endres.Variansen til OLS estimatoren til -koeffisienten tilhørendeX1 vil bli stor.

Imperfekt multikollinearitet resulterer i store standardfeil for en eller flere av OLS koeffisientene.

Matten? Se SW, App. 6.2

Page 131: Møa 145

KapittelKapittel 77

Hypotesetester og konfidensintervall med flere forklaringsvariabler

Page 132: Møa 145

Hypotesetest og konfidensintervall for en enkelt koeffisient (SW Seksjon 7.1)

1 1

1

ˆ ˆ( )

ˆvar( )

E

er tilnærmelsesvis fordelt N(0,1)

(sentralgrenseteoremet).

Derfor kan hypoteser om 1 bli testet med den vanlige t-

observatoren og intervaller blir konstruert som

{ 1 1.96SE( 1 )}.

Gjelder også for 2,…, k.

1 og 2 er generelt ikke uavhengig fordelt – derfor er heller

ikke deres t-observatorer uavhengige (mer om dette senere).

Page 133: Møa 145

Eksempel: Klassestørrelse i California

(1) �TestScore = 698.9 – 2.28STR

(10.4) (0.52)

(2) �TestScore = 686.0 – 1.10STR – 0.650PctEL

(8.7) (0.43) (0.031)

Koeffisienten til STR i (2) er effekten på TestScores av en enhets endring i STR når prosent engelsklærende i distriktet holdes konstant

Størrelsen til koeffisient til STR blir halverto p-verdien er 0.011

o 95% konfidensintervallet for koeffisienten til STR i (2) er {–1.10 1.960.43} = (–1.95, –0.26)

o t-observatoren for å teste STR = 0 er t = –1.10/0.43 = –2.54, så vi forkaster nullhypotesen på 5% signifikansnivå

Page 134: Møa 145

F-test

F-observatoren tester alle deler av en felles hypotese samtidig.

Formelen for spesialtilfellet med en felles hypotese 1 = 1,0 og2 = 2,0 i en regresjon med to forklaringsvariabler:

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

hvor1 2,ˆ t t estimerer korrelasjonen mellom t1 og t2.

Forkast når F er stor (Hva som er stor bestemmes av valgt

signifikansnivå og sannsynlighetsforedlingen)

Page 135: Møa 145

F-observator tester 1 og 2:

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

F-observatoren er stor når t1 og/eller t2 er stor

F-observatoren korrigerer for korrelasjonen mellom t1 og t2.

Kan inneholde så mange ’er som ønskelig

Page 136: Møa 145

Fordeling ved store utvalg til F-observatorenBetrakt spesialtilfellet at t1 og t2 er uavhengige, slik at

1 2,ˆ t tp

0;

i store utvalg blir formelen

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

2 21 2

1( )

2t t

Under nullhypotesen har t1 og t2 standard normalfordelingsom i dette spesialtilfeller er uavhengige

Fordelingen til F-observatoren ved store utvalg er fordelingen av gjennomsnittet til to uavhengige fordelte kvadrerte standard normalfordelte tilfeldige variabler.

Page 137: Møa 145

Kji-kvadrat fordelingen med q frihetsgrader ( 2q ) er definert som

fordelingen til summen av q uavhengige kvadrerte standard

normalfordelte variabler.

I store utvalg er F fordelt som 2q /q.

Valgte kritiske verdier for store utvalg til 2q /q

q 5% kritisk verdi

1 3.84

2 3.00

3 2.60

4 2.37

5 2.21

Page 138: Møa 145

F-test eksempel: Klassestørrelse iCaliforniareg testscr str expn_stu pctel, r;

Regression with robust standard errors Number of obs = 420 F( 3, 416) = 147.20 Prob > F = 0.0000 R-squared = 0.4366 Root MSE = 14.353

------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203 expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751 pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446 _cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641------------------------------------------------------------------------------

NOTE

test str expn_stu; The test command follows the regression

( 1) str = 0.0 There are q=2 restrictions being tested ( 2) expn_stu = 0.0

F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00Prob > F = 0.0047 Stata computes the p-value for you

Page 139: Møa 145

F-observator med homoskedastisitet

Når feilleddet er homoskedastisk er der en enkel formel for F-

observatoren:

Kjør to regresjoner, en for nullhypotesen (“restricted

regression”) og en for alternativhypotesen (“unrestricted

regression”).

Sammenlign modellenes tilpasning til dataene – R2’ene – og

forkast nullhypotesen hvis modellen som er “unrestricted”

forklarer mye mer av vaiasjonen i Y.

Page 140: Møa 145

Regresjon med og uten restriksjon

Eksempel: er koeffisientene til STR og Expn null?

Regresjon uten regresjon (under H1):TestScorei = 0 + 1STRi + 2Expni + 3PctELi + ui

Regresjon med restriksjon (dvs., under H0):TestScorei = 0 + 3PctELi + ui

Antall restriksjoner under H0 er q = 2. R2 vil være høyere i regresjonen uten restriksjon

Hvor mye må R2 øke for at koeffisientene til Expn og PctEL skal bli anslått som statistisk signifikante?

Page 141: Møa 145

F-observator med homoskedastiskefeilledd:

F = 2 2

2

( ) /

(1 ) /( 1)unrestricted restricted

unrestricted unrestricted

R R q

R n k

hvor: 2restrictedR = R2 for regresjon med restriksjon2unrestrictedR = R2 for regresjon uten restriksjon

q = antall restriksjoner under nullhypotesenkunrestricted = antall forklaringsvariabler i regrsjon uten

restriksjon.

Dess større forskjellen er mellom de to modellene sine R2,dess større forbedring i modellen er assosiert med å legge til variablene som testes og dess større er F-observatoren.

Page 142: Møa 145

Eksempel:Restricted regression:�TestScore = 644.7 –0.671PctEL, 2

restrictedR = 0.4149

(1.0) (0.032)

Unrestricted regression:�TestScore = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL

(15.5) (0.48) (1.59) (0.032)2unrestrictedR = 0.4366, kunrestricted = 3, q = 2

so F = 2 2

2

( ) /

(1 ) /( 1)unrestricted restricted

unrestricted unrestricted

R R q

R n k

= (.4366 .4149) / 2

(1 .4366) /(420 3 1)

= 8.01

Page 143: Møa 145

13

Eksempel:Vi tester to restriksjoner (at parameteret til EXPN og STR er 0

Det betyr at q=2

Vi har 420 observasjoner slik at n=420. Antall parametre som

estimeres i den ikke begrensede regresjonen i tillegg til

konstantleddet er 3

Vi skal da finne kritisk verdi for en F2,416 fordeling

Siden 416 er mye større enn 100, bruker vi tabellen for 2

restriksjoner og uendelig mange observasjoner

Kritisk verdi på 5% signifikansnivå er 3.00

Forkast nullhypotesen

Legg merke til: Heteroskedastisk-robust F = 5.43…

Page 144: Møa 145

F-observatoren med homoskedastisitet: Oppsummering

F = 2 2

2

( ) /

(1 ) /( 1)unrestricted restricted

unrestricted unrestricted

R R q

R n k

F-observatoren med homoskedastiske feilledd forkaster H0

når to ytterliggere variabler øker R2 “tilstrekkelig” Hvis feilleddet er homoskedastisk har formelen over fordeling

i store utvalg som 2q /q.

Men hvis feilleddene er heteroskedastiske er fordelingen istore utvalg grisete og ikke lik 2

q /q

Page 145: Møa 145

F-observator med homoskedastisitet: Oppsummering Disse er kun berettiget under veldig sterke betingelser –

sterkere enn det som er realistisk i praksis.o Imidlertid er det den som vanligvis brukes, og som må brukes i

Excel.

o Hvis du har anledning bør du bruke heteroskedastisk-robuste F-

observator med 2q /q (dvs., Fq,) kritiske verdier.

For n ≥ 100, er F-fordelingen i bunn og grunn 2q /q

fordelingen.

For små n bruker forskere av og til F fordelingen fordi den

har store kritiske verdier og er i så henseende mer

konservativ.

Page 146: Møa 145

Oppsummering: testing avhypoteser på flere koeffisienter “En om gangen” tilnærmingen ved hypotestesting av

koeffisienter vil føre til at t-observatoren overskrider 1.96 mer

enn 5% av gangene under H0 (dvs. at størrelsen på testen er

større enn det ønskede signifikansnivået)

Heteroskedastiske-robuste F-statistikk er innbygd i fleste

statistikkprogrammer.

For stor n er F-statistikken fordelt 2q /q (= Fq,)

Versjonen av F-statistikken med homoskedastiske feilledd

kan hjelpe intusjonen, men er ikke gyldig når der er

heteroskedastisitet.

Page 147: Møa 145

Konfidenssett for flere koeffisienter(SW Seksjon 7.4)

Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n

Hva er det felles konfidenssettet for 1 og 2?Et 95% felles konfidenssett er:Et verdisettfunksjon av dataene som inneholder de sanne

parametrene i 95% i hypotetisk repeterte utvalg.Settet av parameterverdier som ikke kan bli forkastet ved 5%

signifikansnivå.Du kan finne et 95% konfidenssett som settet av (1, 2) som

ikke kan bli forkastet på et 5% nivå ved å bruke F-test.

Page 148: Møa 145

Konfidenssett for flere koeffisienter,forts.La F(1,0,2,0) være F-observator som tester hypotesen at 1 = 1,0 and 2 = 2,0:

95% konfidenssett = {1,0, 2,0: F(1,0, 2,0) < 3.00} 3.00 er den 5% kritiske verdien til F2,-fordelingen Dette settet har en dekningsrate på 95% fordi testen som det

er basert på har størrelse på 5%5% av tiden så forkaster testen feilaktig nullhypotesen når den er sann, slik at i 95% av tiden gjør den ikke; derfor er konfidenssettet konstruert som de ikke-forkastede verdiene inneholder de sanne verdiene 95% av tiden..

Page 149: Møa 145

Konfidenssettet basert på F-observatoren er en ellipse

{1, 2: F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

≤ 3.00}

F = 1 2

1 2

2 21 2 , 1 22

,

1ˆ2

ˆ2(1 ) t tt t

t t t t

1 2

1 2

2,

2 2

2 2,0 1 1,0 1 1,0 2 2,0,

2 1 1 2

1ˆ2(1 )

ˆ ˆ ˆ ˆˆ2

ˆ ˆ ˆ ˆ( ) ( ) ( ) ( )

t t

t tSE SE SE SE

dette er kvadratisk form av 1,0 og 2,0 – derfor er grensene til

settet F = 3.00 er ellipse.

Page 150: Møa 145

Konfidenssettet basert på åinvertere F-testen

Page 151: Møa 145

En generell tilnærming for å velgevariabler og “modellspesifikasjon”Spesifiser en “grunn-” eller “benchmark-”modell.

Spesifiser utvalget av plausible alternative modeller som

inkluderer ytterligere kandidatvariabler.

Endrer en kandidatvariabel koeffisienten vi er interessert i

(1)?

Er kandidatvariabelen statistisk signifikant?

Bruk vurdering, ikke noen mekanisk oppskrift …

Ikke bare prøv å maksimere R2!

Page 152: Møa 145

Digresjon om modellevaluering…

Det er lett å falle i fellen å maksimere R2 og 2R – men da mister vi av synet det virkelige målet, en forventningsrett estimator av effekten av klassestørrelse.En høy R2 (eller 2R ) betyr forklaringsvariablene ”forklarer”

variasjonen i Y, men ikke atdu har fjernet forventningsskjevhet pga utelatte variabler.du har en forventningsrett estimator av en kausal effekt (1).de inkluderte variablene er statistisk signifikante – dette må

avgjøres med hypotesetest.

Page 153: Møa 145

Mer California data…

Page 154: Møa 145

Presentasjon av resultater fraregresjonsanalyse Vi lager ofte flere regresjonsmodeller som vi sammenligner

og da er det vanskelig å sammenligne dem når de blir skrevet som ligningsuttrykk, så i stedet rapporterer vi resultatene i en tabell.

En tabell med regresjonsresultater bør inkludere: De estimerte koeffisientene

Standardfeil

Modellevalueringsmål (R2, SER,..)

Antall observasjoner

Relevant F-statistikk, hvis noe

Enhver annen aktuell informasjon.

Finn denne informasjonen i følgende tabell:

Page 155: Møa 145
Page 156: Møa 145

Oppsummering: Regresjon medflere forklaringsvariabler Regresjoner med flere forklaringsvariabler tillater deg å

estimere effekten på Y av en endring i X1 når X2 (og X3, X4…)

holdes konstant.

Hvis du kan måle en variabel kan du unngå forventingsskjevhet

ved utelatt variabel ved å inkludere den.

Der er ingen enkel oppskrift for å bedømme hvilke variabler

som hører til i en regresjon – du må gjøre dine vurderinger.

En tilnærming til å spesifisere en grunnmodell – ved å basere

seg på a-priori argumenter – og deretter undersøke

sensitiviteten til nøkkelestimatene ved alternative

spesifikasjoner.

Page 157: Møa 145

Kapittel 9Kapittel 9

Evaluering av regresjonsanalyser

Page 158: Møa 145

2

Et rammeverk for å evaluerestatistiske studier: Intern og eksternvaliditet (SW seksjon 9.1)

Intern validitet: statistisk inferens om kausale effekter

er valid (gyldig) for populasjonen som blir studert.

Ekstern validitet: statistisk inferens kan generaliseres

fra populasjonen og rammen for studien til andre

populasjoner og rammer (hvor “rammen” refererer til

miljø, institusjoner, politisk og kulturelt bakteppe,

fysiske miljø og andre fremtredende kjennetegn).

Page 159: Møa 145

3

Trusler mot ekstern validitet

1. Forskjeller mellom populasjoner Mus og mennesker

Studenter versus husholdninger

Populasjonsforskjeller mellom land

Kjønn

2. Forskjeller i rammer Laberatoriet og den ”virkelige verden”

Sosialdemokrati og diktatur

Page 160: Møa 145

4

Trusler mot intern validitet (SW seksjon 9.2)

Fem trusler mot intern validitet i studier med

regresjonsanalyser:

1. Forventningsskjevhet ved utelatte variabler

2. Feil funksjonsform

3. Forventningsskjevhet pga målefeil (errors-in-variables

bias)

4. Utvalgsfeil (sample selection bias)

5. Simultanitet (simultaneous causality bias)

Alle disse innebærer at E(ui|X1i,…,Xki) 0 – som igjen betyr at

OLS estimatoren er forventningsskjev og inkonsistent.

Page 161: Møa 145

5

1. Forventningsskjevhet vedutelatte variablerForventningsskjevhet ved utelatt variabel oppstår dersom

en utelatt variabel både:

(i) forklarer del av variasjonen i Y og

(ii) korrelert med minst en inkludert

forklaringsvariabel.

Vi diskuterte dette problemet først i en regresjon med en

enkel X, men forventningsskjevhet ved utelatt variabel vil

også oppstå når det er mange X’er hvis den utelatte

variabelen tilfredstiller betingelse (i) og (ii) over.

Page 162: Møa 145

6

Mulige løsninger ved utelattevariabler1. Hvis utelatt variabel kan bli målt så inkluder den som

en ytterligere forklaringsvariabel i regresjonen;

2. I noen tilfeller kan paneldata brukes for å kontrollere

for effekten av den utelatte variabelen;

3. Hvis variabelen ikke kan bli målt bruk

instrumentvariabel regresjon;

4. Kjør et tilfeldig kontrollert eksperiment.

Hvorfor virker dette? Husk – hvis X blir tilfeldig

tildelt så vil X nødvendigvis bli fordelt uavhengig av

u; slik at E(u|X = x) = 0.

Page 163: Møa 145

7

2. Feil funksjonsform

Oppstår dersom funskjonsformen ikke er korrekt – for eksempel

dersom et interaksjonsledd feilaktig blir utelatt så vil inferens om

kausale effekter være forventningsskjeve.

Mulig løsning for feilspesifikasjon av funksjonsform

1. Kontinuerlig avhengig variabel: bruk den “passende” ikke-

lineære spesifikasjonen av X (logaritmer, interaksjon, etc.)

2. Diskret (eksempel: binær) avhengig variabel: vi trenger en

utvidelse av metode for regresjonsanalyse (“probit” eller

“logit” analyse for binære avhengige variabler).

Page 164: Møa 145

8

3. Målefeil

Så langt har vi antatt at X er målt presist.

I realiteten inneholder ofte økonomiske data målefeil

Registreringsfeil

Problemer med hukommelse i spørreundersøkelser (når startet

du med din nåværende job? Når kjøpte du sist en bok?)

Problem med tvetydige spørsmål (hva var din inntekt forrige

år?)

Tilsiktet feil svar på spørreundersøkerlser (Hva er

formuesverdien av dine eiendeler? Hvor ofte kjører du i beruset

tilstand?)

Page 165: Møa 145

9

Generelt så fører målefeil tilforventningskjevhet

Mulige løsninger

1. Få tak på bedre data.

2. Utvikle en spesifikk modell for målefeilprosessen. Dette er

kun mulig hvis du vet mye om hvordan måelfeilen oppstår

3. Instrumentvariabelregresjon.

Page 166: Møa 145

10

4. Utvalgsfeil

Så langt har vi forutsatt tilfeldige utvalg fra populasjonen. I noen

tilfeller blir tilfeldige utvalg “skjeve” fordi utvalget i praksis

“velger seg selv.”

Utvalgsfeil oppstår når utvalgsprosessen:

(i) påvirker tilgjengeligheten av data og

(ii) denne prosessen er relatert til den avhengige variabelen.

Eksempel: vi ønsker å måle effekten av univeristetsutdanning på inntekt og velger utvalg av universitetsutdannede i arbeid – utvalgsprossessen gjør at (i) det er kun universitetsutdannede med lønnet inntekt som blir trukket ut og dermed (ii) mister vi observasjoner for den avhengige variabelen inntekt der denne er lik null

Page 167: Møa 145

11

5. Simultanitet

Så langt har vi antatt at X forårsaker Y.

Hva om også Y forårsker X?

Eksempel: Klassestørrelseeffekt

Lav STR resulterer i bedre test resultater

Men anta at distrikter med dårlige testresultater får bevilget

ekstra ressurser: som et resultat av den politiske prosessen så

får de også en lav STR

Hvordan påvirker dette regresjonen av TestScore på STR?

Page 168: Møa 145

12

Simultane ligninger

(a) Kausal effekt på Y av X: Yi = 0 + 1Xi + ui

(b) Kausal effekt på X av Y: Xi = 0 + 1Yi + vi

Stor ui betyr stor Yi, som impliserer stor Xi (hvis 1>0)

Derfor corr(Xi,ui) 0

Derfor er 1 forventningsskjev og inkonsistent.

Eksempel: Et distrikt med særlig dårlige testresultater gitt

STR (negativ ui) mottar ekstra ressurser og derved reduserer

STR; så STRi og ui er korrelerte

Page 169: Møa 145

13

Mulig løsning ved simultanitet

1. Tilfeldige kontrollerte eksperiment.

2. Utvikle og estimer en komplett modell med kausalitet i begge

retninger. Dette er f.eks. ideen bak mange store

makroøkonomimodeller til sentralbanker. Dette kan være

veldig vanskelig i praksis.

3. Bruk instrumentvariabelregresjon for å estimere den kausale

effekten (effekten av X på Y).

Page 170: Møa 145

14

Intern og ekstern validitet når vi brukerregresjon til å lage prognoser(forecasting) (SW seksjon 9.3)Lage prognoser og estimere kausale sammenhenger er

ganske ulike målsettinger.

For prognoser,

2R er viktig (veldig!)

Utelatte variabler er ikke noe problem!

Fortolking av koeffisienter i prognosemodeller er ikke

viktig – det viktige er god føyning og en modell du kan

“stole” på at virker i din anvendelse

Ekstern validitet betyr alt: modellen blir estimert ved

bruk av historiske data og må holde stikk i (nær)

fremtid

Page 171: Møa 145

Regresjon med paneldata

Kapittel 10

Page 172: Møa 145

Introduksjon

• Paneldata er data med flere individer målt over flere tidsperioder

• Tillater oss å kontrollere for noen typer utelatte variabler, uten at vi behøver å ha data på disse– Variabler som varierer mellom individer men er

konstant over tid– Variabler som varierer over tid men ikke over

individer

• Ideen er at utelatte variabler som er konstante over tid kan ikke forklare endringer over tid

Page 173: Møa 145

Introduksjon

• Individer i et paneldatasett kan for eksempel være– Land– Arbeidstakere– Kommuner– Bedrifter– Husholdninger– Konsumenter– Skoler– Fiskefartøy– Pasienter– Etc.

Page 174: Møa 145

Introduksjon

• Skiller mellom balansert og ubalansert panel– Et balansert panel observasjoner for alle individene

i alle tidsperiodene– Et ubalansert panel vil mangle noen observasjoner

Notasjon for paneldata• Anta en avhengig variabel Y og k forklarings-

variabler X:

Yit, X1it, X2it,…,Xkit, der i = 1,…,n og t = 1,…,T

n – antall individerT – antall tidsperioder

Page 175: Møa 145

Trafikkdødelighet og skattlegging av alkohol i USA

• Observasjoner: et år i en amerikansk stat• 48 amerikanske stater: n = 48• 7 år (1982,…, 1988): T = 7• Balansert panel: antall observasjoner = 7x48 =

336

Variabler• Trafikkdødelighet (antall døde i trafikken målt per

10,000 innbyggere i respektiv stat for et gitt år)• Skatt for en kasse øl• Andre (aldersgrense for sertifikat, lover knyttet

til kjøring i beruset tilstand, etc.)

Page 176: Møa 145

Regresjon med kun 1982-data

Page 177: Møa 145

Regresjon med kun 1988-data

Page 178: Møa 145

Hva kan forklare dette?

• Hvilke andre faktorer kan forklare at i stater med høyere alkoholavgifter har høyere dødstall knyttet til trafikkulykker?

Andre faktorer som påvirker ulykkestall i trafikken:• Kvalitet (alder) på biler• Kvaliteten på veiene• “Kultur” knyttet til kjøring i beruset tilstand• Trafikktetthet på veiene

Page 179: Møa 145

Utelatte variabler I

Eksempel 1: trafikktetthet. Anta:

i. Høy trafikktetthet betyr flere trafikkulykkerii. Stater på vestkysten som har lavere trafikktetthet har

også lavere alkoholavgifter

• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye alkoholavgifter”kan reflektere “høy trafikktetthet” (slik at OLS koeffisienten er forventningsskjev i positiv retning –høye avgifter (=høy trafikktetthet), flere dødsulykker)

• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat

Page 180: Møa 145

Utelatte variabler II

Eksempel 2: Kulturelle holdninger til alkohol og kjøring:

i. påvirker trafikkdødelighetii. Er potensielt korrelert med alkoholavgifter, slik at

skattetrykket på alkohol kan plukke opp kulturforskjeller mellom stater

• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye avgifter” kan reflektere “kulturelle holdninger til alkohol” (slik at OLS koeffisienten blir forventningsskjev)

• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat

Page 181: Møa 145

Paneldata med 2 år

Betrakt paneldatamodellen

FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit

• Zi er en faktor som ikke endrer seg over tid (trafikktetthet, kulturelle holdninger), i alle fall ikke i de årene vi har data fra

• Anta Zi ikke blir observert slik at utelatelse kan føre til forventningsskjevhet i estimeringen

• Effekten av Zi kan bli eliminert ved bruk av T = 2 år

Page 182: Møa 145

Paneldata med 2 år

Enhver endring i trafikkdødelighet fra 1982 til 1988 kan ikke ha blitt forårsaket av Zi, fordi Zi (ved antakelse) endrer seg ikke mellom 1982 og 1988.

Betrakt trafikkdødelighet i 1988 og 1982:

FatalityRatei1988 = 0 + 1BeerTaxi1988 + 2Zi + ui1988

FatalityRatei1982 = 0 + 1BeerTaxi1982 + 2Zi + ui1982

Anta E(uit|BeerTaxit, Zi) = 0

Hvis man trekker 1988 ligningen fra 1982 ligningen (dvs. kalkulerer endringen mellom de to årene), så blir effekten av Zi eliminert

Page 183: Møa 145

Paneldata med 2 år

FatalityRatei1988 – FatalityRatei1982 =1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982)

• Det nye feilleddet, (ui1988 – ui1982), er ukorrelert med både BeerTaxi1988 og BeerTaxi1982

• Denne “differanse”-ligningen kan bli estimert med OLS, selv om Zi ikke er observert

• Den utelatte variabelen Zi endres ikke, så den kan ikke forklare endringen i Y

Page 184: Møa 145

Paneldata med 2 år

Page 185: Møa 145

’Fixed effect’ modell (T > 2)

Hva gjør dersom vi har flere enn 2 perioder (T > 2)?

Yit = 0 + 1Xit + 2Zi + uit, i =1,…,n, t = 1,…,T

Vi kan omskrive denne regresjonen på to måter:1) Regresjonsmodell med n-1 dummyvariabler2) ‘Fixed Effects’ regresjonsmodellen

Page 186: Møa 145

1) Dummyvariabelmodellen

Yit = 0 + 1Xit + 2D2i + … + nDni + uit

hvor D2i = 1 for individ 2 og = 0 for alle andre individer etc

• Først lag dummyvariablene D2i,…,Dni

• Deretter estimer (1) med OLS• Statistisk inferens (hypotesetester,

konfidensintervaller) er som vanlig• Denne metoden er upraktisk når n er veldig stor

(for eksempel hvis n = 1000 arbeidere)

Page 187: Møa 145

2) “Fixed Effects” regresjonsmodellen

• ‘Fixed effects’ (individfaste effekter) regresjonsmodellen:

Yit = 1Xit + i + uit

• Vi kan beskrive gjennomsnittet for individene inneholdt i Y slik:

Yisnitt = 1Xi

snitt + i + uisnitt

• Avvik fra gjennomsnittet:Yit – Yit

snitt = 1Xit - Xitsnitt + uit – uit

snitt

• Den siste ligningen er den som estimeres

Page 188: Møa 145

2) “Fixed Effects” regresjonsmodellen

Altså,

• Først, for hver variabel, trekk fra gjennomsnittet for de enkelte individene– For eksempel trekk fra gjennomnsnittlig årlig trafikkdødelighet i Arizona i

årene 1982-1988 fra faktisk trafikkdødelighet i Arizona i de gitt årene

• Estimer modellen med de transformerte variablene

• Inferens er som vanlig

• Dette er som ’endrings-’metoden når T=2 bortsett fra at nå ser vi på avvik fra et gjennomsnitt i stedet for endring over to perioder

Page 189: Møa 145

Tidsfaste effekter

• En utelatt variabel kan tenkes å variere over tid men ikke over individer:

• Sikrere biler (airbag, etc.); endringer i nasjonale lover• Slike endringer fører til endringer i konstanten 0 over

tid• La disse endringene (“sikrere biler”) bli betegnet med

variabelen St, som endrer over tid men ikke over stater

• Dette resulterer i den følgende regresjonsmodellen:

Yit = 0 + 1Xit + 2Zi + 3St + uit

Page 190: Møa 145

To formuleringer for å beregne tidsfaste effekter

1. “T-1 dummyvariabel” formuleringen:

Yit = 0 + 1Xit + 2B2t + … TBTt + uit

hvor B2t = 0 når t=2 og = 0 ellers osv.

2. “Tidseffekt” formuleringen:

Yit = 1Xit + t + uit

Page 191: Møa 145

’Fixed effect” og tidseffekt i samme modell

Der er forskjellige metoder for å både tillate individeffekter og tidseffekter:

• Differense (endring) og konstant (bare når T = 2)

• Entity demeaning & T – 1 time indicators• Time demeaning & n – 1 Entity indicators• T – 1 time indicators & n – 1 entity indicators • Entity & time demeaning

Page 192: Møa 145

Antakelser for fixed-effect modellen

Betrakt en enkelt X:

Yit = 1Xit + i + uit, i = 1,…,n, t = 1,…, T

• E(uit|Xi1,…,XiT,i) = 0.• (Xi1,…,XiT,Yi1,…,YiT), i =1,…,n, er i.i.d. trekninger fra

simultanfordeling• (Xit, Yit) har endelige fjerdemomenter• Der er ingen perfekt multikollinearitet (ved flere X’er)• corr(uit,uis|Xit,Xis,i) = 0 for t ≠ s.

• Antakelsene 3 og 4 er de samme som før• Antakelsene 1 og 2 er forskjellige• Antakelse 5 er ny

Page 193: Møa 145

Fyllekjøring datasett

• n = 48 amerikanske stater, T = 7 år (1982,…,1988) (balansert)

Variabler• Drafikkdødelighetsraten (antall drepte per 10,000

innbygger)• Avgift på en kasse øl (Beertax)• Aldersgrense for alkohol• Minimumsstraffen for å kjøre med promille:

– Mandatory Jail– Manditory Community Service– Ellers så vil straffen kun være en mulkt

• Antall kjørte mil per sjåfør (US DOT)• Økonomiske data for statene (Realinntekt per

innbygger, etc.)

Page 194: Møa 145

Hvordan kan paneldata hjelpe?

• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer mellom stater men er konstante over tid:– Drikkekultur– Kvalitet på veiene– Alderen på bilparken

bruk effekter som er faste for staten (fixed effect)

• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer over tid men er konstante mellom stater:– Forbedringer i bilsikkerhet– Endring i nasjonale holdninger til promillekjøring

Bruk tidsfaste effekter

Page 195: Møa 145
Page 196: Møa 145
Page 197: Møa 145

Fordeler og begrensninger ved bruk av fixed effect modeller

Fordeler• Du kan kontrollere for variabler som:

– varierer mellom individer (stater) men ikke over tid, og/eller

– varierer over tid men ikke mellom individer (stater)

• Flere observasjoner gir deg mer informasjon• Estimering er ganske rett frem utvidelse av

multivariat OLS (men problematisk i Excel)

Begrensninger/utfordringer• Nødvendig med variasjon i X over tid for individene• Korrelasjon og kausalitet knyttet til tidssdimensjonen

kan by på problemer (dette skal vi snakke mer om i kap 14 og 15)

Page 198: Møa 145

Oppsummering

‘Fixed effects’ regresjoner kan gjøres på tre måter:1. “Endrings”-metoden når T = 2 (mulig å gjøre i

Excel)2. “n-1 dummyvariabler” metoden når n er liten3. “Fixed effects”-regresjon (med transformerte

variabler)

• Disse metodene kan benyttes om man vil bare ha ‘fixed effects’ eller tidseffekter eller begge deler

• Statistisk inferens: som i multivariat regresjon

Page 199: Møa 145

Regresjon med binær avhengig variabel

Kapittel 11

Page 200: Møa 145

Introduksjon

• En binær variabel er en variabel som bare tar to verdier, vanligvis 0 eller 1

• Modeller med binær avhengig variabel, ogsåkjent som diskret valg modeller, benyttes når vi kan observere adferd– Kjøper eller kjøper ikke noe– Får lån eller får ikke lån– Vil bevare en foss eller ikke– Er for vindmøller eller ikke

Page 201: Møa 145

3

The Linear Probability Model(SW Section 11.1)

La oss begynne med en regresjon med en forklaringsvariabel

(regressor):

Yi = 0 + 1Xi + ui

Men:

Hva er 1 når Y er binær? Er 1 = Y

X

?

Hva betyr linjen 0 + 1X når Y er binær?

Hva betyr den predikerte verdien Y når Y er binær? For

eksempel, hva betyr det at Y = 0.26?

Page 202: Møa 145

4

The linear probability model, ctd.

Yi = 0 + 1Xi + ui

OLS antagelse #1: E(ui|Xi) = 0, so

E(Yi|Xi) = E(0 + 1Xi + ui|Xi) = 0 + 1Xi

Når Y er binær,

E(Y) = 1Pr(Y=1) + 0Pr(Y=0) = Pr(Y=1)

Slik at

E(Y|X) = Pr(Y=1|X)

Page 203: Møa 145

5

The linear probability model, ctd.Når Y er binær kalles den lineære regresjonsmodellen

Yi = 0 + 1Xi + ui

Den linear probability model (den lineære

sannsynlighetsmodellen)

Den predikerte verdien fra modellen er en sannsynlighet:

E(Y|X=x) = Pr(Y=1|X=x) = prob. at Y = 1 gitt x

Y = den predikerte sannsynligheten for at Yi = 1, gitt

X

1 = endringen i sannsynligheten for at Y = 1 for gitt x:

1 = Pr( 1 | ) Pr( 1 | )Y X x x Y X x

x

Page 204: Møa 145

6

Example: linear probability model, HMDA data

Mortgage denial v. ratio of debt payments to income

(P/I ratio) in the HMDA data set (subset)

Page 205: Møa 145

7

Linear probability model: HMDA data, ctd.

�deny = -.080 + .604P/I ratio (n = 2380) (.032) (.098)

Hva er den predikerte verdien for at P/I ratio = .3?�Pr( 1 | / .3)deny P Iratio = -.080 + .604.3 = .151

Hva er effekten av at P/I ratio øker fra .3 to .4:�Pr( 1 | / .4)deny P Iratio = -.080 + .604.4 = .212Sannsynligheten for et avslag når P/I ratio øker fra .3 to .4 is øker med .061, eller med 6.1 prosent.

Page 206: Møa 145

8

Linear probability model: HMDA data, ctd

Vi inkluderer så en dummy variable for om søkeren er farget:�deny = -.091 + .559P/I ratio + .177black

(.032) (.098) (.025)

Predikert sannsynlighet for avslag: For fargede søkere med P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1771 = .254

For hvite søkere med, P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1770 = .077

Forskjellen = .177 = 17.7 prosent Parameteret for black er significant på et 5% nivå Men det er stor sannsynlighet for skjevheter i estimatet på

grunn av utelatt variable…

Page 207: Møa 145

9

The linear probability model: Oppsummering

Modellerer Pr(Y=1|X) som en lineær funksjon av X Fordeler:

Lett å estimere og å tolke Statistisk inferens er den samme som for en vanlig

regresjon Men R2 er bare tull

Ulemper: Kan en sannsynlighet være lineær i X? I modellen kan predikerte sannsynligheter bli <0 eller

>1! Disse ulempene kan unngåes ved ikke-linære

sannsynlighetsmodeller: probit eller logit modeller

Page 208: Møa 145

10

Probit and Logit Regression(SW Section 11.2)

Et hovedproblem med den lineære sannsynlighetsmodellen

er at sannynligheten er lineære, slik at den kan predikeres til

å bli store enn 1 eller mindre enn 0.

Pr(Y = 1|X) = 0 + 1X

Man ønsker at:

0 ≤ Pr(Y = 1|X) ≤ 1 for alle X

Pr(Y = 1|X) skal være økende i X (for 1>0)

Dette fordrer at vi benytter en ikke-linære funksjon. Et

alternative er en “S-kurve”…

Page 209: Møa 145

11

Probit og logit modeler har at

0 ≤ Pr(Y = 1|X) ≤ 1 for alle X

Pr(Y = 1|X) er økende i X (for 1>0)

Page 210: Møa 145

12

En Probit model spesifiserer sannsynligheten for Y=1 using

ved hjelp av en kummulativ standard normal fordeling

evaluert for z = 0 + 1X:

Pr(Y = 1|X) = (0 + 1X)

er den kummulative normalfordelingen.

z = 0 + 1X er “z-verdien” for probit modellen for

forskjellige X.

Eksempel: Anta 0 = -2, 1= 3, X = .4, slik at

Pr(Y = 1|X=.4) = (-2 + 3.4) = (-0.8)

Pr(Y = 1|X=.4) = området under standard normal fordelingen

til venstre for = -.8, som er…

Page 211: Møa 145

13

Pr(Z ≤ -0.8) = .2119

Page 212: Møa 145

14

Probit regression, ctd.

Hvorfor benytte den kummulative normalfordelingen?

“S-kurven” gir en funksjon hvor:

0 ≤ Pr(Y = 1|X) ≤ 1 for all X

Pr(Y = 1|X) er økende i X (for 1>0)

Lett å bruke – sannsynligheten finne let fra tabellen for

normalfordelingen

Relativt grei tolkning:

z-verdi = 0 + 1X

0 + 1 X er den predikerte z-verdien, gitt X

1 er endringen i z-verdien for en enhets endring i X

Page 213: Møa 145

15

STATA Example: HMDA data . probit deny p_irat, r;

Iteration 0: log likelihood = -872.0853 We’ll discuss this laterIteration 1: log likelihood = -835.6633Iteration 2: log likelihood = -831.80534Iteration 3: log likelihood = -831.79234

Probit estimates Number of obs = 2380 Wald chi2(1) = 40.68 Prob > chi2 = 0.0000Log likelihood = -831.79234 Pseudo R2 = 0.0462

------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901 _cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082------------------------------------------------------------------------------

�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)

(.16) (.47)

Page 214: Møa 145

16

STATA Example: HMDA data, ctd.�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)

(.16) (.47)

Positive coefficient: does this make sense?

Standard errors have the usual interpretation

Predicted probabilities:

�Pr( 1| / .3)deny P Iratio = (-2.19+2.97 .3)

= (-1.30) = .097

Effect of change in P/I ratio from .3 to .4:

�Pr( 1| / .4)deny P Iratio = (-2.19+2.97 .4) = .159

Predicted probability of denial rises from .097 to .159

Page 215: Møa 145

17

Probit modell med flere forklaringsvariabler

Pr(Y = 1|X1, X2) = (0 + 1X1 + 2X2)

er den kummulative normalfordelingen.

z = 0 + 1X1 + 2X2 er “z-verdien”.

1 er effekten av en enhets endring i X1, gitt at X2 holdes

konstant

Page 216: Møa 145

18

STATA Example: HMDA data . probit deny p_irat black, r;

Iteration 0: log likelihood = -872.0853Iteration 1: log likelihood = -800.88504Iteration 2: log likelihood = -797.1478Iteration 3: log likelihood = -797.13604

Probit estimates Number of obs = 2380 Wald chi2(2) = 118.18 Prob > chi2 = 0.0000Log likelihood = -797.13604 Pseudo R2 = 0.0859

------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------

Page 217: Møa 145

19

STATA Example, ctd.: predicted probit probabilities

. probit deny p_irat black, r;

Probit estimates Number of obs = 2380 Wald chi2(2) = 118.18 Prob > chi2 = 0.0000Log likelihood = -797.13604 Pseudo R2 = 0.0859

------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------

. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;

. display "Pred prob, p_irat=.3, white: " normprob(z1);

Pred prob, p_irat=.3, white: .07546603

NOTE_b[_cons] is the estimated intercept (-2.258738)_b[p_irat] is the coefficient on p_irat (2.741637)sca creates a new scalar which is the result of a calculationdisplay prints the indicated information to the screen

Page 218: Møa 145

20

STATA Example, ctd.

�Pr( 1| / , )deny P I black= (-2.26 + 2.74 P/I ratio + .71 black)

(.16) (.44) (.08) Is the coefficient on black statistically significant? Estimated effect of race for P/I ratio = .3:�Pr( 1|.3,1)deny = (-2.26+2.74 .3+.71 1) = .233

�Pr( 1|.3,0)deny = (-2.26+2.74 .3+.71 0) = .075

Difference in rejection probabilities = .158 (15.8 percentage points)

Still plenty of room still for omitted variable bias…

Page 219: Møa 145

21

Logit modell

Logit model benytter en logistisk fordeling heller en

normalfordelingen

Var en fordel at den var lettere å regne med en

normalfordelingen før PC-ene ble kraftig nok

Ellers så godt som identisk i forhold til modell og tolkning

Page 220: Møa 145

22

The HMDA Data Set

Data on individual characteristics, property

characteristics, and loan denial/acceptance

The mortgage application process circa 1990-1991:

Go to a bank or mortgage company

Fill out an application (personal+financial info)

Meet with the loan officer

Then the loan officer decides – by law, in a race-blind

way. Presumably, the bank wants to make profitable

loans, and the loan officer doesn’t want to originate

defaults.

Page 221: Møa 145

23

The loan officer’s decision

Loan officer uses key financial variables:

P/I ratio

housing expense-to-income ratio

loan-to-value ratio

personal credit history

The decision rule is nonlinear:

loan-to-value ratio > 80%

loan-to-value ratio > 95% (what happens in default?)

credit score

Page 222: Møa 145

24

Modell spesifikasjon

Pr(deny=1|black, other X’s) = … linear probability model probit

Main problem with the regressions so far: potential omitted variable bias. All these (i) enter the loan officer decision function, all (ii) are or could be correlated with race:

wealth, type of employment credit history family status

Page 223: Møa 145

25

Page 224: Møa 145

26

Table 11.2, ctd.

Page 225: Møa 145

27

Table 11.2, ctd.

Page 226: Møa 145

Regresjon med instrumentvariabler

Kapittel 12

Page 227: Møa 145

Introduksjon

• Instrumentvariabelregresjon (IV) er en teknikk for åfå en konsistent estimator av populasjonsregresjons-funksjonen når forklaringsvariabelen X er korrelert med feilleddet u, dvs når E(u|X) ≠ 0

Gjelder brudd på intern validitet i tre tilfeller:1. Forventningsskjevhet ved (uobserverte) utelatte

variabler2. Forventningsskjevhet ved simultan kausalitet

(simultanitetsproblemet);3. Målefeil i variablene

• Betegnes mer generelt som problem med endogeneforklaringsvariabler

Page 228: Møa 145

Instrumentvariabler

Yi = 0 + 1Xi + ui

IV-regresjon deler X i to: 1. en del som er korrelert med u2. en del som ikke er det

– Ved å isolere den delen som ikke er korrelert med uer det mulig å estimere 1.

• Dette gjøres med en instrumentvariabel Zi som er ukorrelert med ui.

• Instrumentvariabelen finner bevegelser i Xi som ikke er korrelert med ui, og bruker disse til å estimere 1.

Page 229: Møa 145

Endogenitet og eksogenitet

• En endogen variabel er korrelert med u

• En eksogen variabel er ikke korrelert med u

• I denne sammenheng er det snakk om høyresidevariablene (forklaringsvariablene)

• I likhet med problemet med utelatte variabler medfører endogene variabler at OLS estimatoren blir forventningsskjev og ikke-konsistent:

• Problemet skyldes kausalitet som går to veier og hvor begge effektene blir plukket opp i den estimerte 1.

pu

1 1 XuX

ˆ +

Page 230: Møa 145

Gyldige instrumentvariabler Z

Yi = 0 + 1Xi + ui

• For at en instrumentvariabel (et “instrument”) Z skal være gyldig må den oppfylle to betingelser:

1. Instrument relevans: corr(Zi,Xi) ≠ 0– Z forklarer noe av X

2. Instrument eksogenitet: corr(Zi,ui) = 0– Z er ikke korrelert med u; forklarer kun Y gjennom X

Page 231: Møa 145

Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum

• IV regresjon ble opprinnelig utviklet for å estimere etterspørselselastisiteter for jordbruksprodukter, for eksempel for smør:

lnQi = 0 + 1lnPi + ui

• 1 = priselastisitet til smør = % endring i etterspurt kvantum Q for en 1% endring i prisen P

• Data: observasjoner på priser og kvantum for ulike år

• OLS-regresjonen lnQ på lnP har forventningsskjevhet pga simultan kausalitet

Page 232: Møa 145

Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum

Page 233: Møa 145

Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum

Page 234: Møa 145

Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum

Page 235: Møa 145

Inferens med TSLS-estimator

• 1TSLS er normalfordelt

• Statistisk inferens er lik som ved ‘vanlige’ regresjoner

• Normalfordelingsantakelsene baserer seg på store utvalg (som vanlig)

• Dette bygger på antakelsen om gyldige instrumenter

• Viktig om standardfeil:– OLS standardfeilene fra den 2. stegs-regresjonen er feil – de tar

ikke høyde for estimeringen i 1. steg.

– I stedet må man bruke programvare (annet enn Excel) som har ferdige programmerte rutiner for å beregne korrekt standardfeil for TSLS estimatoren. I praksis oversees vdenne feilen i enkle statistikkpakker som Excel

Page 236: Møa 145

Den generelle IV-regresjonsmodellen

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

• Yi er den avhengige variabelen

• X1i,…, Xki er endogene forklaringsvariablene (potensielt korrelert med ui)

• W1i,…,Wri er de inkluderte eksogene forklaringsvariablene (ukorrelert med ui)

• 0, 1,…, k+r er de ukjente regresjonskoeffisientene

• Z1i,…,Zmi er instrumentvariablene (de ekskluderte eksogene variablene)

• Koeffisientene er overidentifiserte hvis m > k; eksakt identifisert hvis m = k; og underidentifisert hvis m < k.

Page 237: Møa 145

Fremgangsmåte for estimering av generell TSLS modell

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

• m instrumenter: Z1i,…, Zm

• 1. stegsregresjoner– Kjør regresjon av Xi på alle de eksogen

forklaringsvariablene: W1,…,Wr, Z1,…, Zm med OLS– Beregn predikerte verdier, i = 1,…,n

• 2. stegsregresjon– Kjør regresjon av Y på de predikerte X1,…,Xk og de

ekspogene variablene W1,…,Wr med OLS– Koeffisientene fra 2. stegs-regresjonen er TSLS

estimatorene

Page 238: Møa 145

Antakelse for IV-regresjonsmodellen

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

1. E(ui|W1i,…,Wri) = 0– De eksogene forklaringsvariablene er eksogene

2. (Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi) er i.i.d.

3. X’ene, W’ene, Z’ene og Y har endelige 4. momenter

4. Instrumentene (Z1i,…,Zmi) er gyldige.

• Med antakelsene 1-4 er TSLS og dens t-observator normalfordelt

Page 239: Møa 145

Undersøke instrumenter

• Kanskje det viktigste spørsmålet knyttet til instrumentvariabelregresjon er om instrumentene våre er gyldige

Husk:1. Relevans

– Minst en av instrumentene Z må inngå i populasjonsregresjonen til X i 1. stegsregresjonen; corr(Zi,Xi) ≠ 0

2. Eksogenitet– Alle instrumentene må være ukorrelerte med feilleddet

u; corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

Page 240: Møa 145

Instrument relevans: svake instrumenter

Vi ser på tilfellet med en endogen forklaringsvariabel:Yi = 0 + 1Xi + 2W1i + … + +rWri + ui

1. stegsregresjon:Xi = 0 + 1Z1i +…+ mZmi + m+1W1i +…+ m+kWki + ui

• Instrumentene er relevante dersom minst en avkoeffisientene 1,…,m er ulik null.

• Instrumentene er svake dersom 1,…,m enten er null ellernærme null.

• Svake instrumenter forklarer veldig lite av variansen i X utover den som blir forklart av W’ene

Page 241: Møa 145

Instrument relevans: svake instrumenter

• Med svake instrumenter går nevneren i 1TSLS mot null

– Nevneren er målet på corr(Zi,Xi); sZX

• I det tilfelle er TSLS estimatoren og tilhørende t-observator selv i store utvalg ikke normalfordelt

Page 242: Møa 145

Instrument relevans: svake instrumenter

Test for svake instrumenter

1. Kjør 1.stegsregresjonen med X på Z1,..,Zm,W1,…,Wk

2. Lag en F-test der nullhypotesen er at Z1,..,Zm alle er lik null

3. Dersom F-observatoren er lavere enn 10 er settet avinstrumentvariabler svake

• Det finnes mer sofistikerte tester for svake instrumenter, men det går utover pensum for dette kurset

Page 243: Møa 145

Eksogene instrumenter

• Instrument eksogeneitet: Alle instrumentene er ukorrelerte med feilleddet: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

• Dersom instrumentene er korrelert med feilleddet sågreier ikke 1. stegsregresjon av TSLS å isolere den komponenten av X som er ukorrelert med feilleddet, og 2.stegs TSLS-estimator blir dermed ikke konsistent.

• Hvis der er flere instrumenter enn endogene forklaringsvariabler er det mulig å teste for instrument eksogenitet.

Page 244: Møa 145

Eksogene instrumenter

Test for eksogene instrumenter

• Intuisjon: Dersom du har to potensielle instrumenter Z1 og Z2 som benyttes til å beregne to forskjellige TSLS estimatorer, 1

TSLS1 og 1TSLS2, vil det være rart

om disse to estimatorene er veldig forskjellige

• Enten er den ene eller den andre instrumentvariabelen ugyldig

• J-test for overidentifiserende restriksjoner gjør nettopp en slik avveining

Page 245: Møa 145

Sigarettetterspørsel estimert med TSLS

Page 246: Møa 145

Oppsummering IV-estimering

• IV-estimering benyttes når man har variabler med endogene forklaringsvariabler som fører til forventingsskjevhet– Utelatte variabler– Målefeil– Utvalgsproblemer (ikke representativt utvalg)– Simultan kausalitet

• Den største trusselen mot intern validitet i IV-estimering er instrument som ikke er gyldige1. Svake instrument (lav relevans)2. Endogene instrument (corr(Z, u)≠0)

Page 247: Møa 145

Begrepsapparat for instrumentvariabler

• Endogene variabler• Eksogene variabler• Gyldige instrument

– Relevans– Eksogenitet

• Tostegs minste kvadraters metode (2SLS/3SLS)– Første- og andrestegsregresjon– Redusert form– Førstestegs F-test

• Identifikasjon– Eksakt identifisert– Overidentifisert– Underidentifisert

• Svake instrument• J-test

Page 248: Møa 145

Repetisjon av statistikk og sannsynlighetsregning

Kapittel 1-2-3

Page 249: Møa 145

I statistikk skiller vi mellom

• Beskrivende statistikk (eller deskriptiv statistikk):– I denne grenen av statistikk beskriver vi et statistisk

tallmateriale vha. ulike måltall som gjennomsnitt, median, varians, kovarians, korrelasjon, osv. Man gjør ikke noen antagelser om statistiske sannsynlighetsfordelinger som ligger bak de observerte tallene, eller prøver å si noe om populasjonen på grunnlaget av utvalget av data, eller predikere fremtidige verdier av en tallstørrelse på grunnlag av historiske tall.

• Statistisk inferens (eller statistisk analyse): – I denne grenen av statistikk prøver man å si noe om

populasjonen ut fra data på et utvalg (f.eks. om populasjonen av privatbilister ut fra et utvalg av bilister som har kjøpt drivstoff på Statoil-stasjoner), eller man prøver å si noe om fremtidige verdier av en tallstørrelse basert på historiske data (f.eks. om fremtidige oljepriser basert på historiske oljepriser). Man må da pålegge noen forutsetninger om sannsynlighetsfordelingen til den stokastiske variabelen, f.eks.at den er normalfordelt.

Page 250: Møa 145

Viktige begreper som anvendes til statistisk inferens

• Populasjon, tilfeldige (stokastiske) variabler, ogfordeling

• Momenter til en fordeling (gjennomsnitt, varians, standardavvik, kovarians, korrelasjon)

• Betingede fordelinger og betingede gjennomsnitt(forventningsverdier)

• Fordeling til et datautvalg trukket tilfeldig fra en populasjon: Y1,…, Yn

Page 251: Møa 145

Hva er økonometri?

• Når man kombinerer statistisk inferens med økonomisk teori kaller man det gjerne for økonometri

• I praksis vil økonometri som regel bety at man anvender regresjonsanalyse for å analysere relasjoner mellom økonomiske variabler

Page 252: Møa 145

Typer data

• Tverrsnittsdata (cross-sectional data)– Data (observasjoner) for mange individer observert

over en periode

• Tidsseriedata (time series data)– Data (observasjoner) for ett individ observert over

mange perioder

• Panel data (longitudinal data)– Data (observasjoner) for mange individer observert

over mange perioder

Page 253: Møa 145

Tilfeldige (stokastiske) variabler og sannsynlighetsfordelinger

Grunnleggende begreper fra statistikk:

• Utfall • Sannsynlighet (for utfall)• Utfallsrommet (alle mulige utfall)• Hendelse (et utvalg av utfall)• Tilfeldig variabler• Diskrete tilfeldige variabler• Kontinuerlige tilfeldige variabler

Page 254: Møa 145

Populasjon og tilfeldig variabel

Populasjon• Gruppen eller samlingen bestående av alle mulige

enheter vi er interessert i (studenter, oljebedrifter)

• Vi vil betrakte populasjoner som uendelig store (∞ eren tilnærming til “veldig stor”)

Tilfeldig variabel Y• Numerisk oppsummering av en tilfeldig et tilfeldig

utfall (gjennomsnittlig høyde, gjennomsnittligoljeutvinning)

Page 255: Møa 145

Sannsynlighetsfordelingen til populasjonen Y

• Sier noe om hvor sannsynlig det er et Y tar ulike verdier – eks. P[Y=1.70] som høyde for studenter

• Sannsynlighetsfordelingen blir definert ved en rekke momenter– Gjennomsnitt– Varians– Standardavvik– Kovarians– Korrelasjon– Skjevhet– Kurtosis

Page 256: Møa 145

Sannsynlighetsfordelingen til populasjonen Y

Gjennomsnitt = forventningsverdi til Y= E(Y) = Y

= gjennomsnittlig verdi på Y vedgjentatte realiseringer av Y

Varians = E(Y – Y)2

= Y2

= mål på den kvadrerte spredningen tilsannsynlighetsfordelingen

Standardavvik = (Y2)1/2 = Y

Page 257: Møa 145

Sannsynlighetsfordelingen til populasjonen Y

• Skjevhet =

= mål på assymetri i fordelingen• skjevhet = 0: fordelingen er symmetrisk• skjevhet > (<) 0: fordelingen har en lang høyre-

(venstre-) hale

• Kurtosis =

= mål på masse i halene= mål på sannynlighet for store verdier

• kurtosis = 3: normalfordeling• kurtosis > 3: store haler (“leptokurtotisk”)

3

3

Y

Y

E Y

4

4

Y

Y

E Y

Page 258: Møa 145
Page 259: Møa 145

Kovarians

• To tilfeldige variabler X og Z har en simultanfordeling(joint distribution)

• Kovariansen mellom X og Z ercov(X,Z) = E[(X – X)(Z – Z)] = XZ

• Kovariansen måler graden av lineær avhengighetmellom X og Y

• cov(X,Z) > 0 betyr en positiv relasjon mellom X og Z

• Hvis X og Z er uavhengig fordelt, så er cov(X,Z) = 0

• Kovarianse til en tilfeldig variabel med seg selv erdens varians:

• cov(X,X) = E[(X – X)(X – X)] = E[(X – X)2] = X2

Page 260: Møa 145

Kovariansen mellom Test Score og STR (student-teacher-ratio) er negativ:

Page 261: Møa 145

Korrelasjon

• corr(X,Z) = = rXZ

• –1 ≤ corr(X,Z) ≤ 1

• corr(X,Z) = 1 betyr perfekt positiv lineærsammenheng

• corr(X,Z) = –1 betyr perfekt positiv lineærsammenheng

• corr(X,Z) = 0 betyr ingen lineær sammenheng

cov( , )

var( ) var( )XZ

X Z

X Z

X Z

Page 262: Møa 145

• Korrelasjons-koeffisientenmåler lineær sammenheng mellom to tilfeldige variabler

Page 263: Møa 145

Betingede sannsynlighetsfordelinger (conditional distribution)

Betinget sannsynlighetsfordeling• Fordelingen til Y betinget på verdier til en annen

tilfeldig variabel, X• Eks: Inntektsfordeling for de som har høyere

utdanning (HU) = 3 år

Betingede forventninger og betingede momenter• Betinget forventing = gjennomsnitt til den betingede

fordelingen= E(Y|X = x)

• Betinget varians = varians til den betingede fordelingen

• Eks.: E(Inntekt|HU = 3) = gjennomsnittlig inntekt for de som har tre år med høyere utdanning

Page 264: Møa 145

Betingede fordelinger (conditionaldistribution)

• Forskjellen i gjennomsnitt mellom to betingedefordelinger:

• = E(Inntekt|HU=3) – E(Inntekt|HU=0)

Andre eksempler på betingede gjennomsnitt:• Lønn til kvinner i arbeid (Y = timelønn, X = kjønn)• Dødelighetsraten til de som blir gitt en eksperimentell

behandling (Y = leve/dø; X = behandlet/ikkebehandlet)

• Hvis E(X|Z) = konstant, da er corr(X,Z) = 0 (men ikkenødvendigvis motsatt)

• Betinget gjennomsnitt er nært relartert tilgjennomsnittet av en gruppe (dvs. ‘vanlig’gjennomsnitt)

Page 265: Møa 145

Sannsynlighetsfordeling til tilfeldige utvalg (random sampling)

Vi antar at vi har tilfeldige utvalg• Velger et indvidid (fylke, bedrift, elev) tilfeldig fra

populasjonen

Stokastikk og data• Før datautvelgelsen er verdien av Y tilfeldig fordi

individet vil bli trukket tilfeldig• Når individet har blitt trukket og verdien av Y er

kjent, så er Y bare et nummer – ikke stokastisk• Datasettet er (Y1, Y2,…, Yn), hvor Yi = verdien til

Y for det i’te individet (fylke, bedrift, elev) som erutvalgt

Page 266: Møa 145

Tilfeldige utvalg: i.i.d. sannsynlighetsfordeling

• Siden individene #1 og #2 er tilfeldig utvalgt såinneholder Y1 ikke noe informasjon om Y2:

• Y1 og Y2 er uavhengig (independently) fordelt

• Y1 og Y2 kommer fra samme fordeling (samme populasjon), dvs. at Y1 og Y2 er identisk fordelt

• Det betyr at ved tilfeldige utvalg er Y1 og Y2 uavhengig og identisk fordelt (i.i.d)

• Skrevet på en mer generell måte kan vi si at {Yi}, i = 1,…, n, er i.i.d.

Dette tillater oss å bedrive statistisk inferens om fordelingen til en populasjon ved å bruke et utvalg av data fra den populasjonen

Page 267: Møa 145

Sannsynlighetsfordelingen til et utvalg

• Når vi har et datautvalg og ønsker å si noe om hele populasjonen, så ønsker vi:

• En forventningsrett estimator av gjennomsnittet:E(Y) = Y

– Gjennomsnittet av utvalget som Y er trukket fra er lik populasjonsgjennomsnittet Y

• En konsistent estimator av gjennomsnittet:E(Y) Y når n blir stor

– Dette er store talls lov som sier at når antall observasjoner vokser går estimatet av gjennomsnittet mot populasjonsgjennomsnittet Y

Page 268: Møa 145
Page 269: Møa 145

Sannsynlighetsfordelingen til et utvalg

Gjennomsnitt: E(Y ) = E(1

1 n

ii

Yn ) =

1

1( )

n

ii

E Yn =

1

1 n

Yin

= Y

Varians: var(Y ) = E[Y – E(Y )]2

= E[Y – Y]2

= E2

1

1 n

i Yi

Yn

= E2

1

1( )

n

i Yi

Yn

Page 270: Møa 145

Sannsynlighetsfordelingen til et utvalg

så var(Y ) = E2

1

1( )

n

i Yi

Yn

= 1 1

1 1( ) ( )

n n

i Y j Yi j

E Y Yn n

= 2

1 1

1( )( )

n n

i Y j Yi j

E Y Yn

= 2

1 1

1cov( , )

n n

i ji j

Y Yn

= 22

1

1 n

Yin

= 2Y

n

Page 271: Møa 145

Sannsynlighetsfordelingen når antall observasjoner n er stor

• For små utvalg er det vanskelig å beregne fordelingen til et gjennomsnitt av Y

• For store utvalg er det enkelt!

• Når n øker blir fordelingen tettere rundt Y (store talls lov)

• Videre så konvergerer fordelingen til Y(snitt) - Ymot normalfordelingen (sentralgrenseteoremet)

Page 272: Møa 145

Law of Large Numbers (store talls lov)

An estimator is consistent if the probability that its falls within an interval of the true population value tends to one as the sample size increases.

If (Y1,…,Yn) are i.i.d. and 2Y < , then Y is a consistent

estimator of Y, that is,

Pr[|Y – Y| < ] 1 as n

which can be written, Yp

Y

(“Yp

Y” means “Y converges in probability to Y”).

(the math: as n , var(Y ) = 2Y

n

0, which implies that

Pr[|Y – Y| < ] 1.)

Page 273: Møa 145

Central Limit Theorem(sentralgrenseteoremet)

If (Y1,…,Yn) are i.i.d. and 0 < 2Y < , then when n is large

the distribution of Y is well approximated by a normal distribution.

Y is approximately distributed N(Y, 2Y

n

) (“normal

distribution with mean Y and variance 2Y /n”)

n (Y – Y)/Y is approximately distributed N(0,1) (standard normal)

That is, “standardized” Y = ( )

var( )

Y E Y

Y

=

/Y

Y

Y

n

is

approximately distributed as N(0,1) The larger is n, the better is the approximation.

Page 274: Møa 145
Page 275: Møa 145

( )

var( )

Y E Y

Y

Et standardisert gjennomsnitt av Y:

Page 276: Møa 145

Hypotesetesting

• En hypotesetest (av gjennomsnittet) er utformetslik at vi kan ta en foreløpig beslutning basert påbevisene om en nullhypotese er sann, elleralternativt, om den alternative hypotesen ersann:

• H0: E(Y) = Y,0 vs. H1: E(Y) > Y,0 (1-sidig, >)

• H0: E(Y) = Y,0 vs. H1: E(Y) < Y,0 (1-sidig, <)

• H0: E(Y) = Y,0 vs. H1: E(Y) Y,0 (2-sidig)

Page 277: Møa 145

Terminologi for hypotesetesting

• p-verdi = sannsynligheten for å trekke en observator (eks. Y(snitt)) som er minst like langtfra nullhypotesen som den verdien du estimertemed dataene, gitt at nullhypotesen er sann

• Signifikansnivået til en test er en forhåndsvalgtsannsynlighet av å feilaktige forkastenullhypotesen når den faktisk er sann.

• Beregning av p-verdien basert på :

p-value =

• Hvor er verdien av Y(snitt) som man faktiske observerer (ikke-tilfeldig)

0 ,0 ,0Pr [| | | |]actH Y YY Y

actY

Page 278: Møa 145
Page 279: Møa 145

Hypotesetesting med t-test

• I stedet for å bruke p-verdien kan vi bruke en t- testved hypotesetesting

Student t distribution• Dersom Yi, i = 1,…, n is i.i.d. N(Y), da er t-

observatoren fordelt som en Student t-fordeling med n – 1 frihetsgrader.

• Kritiske verdier tilhørende Student t-fordelingenfinnes I tabeller bak i alle statistikk/økonometri-bøker. Oppskriften:1. Beregn t-observatoren2. Beregn antall frihetsgrader, som er n – 13. Finn 5% kritisk verdi4. Dersom t-observatoren er større (i absoluttverdi) enn

den kritiske verdien forkaster vi nullhypotesen

Page 280: Møa 145

To typer feil ved statistisk hypotesetesting

Type I feil• Nullhypotesen blir forkastet når den er sann

– Signifikansnivået sier hvor stor sannsynlighet det er for å begå type I feil

Type II feil• Nullhypotesen blir ikke forkastet når den faktisk er

usann

Størrelsen (size) til en test• Sannsynligheten for å begå type I feil

Teststyrke (power)• Sannsynligheten for at testen korrekt forkaster

nullhypotesen når den alternative er sann

Page 281: Møa 145

Konfidensintervaller

• Et 95% konfidensintervall for Y er et intervallsom inneholder den sanne verdien av Y i 95% av gjentatte utvalg.

• Et 95% konfidensintervall kan alltid bli konstruertsom settet av verdier av Y som ikke blirforkastet av en hypotesetest med et 5% signifikansnivå.

• Beregning av 95% konfidensintervall:Y = {Y(snitt) 1.96SE(Y(snitt))

Page 282: Møa 145

Oppsummering av det statistiske rammeverket

Vi har to grunnleggende forutsetning:1. Tilfeldige utvalg fra populasjon, som betyr at

{Yi, i =1,…,n} er i.i.d.2. 0 < E(Y4) <

Vi har gjennomgått (raskt) for store datautvalg (stor n):• Teori om estimering (sannsynlighetsfordelingen til

utvalget ) • Teori om hypotestesting (stor-n fordelingen til t-

observatoren og beregning av p-verdi)• Teori om konfidensintervaller• Er forutsetningene (1) og (2) rimelige i praksis? Ja

Page 283: Møa 145

Tidsserieøkonometri

Kapittel 14

Page 284: Møa 145

Hva er poenget …?

• Hva er poenget med tidsserie-modeller?

• Hvilke hovedgrupper av modeller har vi?

• Hva er hovedutfordringene ved estimering og testing?

• Hva mener vi med stasjonaritet og ikke-stasjonaritet?

Page 285: Møa 145

Inflasjon i USA, 1960-2004 (KPI)

Page 286: Møa 145

Arbeidsledighet i USA, 1960-2004

Page 287: Møa 145

Tidsserievariabler – transformasjoner m.m.

• Tidslag (time lag)

• Førstedifferanse (first difference)

• Logaritme

• Indekser

• Vekstrater

Page 288: Møa 145

Tidslag

• Dersom vi tidsforskyver en variabel, Yt, j antall perioder, kan vi omtale den som j’te lag av Yt og skrives som Yt-j

• Introduserer dynamikk i modeller– Kortsiktige og langsiktige effekter

• Dersom det er likt antall observasjoner for alle variabler vil introduksjon av j’te lag av en variabel redusere antall observasjoner med j– Dynamikk i modeller krever en del observasjoner

Page 289: Møa 145

Hvorfor tidsetterslep?

Det økonomiske grunnlaget for tregheter

• Psykologiske grunner– Rigide preferanser (vaner)– Usikkerhet (midlertidige vs. varige endringer)

• Teknologiske grunner– Treg faktorsubstitusjon– Kapitaldannelse tar tid (likviditet)– Ufullkommen informasjon

• Institusjonelle årsaker– Kontraktmessige forpliktelser (f. eks. i riggmarkedet)– Lover og regler (f. eks. i arbeidsmarkedet)

• Dynamiske teorier– Statiske teorier kan dynamiseres, estimeres og testes

Page 290: Møa 145

Eksempel: Konsumfunksjon

En person får en inntektsøkning på 20000 kroner per år . . .

• Gradvis opptrapping av forbruket– 8000 kr mer første året– 6000 kr i tillegg andre året– 4000 kr i tillegg i år 3

• Samlet årlig forbruksøkning– 18000 kroner– Eller 90 prosent av

inntektsøkningen

8000 kroner

6000 kroner

4000 kroner18000 kroner

Årlig forbruk

Tid

Page 291: Møa 145

Førstedifferensen og logaritme

• Endring i Y fra periode t - 1 til t er Yt – Yt-1:

Yt = Yt – Yt-1

• Logaritme av en førstedifferanse kan tolkes som vekstrate

ln(Yt) = ln(Yt) – ln(Yt-1)

• Dvs ln(Yt) er tilnærmet lik (Yt – Yt-1)/Yt-1– Den logaritmiske approksimasjonen til vekstraten blir

mer unøyaktig dess større prosentvis endring i Yt

Page 292: Møa 145

Førstedifferensen og logaritme

• Standardavviket vil ofte være proporsjonalt med nivået til en tidsserie– En logaritmisk transformasjon av Yt gir tilnærmet

konstant standardavvik

• Logaritmer er også nyttige for å transformere Cobb-Douglas funksjoner til lineære sammenhenger som kan estimeres med OLS

– Eksempel: Den aggregerte produktfunksjonen

Y = F(K,L) = AKL

ln(Y) = ln(A) + ln(K) + ln(L)

Page 293: Møa 145

Autokorrelasjon

• Korrelasjon av en tidsserie med egne laggede verdier kalles autokorrelasjon eller seriekorrelasjon

• Den første autokorrelasjonen til Yt er corr(Yt,Yt–1)• Den første autokovariansen til Yt er cov(Yt,Yt–1)• Dvs

• Disse er populasjonskorrelasjonen som beskriversimultanfordelingen til (Yt, Yt–1)

1

1

11

)var()var(

),cov(),(

tt

tttt

YY

YYYYcorr

Page 294: Møa 145

Autokorrelasjon

• Generalisering av autokorrelasjon til j’te lag til Yt

Page 295: Møa 145

Eksempel

1. Kvartalsvis inflasjon i USA2. Førstedifferansen av kvartalsvis inflasjon

Page 296: Møa 145

• Inflasjonsraten er sterkt autokorrelert (1 = .84)• Siste kvartals inflasjonsrate inneholder mye informasjon

om dette kvartals inflasjonsrate• Plottet er dominert av svingninger over flere år• Men der er fremdeles overraskende bevegelser

Page 297: Møa 145

Eksempler på andre tidsserier

Page 298: Møa 145

Eksempler på andre tidsserier

Page 299: Møa 145

DL-, AR- og ADL-modeller

Laggede eksogene og endogene variabler

• ”Distributed lag”-modell (DL):

• Autoregressiv modell (AR)

• Autoregressiv ”distributed lag” modell (ADL):

tttt uyxy 1

tttttt uyxxxy 122110

ttttt uxxxy 22110

Page 300: Møa 145

Restriksjoner på DL-modellen

Koeffisientene varierer systematisk over lag-strukturen

Tid

x

x

x

xx

x

x

i

0 1 2 3 4 5 6 7

x

Tid

x

x

x

x

x

x

x

i

0 1 2 3 4 5 6 7

x

Page 301: Møa 145

Geometriske lag

Koeffisientene varierer systematisk over lag-strukturen

Tid

x

x

x

x

x x x

i

0 1 2 3 4 5 6 7

x

0

i

Tid

x

x

xx

x x x

i

0 1 2 3 4 5 6 7

x

0

i

Page 302: Møa 145

Forenklende forutsetninger

Variabler uten trend og fravær av autokorrelasjon

• Stasjonære data

• Ingen simultanitet

• Ingen autokorrelasjon

0)|( xuE t

st

stxuuE st

,0

,)|(

2

)0(~ Ixt

-60

-40

-20

0

20

40

60

80

100

1982 1987 1992 1997 2002

Page 303: Møa 145

OLS forutsetninger for tidsserieregresjon

1. E(ut| Y, X1,…,Xk) = 0 • hvor det kun inngår laggede verdier av de betingede

variablene Y, X1,…,Xk

2. a) De tilfeldige variablene Y, X1,…,Xk har stasjonære fordelinger og

b) (Yt, X1t,…,Xkt) og (Yt-j, X1t-j,…,Xkt-j) blir uavhengige ettersom j vokser

• weakly dependent – korrelasjon med laggede verdier avtar dess større tidsgapet blir

3. Y, X1,…,Xk har endelige fjerdemomenter• Ingen observasjoner med ekstreme verdier

4. Der er ikke noen perfekt multikollinearitet

Page 304: Møa 145

Stasjonaritet

• er en viktig egenskap for en regresjon med tidsseriedata for å ha ekstern validitet

• Stasjonaritet sier at historien er relevant

• Vi antar stasjonære tidsserier inntil videre

Page 305: Møa 145

Autoregressjonsmodeller (AR)

• Regresjoner av Y på laggede verdier av seg selv• Dersom p antall lag brukes omtaler vi

autoregresjonen som p’te ordens autoregresjon og skrives som AR(p)

• Førsteordens autoregresjon, AR(1):

Yt = 0 + 1Yt-1 + ut

• Her har ikke 0 og 1 en kausal fortolking• Denne modellen kan benyttes til å lage

prognoser• En test om 1 = 0 vs. 1 ≠ 0 er en test om Yt-1

kan benyttes til å lage prognoser av Yt

Page 306: Møa 145

Prognoser og prognosefeil

• En prognose (forecast) for neste periode T+1 kan skrives som:

YT+1|T = 0 + 1YT

• Hvor 0 og 1 er estimert med historiske data fra periode 1 til T; ”in-sample” observasjoner

• ”Out-of-sample” prognosefeil er

Prognosefeil = YT+1 – YT+1|T

Page 307: Møa 145

Mål på prognosefeil

• Root mean squared forecast error (RMSFE)

• RMSFE har to feilkilder:

1. Det ukjente stokastiske elementet ut

2. Feilanslag av 0 og 1

• Dersom den første feilkilden er mye større enn den andre er RMSFE tilnærmet lik var(ut)1/2

])ˆ[(RMSFE 2|11 TTT YYE

Page 308: Møa 145

P’te ordens autoregresjon

• Kan også bruke flere laggede variabler i en autoregresjon:

Yt = 0 + 1Yt–1 + 2Yt–2 + … + pYt–p + ut

• Dette omtales som en AR(p) hvor AR(1) er et spesialtilfelle

• Kan bruke en F-test for å avgjøre om Yt-2,…, Yt-pbidrar til prognostikken av Yt

• Det finnes metoder for å beregne antall lag som bør inkluderes (F-test, BIC, AIC m.f.)

Page 309: Møa 145

Distributed lag model (DL)

Laggede eksogene variabler

• Forhåndsbestemt k: ”finite distributed lag model”

• Uendelig k: ”infinite distributed lag model”:

k

ttktk

tktktttt

ux

uxxxxy

0

22110 ...

0ttktkt uxy

Page 310: Møa 145

Distributed lag model (DL)

Virkninger på kort og lang sikt

• Effekter fordelt over tid:

• Langsiktig effekt av vedvarende endring:

it

iti

it

t

x

y

x

y

,

tktktttt uxxxxy ...22110

k

ii

k

i it

t

x

y

00

k

ii

k

i t

it

x

y

00

Page 311: Møa 145

Ad-hoc estimering av DL-modellen

Eksempel på sekvensiell tilnærming

321

21

1

020.0022.0063.0108.032.8ˆ

055.0071.0109.027.8ˆ

064.0111.027.8ˆ

171.037.8ˆ

ttttt

tttt

ttt

tt

xxxxy

xxxy

xxy

xy

• I hvilken ende skal vi begynne estimeringen?

• Når og hvor skal vi stoppe?

Page 312: Møa 145

Autoregressive distributed lag model (ADL)

• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:

Yt = 0 + 1Yt–1 + … + pYt–p + 1Xt–1 + … + rXt–r + ut

• p viser til antall lag for Y og q for antall lag for X

• Det kan være fornuftig å inkludere X for å øke prediksjonskraften til modellen

Page 313: Møa 145

• Utgangspunktet er en enkel DL-modell:

• Problemstillingen er å tallfeste p• OLS gir skjeve og inkonsistente estimat dersom den

valgte lag-lengden er mindre enn den korrekte• OLS gir konsistente estimater for for konstantleddet

med (p+d) laggede verdier for x• Justert R2 er en mulig teststørrelse (men ikke veldig

vanlig):

Testing for korrekt lag-lengde

Eksempel på sekvensiell tilnærming

p

ititit uxy

0

)1(1

1 22 Rpn

nR

Page 314: Møa 145

• Vanligere er Akaike’s (1973) informasjonskriterium:

• . . . eller Scwartz-kriteriet (som tilsvarer BIC):

• Med utgangspunkt i en maksimal lag-lengde reduseres modellen trinnvis for å minimere verdien av disse kriteriene

• Disse teststørrelsene er innarbeidet i moderne økonometriprogrammer som PC-Give og Stata

Testing for korrekt lag-lengde

Eksempel på sekvensiell tilnærming

Tp

TpAIC

2)1(ln)(

ee'

)2(ln)()(

TTp

pAICpSC

Page 315: Møa 145

Eksempel på bruk av BIC og AIC

0.2040.9181.0466

0.2040.9061.0165

0.2040.8950.9864

0.2030.8840.9573

0.1810.9000.9552

0.0561.0301.0671

0.0001.0761.0950

R2AICBIC# Lags

Page 316: Møa 145

Eksempel på bruk av BIC og AIC

Et tydeligere bilde

0,80

0,90

1,00

1,10

1,20

0 1 2 3 4 5 6

0,00

0,05

0,10

0,15

0,20

0,25R2 (h.a.)BICAIC

Page 317: Møa 145

Detection of structural break

Endogenising the time point of the structural break

Chow testMoving break point

0

10

20

30

40

50

60

1995 1999 2003

0

0,2

0,4

0,6

0,8

1

Test statistic p value (rhs)

Model qualityMoving break point

100

105

110

115

120

125

1995 1999 2003

0

0,2

0,4

0,6

0,8

1

Hansen J p value (rhs)

GMM estimation with shift parameters for error-correction term and four control variables (xit = [cit, vit, rit, oit])

Page 318: Møa 145

Ikke-stasjonaritet: Trender

• Dersom enten den avhengige variabelen eller forklaringsvariablene er ikke-stasjonære fører det til at hypotesetesting, konfidensintervaller og prognoser blir uåplitelige

• En kilde til ikke-stasjonaritet er trender

• Trender er veldig vanlig i økonomiske tidsserievariabler, fordi mange økonomiske størrelser vokser over tid

Page 319: Møa 145

To typer trender

• Vi skiller mellom deterministiske trender og stokastiske trender

• En deterministisk trend er en ikke-tilfeldig funksjon av tid– Vanligste form er en lineær trend– For eksempel 0.1t er en deterministisk trend der for hver

tidsperiode t vokser den avhengige variabelen Y med 0.1

• En stokastisk trend varierer tilfeldig over tid– I økonomi er det ofte mer tilforlatelig å tenke på trender

som stokastiske fordi vanligvis kjennetegner endring i økonomiske størrelser med en god porsjon uforutsigbarhet

Page 320: Møa 145

Random walk

• er den enkleste modellen av en variabel som har en stokastisk trend

• En tidsserie sies å følge en random walk dersom endringen i Yt er i.i.d:

Yt = Yt-1 + ut

• Verdien i morgen avhenger av verdien i dag pluss et tilfeldig ”steg” ut (der ut er i.i.d)

• Beste prediksjon på Yt er Yt-1. Bygger på at forventningen til ut er null (E(ut|Yt-1, Yt-2,…)=0)

Page 321: Møa 145

Random walk med drift

• Dersom vi setter på en konstantledd i den enkle random walk modellen får vi en random walkmed drift

Yt = 0 + Yt-1 + ut

• Hvor 0 er driftparameteren som skaper en trend

• I en slik modell er best prognose for i morgen dagens verdi pluss driften 0

Page 322: Møa 145

En random walk er ikke-stasjonær

• I en random walk vokser variansen med antall tidsperioder, slik at fordelingen til Yt endres over tid

Var(Yt) = var(u1 + u2 +…+ ut) = tu2

• En kan tenke seg at en random walk er en AR(1) der 1 = 1. I så tilfelle vil vi si at tidsserien har en enhetsrot (unit root) som i praksis betyr en stokastisk trend og at serien er ikke-stasjonær.

• Dersom 1 < 1 er tidsserien stasjonær

Page 323: Møa 145

Problemer med stokastiske trender

1. Autoregressive koeffisienter er forventningsskjeve mot null

2. t-observatoren er ikke normalfordelt

3. Spuriøse regresjoner• Er når to tidsserier som ikke har noen relasjon

fremtrer som relaterte i en tidsserieregresjon

• En vanlig måte å gjøre en serie med en stokastisk trend stasjonær, slik at vi kan bruke standard OLS, er å ta første differansen av serien, Yt

Page 324: Møa 145

Oppsummering

• Hva er poenget med tidsserie-modeller?

• Hvilke hovedgrupper av modeller har vi?

• Hva er hovedutfordringene ved estimering og testing?

• Hva mener vi med stasjonaritet og ikke-stasjonaritet?

Page 325: Møa 145

Eksamen økonometri MØA145Fredag 22. februar 2008, kl 0900-1300

Emneansvarlig: Sigbjørn Tveterås (telefon 33757 og 97535064)Tillatte hjelpemidler: Alle kalkulatorer

Oppgave 1 (10 poeng)Du har følgende 15 observasjoner for kjøttproduksjon (Y) i kilo og bruken av dyrefór (X) i kilo:Y 0,58 1,1 1,2 1,3 1,95 2,55 2,6 2,9 3,45 3,5 3,6 4,1 4,35 4,4 4,5X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

a) Bruk OLS til å estimere 1 og 2 i produksjonsfunksjonen tt10t uXββY hvor u er

feilleddet. For å forenkle utregningene kan du benytte120 tX , 12402 tX , 08,42 tY , 53,418 tt YX

b) Gi en økonomisk fortolkning av de estimerte parametrene.

Oppgave 2 (10 poeng)Du tror den økonomiske sammenhengen mellom Y og X er tt10t uXββY , og du estimerer

regresjonsmodellen tt10t uXββY ˆˆˆ .

a) Er 1 en tilfeldig variabel? Forklar.c) Er Yt en tilfeldig variabel? Forklar.

d) Er 0β en tilfeldig variabel? Forklar.

Oppgave 3 (20 poeng) a) Hva er utelatt variable forventningsskjevhet?b) Hvilke typer utelatte variabler kan ‘fixed effect’ paneldata modeller redegjøre for?c) Du ønsker å estimere modellen tiit1it uXβY , hvor i er en individfast effekt.

Kan du kort forklare to ekvivalente teknikker for å estimere denne ‘fixed effect’modellen når du benytter et panel med n individer og t tidsperioder, når t > 2.

Oppgave 4 (20 poeng)For å teste hypotesen om at en økning i energiprisen fører til en reduksjon i produksjonen gitt de eksisterende kapital- og arbeidskraftsressursene estimerte John A. Tatom den følgende produksjonsfunksjonen for USA ved bruk av kvartalsvise data for perioden 1948 til 1978:

ln(Y/K) = 1,55 + 0,71ln(L/K) – 0,11ln(Pe/P) + 0,0045t (16,33) (21,69) (-6,42) (15,86)

hvor Y er realproduksjon, k er et mål på bruken av kapital, L er arbeidskraft malt i timer, Pe er en produsentpris på energi, P er en produsentprisindeks på andre innsatsfaktorer, og t er tid. Tallene i parentesene er t verdier.

a) Støtter resultatene hypotesen til forskeren?b) Mellom 1972 og 1977 økte den relative prisen på energi, Pe/P, med 60 prosent. Fra den

estimerte regresjonsfunksjonen, hva er det korresponderende tapet i produksjon (Y/K)?c) Hvordan vil du fortolke den estimerte koeffisientverdien 0,71 til ln(L/K)?

Page 326: Møa 145

d) Etter at man har kontrollert for endringer i (L/K) og (Pe/P), hva har vært den årlige prosentvise endringer vekstraten i produktiviteten i utvalgsperioden?

Oppgave 5 (20 poeng)a) Når kan det være nyttig med instrumentvariabelregresjon?b) Forklar de to betingelsene som må være oppfylt for å ha et gyldig instrument?c) Hvordan vil et svakt instrument påvirke TSLSβ1 estimatoren?d) Beskriv en testprosedyre for svake instrumenter.

Problem 6 (20 points)a) Forklar kort hva som menes med autokorrelerte feilledd u i en tidsserieregresjon?b) Hvorfor kan autokorrelerte feilledd være et problem?c) I en ‘random walk’ modell er ikke residualene svakt avhengige (weakly dependent).

Hva er ment med svakt avhengige residualer u?d) Svak avhengighet er en av to antakelser i tidsserieregresjon som erstatter den

tradisjonelle i.i.d. antakelsen i OLS estimering. Hva er denne andre antakelsen?Forklar.

Vedlegg 1

Noen av disse formlene kan kanskje være til hjelp.

Forkortelser:ESS = explained sum of squares SSR = sum of squared residuals TSS = total sum of squares

TSS

SSR

TSS

ESSR 12

1

kn

SSRSER

XY 10

n

ii

n

iii

XX

XXYY

1

2

11

)(

))((

)βSE(

ββt

1

1,01

ˆ

ˆ

)1/()1(

/)(2

22

restrictededunrestrict

restrictededunrestrict

knR

qRRF

Page 327: Møa 145

MØA 145 Økonometri,Høst 2009

Foreleser: Professor Frank Asche (FA), D-429, [email protected]

Klaus Mohn (KM)

Kristoffer Eriksen (KE)

Forelesningstid: Mandag 08.15-10, AR G-202 (Bortsett fra når det er spesielt annonsert,

vil denne forelesningen begynne klokken 09.15)

Mandag 10.15-12.00 AR V-102. Etter at forelesningen er ferdig (10

eller 11) vil det etter behov være datalab

Onsdag 08.15-10, AR G-101

Planlagte forelseningsdager

24.08.09, 09.15 Kapittel 4 (FA) Ingen datalab

26.08.09, 08.15 Kapittel 5 (FA)

31.08.09, 09.15 Kapittel 6 (FA)

02.09.09, 08.15 Kapittel 7(FA)

07.09.09, 08.15 Merk tiden Kapittel 8 (KM) Ingen datalab

09.09.09, 08.15 Kapittel 9 (FA)

14.09.09, 09.15 Kapittel 10 (FA)

16.09.09, 08.15 Ingen forelesning

21.09.09, 09.15 Kapittel 11 (FA)

23.09.09, 08.15 Kapittel 12 (FA)

28.09.09, 08.15 Merk tiden Kapittel 14 (KM) Ingen datalab

30.09.09, 08.15 Kapittel 13 (KE)

05.10.09, 09.15 Kapittel 13 (KE)

07.10.09, 08.15 Kapittel 15 (FA)

12.10.09, 09.15 Kapittel 16 (FA)

14.10.09, 08.15 Oppsummering (FA)

Eventuelle endringer vil bli annonsert på It’s Learning. Hvis nødvendig vil det også bli flere

forelesninger.

Page 328: Møa 145

Obligatorisk oppgave, MØA 145

Oppgaven skal leveres senest mandag 26.oktober klokken 12. Det kan gjøres skriftlig i min posthylle i administrasjonen på det teknisk naturvitenskapelige fakultet eller elektronisk ved å sende mail til [email protected]. Den innelverte oppgaven må inneholde både en tekst med oppgaveløsning og utskrift fra den programvaren hvor regresjonene ble kjørt (Excel eller annet økonometriprogram).

Datasettet Økonometritrålere.xls inneholder følgende informasjon om norske ferskfisktrålere:

År=fangstårID = Identifikasjonskode for fartøyFylke= F=Finmark, T=Troms, N=Norland, M=Møre og RomsdalBRT=fartøysstørrelseDøgn i sjøen= Antall døgn fartøyet var aktivtTorskekvantum=Antall kilo fanget av torskTorskeverdi=Verdi torskefangst i kronerSeikvantum=Antall kilo fanget av seiSeiverdi=Verdi seifangst i kronerAnnenkvantum=Antall kilo fanget av annen fiskAnnenverdi=Verdi fangst annenfisk i kroner

Totalverdien R kan finnes som summen av fangsverdien for de forskjellige artene. Pris kan finnes som verdi delt på kvantum.

Et innsatsmål, e, som skal benyttes her er døgn i sjøen multiplisert med fartøysstørrelse i brt.

I det følgende denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

La bokstaven t være torsk, s være sei og a annen fisk, og p være prisene

Estimer inntekstsfunksjonen

r=b0+b1tp+b2sp+b3ap+b4e

Tolk resultatene. Diskuter hver enkelt variabels og ligningens forklaringskraft.

Test hypotesene

1) b1=b2=b3=b4=0

2) b1=b2=b3=0

3) b1+b2+b3=1

Vi antar så at det er systematiske regionale forskjeller. Generer og benytt dummyene for fylke til å estimer modellen med slike effekter;

Page 329: Møa 145

Test hypotesen om at det ikke er systematiske regionale forskjeller.

Anta så at det er ikke er systematiske regionale forskjeller, men at det er systematiske tidsforskjeller. Generer og benytt dummyene for år til å estimer modellen med slike effekter;

Test hypotesen om at det ikke er systematiske tidsforskjeller.

Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter.

Tolk resultatene.

Test hypotesene om at det ikke er a) Systematiske regionale b) Systematiske tidsforskjeller forskjellerc) Systematiske regionale eller systematiske tidsforskjeller forskjeller

Test så hypotesene

A) b1=b2=b3=0

B) b1+b2+b3=1

Hvilken modell mener du er den beste?

Page 330: Møa 145

OppgaveOppgavene bygger på data fra et eksperiment som undersøker investeringsbeslutninger og evalueringshyppighet. Deltakerne er 50 finansrådgivere fra sparebanken1 SR-bank. Instruksjoner for eksperimentet finner dere som dokumentet InstruksjonerFinAdv.doc. Her finner dere instruksjonene for kontrollgruppen (hyppig evaluering av lotteriutfall) og for treatment-gruppen (sjelden evaluering av lotteriutfall). I denne oppgaven skal dere estimere innsatsen i lotteriet. Bruk datasettet FinAdv.xls. Datafilen viser variabelen (bet), som gir gjennomsnitts innsats i lotteriet i hver bolk av tre perioder (periode 1-3, 4-6 og 7-9) målt i kroner for de to gruppene. I tillegg er der oppgitt

Dummy for deltakelse i treatment-gruppen (infrequent=1) Dummy for kjønn, (male=1) Alder (age). Bolk, angir hvilken treperiodebolk variabelen (bet) er fra. (bolk=1 for periode 1-3,

bolk=2 for periode 4-6 og bolk=3 for periode 7-9. Deltaker ID, (subject)

Anta at verdiene til (bet) er uavhengige. a) Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) i hhv.

treatment-gruppen og kontrollgruppen.b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er

deltakelse i treatment-gruppen.c) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er

deltakelse i treatment-gruppen i første regresjon og deltaklese i treatment-gruppen,alder og kjønn i andre regresjon. Presenter resultatene fra modellene i oppgave b og c i en tabell.

d) Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Kommenter.

e) Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet; ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig? Kommenter.

f) Gjør en test for om treatment-variabelen er tilfeldig fordelt.

Page 331: Møa 145

Oppgaver fra boken

Flere har spurt etter hva jeg mener er de beste oppgaveforslagene i boken. Under følger en liste for de kapitlene vi har gått igjennom. Jeg har per i dag ikke noen fasit på oppgavene, men forsøker å få tilgang til det fra forlaget.

Kappittel 4

4.1, 4.2, 4.3, 4.6, 4.9

Kapittel 5

5.2, 5.4, 5.5, 5.6, 5.7

Kapittel 6

6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.9

Kapittel 7

7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8 a, 7.8 c, 7.9, 7.10

Kapittel 8

8.2, 8.3, 8.4, 8.6, 8.7

Kapittel 9

9.1, 9.3, 9.5, 9.7, 9.8, 9.9