Møa 145

Økonometri Løsningsforslag

a)Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) for hhv. treatment-gruppen og kontrollgruppen.

Treatment Group Control Groupbet age bet age

Mean 68.6 41.2 47.8 40.7St.dev 30.2 10.5 29.8 8.5# obs. 78 72

b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen.

c)Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er deltakelse i treatment-gruppen, alder og kjønn. Presenter resultatene fra de to modellene i oppgave b og c i en tabell.

Avhengig Variabel: bet

Modell 1 Modell 2

Infrequent 20,79*** 20,95***

[4,90] [4,95]

Age -0,32

[0,26]

Male 0,07

[4,95]

constant 47,78*** 60,58***

[3,54] [11,32]

# obs. 150 150

R2-adj. 0,10 0,10

Note: *: p>0,10 , **:p>0,05, ***:p>0,01.

d)Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Hva tyder dette på?

Den estimerte betaen synes ikke å lide av forventningsskjevhet. Estimatet til (infrequent) fra modell 1 er tilnærmet likt estimatet i modell 2. Dersom Treatment-variabelen er tilfeldig fordelt vil OLS-estimatoren for (infrequent) være lik i de to modellene, og eksperimentet virker å være robust (ikke problemer med intern validitet)

e)Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet;ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig?

Dersom i) de utelatte variablene (alder og kjønn) er korrelert med innsats i lotteriet (bet) og ii) de utelatte variablene gir forklaring til den avhengige variabel, vil en modell med data fra et eksperiment der treatment ikke er tilfeldig fordelt bryte antagelsen om 0| ii XuE , og

OLS-estimatet vil være forventningsskjevt.

f)Gjør en test for om treatment-variabelen er tilfeldig fordelt.

Dersom treatmenten er tilfeldig fordelt vil (infrequent) være ukorrelert med observerbare individuelle karakteristikker. Hypotesen om at treatment er tilfeldig fordelt kan testes ved å teste om koeffisientene til alder og kjønn er null i en regresjon hvor treatment er avhengig variabel.

Datalab 21.09.09

Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i filen miljømerkemedløsninger.xls.

Datasettet Miljømerke.xls inneholder informasjon om kjøp av miljømerket fisk. Variablene er som følger:

Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne

Estimer modellene

Pr(Kjøp=1)= a+b*Pris

og

Pr(Kjøp=1)= a+b*Medlem

Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?

Modell 1.Ark 4. Med en p-verdi på 0.039 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.

I ruten B21 regnes sannsynligheten for at en respondent kjøper miljømerket fisk med gjennomsnittsprisen. Den er 0.378 eller 37.8%

Modell 2.Ark 5. Med en p-verdi på 0.001 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes.

I ruten B20 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.174 og lik konstantleddet i rute b17.

I ruten B21 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk. Den er 0.714.

Estimer så modellen

Pr(Kjøp=1)= a+b1*Pris+b2*Medlem

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Ark 6. Med en p-verdi på 0.002 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med en p-verdi på 0.114 kan nullhypotesen om at prisen påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% nivå.

I ruten B22 regnes sannsynligheten for at en respondent som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

I ruten B23 regnes sannsynligheten for at en respondent som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.682.


Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Ark 7. Med en p-verdi på 0.005 kan nullhypotesen om at prisen ikke påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes. Med p-verdier på 0.090 og 0,083 kan nullhypotesen om at prisen og kjønn påvirker sannsynligheten for om en respondent kjøper miljømerket fisk forkastes på et 5% men ikke på et 10% signifikansnivå.

I ruten B22 regnes sannsynligheten for at menn som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

I ruten B23 regnes sannsynligheten for at menn som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.525.

I ruten B24 regnes sannsynligheten for at kvinner som ikke er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.341.

I ruten B25 regnes sannsynligheten for at kvinner som er medlem av en miljøorganisasjon kjøper miljømerket fisk til gjennomsnittsprisen. Den er 0.194.

Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.

Ny kolnne, inter i datasettet, ark 1. Resultater fra regresjonen i Ark 8

Datalab 21.09.09

Datasettet Miljømerke.xls inneholder infromasjon om kjøp av miljømerket fisk. Variablene er som følger:

Kjøpt=Om respondenten har kjøpt fisk med miljømerkePris=Pris per kiloMedlem= Er 1 hvis respondenten er medlem av en miljøorganisasjonKjønn= Er 1 hvis respondenten er en kvinne

Estimer modellene

Pr(Kjøp=1)= a+b*Pris

og

Pr(Kjøp=1)= a+b*Medlem

Tolk resultatene. Hva er sannsynligheten for at en respondent vil kjøpe miljømerket fisk til gjennomsnittsprisen? Og hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk?


Pr(Kjøp=1)= a+b1*Pris+b2*Medlem

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon vil kjøpe miljømerket fisk til gjennomsnittsprisen?


Pr(Kjøp=1)= a+b1*Pris+b2*Medlem+b3*Kjønn

Tolk resultatene. Hva er sannsynligheten for at henholdsvis medlemmer eller ikke-medlemmer av en miljøorganisasjon, kvinner og menn vil kjøpe miljømerket fisk til gjennomsnittsprisen?

Iblant forsterkes eller svekkes effekter ved interaksjon mellom høresidevariabler. Lag en interaksjonsvariabel som tar verdien en når respondenten er både medlem av en miljøorganisasjon og kvinne. Estimer så modellen over men med interaksjonsvariabelen i tillegg. Tolk resultatene.

Datalab 14.09.09

Jeg forsøker her å gå gjennom oppgaven og beskrive outputen som ligger i artket Datalab 14.09.09.xls. Jeg sletter kolonnene i det opprinnelige datasettet for seriene på nivåform, for days at sea og for år 2006

Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.

Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)

En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

Estimer kostnadsfunksjonen

A) c=a0+b1q+b2fp+b3w+b4brt

Outputten fines i Ark 1

Test hypotesene

1) b1=b2=b3=b4=0

Dette er F-statistikken i rute E12. F12 gir p-verdi some er et svært lite tall. Følgelig forkastes nullhypotesen.

2) b2=b3=b4=0

Her må vi først kjøre den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1qOutputten fines i Ark 2

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B25 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).

Dette gir en F-statistikk på 692,4. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er

antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 692,4>2,60 kan vi forkaste nullhypotesen om at b2=b3=b4=0

3) b3=0, b4=0

Fremgangsmåten er her som over.

Vi kjørr først den begrensede regresjonen hvor vi antar at nullhypotesen er sann. Vi kjører da regresjonenc=a0+b1q+b2fpOutputten fines i Ark 3

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B26 i Ark 1). q=antall restriksjoner som er 2, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4).

Dette gir en F-statistikk på 785,1. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 2 er kritisk verdi 3.00. Da 785,1>3.00 kan vi forkaste nullhypotesen om at b3=b4=0

4) b2+b3=1

Her må vi først transformere modellen for å kunne estimere modellen med restriksjonen pålagt. En alternativ formulering av restriksjonen er

b3=1-b2Ved å sette dette inn i den opprinnelige ligningen får vi

c=a0+b1q+b2fp+(1-b2)w+b4brtLøser opp parantesen

=>c=a0+b1q+b2fp+w-b2w+b4brtFlytter w over på venstresiden, og samler termene hvor b2 inngår

=>c-w=a0+b1q+b2(fp-w)+b4brtFor å kunne kjøre denne regresjonen må vi generere de nye variablene c-w og fp-w. Dette er gjort i kolonnnene T til W i dataarket sammen med de opprinnelige q og brt variablene, hvor lcostr=c-w og lfuelpr=fp-w.

Kjører så regresjonen på disse variablene (kolonne T er y-variabel og kolonnen U-W er x-variablene). Outputen er i Ark 4.

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B27 i Ark 1). q=antall restriksjoner som er 1, n er antall observasjoner (252), og det er 4 variabler i den ubegrensede regresjonen (k=4), og R2 fra den begrensede regresjonen er 0.815.

Dette gir en F-statistikk på 568,9. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 en boken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 1 er kritisk verdi 3.84. Da 568,9>3.84 kan vi forkaste nullhypotesen om at b2+b3=1

Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

B) c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn

Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til K er uavhengige variabler.

Test hypotesen om at det ikke er systematiske regionale forskjeller.

Modellen med regionale dummier er mer generell enn modellen uten. Modell B) er følgelig den ubegrensede regresjonen, mens modell A) er den begrensede regresjonen. Nullhypotesen er at

cF=cT=cN=0

Setter så de nødvendige tallene inn i formelen for en F-statistikk (Rute B29 i Ark 1). q=antall restriksjoner som er 3, n er antall observasjoner (252), og det er 7variabler i den ubegrensede regresjonen (k=7).

Dette gir en F-statistikk på 3.01. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 3 er kritisk verdi 2.60. Da 3.01>2.60 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå (men ikke på et 1% nivå.

Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn+D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005

Output i Ark 5(Kolonne D er avhengig variabel mens kolonnene E til R er uavhengige variabler.

Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller


Dette gir en F-statistikk på 8.67. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 1.83. Da 8.67>1.83 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.

Test b2+b3=1

For å gjennomføre denne testen benytter vi de samme variablene som i tilsvarende begrensede regresjon over, men benytter også de forskjellige dummiene. Den begrensede regresjonen kjøres følgelig ved å benytte kolonne T som avhengig variabel, og kolonnene U til AG som uavhengige variabler.


Dette gir en F-statistikk på 618.5. Finner kritisk verdi på et 5% nivå fra tabell 5B, side 761 iboken. Med n2 som uendelig fordi 252-4-1=247 er mye større enn 120 og med n1 (som er antall restriksjoner eller q) = 10 er kritisk verdi 3.84. Da 618.5>3.84 kan vi forkaste nullhypotesen om at b2+b3=1 på et 5% nivå.

Datalab 14.09.09

Datasettet Økonometritrålere.xls inneholder infromasjon om norske ferskfisktrålere.

Year = ÅrID = Identifikasjonskode for fartøyCounty = FylkeBRT = Fartøysstørrelse (BRT)Fuel Expenditure = DrivstofforbrukFuel price = Drivstoffpris (FP)Labour Expenditure = ArbeidskraftsutgifterWage = Utgifter per årsverk (W)Operation days = Dager i sjøen (DAY)Restricted cost = Begrenset kostnad (C)Quantity = Totalt Fangstkvantum (Q)

En l foran variabelen betyr den naturlige logaritmen til variabelen. I det følgene denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

Estimer kostnadsfunksjonen

c=a0+b1q+b2fp+b3w+b4brt

Test hypotesene

1) b1=b2=b3=b4=0

2) b2=0, b3=0, b4=0

3) b3=0, b4=0

4) b2+b3=1

Vi antar så at det er systematiske regionale forskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn


Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter;

c=a0+b1q+b2fp+b3w+b4brt+cFf+cTt+cNn +D1d1999+D2d2000+D3d2001+D4d2002+D5d2003+D6d2004+D7d2005+D8d2006

Test hypotesen om at det ikke er systematiske regionale eller systematiske tidsforskjellerforskjeller

Test b2+b3=1

Eksamen økonometri MØA145 Onsdag 25. februar 2008, kl 0900-1300

Emneansvarlig: Sigbjørn Tveterås

Tillatte hjelpemidler: Alle kalkulatorer

Oppgave 1 (15%)

Forklar kort følgende begreper knyttet til multivariat regresjonsanalyse

a) p-verdib) Perfekt multikollinaritetc) Imperfekt multikollinaritetd) Heteroskedastisitete) Justert R2

Oppgave 2 (20%)

a) Anta at du har tverrsnittsdata som du skal analysere ved bruk av multivariat regresjonsanalyse. Hva er de fire forutsetninger som må være oppfylte for at minste kvadraters metode (OLS) skal ha de rette statistiske egenskapene som estimator for β’ene i følge Stock og Watson (læreboken)?

b) Forklar kort betydningen av hver av forutsetningene og hva som er konsekvensen hvis de blir brutt for OLS estimeringen.

Oppgave 3 (25%)

I et forsøk på å bestemme om deltakelse på forelesninger forbedret karakterene til studentene utviklet David Roemer følgende likning

ai = f(X

1i, X

2i)

hvor ai er karakteren til student i (behandlet som en kontinuerlig variabel), X

1 er andelen av

forelesninger studenten deltar på, og X2 er andelen oppgavesett som studenten løser. Den beste

oppnåelige karakteren er 1,0 og den verste er 6,0. Vi estimerte regresjonsligningen for et økonometrikurs og fant

âi = 4,50 – 1,50X

1i – 0,60X

2i. R

2

= 0,33.

a) Tilsvarer de estimerte resultatene dine forventninger? Forklar.b) For å få en bedre forståelse av størrelsen på de estimerte koeffisientene antar vi at der er

25 timer med forelesninger i et semester og at det tar omtrent 50 timer å løse oppgavesettene i et semester. Anta at en student kun har en ekstra time å bruke på økonometri og ønsker å maksimere effekten på hans eller hennes karakter. Bør studenten bruke en ekstra time på forelesninger eller bruke en ekstra time på å løse oppgavesettene?

c) Vil svaret ditt i deloppgave b) bli annerledes dersom der var 50 timer forelesning og det tar i gjennomsnitt 10 timer for en student å løse alle oppgavesettene?

d) Hva menes med R2

= 0.33?

e) Er det sannsynlig at det kun er tilstedeværelse på forelesninger og oppgaveløsing som påvirker karakteren du får på kurset? Forklar.

Oppgave 4 (20%)

Anta at du i 1990 ble hyret inn av helsevesenet i USA for å studere faktorer som påvirker røykeatferd i befolkningen. Du estimerer den følgende modellen basert på data fra 1988 hvoralle 50 stater er inkludert (standardfeil rapportert i paranteser)

(3,0) (1,0) (0,04) (1,0) (0,5)

hvor y er daglig konsum av sigaretter per person (antall sigaretter per person) i stat i, x1 er gjennomsnittlig antall år med utdanning for personer over 21, x2 er gjennomsnittlig inntekt (i 1000 US$), x3 er skatteavgift per sigarettpakke (i cents), x4 er antall TV-annonser mot røyking, og x5 er antall radioannonser mot røyking.

a) Hvilke parametere er signifikant forskjellig fra null på 5% nivå? Har disse parametrene de forventede fortegnene?

b) En av grunnene for å estimere regresjonslikningen er for å analysere om annonsekampanjer mot røyking på TV og radio er effektivt. Var TV- og radiokampanjene effektive? Anta at kostnaden for en TV annonse er ti ganger høyere enn en radioannonse. Basert på resultatene fra modellen, ville du heller ha kjørt 1 TV annonse i stedet for 10 radioannonser?

c) I forhold til problematikk med irrelevante variabler, på den ene siden, og utelatte variabler, på den andre, ser du noe som kan eller bør justeres med modellen?

Oppgave 5(20%)

a) Hvilke metoder kan du benytte for å bestemme hvor mange lag du skal inkludere i en autoregressiv (AR) modell? Med andre ord hvordan bestemme hvor stor p skal være i AR(p)?

b) Anta du skal lage en prognosemodell basert på en autoregressiv distributed lag modell (ADL). Hvilken test kan du benytte for å bestemme om du bør inkludere laggede verdier av en variabel X1 i modellen?

c) Hva kjennetegner gjennomsnitt, varians og autokorrelasjoner til en tidsserievariabel som følger en stasjonær prosess?

d) Anta en autoregressiv modell av første orden AR(1):

Er denne AR(1) prosessen stasjonær dersom ? Og hvis ? Forklar.

Kapittel 4Lineær regresjon med en

forklaringsvariabel

MØA145

Hva er økonometri?

• Definisjon: Bruk av statistikk og økonomisk teori til åanalysere økonomiske data

• Hva er effekten av høyere utdanning på inntekt?

• Hvordan vil økt rente påvirke valutakursen?

• Hva er effekten av økte miljøavgifter på bensin på drivstofforbruket?

• Kvantitative spørsmål som gir kvantitative svar

Kausale effekter

• Ideelt sett ønsker vi å utføre eksperiment for å avdekke kausale effekter mellom økonomiske variabler

• Kausalitet betyr at en spesifikk handling (mer utdanning) leder til et spesifikt, målbart resultat (høyere inntekt)

• I et eksperiment har man en forsøkgruppe og en kontrollgruppe, slik at man kan sammenligne resultatene (de kausale effektene) av en behandling på de to gruppene

• Imidlertid må vi i økonomiske analyser som oftest nøye oss med observerte data

Datatyper

• Eksperimentelle data• Observerte data

– Tverrsnittsdata (cross-sectional data)• Data (observasjoner) for mange individer observert over en

periode

– Tidsseriedata (time series data)• Data (observasjoner) for ett individ observert over mange

perioder

– Panel data (longitudinal data)• Data (observasjoner) for mange individer observert over

mange perioder

Betingede fordelinger

• Anta vi har to tilfeldige (stokastiske) variabler, X og Y, som er relatert

• Tilfeldige variabler vil si variabler som kan ta ulike tilfeldige verdier

• Anta videre at sannsynlighetsfordelingen til Y kan uttrykkes som betinget på X, Pr(Y = y | X = x)

• Dersom der ikke er noen sammenheng mellom Y og X så er den betingede fordelingen Pr(Y = y | X = x) = Pr(Y = y)

• Regresjonsanalyse bygger på betingede fordelinger

Regresjonsanalyse

• Mer generelt kan vi si at regresjonsanalyse er studie av hvordan en økonomisk størrelse avhenger av en annen – BNP i Norge avhenger av oljepris

– Utgifter til konsum avhenger av inntektsnivå

– Lønn avhenger av utdannelse

• Regresjonsanalyse er det mest sentrale verktøyet i økonometri, og OLS (ordinary least squares), eller minste kvadraters metode på norsk, er den mest brukte estimatoren

Lineær modell

• En eksakt lineær sammenheng mellom to variabler kan beskrives som

1) Y = 0 + 1X

• Y er den avhengige variabelen (dependent variable)• X er forklaringsvariabelen (independent variable, regressor)• 0 er en konstant (intercept)• 1 er helningskoeffisienten (slope)

• Anta at 0 = 5 og 1 = 2

• Ved å sette inn for ulike verdier av X får vi følgende graf:

Lineær modell

0

5

10

15

1 2 3 4 5 6

X

Y

• Statistiske sammenhenger er ikke eksakte som i forrige eksempel

• La oss i stedet anta at sammenhengen mellom Y og X er lineær i statistisk forstand, dvs. ikke eksakt

• Vi kan da modifisere ligningen:

2) Y = 0 + 1X + u

• u er feilleddet (error term) som tillater at den lineære sammenhengen ikke er eksakt

Lineær modell

Lineær modell

0

5

10

15

1 2 3 4 5 6

X

Y

Lineær modell

• Anta at det er 1/3 sannsynlighet for at Y tar en av de tre verdiene assosiert med hver verdi av X. Fordelingen av mulige Y-verdier er dermed betinget av X.

– hvis X = 3 er sannsynligheten for at Y tar hver av verdiene 7, 9 eller 11 lik 1/3. Forventningsverdien av Y blir da:

• Regresjonslinjen skjærer gjennom alle forventningsverdiene til Y for de kjente verdiene av X

• Feilledet består av utelatte faktorer, eller muligens målefeil i beregningen av Y. Generelt er disse utelatte faktorene andre variabler enn X som påvirker Y

911)3/1(9)3/1(7)3/1(][ YYE

Lineær regresjon med enforklaringsvariabel

• Lineær regresjon tillater oss å estimere og gjøre inferens påpopulasjonsparametere (slik som helningskoeffisienten b1). – Vårt mål er å estimere kausale effekter på Y av en enhets endring i X, men

foreløpig bare tenk på problemet med å finne en lineær sammenheng basert på data av to variabler, Y og X.

• Statistisk inferens betyr å si noe om hele populasjonen basert på et datautvalg

Statistisk inferens vedrørende helningskoeffisienten 1 innebærer

• Estimering:– Hvordan finne helningskoeffisienten (Vårt svar: OLS,

men det finnes mange andre metoder).

• Hypotese testing:– Hvordan teste om helningen er lik null?

• Konfidensintervall:– Hvordan konstruere et konfidensintervall for

helningskoeffisienten?

Lineær regresjonsanalyse

Test score

STR

Regresjonslinjen for populasjonen:

Test Score = 0 + 1STR

1 = helningen til regresjonslinjen

=

= endring i resultater (test score) for en enhets endring i student/lærer-forholdet (STR)

Hvorfor er 0 og 1 “populasjons-”parametere?Vi ønsker å vite den (sanne) populasjonsverdien av 1.Vi kjenner ikke den sanne 1, så vi må estimere den ved å bruke data

Feilleddet ui blir målt som avstanden til regresjonslinjen

Minste kvadraters metode (OLS)

Hvordan kan vi estimere 0 og 1 fra data?

Gjennomsnittet Y er estimatoren for Y: Y løser,

2

1

min ( )n

m ii

Y m

Analogt, så vil vi fokusere på minste kvadraters metode (OLS)

estimatoren for de ukjente parametrene 0 og 1, som løser,

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X

Minste kvadraters metode

• Som navnet ’minste kvadraters metode’ antyder gir teknikken den minste summen av de kvadrerte feilleddene. Summen av feilleddene forkortes som SSR (Sum ofSquared Residuals)

2]ˆ[ ii YYSSR

210 )]([ ii XbbYSSR

OLS estimatorenRegresjonslinjen for populasjonen: Test Score = 0 + 1STR

1 = Test score

STR

= ??

Resultatene fra California datasettet caschool.xls

Estimert helningskoeffisient = 1 = – 2.28

Estimert konstantledd = 0 = 698.9

Estimert regresjonslinje = Test Score = 698.9 – 2.28 x STR

Fortolkning avregresjonsresultatene

Test Score = 698.9 – 2.28 x STR

Distrikter med en mer elev per lærer har i gjennomsnitt test resultater som er

2.28 poeng lavere.

Dvs., Test score

STR

= –2.28

Konstanten betyr at i følge den estimerte linjen så vil distrikter med null

studenter per lærer ha et predikert test resultat på 698.9.

Denne fortolkningen gir begrenset mening – den ekstrapolerer linjen utenfor

dataområdet – så i dette tilfeller er ikke konstanten meningsfull i økonomisk

forstand.

Prediksjon og feilledd

• Prediksjon består i å beregne Y gitt verdier av X og de estimerte parametrene 0 og 1 fra OLS

• Et av distriktene i datasette caschool.xls er Antelope, CA, hvor STR = 19.33 og Test Score = 657.8

• Predikert verdi: Y^ = 698.9 – 2.28 x 19.33 = 654.8

• Feilledd: u^ = Y – Y^ = 657.8 – 654.8 = 3.0

Vurdering av regresjonen

• Et naturlig spørsmål er hvor bra regresjonslinjen ”passer” eller forklarer dataene. Der er to statistiske mål som gir komplementære mål for kvaliteten på forklaringskraften:

• Determinasjonskoeffisienten, R2, fra regresjonen måler andelen av variansen til Y som blir forklart av X; denne strekker seg fra null (ingen forklaringskraft) til en (perfekt forklaringskraft)

• Standardfeilen, SER, (standard error of the regression) til regresjonen måler størrelsen på et typisk feilledd fra regresjonen i Y sine enheter.

Gjennomsnitt, faktiske og predikerteverdier av Y

300

350

400

450

500

550

600

650

10 30 50 70 90 110 130

Statens oljeinntekter (mrd. kr)

Sta

ten

s u

tgif

ter

(mrd

. kr)

Uforklart avvik

Forklart avvik

Totalt avvik

R2 er andelen av variansen i Yi som blir forklart av regresjonen.

Yi = iY + îu = OLS prediksjon + OLS feilledd

var (Y) = var( iY ) + var( îu )

sum av kvadrerte totale avvik (TSS) = sum av kvadrerte “forklarte” avvik (ESS)

+ sum av kvadrerte “uforklarte” avvik (SSR)

Definisjon av R2: R2 = ESS

TSS =

2

1

2

1

ˆ ˆ( )

( )

n

iin

ii

Y Y

Y Y

=1-SSR/TSS

R2 = 0 betyr at ESS = 0

R2 = 1 betyr at ESS = TSS

0 ≤ R2 ≤ 1

For regresjon med en enkel X, R2 = den kvadrerte korrelasjonkoeffisienten mellom X og Y

Standardfeilen til regresjonen(SER)

SER måler spredingen i distribusjonen til u. SER er estimatet av

standardavviket til OLS feilleddet:

SER = 2

1

1ˆ ˆ( )

2

n

ii

u un

= 2

1

1ˆ

2

n

ii

un

(Den andre likheten holder fordi u = 1

1ˆ

n

ii

un = 0).

SER = 2

1

1ˆ

2

n

ii

un

SER:

har enhetene til u, som er enhetene til Y

måler den gjennomsnittlige “størrelsen” på OLS feilleddene

(den gjennomsnittlige “feilen” som blir lagt av OLS

regresjonslinjen)

Root mean squared error (RMSE) er nært relatert til SER:

RMSE = 2

1

1ˆ

n

ii

un

Denne måler det samme som SER – den lille forskjellen er

divisjon med 1/n i stedet for 1/(n–2).

Eksempel på R2 og SER

TestScore = 698.9 – 2.28 x STR, R2 = .05, SER = 18.6

• STR forklarer bare en liten andel av variasjonen i testresultatene. Gir dette mening? Betyr dette at STR ikke er viktig?

Minste kvadraters metodeantakelsene

• Hva, i presis forstand, er egenskapene til OLS estimatoren? Vi vil at den skal være forventningsrett og at den har liten varians. Har den? Under hvilke betingelser er den en forventningsrett estimator av de sanne populasjonsparametrene?

• For å besvare disse spørsmålene trenger vi å gjøre visse antakelser om hvordan Y og X er relatert til hverandre, og om hvordan de ble samlet (metoden for datautvelgelse)

• Disse antakelsene – det er tre – er kjent som minste kvadraters metode antakelsene.

Minste kvadraters metodeantakelsene

Yi = 0 + 1Xi + ui, i = 1,…, n

1. Den betingede fordelingen til u gitt X har et gj.snitt lik null, dvs., E(u|X = x) = 0.

Dette betyr at 1 er forventningsrett2. (Xi,Yi), i =1,…,n, er i.i.d

Dette er sant hvis X, Y er valgt ved tilfeldig utvalgDette gir sannsynlighetsfordelingen for 0 og 1

3. Store uteligger i X og/eller Y er sjeldne.Teknisk, X og Y har endelige fjerde momenterUteliggere kan resultere i meningsløse verdier av 1

OLS antakelse #1:E(u|X = x) = 0.For enhver gitt verdi av X, så er gjennomsnittet til u lik 0

• Eksempel: Test Scorei = 0 + 1STRi + ui, ui = andre faktorer

� Hva er noen av disse “andre faktorene”?

• Er E(u|X=x) = 0 sannsynlig for disse andre faktorene?

OLS antakelse #1

Et utgangspunkt for å tenke om denne antakelsen er ved å betrakte et ideelt randomisert kontrollert eksperiment:

X blir tilfeldig tildelt folk (elever tilfeldig tildelt til ulikeklassestørrelser; pasienter tilfeldig tildelt medisinsk behandling). Randomisering blir gjort med datamaskin – uten noe bruk av informasjon om individene.

Siden X er tildelt tilfeldig, alle andre karakteristika ved individene –de tingene som u bbestår av – er fordelt uavhengig av X

Derfor, i et ideelt randomisert kontrollert eksperiment, E(u|X = x) = 0 (dvs, OLS antakelse #1 holder)

I faktiske eksperiment, eller med dataobservasjoner, må vi tenke nøye gjennom om E(u|X = x) = 0 holder.

• i.i.d - independently, identically distributed

• Dette vil automatisk være tilfelle dersom størrelsen (individ, distrikt) er valgt ut ved tilfeldig utvalg

• Hvor vi i størst grad vil støte på datautvalg som ikke er i.i.d. er når data er samlet over tid (“tidsseriedata”) – dette vil introdusere noen ytterligere komplikasjoner.

OLS antakelse #2:(Xi,Yi), i = 1,…,n er i.i.d.

OLS kan være sensitiv til en uteligger:

· Er det ensomme punktet en uteligger i X eller Y?

· I praksis er uteliggere ofte feil i data (koding/innsamlingsproblemer) –så sjekk data for uteliggere! Den enkleste måten er å lage et kryssplot.

En stor uteligger er en ekstrem verdi av X eller Y

Med et teknisk språk, hvis X og Y er lukkede mengder, såhar de endelige fjerde momenter. (Standardiserte testresultater tilfredstiller automatisk dette; STR, familieinntekt, etc. tilfredstiller også dette).

Imidlertid, kjernen i denne antakelsen er at store uteliggere i sterk grad kan påvirke resultatene

OLS antakelse #3: Store uteliggereer sjeldneTeknisk forklaring: E(X4) < og E(Y4) <

Sannsynlighetsfordelingen til OLSestimatoren

OLS estimatoren blir beregnet ut ifra et datautvalg: et forskjellig utvalg gir en annen verdi på den estimerte 1. Dette er kilden til ”utvalgsusikkerheten” knyttet til 1. Vi ønsker å:– Kvantifisere denne utvalgsusikkerheten assosiert med 1

– Bruke 1 til å teste hypoteser slik som 1 = 0

– Konstruere konfidensintervaller for 1

– Alle disse krever at vi finner ut av sannsynlighetsfordelingen til OLS estimatoren. To steg for å komme dit…

• Sannsynlighetsrammeverket knyttet til en lineær regresjon

• Sannsynlighetsfordelingen til OLS estimatoren

Sannsynlighetsfordeling til en lineærregresjon

Det statistiske rammeverket for en lineær regresjon er oppsummert med de tre OLS antakelsene.

• Populasjon– Gruppen vi er interessert i (eks: alle mulige skoledistrikter)

• Stokastiske (tilfeldige) variabler: Y, X• Eks: (Test Score, STR)• Simultane fordelinger til (Y, X)

– Populasjonsregresjonen er lineær– E(u|X) = 0 (1. OLS antakelse)– X, Y har endelige fjerdemomenter (3. OLS antakelse)

• Datainnsamling med tilfeldig utvalg:– {(Xi, Yi)}, i = 1,…, n, er i.i.d. (2. OLS antakelse)

Sannsynlighetsfordelingen tilSom Y , har 1 en sannsynlighetsfordeling.

Hva er E( 1 )? (hvor er den sentrert?)

Hvis E( 1 ) = 1, så er OLS forventningsrett – det er bra!

Hva er var( 1 )? (måler utvalgsusikkerheten)

Hva er fordelingen til 1 i små utvalg?

Generelt så kan den være veldig komplisert, men vi

antar vanligvis t-fordelt

Hva er fordelingen til 1 i store utvalg?

Det viser seg å være relativt enkelt – i store utvalg er 1normalfordelt.

1

Hva er sannsynlighetsfordelingen tilDen eksakte sannsynlighetsfordelingen er komplisert – den

avhenger av populasjonsfordelingene til (Y, X) – men når n er

stor får vi noen enkle (og gode) approksimasjoner:

(1) Siden var( 1 ) 1/n og E( 1 ) = 1, 1 p

1

(2) Når n er stor er sannsynlighetsfordelingen til 1 bra

approksimert av normalfordelingen (sentralgrenseteoremet)

Husk sentralgrenseteoremet: anta {vi}, i = 1,…, n er i.i.d. med

E(v) = 0 og var(v) = 2. Da, når n er stor, 1

1 n

ii

vn er tilnærmelsvis

fordelt N(0, 2 /v n ).

1

Større varians for X medfører mindrevarians for Matematikken

var( 1 – 1) = 4

var[( ) ]1 i x i

X

X u

n

hvor 2X = var(Xi). Variansen til X opptrer kvadrert i nevneren –

så økende spredning hos X reduserer variansen i

Intuisjonen

Hvis der er mer variasjon i X så er der mer informasjon i

dataene som du kan bruke til å tilpasse regresjonslinjen. Dette er

lettere å se i en figur …

1

1

Der er samme antall sorte og blå punkter – hvilke ville du valgt av for å estimere OLS?

Oppsummering av sannsynlighetsfordelingentil OLS estimatoren:

Hvis de tre OLS antakelsene holder, så

Den eksakte (endelig utvalg) utvalgsfordelingen til 1 har:

E( 1 ) = 1 (dvs, 1 er forventningsrett)

var( 1 ) = 4

var[( ) ]1 i x i

X

X u

n

1

n.

Bortsett fra gjennomsnitt og varianse er den eksakte fordelingen til 1 komplisert og avhenger av fordelingen til(X,u)

1p

1 (dvs, 1 er konsistent)

Når n er stor, 1 1

1

ˆ ˆ( )

ˆvar( )

E

~ N(0,1) (sentralgrenseteoremet)

Estimering av dynamiske kausale effekter

Kapittel 15

• Seksjon 15.5 utgår av pensum– Denne seksjonen tar for seg andre måter enn OLS å

estimere DL modeller

Kausale effekter i tidsseriesammenheng

• En dynamisk kausal effekt er effekten på Y av en endring av X over tid

Eksempler• Effekten av en økt tobakksavgift på konsumet av røyk i år, i

neste år og om 5 år

• Effekten av Sentralbankens endring av styringsrenten påinflasjonen denne måneden, om 6 måneder og om et år

• Effekten av frostdager i Florida på prisen av appelsinjuice-konsentrat denne måneden, neste måned, om 2 måneder

Dynamiske kausale effekter

• I forbindelse med tidsserieanalyse er dataene vi analyserer sjelden et resultat av et kontrollert eksperiment

• Husk også at i tidsserie følger vi kun ett individ:– I tverrsnittsdata har vi et tilfeldig utvalg av mange

individer– ”Populasjonen” av individer i tidsserieanalyse er altså et

individ observert i ulike tidsperioder– Om de ulike ”individene” blir trukket fra samme fordeling

(dvs. serien er stasjonær) så kan kausale dynamiske effekter bli beregnet med OLS estimering av en DL-modell

Distributed lag modell

• Dette er en modell der vi estimerer Y påkontemporære og laggede verdier av X

Yt = 0 + 1Xt + … + rXt–r + ut

• 1 = kontemporer effekt av endret X• 2 = 1-periode dynamisk multiplikator• 3 = 1-periode dynamisk multiplikator• Kumulative dynamiske multiplikatorer

– Ex: 2-perioders kumulative dynamiske multiplikator • = 1 + 2 + 3

Eksogenitet

• Vi har tidligere sett at endogenitet er et problem, dvs. når E(ut|X) ≠ 0

• For at en DL modell skal gi forventningsrette estimater må forklaringsvariablene være eksogene

To typer eksogenitet:

1. Svak eksogenitet: E(ut|Xt,Xt-1,Xt-2,…) ≠ 0

2. Sterk eksogenitet: E(ut|…,Xt+1,Xt,Xt-1,…) ≠ 0

• Dersom forklaringsvariablene er eksogene kan vi estimere DL-modellen med OLS

Distributed lag modell forutsetningene

1. E(ut|Xt,Xt–1,Xt–2,…) = 0 (X er eksogen)

2. (a) Y og X stasjonære fordelinger;(b) (Yt,Xt) og (Yt–j,Xt–j) blir uavhenige når j blir stor

3. Y og X har åtte endelige momenter større enn null

4. Der er ingen perfekt multikollinearitet

Egenskaper til OLS estimatoren av en DL modell

• OLS gir konsistente estimater (men som kan være forventningsskjeve)

• De estimerte koeffisientene er normalfordelte

• MEN variansen er ikke den samme som vi kjenner fra tverrsnittsdata fordi feilleddet ut kan være autokorrelert

• Følgelig kan standardfeilene (SE) til koeffisientene i Excel bli feil

• En kan bruke SE som er robuste både mot autokorrelasjon og heteroskedastisitet…

Trenger vi å benytte HAC-estimator når vi estimerer en AR eller ADL modell?

• Nei, bare hvis feilleddet ut er autokorrelert

• Dersom du har inkludert tilstrekkelig med lag av den avhengige variabelen Y vil ikke feilleddet være autokorrelert– I det tilfelle vil vi ikke kunne predikere ut med laggede

variabler av Y

Når kan man estimere dynamiske kausale effekter?

• Konsistente estimater av dynamiske kausale effekter beror på at X er eksogen

• I hvert enkelt tilfelle må man tenke nøye gjennom om det er fornuftig å anta eksogenitet

Eksempler:1. Y = appelsinjuice priser, X = FDD i Orlando 2. Y = eksport fra Australia, X = BNP I USA (effekten av inntekt i

USA på eksportetterspørsel fra Australia)3. Y = EU eksport, X = BNP I USA (effekten av inntekt i USA på

eksportetterspørsel fra EU)4. Y = Inflasjonsraten i USA, X = prosentvis endring i verdensprisen

for olje (som bestemt av OPEC) (effekten av OPEC oljeprisøkning på inflasjon)

5. Y = BNP vekst, X = Styringsrenten (effekten av pengepolitikk påproduksjon)

Oppsummering

• Når X er eksogen kan man estimere dynamiske kausale effekter ved bruke av en distributed lag modell (evt. en ADL modell)

• Dersom u er autokorrelert så vil de konvensjonelle feilleddene til OLS være feil, og man må bruke HAC standardfeil

• Tenk nøye gjennom om det er realistisk å tro at X er eksogen – Ofte vil X være endogen

Autoregressive distributed lag model (ADL)

• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:

Yt = 0 + 1Yt–1 + … + pYt–p + 0Xt + … + rXt–r + ut

• p viser til antall lag for Y og q for antall lag for X

• Finn langsiktige parametre ved å anta likevekt slik at Yt=Yt-1=Yt-2, etc. og tilsvarende for X

Kointegrasjon

• Vi har hele tiden antatt stasjonaritet• Hvis dataseriene ikke er stasjonære, bryter de

fleste forutsetningene for inferens sammen• Rammeverket en da benytter er vektor

autoregresjon og kointegrasjon• To eller flere ikke-stasjonære dataserier sies å

være kointegrerte når de har en felles stokastisk trend– Viktig i noen typer finans og makroøkonomiske

analyser

Kapittel 5Kapittel 5LineLineæær regresjon med enr regresjon med en

forklaringsvariabelforklaringsvariabel

Hypotesetester og konfidensintervall

MØA 145

Regresjon med en forklaringsvariabel: Hypotesetester og konfidensintervall

Vi ønsker å lære om de sanne populasjonsparametrene fra regresjonen ved bruk av et datautvalg (slik at der er utvalgsusikkerhet). Der er fire steg for å nå dette målet:

1. Definer hvilken populasjonen som er av interesse

2. Utled sannsynlighetsfordelingen til en estimator (dette krever visse antakelser)

3. Estimer variansen til sannsynlighetsfordelingen (som sentralgrenseteoremet sier er alt du trenger å vite hvis n erstor) – dvs., å finne standardfeilen (SE) til estimatoren –ved kun å bruke informasjon fra datautvalget!

4. Bruk estimatoren ( 1 ) for å få et punktestimat og med dens SE, hypotesetester og konfidensintervall.

Vi er interessert i 1 iYi = 0 + 1Xi + ui, i = 1,…, n

1 = Y/X, for en uavhengig endring i X (kausal effekt)

Minste kvadraters metode (OLS) forutsetningene:

1. E(u|X = x) = 0.

2. (Xi,Yi), i =1,…,n, er i.i.d.

3. Store uteligger er sjeldne (E(X4) < , E(Y4) < .

Sannsynlighetsfordelingen til 1 :

Gitt OLS forutsentingene så er 1 tilnærmet normalfordelt når n

er tilstrekkelig stor

1 ~ 2

1 4, v

X

Nn

, hvor vi = (Xi – X)ui

Hypotesetest og standardfeil til(Seksjon 5.1)

Målet er å teste hypoteser (påstander) som for eksempel at 1 = 0

ved bruk av data. Dette leder til en tentativ konklusjon

vedrørende om (null-)hypotesen er korrekt eller inkorrekt.

Generelt oppsett

Nullhypotese og tosidet alternativ:

H0: 1 = 1,0 mot H1: 1 1,0

hvor 1,0 er den hypoteseverdien under null hypotesen.

Nullhypotese og ensidet alternativ:

H0: 1 = 1,0 mot H1: 1 < 1,0

1

Generell tilnærming: konstruer t-observator og beregn p-verdi (eller sammenlign med N(0,1) kritisk verdi)

Generelt: nestimatoretililstandardferdihypoteseveestimator

t

hvor standardfeilen (SE) til en estimator er kvadratroten til

variansen av estimatoren.

For å teste gjennomsnittet til Y: t = ,0

/Y

Y

Y

s n

For å teste 1, t = 1 1,0

1

ˆ

ˆ( )SE

,

Formel for SE( )1Uttrykket for variansen til 1 (stor n):

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2

4v

Xn

, hvor vi = (Xi – X)ui.

Estimatoren til variansen til 1 erstatter de ukjente populasjonsverdiene 2

og 4X med estimatorer konstruert fra

dataene:

1

2ˆˆ

= 2

2 2

1 estimator of

(estimator of )v

Xn

=

2

12

2

1

1ˆ

1 2

1( )

n

ii

n

ii

vn

nX X

n

hvor îv = ˆ( )i iX X u .

1

2ˆˆ

=

2

12

2

1

1ˆ

1 2

1( )

n

ii

n

ii

vn

nX X

n

, hvor iv = ˆ( )i iX X u .

SE( 1 ) = 1

2ˆˆ

= standardfeilen til 1

OK, dette er litt grisete, men:

Det er mindre komplisert enn det ser ut til. Telleren estimerer

var(v) og nevneren estimerer var(X).

Hvorfor frihetsgradjustering n – 2? Fordi to koeffesienter har

blitt estimert (0 og 1).

SE( 1 ) blir beregnet av Excel

Oppsummering: For å testeH0: 1 = 1,0 v. H1: 1 1,0, Konstruer t-observator

t = 1 1,0

1

ˆ

ˆ( )SE

=

1

1 1,0

2ˆ

ˆ

ˆ

Forkast på 5% signifikansnivå hvis |t| > 1.96

P-verdien er p = Pr[|t| > |tact|] = sannsynligheten i halene til

normalfordelingen utenfor |tact|; du forkaster på 5%

signifikansnivå dersom p-verdien er < 5%.

Denne prosedyren er avhengig av store-n tilnærming; typisk

er n = 50 stort nok for at tilnærmingen skal bli bra.

Eksempel: Test Scores og STR,California dataEstimert regresjonslinje: �TestScore = 698.9 – 2.28STR

Excel rapporterer standardfeilene:

SE( 0 ) = 10.4 SE( 1 ) = 0.52

t-observator som tester om

1,0 = 0 = 1 1,0

1

ˆ

ˆ( )SE

=

2.28 0

0.52

= –4.38

Den 1% 2-sidete signifikansnivå er 2.58, så vi forkaster

nullhypotesen på 1% signifikansnivå.

Alternativt så kan vi beregne p-verdien…

P-verdien basert på store-n standard normal tilnærming til t-

observatoren er 0.00001 (10–5)

Konfidensintervaller til 1(Seksjon 5.2)

Legg merke til at et 95% konfidensintervall tilsvarer:

Settet av punkter som ikke kan bli forkastet på et 5% signifikansnivå;

Et intervall som er funksjon av dataene og som inneholder den sanne parameterverdien 95% av tiden i repeterte utvalg.

Siden t-observatoren for 1 er fordelt som N(0,1) i store utvalg så

er konstruksjon av et 95% konfidensintervall for 1 akkurat som for utvalgsgjennomsnittet:

95% konfidensintervall for 1 = { 1 1.96SE( 1 )}

Konfidensintervall eksempel: Test Scores og STR

Estimatert regresjonslinje: �TestScore = 698.9 – 2.28STR

SE( 0 ) = 10.4 SE( 1 ) = 0.52

95% konfidensintervall for 1 :

{ 1 1.96SE( 1 )} = {–2.28 1.960.52}

= (–3.30, –1.26)

De følgende to utsagnene er ekvivalente (hvorfor?)

95% konfidensintervallet inkluderer ikke null;

Hypotesen 1 = 0 blir forkastet på 5% signifikansnivå

En presis (og konvensjonell) måte årapportere regresjoner:Sett standardfeilene i paranteser under de estimerte

koeffisientene som de tilhører.�TestScore = 698.9 – 2.28STR, R2 = .05, SER = 18.6

(10.4) (0.52)

Dette uttrykket gir mye informasjon

Den estimerte regresjonslinjen er�TestScore = 698.9 – 2.28STR

Standardfeilen til 0 er 10.4

Standardfeilen til 1 er 0.52

R2 er .05; standardfeilen til regrsjonen er 18.6

Oppsummering av statistiskinferens om 0 og 1:Estimering:

OLS estimatorer 0 og 1 0 og 1 har tilnærmelsvis normal sannsynlighetsfordeling i store

utvalgTest:

H0: 1 = 1,0 v. 1 1,0 (1,0 er verdien til 1 under H0)

t = ( 1 – 1,0)/SE( 1 ) p-verdi = område under standard normalfordeling utenfor tact (stor

n)Konfidensintervaller:

95% konfidensintervall for 1 er { 1 1.96SE( 1 )} Dette er settet av 1–verdier som ikke blir forkastet på 5% nivå 95% konfidensintervallet inneholder den sanne 1 i 95% av alle

utvalg

Regresjon når X er binær(Seksjon 5.3)

Noen ganger er forklaringsvariabelen binær:

X = 1 hvis liten skoleklasse, = 0 hvis ikke X = 1 hvis kvinne, = 0 hvis mann X = 1 hvis behandlet (med medisin), = 0 hvis ikke

Binære forklaringsvariabler blir noen ganger kalt for “dummy”

variabler.

Så langt har 1 blitt kalt for “helningen,” men det er ikke meningsfullt

hvis X er binær.

Hvordan fortolker vi en regresjon med en binær variabel?

Fortolking av regresjoner medbinær forklaringsvariabel

Yi = 0 + 1Xi + ui, hvor X er binær (Xi = 0 or 1):

Når Xi = 0, Yi = 0 + ui

Gjennomsnittet til Yi er 0

dvs, E(Yi|Xi=0) = 0

Når Xi = 1, Yi = 0 + 1 + ui

gjennomsnittet til Yi er 0 + 1

dvs, E(Yi|Xi=1) = 0 + 1

slik at:

1 = E(Yi|Xi=1) – E(Yi|Xi=0)

= populasjonsforskjellen gjennomsnitt mellom grupper

Eksempel: Let Di = 1 if 20

0 if 20i

i

STR

STR

OLS regresjon: �TestScore = 650.0 + 7.4D

(1.3) (1.8)

Gruppegjennomsnitt:

Class Size Average score (Y ) Std. dev. (sY) NSmall (STR > 20) 657.4 19.4 238Large (STR ≥ 20) 650.0 17.9 182

Forskjell i gjennomsnitt: small largeY Y = 657.4 – 650.0 = 7.4

Standardfeil: SE =2 2s l

s l

s s

n n =

2 219.4 17.9

238 182 = 1.8

Oppsummering: regresjon når Xi erbinær (0/1)

Yi = 0 + 1Xi + ui

0 = gjennomsnitt til Y når X = 0

0 + 1 = gjennomsnitt til Y når X = 1

1 = forskjell i guppegj.snitt, X =1 minus X = 0

SE( 1 ) har den vanlige fortolkingen

t-observator og konfidensintervaller konstruert som vanlig

Dette er en enkel måte å analysere forskjeller i gjennomsnitt

Regresjonsformuleringen med binære variabler veldig nyttig

når vi har flere forklaringsvariabler (som vi skal se i kap. 6)

Heteroskedastisitet og homoskedastistet(Seksjon 5.4)

Hva…?

Konsekvenser av homoskedastisitet

Implikasjoner for å beregne standardfeil

Hva betyr disse to begrepene?

Hvis var(u|X=x) er konstant – dvs., Hvis variansen til den

betingede fordelingen til u gitt X ikke avhenger av X – så sier

vi at u homoskedastisk. Hvis ikke så er u heteroskedastisk.

Homoskedastisitet visuelt:

E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)

Variansen til u avhenger ikke av x

Heteroskedastisitet visuelt:

E(u|X=x) = 0 (u tilfredstiller første OLS forutsetning)

Variansen til u avhenger av x: u er heteroskedastisk.

Et eksempel med faktiske data: gjennomsnitttimelønn og antall år utdanning (datakilde: Current Population Survey):

Heteroskedastisk eller homoskedastisk?

Skoleklasse data:

Heteroskedastisk eller homoskedastisk?

Så langt har vi (uten å si det) antatt at ukan være heteroskedastisk.

Husk de tre OLS forutsetningene:

1. E(u|X = x) = 0

2. (Xi,Yi), i =1,…,n, er i.i.d.

3. Store uteliggere er sjeldne

Heteroskedastisitet og homoskedastisitet omhandler var(u|X=x).

Siden vi ikke eksplisitt at antatt homoskedastiske feilledd, så har

vi tillatt for heteroskedastisitet.

Hva hvis feilleddet faktisk erhomoskedastisk?

Formelen for variansen til 1 og OLS standardfeilen blir

enklere: Hvis var(ui|Xi=x) = 2u , så

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2 2

2 2

[( ) ]

( )i x i

X

E X u

n

= 2

2u

Xn

Legg merke til: var( 1 ) er omvendt proposjonal til var(X):

mer spredning i X betyr mer informasjon om 1 - vi diskuterte dette tidligere men dette kommer klarere frem i denne formelen.

I tillegg til denne formelen for variansen til 1 , har vi en

formel for standardfeil når feilledde er homoskedastiske:

Standardfeil formel:

SE( 1 ) =

2

1

2

1

1ˆ

1 21

( )

n

ii

n

ii

un

nX X

n

.

Noen synes denne formelen er enklere. For eksempel er dette

den standard formelen som brukes i Excel.

Vi har nå to formler for standardfeilen til 1Standardfeil når feilledd er homoskedastiske – disse er kun

gyldige når feilleddene er homoskedastiske.

Heteroskedastiske robuste standardfeil, som er gyldige

uansett om feilleddene er heteroskedastiske.

Hovedfordelen med den første er at formelen er enklere.

Bakdelen er at formelen generelt bare er korrekt dersom

feilledene faktisk er homoskedastiske.

Konklusjon: Hvis feilleddene enten er homoskedastiske eller

heteroskedastiske og du bruker heteroskedastisk-robuste

standardfeil, så er det greit

Hvis feilleddene er heteroskedastiske og du bruker formel for

standardfeil basert på homoskedastiske feilledd vil ikke

standardfeilene dine være korrekte (den homoskedastiske

estimatoren av variansen til 1 er ikke konsistent hvis der er

heteroskedastisitet).

Formlene sammenfaller når n er stor

De fleste benytter formelen for homoskedastiske feilledd. Kan man, så brukes ofte bruke heteroskedastisk-robuste standardfeil

Kapittel 6Kapittel 6Regresjon med flere forklaringsvarRegresjon med flere forklaringsvar

MØA 145

Utelatte variabler –forventningsskjevhet (SW Seksjon 6.1)

Feilleddet u oppstår fordi der finnes faktorer som påvirker Y som

ikke er inkludert i regresjonen – derfor vil der være alltid utelatte

variabler.

Men, noen ganger vil utelatelse av variabler lede til

forventningsskjevhet i OLS estimatoren.

Utelatte variabler –forventningsskjevhetFor at OLS estimatoren skal være forventningsskjev må den

utelatte faktoren “Z”:

1. delvis forklare variansen i Y (dvs. Z er del av u); og

2. være korrelert med forklaringsvariabelen X (dvs.

corr(Z,X) 0)

Begge betingelsene må holde for at utelatelsen av Z medfører

forventningsskjevhet i estimeringen av X.

Utelatte variabler –forventningsskjevhetI testscore (Californiaskolene) eksempelet:

1. Engelspråklig evne (om eleven har engelsk som første eller andre

språk) påvirker sannsynligvis resultatene på de standardiserte

testene: Z forklarer Y.

2. Immigranter er vanligvis mindre velstående og har derfor mindre

penger til skolegang – og høyere STR: Z er korrelert med X.

Følgelig er 1 forventningsskjev. I hvilken retning trekker denne

forventningsskjevheten?

Vi har en formel for forventningsskjevhet

Utelatte variabler –forventningsskjevhet

En formel for forventningsskjevhet pga. utelatt variabel:

1 – 1 = 1

2

1

( )

( )

n

i ii

n

ii

X X u

X X

= 1

2

1

1

n

ii

X

vnn

sn

Hvor vi = (Xi – X )ui (Xi – X)ui. Under OLS forutsetning 1,

E[(Xi – X)ui] = cov(Xi,ui) = 0.

Men hva hvis E[(Xi – X)ui] = cov(Xi,ui) = Xu 0?

Utelatte variabler –forventningsskjevhetGenerelt (dvs., selv om antakelse #1 ikke er sann),

1 – 1 = 1

2

1

1( )

1( )

n

i ii

n

ii

X X un

X Xn

p

2Xu

X

= u Xu

X X u

= u

XuX

,

Hvor Xu = corr(X,u). Hvis antakelse #1 er gyldig, så Xu = 0,

men ikke hvis vi har at….

Formelen for forventningsskjevhetved utelatt variabel :

1p

1 + uXu

X

…en utelatt faktor Z både:

(1) forklarer del av variansen i Y (dvs. at den er en del av u); og

(2) er korrelert med X,

Når Xu 0 er følgelig OLS estimatoren 1 forventningsskjev (og ikke konsistent).

Formelen klargjør ideen om at når distrikter med få fremmed-språklige elever (1) gjør det bedre på standardiserte tester og (2) har mindre klasser (større budsjetter), så overdriver vi effekten av klassestørrelse når vi ignorerer den fremmedspråklige faktoren.

Skjer dette i CA dataene?

Distrikter med færre som lærer engelsk (lav PctEL) har bedre

testresultater

Distrikter med lavere PctEL har mindre klasser

I distrikter med sammenlignbar PctEL er effekten av klassestørrelse

liten (husk generelt gap i testresultater = 7.4)

Digresjon om kausalitet ogregresjonsanalyseHva ønsker vi å estimere?

Hva er en kausal effekt?

En fornuftsbasert forståelse av kausalitet er ikke presist nok

for vårt formål.

I dette kurset definerer vi kausal effekt som effekten som blir

målt i et ideelt tilfeldig kontrollert eksperiment.

Ideelt tilfeldig kontrollert eksperiment Ideelt: alle deltakere følger behandlingsprotokoll – fullt

samsvar, ingen feil i rapportering, etc.! Tilfeldig: deltakere fra populasjonen av interesse blir

tilfeldig tildelt til en behandlings- eller kontrollgruppe Kontrollert: en kontrollgruppe gjør det mulig å måle

effekten av behandlingen som forskjellen mellom de to gruppene

Eksperiment: behandlingen blir tildelt som del av eksperimentet: deltakerne har ikke noe valg slik at der ikke er noen “omvendt kausalitet” hvor deltakerne velger behandlingen de tror vil fungere best.

Tilbake til klassestørrelse: Tenk et ideelt tilfeldig kontrollert eksperiment for å måle

effekten på Test Score av å redusere STR…

Hvordan avviker våre dataobservasjoner fra dette idealet?

Behandlingen er ikke tilfeldig tildelt

Tenk på PctEL – prosent som lærer engelsk – i distriktet.

Den tilfredstiller med stor sannsynlighet de to kriteriene for

forventningsskjevhet ved utelatt variabel: Z = PctEL:

1. forklarer variasjon i Y; og

2. er korrelert med forklaringsvariabelen X.

“Kontroll-” og “behandlings-” gruppene avviker på en

systematisk måte – corr(STR,PctEL) 0

Tilfeldige kontrollerte eksperimenter:

Tilfeldig trekning + kontrollgruppe betyr at enhver forskjell

mellom behandlings- og kontrollgrupper er tilfeldig – det er

ikke tilfeldig relatert til behandlingen

Vi kan fjerne forskjellen mellom i PctEL mellom de store

(kontroll) og små (behandling) gruppene ved å

sammenligne effekten av klassestørrelse mellom distrikter

som har samme PctEL.

Hvis den eneste systematiske forskjellen mellom store og små klasser er

pga PctEL, så er vi da tilbake til det tilfeldig kontrollerte eksperimentet –

innenfor hver PctEL gruppe.

Dette er en måte å “kontrollere” for effekten til PctEL når vi

estimerer effekten av STR.

Utelatte variabler –forventningsskjevhet

Tre måter å løse problemet med utelatt variabel forventningsskjevhet

1. Kjør et tilfeldig kontrollert eksperiment der behandlingen (STR) blir tilfeldig tildelt: da er PctEL fremdeles en forklaringsvariabel for TestScore, men PctELer ikke korrelert med STR. (Men dette er ikke realistisk i praksis)

2. Bruk “krysstabuleringsmetoden” med finere inndeling av STR og PctEL – innen hver gruppe har alle klassene samme PctEL, slik at vi har kontrollert for PctEL(Men snart vil vi gå tom for data og hva med andre forklaringsvariabler slik som familieinntekt og foreldres utdanning?)

3. Bruk en regresjon hvor den utelatte variabelen (PctEL) ikke lenger er utelatt: inkluder PctEL som en ytterliggere forklaringsvariabel i regresjonen.

Regresjonsmodell med flereforklaringsvariabler (SW Seksjon 6.2)

Se på tilfellet med to forklaringsvariabler:

Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n

Y er den avhengige variabelen

X1, X2 er to forklaringsvariabler

(Yi, X1i, X2i) betegner observasjon i for Y, X1 og X2.

0 = ukjent populasjonskonstant

1 = effekten på Y av en endring i X1, når X2 holdes konstant

2 = effekten på Y av en endring i X2, når X1 holdes konstant

ui = feilleddet (utelatte faktorer)

Fortolking av koeffisientene iregresjonen

Yi = 0 + 1X1i + 2X2i + ui, i = 1,…,n

Tenk at X1 endres med X1 mens X2 holdes konstant:

Populasjonens regresjonslinje før endringen:

Y = 0 + 1X1 + 2X2

Populasjonens regresjonslinje etter endringen:

Y + Y = 0 + 1(X1 + X1) + 2X2

Før: Y = 0 + 1X1 + 2X2

Etter: Y + Y = 0 + 1(X1 + X1) + 2X2

Forskjell: Y = 1X1

Slik at:

1 = 1

Y

X

, X2 holdes konstant

2 = 2

Y

X

, X1 holdes konstant

0 = predikert verdi for Y når X1 = X2 = 0.

OLS estimatoren med flereforklaringsvariabler (SW seksjon 6.3)

Med to forklaringsvariabler løser OLS estimatoren:

0 1 2

2, , 0 1 1 2 2

1

min [ ( )]n

b b b i i ii

Y b b X b X

OLS estimatoren minimerer gjennomsnittlig kvadrert avstand

for de faktiske verdiene til Yi og prediksjonen basert på den

estimerte linjen.

Dette minimeringsproblemet ble løst ved hjelp av

matriseregning

Dette gir OLS estimatorene for 0, 1og 2.

Eksempel: California skoledata

Regresjon av TestScore på STR:

�TestScore = 698.9 – 2.28STR

Inkluderer så present som lærer engelsk i distriktet (PctEL):

�TestScore = 686.0 – 1.10STR – 0.65PctEL

Hva skjer med koeffisienten til STR?

Hvorfor? (Legg merke til at: corr(STR, PctEL) = 0.19)

Modellevaluering (SW Seksjon 6.4)

Faktisk = predikert + feilledd: Yi = iY + îu

SER = standardavvik til îu (med frihetsgradkorreksjon)

R2 = andel av variansen i Y forklart av X

2R = “justert R2” = R2 med en frihetsgradkorreksjon

som justerer for usikkerhet i estimering; 2R < R2

SER

Akkurat som i en regresjon med en enkel forklaringsvariabel

måler standardfeilen til regresjonen SER spredningen til Y

observasjonene omkring regresjonslinjen:

SER = 2

1

1ˆ

1

n

ii

un k

R2 og 2R

R2 er den samme som før:

R2 = ESS

TSS = 1

SSR

TSS ,

hvor ESS = 2

1

ˆ ˆ( )n

ii

Y Y

, SSR = 2

1

ˆn

ii

u , TSS = 2

1

( )n

ii

Y Y

.

R2 øker alltid når du legger til en ny forklaringsvariabel

(hvorfor?) – utgjør et problem når man skal måle hvor bra

modellen er

R2 og , forts.

2R (“justert R2”) korrigerer dette problemet ved å “straffe” deg

for å inkludere en ytterligere forklaringsvariabel – 2R øker ikke

nødvendigvis når du legger til en ytterligere forklaringsvariabel.

Justert R2: 2R = 1

11

n SSR

n k TSS

Legg merke til at 2R < R2, imidlertid hvis n er stor vil de to være

veldig nærme hverandre.

2R

Modellevaluering, forts.

Test score eksempel:

(1) �TestScore = 698.9 – 2.28STR,

R2 = .05, SER = 18.6

(2) �TestScore = 686.0 – 1.10STR – 0.65PctEL,

R2 = .426, 2R = .424, SER = 14.5

Hva – presist – forteller dette deg om hvor mye modell 2) forklarer (2) sammenlignet med modell (1)?

Hvorfor er R2 og 2R så like i (2)?

OLS antakelsene (SW Seksjon 6.5)

Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n

1. Den betingede fordelingen til u gitt X’s har snitt lik null,

dvs., E(u|X1 = x1,…, Xk = xk) = 0.

2. (X1i,…,Xki,Yi), i =1,…,n, er i.i.d.

3. Store uteliggere er sjeldne: X1,…, Xk, og Y har fjerde

momenter: E( 41iX ) < ,…, E( 4

kiX ) < , E( 4iY ) < .

4. Der er ingen perfekt multikollinearitet.

Antakelse #1: den betingede forventnings-verdien til u gitt de inkluderte X’ene er null.

E(u|X1 = x1,…, Xk = xk) = 0

Dette har samme fortolking som en regresjon med kun en

forklaringsvariabel.

Hvis en utelatt variabel (1) tilhører ligningen (slik at den er

i u) og (2) er korrelert med inkludert X, så holder ikke

denne betingelsen

Brudd på denne betingelsen fører til utelatt variabel

forventningsskjevhet

Løsning – hvis mulig – er å inkludere den utelatte

variabelen i regresjonen.

Antakelse #2: (X1i,…,Xki,Yi), i =1,…,n, are i.i.d.

Denne er automatisk tilfredstilt dersom dataene er samlet som

tilfeldig utvalg.

Antakelse #3: store uteliggere er sjeldne (endelig fjerde

momenter)

Som i tilfellet med en forklaringsvariabel kan OLS være sensitive

i forhold til store uteligger, så du trenger å sjekke dataene

(kryspplott!) for å være sikker der ikke er noen vanvittige verdier.

Antakelse #4: Der er ikke perfekt multikollinearitet

Perfekt multikollineariet er når en av forklaringsvariablene er en

eksakt lineær funksjon av de andre forklaringsvariablene.

Sannsynlighetsfordelingen til OLSestimatoren (SW Seksjon 6.6)Under de fire OLS antakelse,

Den eksakte fordelingen av 1 har gj.snitt 1 med var( 1 )

som er omvendt proposjonal til n; så gjelder også for 2 .

Utenom gj.snitt og varians er den eksakte fordelingen til 1veldig komplisert; men for stor n…

1 er konsistent: 1p

1 (store talls lov)

1 1

1

ˆ ˆ( )

ˆvar( )

E

er tilnærmet fordelt N(0,1)

(sentralgrenseteoremet)

Det gjelder også for 2 ,…, ˆk

Begrepsmessig er der ikke noe nytt her!

Dummy-variabelfellenAnta du har flere dummyvariabler (variabler som tar verdien 0

eller 1) som er gjensidig utelukkende og uttømmende. Dvs. der er flere kategorier og hver observasjon faller i en og kun en kategori (mann eller kvinne; høy inntekt, middels inntekt, lav inntekt…). Hvis du inkluderer alle disse dummyvariablene og en konstant, så vil du få perfekt multikollinearitet – dette er noe som kalles dummy-variabelfellen. Hvorfor er der perfekt multikollinearitet her?

Løsningen for dummy-variabelfellen:

1. Utelat en gruppene (f.eks. mann), eller

2. Utelat konstanten

Hva er konsekvensene av (1) eller (2) for fortolking av koeffisientene?

Perfekt multikollineariet

Perfekt multikollinearitet reflekterer vanligvis en feil i

definisjonen av forklaringsvariablene eller særhet i dataene

Hvis du har perfekt multikollinearitet vil din statistiske

programvarepakke (i vårt tilfelle Excel) informere deg – enten

ved å kræsje, ved en feilmelding, eller ved å ”droppe” vilkårlig

en av variablene

Løsningen på perfekt multikollinearitet er å endre listen av

forklaringsvariabler slik at du ikke lenger har perfekt

multikollinearitet.

Imperfekt multikollinearitet

Imperfekt og perfekt multikollinearitet er ganske forskjellig på

tross av navnelikheten.

Imperfekt multikollinearitet opptrer når to eller flere av

forklaringsvariablene er sterkt korrelerte.

Hvorfor dette begrepet? Hvis to forklaringsvariabler er

sterkt korrelerte så vil et kryssplott mellom dem ligne på en

rett linje, men med mindre korrelasjonen er eksakt lik 1 så

er kollineariteten imperfekt.

Imperfekt multikollinearitet, forts.

Imperfekt multikollinearitet medfører at en eller flere av koeffisientene i regresjonen vil bli estimert upresist. Intuisjon: -koeffisienten til X1 er effekten av X1 når X2

holdes konstant. Hvis X1 og X2 er sterkt korrelerte er der veldig lite variasjon i X1 straks X2 blir holdt konstant – slik at dataene er lite informative om hva som skjer når X1 endres.Variansen til OLS estimatoren til -koeffisienten tilhørendeX1 vil bli stor.

Imperfekt multikollinearitet resulterer i store standardfeil for en eller flere av OLS koeffisientene.

Matten? Se SW, App. 6.2

KapittelKapittel 77

Hypotesetester og konfidensintervall med flere forklaringsvariabler

Hypotesetest og konfidensintervall for en enkelt koeffisient (SW Seksjon 7.1)

1 1

1

ˆ ˆ( )

ˆvar( )

E

er tilnærmelsesvis fordelt N(0,1)

(sentralgrenseteoremet).

Derfor kan hypoteser om 1 bli testet med den vanlige t-

observatoren og intervaller blir konstruert som

{ 1 1.96SE( 1 )}.

Gjelder også for 2,…, k.

1 og 2 er generelt ikke uavhengig fordelt – derfor er heller

ikke deres t-observatorer uavhengige (mer om dette senere).

Eksempel: Klassestørrelse i California

(1) �TestScore = 698.9 – 2.28STR

(10.4) (0.52)

(2) �TestScore = 686.0 – 1.10STR – 0.650PctEL

(8.7) (0.43) (0.031)

Koeffisienten til STR i (2) er effekten på TestScores av en enhets endring i STR når prosent engelsklærende i distriktet holdes konstant

Størrelsen til koeffisient til STR blir halverto p-verdien er 0.011

o 95% konfidensintervallet for koeffisienten til STR i (2) er {–1.10 1.960.43} = (–1.95, –0.26)

o t-observatoren for å teste STR = 0 er t = –1.10/0.43 = –2.54, så vi forkaster nullhypotesen på 5% signifikansnivå

F-test

F-observatoren tester alle deler av en felles hypotese samtidig.

Formelen for spesialtilfellet med en felles hypotese 1 = 1,0 og2 = 2,0 i en regresjon med to forklaringsvariabler:

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

hvor1 2,ˆ t t estimerer korrelasjonen mellom t1 og t2.

Forkast når F er stor (Hva som er stor bestemmes av valgt

signifikansnivå og sannsynlighetsforedlingen)

F-observator tester 1 og 2:

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

F-observatoren er stor når t1 og/eller t2 er stor

F-observatoren korrigerer for korrelasjonen mellom t1 og t2.

Kan inneholde så mange ’er som ønskelig

Fordeling ved store utvalg til F-observatorenBetrakt spesialtilfellet at t1 og t2 er uavhengige, slik at

1 2,ˆ t tp

0;

i store utvalg blir formelen

F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

2 21 2

1( )

2t t

Under nullhypotesen har t1 og t2 standard normalfordelingsom i dette spesialtilfeller er uavhengige

Fordelingen til F-observatoren ved store utvalg er fordelingen av gjennomsnittet til to uavhengige fordelte kvadrerte standard normalfordelte tilfeldige variabler.

Kji-kvadrat fordelingen med q frihetsgrader ( 2q ) er definert som

fordelingen til summen av q uavhengige kvadrerte standard

normalfordelte variabler.

I store utvalg er F fordelt som 2q /q.

Valgte kritiske verdier for store utvalg til 2q /q

q 5% kritisk verdi

1 3.84

2 3.00

3 2.60

4 2.37

5 2.21

F-test eksempel: Klassestørrelse iCaliforniareg testscr str expn_stu pctel, r;

Regression with robust standard errors Number of obs = 420 F( 3, 416) = 147.20 Prob > F = 0.0000 R-squared = 0.4366 Root MSE = 14.353

------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203 expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751 pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446 _cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641------------------------------------------------------------------------------

NOTE

test str expn_stu; The test command follows the regression

( 1) str = 0.0 There are q=2 restrictions being tested ( 2) expn_stu = 0.0

F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00Prob > F = 0.0047 Stata computes the p-value for you

F-observator med homoskedastisitet

Når feilleddet er homoskedastisk er der en enkel formel for F-

observatoren:

Kjør to regresjoner, en for nullhypotesen (“restricted

regression”) og en for alternativhypotesen (“unrestricted

regression”).

Sammenlign modellenes tilpasning til dataene – R2’ene – og

forkast nullhypotesen hvis modellen som er “unrestricted”

forklarer mye mer av vaiasjonen i Y.

Regresjon med og uten restriksjon

Eksempel: er koeffisientene til STR og Expn null?

Regresjon uten regresjon (under H1):TestScorei = 0 + 1STRi + 2Expni + 3PctELi + ui

Regresjon med restriksjon (dvs., under H0):TestScorei = 0 + 3PctELi + ui

Antall restriksjoner under H0 er q = 2. R2 vil være høyere i regresjonen uten restriksjon

Hvor mye må R2 øke for at koeffisientene til Expn og PctEL skal bli anslått som statistisk signifikante?

F-observator med homoskedastiskefeilledd:

F = 2 2

2

( ) /

(1 ) /( 1)unrestricted restricted

unrestricted unrestricted

R R q

R n k

hvor: 2restrictedR = R2 for regresjon med restriksjon2unrestrictedR = R2 for regresjon uten restriksjon

q = antall restriksjoner under nullhypotesenkunrestricted = antall forklaringsvariabler i regrsjon uten

restriksjon.

Dess større forskjellen er mellom de to modellene sine R2,dess større forbedring i modellen er assosiert med å legge til variablene som testes og dess større er F-observatoren.

Eksempel:Restricted regression:�TestScore = 644.7 –0.671PctEL, 2

restrictedR = 0.4149

(1.0) (0.032)

Unrestricted regression:�TestScore = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL

(15.5) (0.48) (1.59) (0.032)2unrestrictedR = 0.4366, kunrestricted = 3, q = 2

so F = 2 2

2

( ) /



R R q

R n k

= (.4366 .4149) / 2

(1 .4366) /(420 3 1)

= 8.01

13

Eksempel:Vi tester to restriksjoner (at parameteret til EXPN og STR er 0

Det betyr at q=2

Vi har 420 observasjoner slik at n=420. Antall parametre som

estimeres i den ikke begrensede regresjonen i tillegg til

konstantleddet er 3

Vi skal da finne kritisk verdi for en F2,416 fordeling

Siden 416 er mye større enn 100, bruker vi tabellen for 2

restriksjoner og uendelig mange observasjoner

Kritisk verdi på 5% signifikansnivå er 3.00

Forkast nullhypotesen

Legg merke til: Heteroskedastisk-robust F = 5.43…

F-observatoren med homoskedastisitet: Oppsummering

F = 2 2

2

( ) /



R R q

R n k

F-observatoren med homoskedastiske feilledd forkaster H0

når to ytterliggere variabler øker R2 “tilstrekkelig” Hvis feilleddet er homoskedastisk har formelen over fordeling

i store utvalg som 2q /q.

Men hvis feilleddene er heteroskedastiske er fordelingen istore utvalg grisete og ikke lik 2

q /q

F-observator med homoskedastisitet: Oppsummering Disse er kun berettiget under veldig sterke betingelser –

sterkere enn det som er realistisk i praksis.o Imidlertid er det den som vanligvis brukes, og som må brukes i

Excel.

o Hvis du har anledning bør du bruke heteroskedastisk-robuste F-

observator med 2q /q (dvs., Fq,) kritiske verdier.

For n ≥ 100, er F-fordelingen i bunn og grunn 2q /q

fordelingen.

For små n bruker forskere av og til F fordelingen fordi den

har store kritiske verdier og er i så henseende mer

konservativ.

Oppsummering: testing avhypoteser på flere koeffisienter “En om gangen” tilnærmingen ved hypotestesting av

koeffisienter vil føre til at t-observatoren overskrider 1.96 mer

enn 5% av gangene under H0 (dvs. at størrelsen på testen er

større enn det ønskede signifikansnivået)

Heteroskedastiske-robuste F-statistikk er innbygd i fleste

statistikkprogrammer.

For stor n er F-statistikken fordelt 2q /q (= Fq,)

Versjonen av F-statistikken med homoskedastiske feilledd

kan hjelpe intusjonen, men er ikke gyldig når der er

heteroskedastisitet.

Konfidenssett for flere koeffisienter(SW Seksjon 7.4)

Yi = 0 + 1X1i + 2X2i + … + kXki + ui, i = 1,…,n

Hva er det felles konfidenssettet for 1 og 2?Et 95% felles konfidenssett er:Et verdisettfunksjon av dataene som inneholder de sanne

parametrene i 95% i hypotetisk repeterte utvalg.Settet av parameterverdier som ikke kan bli forkastet ved 5%

signifikansnivå.Du kan finne et 95% konfidenssett som settet av (1, 2) som

ikke kan bli forkastet på et 5% nivå ved å bruke F-test.

Konfidenssett for flere koeffisienter,forts.La F(1,0,2,0) være F-observator som tester hypotesen at 1 = 1,0 and 2 = 2,0:

95% konfidenssett = {1,0, 2,0: F(1,0, 2,0) < 3.00} 3.00 er den 5% kritiske verdien til F2,-fordelingen Dette settet har en dekningsrate på 95% fordi testen som det

er basert på har størrelse på 5%5% av tiden så forkaster testen feilaktig nullhypotesen når den er sann, slik at i 95% av tiden gjør den ikke; derfor er konfidenssettet konstruert som de ikke-forkastede verdiene inneholder de sanne verdiene 95% av tiden..

Konfidenssettet basert på F-observatoren er en ellipse

{1, 2: F = 1 2

1 2

2 21 2 , 1 2

2,

ˆ21ˆ2 1

t t

t t

t t t t

≤ 3.00}

Nå

F = 1 2

1 2

2 21 2 , 1 22

,

1ˆ2

ˆ2(1 ) t tt t

t t t t

1 2

1 2

2,

2 2

2 2,0 1 1,0 1 1,0 2 2,0,

2 1 1 2

1ˆ2(1 )

ˆ ˆ ˆ ˆˆ2

ˆ ˆ ˆ ˆ( ) ( ) ( ) ( )

t t

t tSE SE SE SE

dette er kvadratisk form av 1,0 og 2,0 – derfor er grensene til

settet F = 3.00 er ellipse.

Konfidenssettet basert på åinvertere F-testen

En generell tilnærming for å velgevariabler og “modellspesifikasjon”Spesifiser en “grunn-” eller “benchmark-”modell.

Spesifiser utvalget av plausible alternative modeller som

inkluderer ytterligere kandidatvariabler.

Endrer en kandidatvariabel koeffisienten vi er interessert i

(1)?

Er kandidatvariabelen statistisk signifikant?

Bruk vurdering, ikke noen mekanisk oppskrift …

Ikke bare prøv å maksimere R2!

Digresjon om modellevaluering…

Det er lett å falle i fellen å maksimere R2 og 2R – men da mister vi av synet det virkelige målet, en forventningsrett estimator av effekten av klassestørrelse.En høy R2 (eller 2R ) betyr forklaringsvariablene ”forklarer”

variasjonen i Y, men ikke atdu har fjernet forventningsskjevhet pga utelatte variabler.du har en forventningsrett estimator av en kausal effekt (1).de inkluderte variablene er statistisk signifikante – dette må

avgjøres med hypotesetest.

Mer California data…

Presentasjon av resultater fraregresjonsanalyse Vi lager ofte flere regresjonsmodeller som vi sammenligner

og da er det vanskelig å sammenligne dem når de blir skrevet som ligningsuttrykk, så i stedet rapporterer vi resultatene i en tabell.

En tabell med regresjonsresultater bør inkludere: De estimerte koeffisientene

Standardfeil

Modellevalueringsmål (R2, SER,..)

Antall observasjoner

Relevant F-statistikk, hvis noe

Enhver annen aktuell informasjon.

Finn denne informasjonen i følgende tabell:

Oppsummering: Regresjon medflere forklaringsvariabler Regresjoner med flere forklaringsvariabler tillater deg å

estimere effekten på Y av en endring i X1 når X2 (og X3, X4…)

holdes konstant.

Hvis du kan måle en variabel kan du unngå forventingsskjevhet

ved utelatt variabel ved å inkludere den.

Der er ingen enkel oppskrift for å bedømme hvilke variabler

som hører til i en regresjon – du må gjøre dine vurderinger.

En tilnærming til å spesifisere en grunnmodell – ved å basere

seg på a-priori argumenter – og deretter undersøke

sensitiviteten til nøkkelestimatene ved alternative

spesifikasjoner.

Kapittel 9Kapittel 9

Evaluering av regresjonsanalyser

2

Et rammeverk for å evaluerestatistiske studier: Intern og eksternvaliditet (SW seksjon 9.1)

Intern validitet: statistisk inferens om kausale effekter

er valid (gyldig) for populasjonen som blir studert.

Ekstern validitet: statistisk inferens kan generaliseres

fra populasjonen og rammen for studien til andre

populasjoner og rammer (hvor “rammen” refererer til

miljø, institusjoner, politisk og kulturelt bakteppe,

fysiske miljø og andre fremtredende kjennetegn).

3

Trusler mot ekstern validitet

1. Forskjeller mellom populasjoner Mus og mennesker

Studenter versus husholdninger

Populasjonsforskjeller mellom land

Kjønn

2. Forskjeller i rammer Laberatoriet og den ”virkelige verden”

Sosialdemokrati og diktatur

4

Trusler mot intern validitet (SW seksjon 9.2)

Fem trusler mot intern validitet i studier med

regresjonsanalyser:

1. Forventningsskjevhet ved utelatte variabler

2. Feil funksjonsform

3. Forventningsskjevhet pga målefeil (errors-in-variables

bias)

4. Utvalgsfeil (sample selection bias)

5. Simultanitet (simultaneous causality bias)

Alle disse innebærer at E(ui|X1i,…,Xki) 0 – som igjen betyr at

OLS estimatoren er forventningsskjev og inkonsistent.

5

1. Forventningsskjevhet vedutelatte variablerForventningsskjevhet ved utelatt variabel oppstår dersom

en utelatt variabel både:

(i) forklarer del av variasjonen i Y og

(ii) korrelert med minst en inkludert

forklaringsvariabel.

Vi diskuterte dette problemet først i en regresjon med en

enkel X, men forventningsskjevhet ved utelatt variabel vil

også oppstå når det er mange X’er hvis den utelatte

variabelen tilfredstiller betingelse (i) og (ii) over.

6

Mulige løsninger ved utelattevariabler1. Hvis utelatt variabel kan bli målt så inkluder den som

en ytterligere forklaringsvariabel i regresjonen;

2. I noen tilfeller kan paneldata brukes for å kontrollere

for effekten av den utelatte variabelen;

3. Hvis variabelen ikke kan bli målt bruk

instrumentvariabel regresjon;

4. Kjør et tilfeldig kontrollert eksperiment.

Hvorfor virker dette? Husk – hvis X blir tilfeldig

tildelt så vil X nødvendigvis bli fordelt uavhengig av

u; slik at E(u|X = x) = 0.

7

2. Feil funksjonsform

Oppstår dersom funskjonsformen ikke er korrekt – for eksempel

dersom et interaksjonsledd feilaktig blir utelatt så vil inferens om

kausale effekter være forventningsskjeve.

Mulig løsning for feilspesifikasjon av funksjonsform

1. Kontinuerlig avhengig variabel: bruk den “passende” ikke-

lineære spesifikasjonen av X (logaritmer, interaksjon, etc.)

2. Diskret (eksempel: binær) avhengig variabel: vi trenger en

utvidelse av metode for regresjonsanalyse (“probit” eller

“logit” analyse for binære avhengige variabler).

8

3. Målefeil

Så langt har vi antatt at X er målt presist.

I realiteten inneholder ofte økonomiske data målefeil

Registreringsfeil

Problemer med hukommelse i spørreundersøkelser (når startet

du med din nåværende job? Når kjøpte du sist en bok?)

Problem med tvetydige spørsmål (hva var din inntekt forrige

år?)

Tilsiktet feil svar på spørreundersøkerlser (Hva er

formuesverdien av dine eiendeler? Hvor ofte kjører du i beruset

tilstand?)

9

Generelt så fører målefeil tilforventningskjevhet

Mulige løsninger

1. Få tak på bedre data.

2. Utvikle en spesifikk modell for målefeilprosessen. Dette er

kun mulig hvis du vet mye om hvordan måelfeilen oppstår

3. Instrumentvariabelregresjon.

10

4. Utvalgsfeil

Så langt har vi forutsatt tilfeldige utvalg fra populasjonen. I noen

tilfeller blir tilfeldige utvalg “skjeve” fordi utvalget i praksis

“velger seg selv.”

Utvalgsfeil oppstår når utvalgsprosessen:

(i) påvirker tilgjengeligheten av data og

(ii) denne prosessen er relatert til den avhengige variabelen.

Eksempel: vi ønsker å måle effekten av univeristetsutdanning på inntekt og velger utvalg av universitetsutdannede i arbeid – utvalgsprossessen gjør at (i) det er kun universitetsutdannede med lønnet inntekt som blir trukket ut og dermed (ii) mister vi observasjoner for den avhengige variabelen inntekt der denne er lik null

11

5. Simultanitet

Så langt har vi antatt at X forårsaker Y.

Hva om også Y forårsker X?

Eksempel: Klassestørrelseeffekt

Lav STR resulterer i bedre test resultater

Men anta at distrikter med dårlige testresultater får bevilget

ekstra ressurser: som et resultat av den politiske prosessen så

får de også en lav STR

Hvordan påvirker dette regresjonen av TestScore på STR?

12

Simultane ligninger

(a) Kausal effekt på Y av X: Yi = 0 + 1Xi + ui

(b) Kausal effekt på X av Y: Xi = 0 + 1Yi + vi

Stor ui betyr stor Yi, som impliserer stor Xi (hvis 1>0)

Derfor corr(Xi,ui) 0

Derfor er 1 forventningsskjev og inkonsistent.

Eksempel: Et distrikt med særlig dårlige testresultater gitt

STR (negativ ui) mottar ekstra ressurser og derved reduserer

STR; så STRi og ui er korrelerte

13

Mulig løsning ved simultanitet

1. Tilfeldige kontrollerte eksperiment.

2. Utvikle og estimer en komplett modell med kausalitet i begge

retninger. Dette er f.eks. ideen bak mange store

makroøkonomimodeller til sentralbanker. Dette kan være

veldig vanskelig i praksis.

3. Bruk instrumentvariabelregresjon for å estimere den kausale

effekten (effekten av X på Y).

14

Intern og ekstern validitet når vi brukerregresjon til å lage prognoser(forecasting) (SW seksjon 9.3)Lage prognoser og estimere kausale sammenhenger er

ganske ulike målsettinger.

For prognoser,

2R er viktig (veldig!)

Utelatte variabler er ikke noe problem!

Fortolking av koeffisienter i prognosemodeller er ikke

viktig – det viktige er god føyning og en modell du kan

“stole” på at virker i din anvendelse

Ekstern validitet betyr alt: modellen blir estimert ved

bruk av historiske data og må holde stikk i (nær)

fremtid

Regresjon med paneldata

Kapittel 10

Introduksjon

• Paneldata er data med flere individer målt over flere tidsperioder

• Tillater oss å kontrollere for noen typer utelatte variabler, uten at vi behøver å ha data på disse– Variabler som varierer mellom individer men er

konstant over tid– Variabler som varierer over tid men ikke over

individer

• Ideen er at utelatte variabler som er konstante over tid kan ikke forklare endringer over tid

Introduksjon

• Individer i et paneldatasett kan for eksempel være– Land– Arbeidstakere– Kommuner– Bedrifter– Husholdninger– Konsumenter– Skoler– Fiskefartøy– Pasienter– Etc.

Introduksjon

• Skiller mellom balansert og ubalansert panel– Et balansert panel observasjoner for alle individene

i alle tidsperiodene– Et ubalansert panel vil mangle noen observasjoner

Notasjon for paneldata• Anta en avhengig variabel Y og k forklarings-

variabler X:

Yit, X1it, X2it,…,Xkit, der i = 1,…,n og t = 1,…,T

n – antall individerT – antall tidsperioder

Trafikkdødelighet og skattlegging av alkohol i USA

• Observasjoner: et år i en amerikansk stat• 48 amerikanske stater: n = 48• 7 år (1982,…, 1988): T = 7• Balansert panel: antall observasjoner = 7x48 =

336

Variabler• Trafikkdødelighet (antall døde i trafikken målt per

10,000 innbyggere i respektiv stat for et gitt år)• Skatt for en kasse øl• Andre (aldersgrense for sertifikat, lover knyttet

til kjøring i beruset tilstand, etc.)

Regresjon med kun 1982-data

Regresjon med kun 1988-data

Hva kan forklare dette?

• Hvilke andre faktorer kan forklare at i stater med høyere alkoholavgifter har høyere dødstall knyttet til trafikkulykker?

Andre faktorer som påvirker ulykkestall i trafikken:• Kvalitet (alder) på biler• Kvaliteten på veiene• “Kultur” knyttet til kjøring i beruset tilstand• Trafikktetthet på veiene

Utelatte variabler I

Eksempel 1: trafikktetthet. Anta:

i. Høy trafikktetthet betyr flere trafikkulykkerii. Stater på vestkysten som har lavere trafikktetthet har

også lavere alkoholavgifter

• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye alkoholavgifter”kan reflektere “høy trafikktetthet” (slik at OLS koeffisienten er forventningsskjev i positiv retning –høye avgifter (=høy trafikktetthet), flere dødsulykker)

• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat

Utelatte variabler II

Eksempel 2: Kulturelle holdninger til alkohol og kjøring:

i. påvirker trafikkdødelighetii. Er potensielt korrelert med alkoholavgifter, slik at

skattetrykket på alkohol kan plukke opp kulturforskjeller mellom stater

• Da er de to betingelsene for forventningsskjevhet pga. utelatt variabel oppfylt; “høye avgifter” kan reflektere “kulturelle holdninger til alkohol” (slik at OLS koeffisienten blir forventningsskjev)

• Paneldata lar oss eliminere forventningsskjevhet når den utelatte variabelen er konstant over tid for en gitt stat

Paneldata med 2 år

Betrakt paneldatamodellen

FatalityRateit = 0 + 1BeerTaxit + 2Zi + uit

• Zi er en faktor som ikke endrer seg over tid (trafikktetthet, kulturelle holdninger), i alle fall ikke i de årene vi har data fra

• Anta Zi ikke blir observert slik at utelatelse kan føre til forventningsskjevhet i estimeringen

• Effekten av Zi kan bli eliminert ved bruk av T = 2 år

Paneldata med 2 år

Enhver endring i trafikkdødelighet fra 1982 til 1988 kan ikke ha blitt forårsaket av Zi, fordi Zi (ved antakelse) endrer seg ikke mellom 1982 og 1988.

Betrakt trafikkdødelighet i 1988 og 1982:

FatalityRatei1988 = 0 + 1BeerTaxi1988 + 2Zi + ui1988

FatalityRatei1982 = 0 + 1BeerTaxi1982 + 2Zi + ui1982

Anta E(uit|BeerTaxit, Zi) = 0

Hvis man trekker 1988 ligningen fra 1982 ligningen (dvs. kalkulerer endringen mellom de to årene), så blir effekten av Zi eliminert

Paneldata med 2 år

FatalityRatei1988 – FatalityRatei1982 =1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982)

• Det nye feilleddet, (ui1988 – ui1982), er ukorrelert med både BeerTaxi1988 og BeerTaxi1982

• Denne “differanse”-ligningen kan bli estimert med OLS, selv om Zi ikke er observert

• Den utelatte variabelen Zi endres ikke, så den kan ikke forklare endringen i Y

Paneldata med 2 år

’Fixed effect’ modell (T > 2)

Hva gjør dersom vi har flere enn 2 perioder (T > 2)?

Yit = 0 + 1Xit + 2Zi + uit, i =1,…,n, t = 1,…,T

Vi kan omskrive denne regresjonen på to måter:1) Regresjonsmodell med n-1 dummyvariabler2) ‘Fixed Effects’ regresjonsmodellen

1) Dummyvariabelmodellen

Yit = 0 + 1Xit + 2D2i + … + nDni + uit

hvor D2i = 1 for individ 2 og = 0 for alle andre individer etc

• Først lag dummyvariablene D2i,…,Dni

• Deretter estimer (1) med OLS• Statistisk inferens (hypotesetester,

konfidensintervaller) er som vanlig• Denne metoden er upraktisk når n er veldig stor

(for eksempel hvis n = 1000 arbeidere)

2) “Fixed Effects” regresjonsmodellen

• ‘Fixed effects’ (individfaste effekter) regresjonsmodellen:

Yit = 1Xit + i + uit

• Vi kan beskrive gjennomsnittet for individene inneholdt i Y slik:

Yisnitt = 1Xi

snitt + i + uisnitt

• Avvik fra gjennomsnittet:Yit – Yit

snitt = 1Xit - Xitsnitt + uit – uit

snitt

• Den siste ligningen er den som estimeres

2) “Fixed Effects” regresjonsmodellen

Altså,

• Først, for hver variabel, trekk fra gjennomsnittet for de enkelte individene– For eksempel trekk fra gjennomnsnittlig årlig trafikkdødelighet i Arizona i

årene 1982-1988 fra faktisk trafikkdødelighet i Arizona i de gitt årene

• Estimer modellen med de transformerte variablene

• Inferens er som vanlig

• Dette er som ’endrings-’metoden når T=2 bortsett fra at nå ser vi på avvik fra et gjennomsnitt i stedet for endring over to perioder

Tidsfaste effekter

• En utelatt variabel kan tenkes å variere over tid men ikke over individer:

• Sikrere biler (airbag, etc.); endringer i nasjonale lover• Slike endringer fører til endringer i konstanten 0 over

tid• La disse endringene (“sikrere biler”) bli betegnet med

variabelen St, som endrer over tid men ikke over stater

• Dette resulterer i den følgende regresjonsmodellen:

Yit = 0 + 1Xit + 2Zi + 3St + uit

To formuleringer for å beregne tidsfaste effekter

1. “T-1 dummyvariabel” formuleringen:

Yit = 0 + 1Xit + 2B2t + … TBTt + uit

hvor B2t = 0 når t=2 og = 0 ellers osv.

2. “Tidseffekt” formuleringen:

Yit = 1Xit + t + uit

’Fixed effect” og tidseffekt i samme modell

Der er forskjellige metoder for å både tillate individeffekter og tidseffekter:

• Differense (endring) og konstant (bare når T = 2)

• Entity demeaning & T – 1 time indicators• Time demeaning & n – 1 Entity indicators• T – 1 time indicators & n – 1 entity indicators • Entity & time demeaning

Antakelser for fixed-effect modellen

Betrakt en enkelt X:

Yit = 1Xit + i + uit, i = 1,…,n, t = 1,…, T

• E(uit|Xi1,…,XiT,i) = 0.• (Xi1,…,XiT,Yi1,…,YiT), i =1,…,n, er i.i.d. trekninger fra

simultanfordeling• (Xit, Yit) har endelige fjerdemomenter• Der er ingen perfekt multikollinearitet (ved flere X’er)• corr(uit,uis|Xit,Xis,i) = 0 for t ≠ s.

• Antakelsene 3 og 4 er de samme som før• Antakelsene 1 og 2 er forskjellige• Antakelse 5 er ny

Fyllekjøring datasett

• n = 48 amerikanske stater, T = 7 år (1982,…,1988) (balansert)

Variabler• Drafikkdødelighetsraten (antall drepte per 10,000

innbygger)• Avgift på en kasse øl (Beertax)• Aldersgrense for alkohol• Minimumsstraffen for å kjøre med promille:

– Mandatory Jail– Manditory Community Service– Ellers så vil straffen kun være en mulkt

• Antall kjørte mil per sjåfør (US DOT)• Økonomiske data for statene (Realinntekt per

innbygger, etc.)

Hvordan kan paneldata hjelpe?

• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer mellom stater men er konstante over tid:– Drikkekultur– Kvalitet på veiene– Alderen på bilparken

bruk effekter som er faste for staten (fixed effect)

• Potensielt utelatt variabel forventningsskjevhet (bias) fra variabler som varierer over tid men er konstante mellom stater:– Forbedringer i bilsikkerhet– Endring i nasjonale holdninger til promillekjøring

Bruk tidsfaste effekter

Fordeler og begrensninger ved bruk av fixed effect modeller

Fordeler• Du kan kontrollere for variabler som:

– varierer mellom individer (stater) men ikke over tid, og/eller

– varierer over tid men ikke mellom individer (stater)

• Flere observasjoner gir deg mer informasjon• Estimering er ganske rett frem utvidelse av

multivariat OLS (men problematisk i Excel)

Begrensninger/utfordringer• Nødvendig med variasjon i X over tid for individene• Korrelasjon og kausalitet knyttet til tidssdimensjonen

kan by på problemer (dette skal vi snakke mer om i kap 14 og 15)

Oppsummering

‘Fixed effects’ regresjoner kan gjøres på tre måter:1. “Endrings”-metoden når T = 2 (mulig å gjøre i

Excel)2. “n-1 dummyvariabler” metoden når n er liten3. “Fixed effects”-regresjon (med transformerte

variabler)

• Disse metodene kan benyttes om man vil bare ha ‘fixed effects’ eller tidseffekter eller begge deler

• Statistisk inferens: som i multivariat regresjon

Regresjon med binær avhengig variabel

Kapittel 11

Introduksjon

• En binær variabel er en variabel som bare tar to verdier, vanligvis 0 eller 1

• Modeller med binær avhengig variabel, ogsåkjent som diskret valg modeller, benyttes når vi kan observere adferd– Kjøper eller kjøper ikke noe– Får lån eller får ikke lån– Vil bevare en foss eller ikke– Er for vindmøller eller ikke

3

The Linear Probability Model(SW Section 11.1)

La oss begynne med en regresjon med en forklaringsvariabel

(regressor):

Yi = 0 + 1Xi + ui

Men:

Hva er 1 når Y er binær? Er 1 = Y

X

?

Hva betyr linjen 0 + 1X når Y er binær?

Hva betyr den predikerte verdien Y når Y er binær? For

eksempel, hva betyr det at Y = 0.26?

4

The linear probability model, ctd.

Yi = 0 + 1Xi + ui

OLS antagelse #1: E(ui|Xi) = 0, so

E(Yi|Xi) = E(0 + 1Xi + ui|Xi) = 0 + 1Xi

Når Y er binær,

E(Y) = 1Pr(Y=1) + 0Pr(Y=0) = Pr(Y=1)

Slik at

E(Y|X) = Pr(Y=1|X)

5

The linear probability model, ctd.Når Y er binær kalles den lineære regresjonsmodellen

Yi = 0 + 1Xi + ui

Den linear probability model (den lineære

sannsynlighetsmodellen)

Den predikerte verdien fra modellen er en sannsynlighet:

E(Y|X=x) = Pr(Y=1|X=x) = prob. at Y = 1 gitt x

Y = den predikerte sannsynligheten for at Yi = 1, gitt

X

1 = endringen i sannsynligheten for at Y = 1 for gitt x:

1 = Pr( 1 | ) Pr( 1 | )Y X x x Y X x

x

6

Example: linear probability model, HMDA data

Mortgage denial v. ratio of debt payments to income

(P/I ratio) in the HMDA data set (subset)

7

Linear probability model: HMDA data, ctd.

�deny = -.080 + .604P/I ratio (n = 2380) (.032) (.098)

Hva er den predikerte verdien for at P/I ratio = .3?�Pr( 1 | / .3)deny P Iratio = -.080 + .604.3 = .151

Hva er effekten av at P/I ratio øker fra .3 to .4:�Pr( 1 | / .4)deny P Iratio = -.080 + .604.4 = .212Sannsynligheten for et avslag når P/I ratio øker fra .3 to .4 is øker med .061, eller med 6.1 prosent.

8

Linear probability model: HMDA data, ctd

Vi inkluderer så en dummy variable for om søkeren er farget:�deny = -.091 + .559P/I ratio + .177black

(.032) (.098) (.025)

Predikert sannsynlighet for avslag: For fargede søkere med P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1771 = .254

For hvite søkere med, P/I ratio = .3:�Pr( 1)deny = -.091 + .559.3 + .1770 = .077

Forskjellen = .177 = 17.7 prosent Parameteret for black er significant på et 5% nivå Men det er stor sannsynlighet for skjevheter i estimatet på

grunn av utelatt variable…

9

The linear probability model: Oppsummering

Modellerer Pr(Y=1|X) som en lineær funksjon av X Fordeler:

Lett å estimere og å tolke Statistisk inferens er den samme som for en vanlig

regresjon Men R2 er bare tull

Ulemper: Kan en sannsynlighet være lineær i X? I modellen kan predikerte sannsynligheter bli <0 eller

>1! Disse ulempene kan unngåes ved ikke-linære

sannsynlighetsmodeller: probit eller logit modeller

10

Probit and Logit Regression(SW Section 11.2)

Et hovedproblem med den lineære sannsynlighetsmodellen

er at sannynligheten er lineære, slik at den kan predikeres til

å bli store enn 1 eller mindre enn 0.

Pr(Y = 1|X) = 0 + 1X

Man ønsker at:

0 ≤ Pr(Y = 1|X) ≤ 1 for alle X

Pr(Y = 1|X) skal være økende i X (for 1>0)

Dette fordrer at vi benytter en ikke-linære funksjon. Et

alternative er en “S-kurve”…

11

Probit og logit modeler har at

0 ≤ Pr(Y = 1|X) ≤ 1 for alle X

Pr(Y = 1|X) er økende i X (for 1>0)

12

En Probit model spesifiserer sannsynligheten for Y=1 using

ved hjelp av en kummulativ standard normal fordeling

evaluert for z = 0 + 1X:

Pr(Y = 1|X) = (0 + 1X)

er den kummulative normalfordelingen.

z = 0 + 1X er “z-verdien” for probit modellen for

forskjellige X.

Eksempel: Anta 0 = -2, 1= 3, X = .4, slik at

Pr(Y = 1|X=.4) = (-2 + 3.4) = (-0.8)

Pr(Y = 1|X=.4) = området under standard normal fordelingen

til venstre for = -.8, som er…

13

Pr(Z ≤ -0.8) = .2119

14

Probit regression, ctd.

Hvorfor benytte den kummulative normalfordelingen?

“S-kurven” gir en funksjon hvor:

0 ≤ Pr(Y = 1|X) ≤ 1 for all X

Pr(Y = 1|X) er økende i X (for 1>0)

Lett å bruke – sannsynligheten finne let fra tabellen for

normalfordelingen

Relativt grei tolkning:

z-verdi = 0 + 1X

0 + 1 X er den predikerte z-verdien, gitt X

1 er endringen i z-verdien for en enhets endring i X

15

STATA Example: HMDA data . probit deny p_irat, r;

Iteration 0: log likelihood = -872.0853 We’ll discuss this laterIteration 1: log likelihood = -835.6633Iteration 2: log likelihood = -831.80534Iteration 3: log likelihood = -831.79234

Probit estimates Number of obs = 2380 Wald chi2(1) = 40.68 Prob > chi2 = 0.0000Log likelihood = -831.79234 Pseudo R2 = 0.0462

------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901 _cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082------------------------------------------------------------------------------

�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)

(.16) (.47)

16

STATA Example: HMDA data, ctd.�Pr( 1| / )deny P Iratio = (-2.19 + 2.97 P/I ratio)

(.16) (.47)

Positive coefficient: does this make sense?

Standard errors have the usual interpretation

Predicted probabilities:

�Pr( 1| / .3)deny P Iratio = (-2.19+2.97 .3)

= (-1.30) = .097

Effect of change in P/I ratio from .3 to .4:

�Pr( 1| / .4)deny P Iratio = (-2.19+2.97 .4) = .159

Predicted probability of denial rises from .097 to .159

17

Probit modell med flere forklaringsvariabler

Pr(Y = 1|X1, X2) = (0 + 1X1 + 2X2)

er den kummulative normalfordelingen.

z = 0 + 1X1 + 2X2 er “z-verdien”.

1 er effekten av en enhets endring i X1, gitt at X2 holdes

konstant

18

STATA Example: HMDA data . probit deny p_irat black, r;

Iteration 0: log likelihood = -872.0853Iteration 1: log likelihood = -800.88504Iteration 2: log likelihood = -797.1478Iteration 3: log likelihood = -797.13604


------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------

19

STATA Example, ctd.: predicted probit probabilities

. probit deny p_irat black, r;


------------------------------------------------------------------------------ | Robust deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181 black | .7081579 .0831877 8.51 0.000 .545113 .8712028 _cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463------------------------------------------------------------------------------

. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;

. display "Pred prob, p_irat=.3, white: " normprob(z1);

Pred prob, p_irat=.3, white: .07546603

NOTE_b[_cons] is the estimated intercept (-2.258738)_b[p_irat] is the coefficient on p_irat (2.741637)sca creates a new scalar which is the result of a calculationdisplay prints the indicated information to the screen

20

STATA Example, ctd.

�Pr( 1| / , )deny P I black= (-2.26 + 2.74 P/I ratio + .71 black)

(.16) (.44) (.08) Is the coefficient on black statistically significant? Estimated effect of race for P/I ratio = .3:�Pr( 1|.3,1)deny = (-2.26+2.74 .3+.71 1) = .233

�Pr( 1|.3,0)deny = (-2.26+2.74 .3+.71 0) = .075

Difference in rejection probabilities = .158 (15.8 percentage points)

Still plenty of room still for omitted variable bias…

21

Logit modell

Logit model benytter en logistisk fordeling heller en

normalfordelingen

Var en fordel at den var lettere å regne med en

normalfordelingen før PC-ene ble kraftig nok

Ellers så godt som identisk i forhold til modell og tolkning

22

The HMDA Data Set

Data on individual characteristics, property

characteristics, and loan denial/acceptance

The mortgage application process circa 1990-1991:

Go to a bank or mortgage company

Fill out an application (personal+financial info)

Meet with the loan officer

Then the loan officer decides – by law, in a race-blind

way. Presumably, the bank wants to make profitable

loans, and the loan officer doesn’t want to originate

defaults.

23

The loan officer’s decision

Loan officer uses key financial variables:

P/I ratio

housing expense-to-income ratio

loan-to-value ratio

personal credit history

The decision rule is nonlinear:

loan-to-value ratio > 80%

loan-to-value ratio > 95% (what happens in default?)

credit score

24

Modell spesifikasjon

Pr(deny=1|black, other X’s) = … linear probability model probit

Main problem with the regressions so far: potential omitted variable bias. All these (i) enter the loan officer decision function, all (ii) are or could be correlated with race:

wealth, type of employment credit history family status

25

26

Table 11.2, ctd.

27

Table 11.2, ctd.

Regresjon med instrumentvariabler

Kapittel 12

Introduksjon

• Instrumentvariabelregresjon (IV) er en teknikk for åfå en konsistent estimator av populasjonsregresjons-funksjonen når forklaringsvariabelen X er korrelert med feilleddet u, dvs når E(u|X) ≠ 0

Gjelder brudd på intern validitet i tre tilfeller:1. Forventningsskjevhet ved (uobserverte) utelatte

variabler2. Forventningsskjevhet ved simultan kausalitet

(simultanitetsproblemet);3. Målefeil i variablene

• Betegnes mer generelt som problem med endogeneforklaringsvariabler

Instrumentvariabler

Yi = 0 + 1Xi + ui

IV-regresjon deler X i to: 1. en del som er korrelert med u2. en del som ikke er det

– Ved å isolere den delen som ikke er korrelert med uer det mulig å estimere 1.

• Dette gjøres med en instrumentvariabel Zi som er ukorrelert med ui.

• Instrumentvariabelen finner bevegelser i Xi som ikke er korrelert med ui, og bruker disse til å estimere 1.

Endogenitet og eksogenitet

• En endogen variabel er korrelert med u

• En eksogen variabel er ikke korrelert med u

• I denne sammenheng er det snakk om høyresidevariablene (forklaringsvariablene)

• I likhet med problemet med utelatte variabler medfører endogene variabler at OLS estimatoren blir forventningsskjev og ikke-konsistent:

• Problemet skyldes kausalitet som går to veier og hvor begge effektene blir plukket opp i den estimerte 1.

pu

1 1 XuX

ˆ +

Gyldige instrumentvariabler Z

Yi = 0 + 1Xi + ui

• For at en instrumentvariabel (et “instrument”) Z skal være gyldig må den oppfylle to betingelser:

1. Instrument relevans: corr(Zi,Xi) ≠ 0– Z forklarer noe av X

2. Instrument eksogenitet: corr(Zi,ui) = 0– Z er ikke korrelert med u; forklarer kun Y gjennom X

Tilbud og etterspørsel: Simultan bestemmelse av pris og kvantum

• IV regresjon ble opprinnelig utviklet for å estimere etterspørselselastisiteter for jordbruksprodukter, for eksempel for smør:

lnQi = 0 + 1lnPi + ui

• 1 = priselastisitet til smør = % endring i etterspurt kvantum Q for en 1% endring i prisen P

• Data: observasjoner på priser og kvantum for ulike år

• OLS-regresjonen lnQ på lnP har forventningsskjevhet pga simultan kausalitet




Inferens med TSLS-estimator

• 1TSLS er normalfordelt

• Statistisk inferens er lik som ved ‘vanlige’ regresjoner

• Normalfordelingsantakelsene baserer seg på store utvalg (som vanlig)

• Dette bygger på antakelsen om gyldige instrumenter

• Viktig om standardfeil:– OLS standardfeilene fra den 2. stegs-regresjonen er feil – de tar

ikke høyde for estimeringen i 1. steg.

– I stedet må man bruke programvare (annet enn Excel) som har ferdige programmerte rutiner for å beregne korrekt standardfeil for TSLS estimatoren. I praksis oversees vdenne feilen i enkle statistikkpakker som Excel

Den generelle IV-regresjonsmodellen

Yi = 0 + 1X1i + … + kXki + k+1W1i + … + k+rWri + ui

• Yi er den avhengige variabelen

• X1i,…, Xki er endogene forklaringsvariablene (potensielt korrelert med ui)

• W1i,…,Wri er de inkluderte eksogene forklaringsvariablene (ukorrelert med ui)

• 0, 1,…, k+r er de ukjente regresjonskoeffisientene

• Z1i,…,Zmi er instrumentvariablene (de ekskluderte eksogene variablene)

• Koeffisientene er overidentifiserte hvis m > k; eksakt identifisert hvis m = k; og underidentifisert hvis m < k.

Fremgangsmåte for estimering av generell TSLS modell


• m instrumenter: Z1i,…, Zm

• 1. stegsregresjoner– Kjør regresjon av Xi på alle de eksogen

forklaringsvariablene: W1,…,Wr, Z1,…, Zm med OLS– Beregn predikerte verdier, i = 1,…,n

• 2. stegsregresjon– Kjør regresjon av Y på de predikerte X1,…,Xk og de

ekspogene variablene W1,…,Wr med OLS– Koeffisientene fra 2. stegs-regresjonen er TSLS

estimatorene

Antakelse for IV-regresjonsmodellen


1. E(ui|W1i,…,Wri) = 0– De eksogene forklaringsvariablene er eksogene

2. (Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi) er i.i.d.

3. X’ene, W’ene, Z’ene og Y har endelige 4. momenter

4. Instrumentene (Z1i,…,Zmi) er gyldige.

• Med antakelsene 1-4 er TSLS og dens t-observator normalfordelt

Undersøke instrumenter

• Kanskje det viktigste spørsmålet knyttet til instrumentvariabelregresjon er om instrumentene våre er gyldige

Husk:1. Relevans

– Minst en av instrumentene Z må inngå i populasjonsregresjonen til X i 1. stegsregresjonen; corr(Zi,Xi) ≠ 0

2. Eksogenitet– Alle instrumentene må være ukorrelerte med feilleddet

u; corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

Instrument relevans: svake instrumenter

Vi ser på tilfellet med en endogen forklaringsvariabel:Yi = 0 + 1Xi + 2W1i + … + +rWri + ui

1. stegsregresjon:Xi = 0 + 1Z1i +…+ mZmi + m+1W1i +…+ m+kWki + ui

• Instrumentene er relevante dersom minst en avkoeffisientene 1,…,m er ulik null.

• Instrumentene er svake dersom 1,…,m enten er null ellernærme null.

• Svake instrumenter forklarer veldig lite av variansen i X utover den som blir forklart av W’ene


• Med svake instrumenter går nevneren i 1TSLS mot null

– Nevneren er målet på corr(Zi,Xi); sZX

• I det tilfelle er TSLS estimatoren og tilhørende t-observator selv i store utvalg ikke normalfordelt


Test for svake instrumenter

1. Kjør 1.stegsregresjonen med X på Z1,..,Zm,W1,…,Wk

2. Lag en F-test der nullhypotesen er at Z1,..,Zm alle er lik null

3. Dersom F-observatoren er lavere enn 10 er settet avinstrumentvariabler svake

• Det finnes mer sofistikerte tester for svake instrumenter, men det går utover pensum for dette kurset

Eksogene instrumenter

• Instrument eksogeneitet: Alle instrumentene er ukorrelerte med feilleddet: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

• Dersom instrumentene er korrelert med feilleddet sågreier ikke 1. stegsregresjon av TSLS å isolere den komponenten av X som er ukorrelert med feilleddet, og 2.stegs TSLS-estimator blir dermed ikke konsistent.

• Hvis der er flere instrumenter enn endogene forklaringsvariabler er det mulig å teste for instrument eksogenitet.

Eksogene instrumenter

Test for eksogene instrumenter

• Intuisjon: Dersom du har to potensielle instrumenter Z1 og Z2 som benyttes til å beregne to forskjellige TSLS estimatorer, 1

TSLS1 og 1TSLS2, vil det være rart

om disse to estimatorene er veldig forskjellige

• Enten er den ene eller den andre instrumentvariabelen ugyldig

• J-test for overidentifiserende restriksjoner gjør nettopp en slik avveining

Sigarettetterspørsel estimert med TSLS

Oppsummering IV-estimering

• IV-estimering benyttes når man har variabler med endogene forklaringsvariabler som fører til forventingsskjevhet– Utelatte variabler– Målefeil– Utvalgsproblemer (ikke representativt utvalg)– Simultan kausalitet

• Den største trusselen mot intern validitet i IV-estimering er instrument som ikke er gyldige1. Svake instrument (lav relevans)2. Endogene instrument (corr(Z, u)≠0)

Begrepsapparat for instrumentvariabler

• Endogene variabler• Eksogene variabler• Gyldige instrument

– Relevans– Eksogenitet

• Tostegs minste kvadraters metode (2SLS/3SLS)– Første- og andrestegsregresjon– Redusert form– Førstestegs F-test

• Identifikasjon– Eksakt identifisert– Overidentifisert– Underidentifisert

• Svake instrument• J-test

Repetisjon av statistikk og sannsynlighetsregning

Kapittel 1-2-3

I statistikk skiller vi mellom

• Beskrivende statistikk (eller deskriptiv statistikk):– I denne grenen av statistikk beskriver vi et statistisk

tallmateriale vha. ulike måltall som gjennomsnitt, median, varians, kovarians, korrelasjon, osv. Man gjør ikke noen antagelser om statistiske sannsynlighetsfordelinger som ligger bak de observerte tallene, eller prøver å si noe om populasjonen på grunnlaget av utvalget av data, eller predikere fremtidige verdier av en tallstørrelse på grunnlag av historiske tall.

• Statistisk inferens (eller statistisk analyse): – I denne grenen av statistikk prøver man å si noe om

populasjonen ut fra data på et utvalg (f.eks. om populasjonen av privatbilister ut fra et utvalg av bilister som har kjøpt drivstoff på Statoil-stasjoner), eller man prøver å si noe om fremtidige verdier av en tallstørrelse basert på historiske data (f.eks. om fremtidige oljepriser basert på historiske oljepriser). Man må da pålegge noen forutsetninger om sannsynlighetsfordelingen til den stokastiske variabelen, f.eks.at den er normalfordelt.

Viktige begreper som anvendes til statistisk inferens

• Populasjon, tilfeldige (stokastiske) variabler, ogfordeling

• Momenter til en fordeling (gjennomsnitt, varians, standardavvik, kovarians, korrelasjon)

• Betingede fordelinger og betingede gjennomsnitt(forventningsverdier)

• Fordeling til et datautvalg trukket tilfeldig fra en populasjon: Y1,…, Yn

Hva er økonometri?

• Når man kombinerer statistisk inferens med økonomisk teori kaller man det gjerne for økonometri

• I praksis vil økonometri som regel bety at man anvender regresjonsanalyse for å analysere relasjoner mellom økonomiske variabler

Typer data

• Tverrsnittsdata (cross-sectional data)– Data (observasjoner) for mange individer observert

over en periode

• Tidsseriedata (time series data)– Data (observasjoner) for ett individ observert over

mange perioder

• Panel data (longitudinal data)– Data (observasjoner) for mange individer observert

over mange perioder

Tilfeldige (stokastiske) variabler og sannsynlighetsfordelinger

Grunnleggende begreper fra statistikk:

• Utfall • Sannsynlighet (for utfall)• Utfallsrommet (alle mulige utfall)• Hendelse (et utvalg av utfall)• Tilfeldig variabler• Diskrete tilfeldige variabler• Kontinuerlige tilfeldige variabler

Populasjon og tilfeldig variabel

Populasjon• Gruppen eller samlingen bestående av alle mulige

enheter vi er interessert i (studenter, oljebedrifter)

• Vi vil betrakte populasjoner som uendelig store (∞ eren tilnærming til “veldig stor”)

Tilfeldig variabel Y• Numerisk oppsummering av en tilfeldig et tilfeldig

utfall (gjennomsnittlig høyde, gjennomsnittligoljeutvinning)

Sannsynlighetsfordelingen til populasjonen Y

• Sier noe om hvor sannsynlig det er et Y tar ulike verdier – eks. P[Y=1.70] som høyde for studenter

• Sannsynlighetsfordelingen blir definert ved en rekke momenter– Gjennomsnitt– Varians– Standardavvik– Kovarians– Korrelasjon– Skjevhet– Kurtosis


Gjennomsnitt = forventningsverdi til Y= E(Y) = Y

= gjennomsnittlig verdi på Y vedgjentatte realiseringer av Y

Varians = E(Y – Y)2

= Y2

= mål på den kvadrerte spredningen tilsannsynlighetsfordelingen

Standardavvik = (Y2)1/2 = Y


• Skjevhet =

= mål på assymetri i fordelingen• skjevhet = 0: fordelingen er symmetrisk• skjevhet > (<) 0: fordelingen har en lang høyre-

(venstre-) hale

• Kurtosis =

= mål på masse i halene= mål på sannynlighet for store verdier

• kurtosis = 3: normalfordeling• kurtosis > 3: store haler (“leptokurtotisk”)

3

3

Y

Y

E Y

4

4

Y

Y

E Y

Kovarians

• To tilfeldige variabler X og Z har en simultanfordeling(joint distribution)

• Kovariansen mellom X og Z ercov(X,Z) = E[(X – X)(Z – Z)] = XZ

• Kovariansen måler graden av lineær avhengighetmellom X og Y

• cov(X,Z) > 0 betyr en positiv relasjon mellom X og Z

• Hvis X og Z er uavhengig fordelt, så er cov(X,Z) = 0

• Kovarianse til en tilfeldig variabel med seg selv erdens varians:

• cov(X,X) = E[(X – X)(X – X)] = E[(X – X)2] = X2

Kovariansen mellom Test Score og STR (student-teacher-ratio) er negativ:

Korrelasjon

• corr(X,Z) = = rXZ

• –1 ≤ corr(X,Z) ≤ 1

• corr(X,Z) = 1 betyr perfekt positiv lineærsammenheng

• corr(X,Z) = –1 betyr perfekt positiv lineærsammenheng

• corr(X,Z) = 0 betyr ingen lineær sammenheng

cov( , )

var( ) var( )XZ

X Z

X Z

X Z

• Korrelasjons-koeffisientenmåler lineær sammenheng mellom to tilfeldige variabler

Betingede sannsynlighetsfordelinger (conditional distribution)

Betinget sannsynlighetsfordeling• Fordelingen til Y betinget på verdier til en annen

tilfeldig variabel, X• Eks: Inntektsfordeling for de som har høyere

utdanning (HU) = 3 år

Betingede forventninger og betingede momenter• Betinget forventing = gjennomsnitt til den betingede

fordelingen= E(Y|X = x)

• Betinget varians = varians til den betingede fordelingen

• Eks.: E(Inntekt|HU = 3) = gjennomsnittlig inntekt for de som har tre år med høyere utdanning

Betingede fordelinger (conditionaldistribution)

• Forskjellen i gjennomsnitt mellom to betingedefordelinger:

• = E(Inntekt|HU=3) – E(Inntekt|HU=0)

Andre eksempler på betingede gjennomsnitt:• Lønn til kvinner i arbeid (Y = timelønn, X = kjønn)• Dødelighetsraten til de som blir gitt en eksperimentell

behandling (Y = leve/dø; X = behandlet/ikkebehandlet)

• Hvis E(X|Z) = konstant, da er corr(X,Z) = 0 (men ikkenødvendigvis motsatt)

• Betinget gjennomsnitt er nært relartert tilgjennomsnittet av en gruppe (dvs. ‘vanlig’gjennomsnitt)

Sannsynlighetsfordeling til tilfeldige utvalg (random sampling)

Vi antar at vi har tilfeldige utvalg• Velger et indvidid (fylke, bedrift, elev) tilfeldig fra

populasjonen

Stokastikk og data• Før datautvelgelsen er verdien av Y tilfeldig fordi

individet vil bli trukket tilfeldig• Når individet har blitt trukket og verdien av Y er

kjent, så er Y bare et nummer – ikke stokastisk• Datasettet er (Y1, Y2,…, Yn), hvor Yi = verdien til

Y for det i’te individet (fylke, bedrift, elev) som erutvalgt

Tilfeldige utvalg: i.i.d. sannsynlighetsfordeling

• Siden individene #1 og #2 er tilfeldig utvalgt såinneholder Y1 ikke noe informasjon om Y2:

• Y1 og Y2 er uavhengig (independently) fordelt

• Y1 og Y2 kommer fra samme fordeling (samme populasjon), dvs. at Y1 og Y2 er identisk fordelt

• Det betyr at ved tilfeldige utvalg er Y1 og Y2 uavhengig og identisk fordelt (i.i.d)

• Skrevet på en mer generell måte kan vi si at {Yi}, i = 1,…, n, er i.i.d.

Dette tillater oss å bedrive statistisk inferens om fordelingen til en populasjon ved å bruke et utvalg av data fra den populasjonen

Sannsynlighetsfordelingen til et utvalg

• Når vi har et datautvalg og ønsker å si noe om hele populasjonen, så ønsker vi:

• En forventningsrett estimator av gjennomsnittet:E(Y) = Y

– Gjennomsnittet av utvalget som Y er trukket fra er lik populasjonsgjennomsnittet Y

• En konsistent estimator av gjennomsnittet:E(Y) Y når n blir stor

– Dette er store talls lov som sier at når antall observasjoner vokser går estimatet av gjennomsnittet mot populasjonsgjennomsnittet Y


Gjennomsnitt: E(Y ) = E(1

1 n

ii

Yn ) =

1

1( )

n

ii

E Yn =

1

1 n

Yin

= Y

Varians: var(Y ) = E[Y – E(Y )]2

= E[Y – Y]2

= E2

1

1 n

i Yi

Yn

= E2

1

1( )

n

i Yi

Yn


så var(Y ) = E2

1

1( )

n

i Yi

Yn

= 1 1

1 1( ) ( )

n n

i Y j Yi j

E Y Yn n

= 2

1 1

1( )( )

n n

i Y j Yi j

E Y Yn

= 2

1 1

1cov( , )

n n

i ji j

Y Yn

= 22

1

1 n

Yin

= 2Y

n

Sannsynlighetsfordelingen når antall observasjoner n er stor

• For små utvalg er det vanskelig å beregne fordelingen til et gjennomsnitt av Y

• For store utvalg er det enkelt!

• Når n øker blir fordelingen tettere rundt Y (store talls lov)

• Videre så konvergerer fordelingen til Y(snitt) - Ymot normalfordelingen (sentralgrenseteoremet)

Law of Large Numbers (store talls lov)

An estimator is consistent if the probability that its falls within an interval of the true population value tends to one as the sample size increases.

If (Y1,…,Yn) are i.i.d. and 2Y < , then Y is a consistent

estimator of Y, that is,

Pr[|Y – Y| < ] 1 as n

which can be written, Yp

Y

(“Yp

Y” means “Y converges in probability to Y”).

(the math: as n , var(Y ) = 2Y

n

0, which implies that

Pr[|Y – Y| < ] 1.)

Central Limit Theorem(sentralgrenseteoremet)

If (Y1,…,Yn) are i.i.d. and 0 < 2Y < , then when n is large

the distribution of Y is well approximated by a normal distribution.

Y is approximately distributed N(Y, 2Y

n

) (“normal

distribution with mean Y and variance 2Y /n”)

n (Y – Y)/Y is approximately distributed N(0,1) (standard normal)

That is, “standardized” Y = ( )

var( )

Y E Y

Y

=

/Y

Y

Y

n

is

approximately distributed as N(0,1) The larger is n, the better is the approximation.

( )

var( )

Y E Y

Y

Et standardisert gjennomsnitt av Y:

Hypotesetesting

• En hypotesetest (av gjennomsnittet) er utformetslik at vi kan ta en foreløpig beslutning basert påbevisene om en nullhypotese er sann, elleralternativt, om den alternative hypotesen ersann:

• H0: E(Y) = Y,0 vs. H1: E(Y) > Y,0 (1-sidig, >)

• H0: E(Y) = Y,0 vs. H1: E(Y) < Y,0 (1-sidig, <)

• H0: E(Y) = Y,0 vs. H1: E(Y) Y,0 (2-sidig)

Terminologi for hypotesetesting

• p-verdi = sannsynligheten for å trekke en observator (eks. Y(snitt)) som er minst like langtfra nullhypotesen som den verdien du estimertemed dataene, gitt at nullhypotesen er sann

• Signifikansnivået til en test er en forhåndsvalgtsannsynlighet av å feilaktige forkastenullhypotesen når den faktisk er sann.

• Beregning av p-verdien basert på :

p-value =

• Hvor er verdien av Y(snitt) som man faktiske observerer (ikke-tilfeldig)

0 ,0 ,0Pr [| | | |]actH Y YY Y

actY

Hypotesetesting med t-test

• I stedet for å bruke p-verdien kan vi bruke en t- testved hypotesetesting

Student t distribution• Dersom Yi, i = 1,…, n is i.i.d. N(Y), da er t-

observatoren fordelt som en Student t-fordeling med n – 1 frihetsgrader.

• Kritiske verdier tilhørende Student t-fordelingenfinnes I tabeller bak i alle statistikk/økonometri-bøker. Oppskriften:1. Beregn t-observatoren2. Beregn antall frihetsgrader, som er n – 13. Finn 5% kritisk verdi4. Dersom t-observatoren er større (i absoluttverdi) enn

den kritiske verdien forkaster vi nullhypotesen

To typer feil ved statistisk hypotesetesting

Type I feil• Nullhypotesen blir forkastet når den er sann

– Signifikansnivået sier hvor stor sannsynlighet det er for å begå type I feil

Type II feil• Nullhypotesen blir ikke forkastet når den faktisk er

usann

Størrelsen (size) til en test• Sannsynligheten for å begå type I feil

Teststyrke (power)• Sannsynligheten for at testen korrekt forkaster

nullhypotesen når den alternative er sann

Konfidensintervaller

• Et 95% konfidensintervall for Y er et intervallsom inneholder den sanne verdien av Y i 95% av gjentatte utvalg.

• Et 95% konfidensintervall kan alltid bli konstruertsom settet av verdier av Y som ikke blirforkastet av en hypotesetest med et 5% signifikansnivå.

• Beregning av 95% konfidensintervall:Y = {Y(snitt) 1.96SE(Y(snitt))

Oppsummering av det statistiske rammeverket

Vi har to grunnleggende forutsetning:1. Tilfeldige utvalg fra populasjon, som betyr at

{Yi, i =1,…,n} er i.i.d.2. 0 < E(Y4) <

Vi har gjennomgått (raskt) for store datautvalg (stor n):• Teori om estimering (sannsynlighetsfordelingen til

utvalget ) • Teori om hypotestesting (stor-n fordelingen til t-

observatoren og beregning av p-verdi)• Teori om konfidensintervaller• Er forutsetningene (1) og (2) rimelige i praksis? Ja

Tidsserieøkonometri

Kapittel 14

Hva er poenget …?

• Hva er poenget med tidsserie-modeller?

• Hvilke hovedgrupper av modeller har vi?

• Hva er hovedutfordringene ved estimering og testing?

• Hva mener vi med stasjonaritet og ikke-stasjonaritet?

Inflasjon i USA, 1960-2004 (KPI)

Arbeidsledighet i USA, 1960-2004

Tidsserievariabler – transformasjoner m.m.

• Tidslag (time lag)

• Førstedifferanse (first difference)

• Logaritme

• Indekser

• Vekstrater

Tidslag

• Dersom vi tidsforskyver en variabel, Yt, j antall perioder, kan vi omtale den som j’te lag av Yt og skrives som Yt-j

• Introduserer dynamikk i modeller– Kortsiktige og langsiktige effekter

• Dersom det er likt antall observasjoner for alle variabler vil introduksjon av j’te lag av en variabel redusere antall observasjoner med j– Dynamikk i modeller krever en del observasjoner

Hvorfor tidsetterslep?

Det økonomiske grunnlaget for tregheter

• Psykologiske grunner– Rigide preferanser (vaner)– Usikkerhet (midlertidige vs. varige endringer)

• Teknologiske grunner– Treg faktorsubstitusjon– Kapitaldannelse tar tid (likviditet)– Ufullkommen informasjon

• Institusjonelle årsaker– Kontraktmessige forpliktelser (f. eks. i riggmarkedet)– Lover og regler (f. eks. i arbeidsmarkedet)

• Dynamiske teorier– Statiske teorier kan dynamiseres, estimeres og testes

Eksempel: Konsumfunksjon

En person får en inntektsøkning på 20000 kroner per år . . .

• Gradvis opptrapping av forbruket– 8000 kr mer første året– 6000 kr i tillegg andre året– 4000 kr i tillegg i år 3

• Samlet årlig forbruksøkning– 18000 kroner– Eller 90 prosent av

inntektsøkningen

8000 kroner

6000 kroner

4000 kroner18000 kroner

Årlig forbruk

Tid

Førstedifferensen og logaritme

• Endring i Y fra periode t - 1 til t er Yt – Yt-1:

Yt = Yt – Yt-1

• Logaritme av en førstedifferanse kan tolkes som vekstrate

ln(Yt) = ln(Yt) – ln(Yt-1)

• Dvs ln(Yt) er tilnærmet lik (Yt – Yt-1)/Yt-1– Den logaritmiske approksimasjonen til vekstraten blir

mer unøyaktig dess større prosentvis endring i Yt

Førstedifferensen og logaritme

• Standardavviket vil ofte være proporsjonalt med nivået til en tidsserie– En logaritmisk transformasjon av Yt gir tilnærmet

konstant standardavvik

• Logaritmer er også nyttige for å transformere Cobb-Douglas funksjoner til lineære sammenhenger som kan estimeres med OLS

– Eksempel: Den aggregerte produktfunksjonen

Y = F(K,L) = AKL

ln(Y) = ln(A) + ln(K) + ln(L)

Autokorrelasjon

• Korrelasjon av en tidsserie med egne laggede verdier kalles autokorrelasjon eller seriekorrelasjon

• Den første autokorrelasjonen til Yt er corr(Yt,Yt–1)• Den første autokovariansen til Yt er cov(Yt,Yt–1)• Dvs

• Disse er populasjonskorrelasjonen som beskriversimultanfordelingen til (Yt, Yt–1)

1

1

11

)var()var(

),cov(),(

tt

tttt

YY

YYYYcorr

Autokorrelasjon

• Generalisering av autokorrelasjon til j’te lag til Yt

Eksempel

1. Kvartalsvis inflasjon i USA2. Førstedifferansen av kvartalsvis inflasjon

• Inflasjonsraten er sterkt autokorrelert (1 = .84)• Siste kvartals inflasjonsrate inneholder mye informasjon

om dette kvartals inflasjonsrate• Plottet er dominert av svingninger over flere år• Men der er fremdeles overraskende bevegelser

Eksempler på andre tidsserier

Eksempler på andre tidsserier

DL-, AR- og ADL-modeller

Laggede eksogene og endogene variabler

• ”Distributed lag”-modell (DL):

• Autoregressiv modell (AR)

• Autoregressiv ”distributed lag” modell (ADL):

tttt uyxy 1

tttttt uyxxxy 122110

ttttt uxxxy 22110

Restriksjoner på DL-modellen

Koeffisientene varierer systematisk over lag-strukturen

Tid

x

x

x

xx

x

x

i

0 1 2 3 4 5 6 7

x

Tid

x

x

x

x

x

x

x

i

0 1 2 3 4 5 6 7

x

Geometriske lag

Koeffisientene varierer systematisk over lag-strukturen

Tid

x

x

x

x

x x x

i

0 1 2 3 4 5 6 7

x

0

i

Tid

x

x

xx

x x x

i

0 1 2 3 4 5 6 7

x

0

i

Forenklende forutsetninger

Variabler uten trend og fravær av autokorrelasjon

• Stasjonære data

• Ingen simultanitet

• Ingen autokorrelasjon

0)|( xuE t

st

stxuuE st

,0

,)|(

2

)0(~ Ixt

-60

-40

-20

0

20

40

60

80

100

1982 1987 1992 1997 2002

OLS forutsetninger for tidsserieregresjon

1. E(ut| Y, X1,…,Xk) = 0 • hvor det kun inngår laggede verdier av de betingede

variablene Y, X1,…,Xk

2. a) De tilfeldige variablene Y, X1,…,Xk har stasjonære fordelinger og

b) (Yt, X1t,…,Xkt) og (Yt-j, X1t-j,…,Xkt-j) blir uavhengige ettersom j vokser

• weakly dependent – korrelasjon med laggede verdier avtar dess større tidsgapet blir

3. Y, X1,…,Xk har endelige fjerdemomenter• Ingen observasjoner med ekstreme verdier

4. Der er ikke noen perfekt multikollinearitet

Stasjonaritet

• er en viktig egenskap for en regresjon med tidsseriedata for å ha ekstern validitet

• Stasjonaritet sier at historien er relevant

• Vi antar stasjonære tidsserier inntil videre

Autoregressjonsmodeller (AR)

• Regresjoner av Y på laggede verdier av seg selv• Dersom p antall lag brukes omtaler vi

autoregresjonen som p’te ordens autoregresjon og skrives som AR(p)

• Førsteordens autoregresjon, AR(1):

Yt = 0 + 1Yt-1 + ut

• Her har ikke 0 og 1 en kausal fortolking• Denne modellen kan benyttes til å lage

prognoser• En test om 1 = 0 vs. 1 ≠ 0 er en test om Yt-1

kan benyttes til å lage prognoser av Yt

Prognoser og prognosefeil

• En prognose (forecast) for neste periode T+1 kan skrives som:

YT+1|T = 0 + 1YT

• Hvor 0 og 1 er estimert med historiske data fra periode 1 til T; ”in-sample” observasjoner

• ”Out-of-sample” prognosefeil er

Prognosefeil = YT+1 – YT+1|T

Mål på prognosefeil

• Root mean squared forecast error (RMSFE)

• RMSFE har to feilkilder:

1. Det ukjente stokastiske elementet ut

2. Feilanslag av 0 og 1

• Dersom den første feilkilden er mye større enn den andre er RMSFE tilnærmet lik var(ut)1/2

])ˆ[(RMSFE 2|11 TTT YYE

P’te ordens autoregresjon

• Kan også bruke flere laggede variabler i en autoregresjon:

Yt = 0 + 1Yt–1 + 2Yt–2 + … + pYt–p + ut

• Dette omtales som en AR(p) hvor AR(1) er et spesialtilfelle

• Kan bruke en F-test for å avgjøre om Yt-2,…, Yt-pbidrar til prognostikken av Yt

• Det finnes metoder for å beregne antall lag som bør inkluderes (F-test, BIC, AIC m.f.)

Distributed lag model (DL)

Laggede eksogene variabler

• Forhåndsbestemt k: ”finite distributed lag model”

• Uendelig k: ”infinite distributed lag model”:

k

ttktk

tktktttt

ux

uxxxxy

0

22110 ...

0ttktkt uxy

Distributed lag model (DL)

Virkninger på kort og lang sikt

• Effekter fordelt over tid:

• Langsiktig effekt av vedvarende endring:

it

iti

it

t

x

y

x

y

,

tktktttt uxxxxy ...22110

k

ii

k

i it

t

x

y

00

k

ii

k

i t

it

x

y

00

Ad-hoc estimering av DL-modellen

Eksempel på sekvensiell tilnærming

321

21

1

020.0022.0063.0108.032.8ˆ

055.0071.0109.027.8ˆ

064.0111.027.8ˆ

171.037.8ˆ

ttttt

tttt

ttt

tt

xxxxy

xxxy

xxy

xy

• I hvilken ende skal vi begynne estimeringen?

• Når og hvor skal vi stoppe?

Autoregressive distributed lag model (ADL)

• Ved å kombinere laggede verdier av avhengig variabel Y med verdier (samtidige og laggede) av andre variabler X1,…,Xn får vi en ADL(p,q) modell:

Yt = 0 + 1Yt–1 + … + pYt–p + 1Xt–1 + … + rXt–r + ut

• p viser til antall lag for Y og q for antall lag for X

• Det kan være fornuftig å inkludere X for å øke prediksjonskraften til modellen

• Utgangspunktet er en enkel DL-modell:

• Problemstillingen er å tallfeste p• OLS gir skjeve og inkonsistente estimat dersom den

valgte lag-lengden er mindre enn den korrekte• OLS gir konsistente estimater for for konstantleddet

med (p+d) laggede verdier for x• Justert R2 er en mulig teststørrelse (men ikke veldig

vanlig):

Testing for korrekt lag-lengde


p

ititit uxy

0

)1(1

1 22 Rpn

nR

• Vanligere er Akaike’s (1973) informasjonskriterium:

• . . . eller Scwartz-kriteriet (som tilsvarer BIC):

• Med utgangspunkt i en maksimal lag-lengde reduseres modellen trinnvis for å minimere verdien av disse kriteriene

• Disse teststørrelsene er innarbeidet i moderne økonometriprogrammer som PC-Give og Stata

Testing for korrekt lag-lengde


Tp

TpAIC

2)1(ln)(

ee'

)2(ln)()(

TTp

pAICpSC

Eksempel på bruk av BIC og AIC

0.2040.9181.0466

0.2040.9061.0165

0.2040.8950.9864

0.2030.8840.9573

0.1810.9000.9552

0.0561.0301.0671

0.0001.0761.0950

R2AICBIC# Lags

Eksempel på bruk av BIC og AIC

Et tydeligere bilde

0,80

0,90

1,00

1,10

1,20

0 1 2 3 4 5 6

0,00

0,05

0,10

0,15

0,20

0,25R2 (h.a.)BICAIC

Detection of structural break

Endogenising the time point of the structural break

Chow testMoving break point

0

10

20

30

40

50

60

1995 1999 2003

0

0,2

0,4

0,6

0,8

1

Test statistic p value (rhs)

Model qualityMoving break point

100

105

110

115

120

125

1995 1999 2003

0

0,2

0,4

0,6

0,8

1

Hansen J p value (rhs)

GMM estimation with shift parameters for error-correction term and four control variables (xit = [cit, vit, rit, oit])

Ikke-stasjonaritet: Trender

• Dersom enten den avhengige variabelen eller forklaringsvariablene er ikke-stasjonære fører det til at hypotesetesting, konfidensintervaller og prognoser blir uåplitelige

• En kilde til ikke-stasjonaritet er trender

• Trender er veldig vanlig i økonomiske tidsserievariabler, fordi mange økonomiske størrelser vokser over tid

To typer trender

• Vi skiller mellom deterministiske trender og stokastiske trender

• En deterministisk trend er en ikke-tilfeldig funksjon av tid– Vanligste form er en lineær trend– For eksempel 0.1t er en deterministisk trend der for hver

tidsperiode t vokser den avhengige variabelen Y med 0.1

• En stokastisk trend varierer tilfeldig over tid– I økonomi er det ofte mer tilforlatelig å tenke på trender

som stokastiske fordi vanligvis kjennetegner endring i økonomiske størrelser med en god porsjon uforutsigbarhet

Random walk

• er den enkleste modellen av en variabel som har en stokastisk trend

• En tidsserie sies å følge en random walk dersom endringen i Yt er i.i.d:

Yt = Yt-1 + ut

• Verdien i morgen avhenger av verdien i dag pluss et tilfeldig ”steg” ut (der ut er i.i.d)

• Beste prediksjon på Yt er Yt-1. Bygger på at forventningen til ut er null (E(ut|Yt-1, Yt-2,…)=0)

Random walk med drift

• Dersom vi setter på en konstantledd i den enkle random walk modellen får vi en random walkmed drift

Yt = 0 + Yt-1 + ut

• Hvor 0 er driftparameteren som skaper en trend

• I en slik modell er best prognose for i morgen dagens verdi pluss driften 0

En random walk er ikke-stasjonær

• I en random walk vokser variansen med antall tidsperioder, slik at fordelingen til Yt endres over tid

Var(Yt) = var(u1 + u2 +…+ ut) = tu2

• En kan tenke seg at en random walk er en AR(1) der 1 = 1. I så tilfelle vil vi si at tidsserien har en enhetsrot (unit root) som i praksis betyr en stokastisk trend og at serien er ikke-stasjonær.

• Dersom 1 < 1 er tidsserien stasjonær

Problemer med stokastiske trender

1. Autoregressive koeffisienter er forventningsskjeve mot null

2. t-observatoren er ikke normalfordelt

3. Spuriøse regresjoner• Er når to tidsserier som ikke har noen relasjon

fremtrer som relaterte i en tidsserieregresjon

• En vanlig måte å gjøre en serie med en stokastisk trend stasjonær, slik at vi kan bruke standard OLS, er å ta første differansen av serien, Yt

Oppsummering

• Hva er poenget med tidsserie-modeller?

• Hvilke hovedgrupper av modeller har vi?

• Hva er hovedutfordringene ved estimering og testing?

• Hva mener vi med stasjonaritet og ikke-stasjonaritet?

Eksamen økonometri MØA145Fredag 22. februar 2008, kl 0900-1300

Emneansvarlig: Sigbjørn Tveterås (telefon 33757 og 97535064)Tillatte hjelpemidler: Alle kalkulatorer

Oppgave 1 (10 poeng)Du har følgende 15 observasjoner for kjøttproduksjon (Y) i kilo og bruken av dyrefór (X) i kilo:Y 0,58 1,1 1,2 1,3 1,95 2,55 2,6 2,9 3,45 3,5 3,6 4,1 4,35 4,4 4,5X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

a) Bruk OLS til å estimere 1 og 2 i produksjonsfunksjonen tt10t uXββY hvor u er

feilleddet. For å forenkle utregningene kan du benytte120 tX , 12402 tX , 08,42 tY , 53,418 tt YX

b) Gi en økonomisk fortolkning av de estimerte parametrene.

Oppgave 2 (10 poeng)Du tror den økonomiske sammenhengen mellom Y og X er tt10t uXββY , og du estimerer

regresjonsmodellen tt10t uXββY ˆˆˆ .

a) Er 1 en tilfeldig variabel? Forklar.c) Er Yt en tilfeldig variabel? Forklar.

d) Er 0β en tilfeldig variabel? Forklar.

Oppgave 3 (20 poeng) a) Hva er utelatt variable forventningsskjevhet?b) Hvilke typer utelatte variabler kan ‘fixed effect’ paneldata modeller redegjøre for?c) Du ønsker å estimere modellen tiit1it uXβY , hvor i er en individfast effekt.

Kan du kort forklare to ekvivalente teknikker for å estimere denne ‘fixed effect’modellen når du benytter et panel med n individer og t tidsperioder, når t > 2.

Oppgave 4 (20 poeng)For å teste hypotesen om at en økning i energiprisen fører til en reduksjon i produksjonen gitt de eksisterende kapital- og arbeidskraftsressursene estimerte John A. Tatom den følgende produksjonsfunksjonen for USA ved bruk av kvartalsvise data for perioden 1948 til 1978:

ln(Y/K) = 1,55 + 0,71ln(L/K) – 0,11ln(Pe/P) + 0,0045t (16,33) (21,69) (-6,42) (15,86)

hvor Y er realproduksjon, k er et mål på bruken av kapital, L er arbeidskraft malt i timer, Pe er en produsentpris på energi, P er en produsentprisindeks på andre innsatsfaktorer, og t er tid. Tallene i parentesene er t verdier.

a) Støtter resultatene hypotesen til forskeren?b) Mellom 1972 og 1977 økte den relative prisen på energi, Pe/P, med 60 prosent. Fra den

estimerte regresjonsfunksjonen, hva er det korresponderende tapet i produksjon (Y/K)?c) Hvordan vil du fortolke den estimerte koeffisientverdien 0,71 til ln(L/K)?

d) Etter at man har kontrollert for endringer i (L/K) og (Pe/P), hva har vært den årlige prosentvise endringer vekstraten i produktiviteten i utvalgsperioden?

Oppgave 5 (20 poeng)a) Når kan det være nyttig med instrumentvariabelregresjon?b) Forklar de to betingelsene som må være oppfylt for å ha et gyldig instrument?c) Hvordan vil et svakt instrument påvirke TSLSβ1 estimatoren?d) Beskriv en testprosedyre for svake instrumenter.

Problem 6 (20 points)a) Forklar kort hva som menes med autokorrelerte feilledd u i en tidsserieregresjon?b) Hvorfor kan autokorrelerte feilledd være et problem?c) I en ‘random walk’ modell er ikke residualene svakt avhengige (weakly dependent).

Hva er ment med svakt avhengige residualer u?d) Svak avhengighet er en av to antakelser i tidsserieregresjon som erstatter den

tradisjonelle i.i.d. antakelsen i OLS estimering. Hva er denne andre antakelsen?Forklar.

Vedlegg 1

Noen av disse formlene kan kanskje være til hjelp.

Forkortelser:ESS = explained sum of squares SSR = sum of squared residuals TSS = total sum of squares

TSS

SSR

TSS

ESSR 12

1

kn

SSRSER

XY 10

n

ii

n

iii

XX

XXYY

1

2

11

)(

))((

)βSE(

ββt

1

1,01

ˆ

ˆ

)1/()1(

/)(2

22

restrictededunrestrict

restrictededunrestrict

knR

qRRF

MØA 145 Økonometri,Høst 2009

Foreleser: Professor Frank Asche (FA), D-429, [email protected]

Klaus Mohn (KM)

Kristoffer Eriksen (KE)

Forelesningstid: Mandag 08.15-10, AR G-202 (Bortsett fra når det er spesielt annonsert,

vil denne forelesningen begynne klokken 09.15)

Mandag 10.15-12.00 AR V-102. Etter at forelesningen er ferdig (10

eller 11) vil det etter behov være datalab

Onsdag 08.15-10, AR G-101

Planlagte forelseningsdager

24.08.09, 09.15 Kapittel 4 (FA) Ingen datalab

26.08.09, 08.15 Kapittel 5 (FA)

31.08.09, 09.15 Kapittel 6 (FA)

02.09.09, 08.15 Kapittel 7(FA)

07.09.09, 08.15 Merk tiden Kapittel 8 (KM) Ingen datalab

09.09.09, 08.15 Kapittel 9 (FA)

14.09.09, 09.15 Kapittel 10 (FA)

16.09.09, 08.15 Ingen forelesning

21.09.09, 09.15 Kapittel 11 (FA)

23.09.09, 08.15 Kapittel 12 (FA)

28.09.09, 08.15 Merk tiden Kapittel 14 (KM) Ingen datalab

30.09.09, 08.15 Kapittel 13 (KE)

05.10.09, 09.15 Kapittel 13 (KE)

07.10.09, 08.15 Kapittel 15 (FA)

12.10.09, 09.15 Kapittel 16 (FA)

14.10.09, 08.15 Oppsummering (FA)

Eventuelle endringer vil bli annonsert på It’s Learning. Hvis nødvendig vil det også bli flere

forelesninger.

Obligatorisk oppgave, MØA 145

Oppgaven skal leveres senest mandag 26.oktober klokken 12. Det kan gjøres skriftlig i min posthylle i administrasjonen på det teknisk naturvitenskapelige fakultet eller elektronisk ved å sende mail til [email protected]. Den innelverte oppgaven må inneholde både en tekst med oppgaveløsning og utskrift fra den programvaren hvor regresjonene ble kjørt (Excel eller annet økonometriprogram).

Datasettet Økonometritrålere.xls inneholder følgende informasjon om norske ferskfisktrålere:

År=fangstårID = Identifikasjonskode for fartøyFylke= F=Finmark, T=Troms, N=Norland, M=Møre og RomsdalBRT=fartøysstørrelseDøgn i sjøen= Antall døgn fartøyet var aktivtTorskekvantum=Antall kilo fanget av torskTorskeverdi=Verdi torskefangst i kronerSeikvantum=Antall kilo fanget av seiSeiverdi=Verdi seifangst i kronerAnnenkvantum=Antall kilo fanget av annen fiskAnnenverdi=Verdi fangst annenfisk i kroner

Totalverdien R kan finnes som summen av fangsverdien for de forskjellige artene. Pris kan finnes som verdi delt på kvantum.

Et innsatsmål, e, som skal benyttes her er døgn i sjøen multiplisert med fartøysstørrelse i brt.

I det følgende denoteres variablene med store bokstaver for nivå og små bokstaver for logaritmer.

La bokstaven t være torsk, s være sei og a annen fisk, og p være prisene

Estimer inntekstsfunksjonen

r=b0+b1tp+b2sp+b3ap+b4e

Tolk resultatene. Diskuter hver enkelt variabels og ligningens forklaringskraft.

Test hypotesene

1) b1=b2=b3=b4=0

2) b1=b2=b3=0

3) b1+b2+b3=1

Vi antar så at det er systematiske regionale forskjeller. Generer og benytt dummyene for fylke til å estimer modellen med slike effekter;


Anta så at det er ikke er systematiske regionale forskjeller, men at det er systematiske tidsforskjeller. Generer og benytt dummyene for år til å estimer modellen med slike effekter;

Test hypotesen om at det ikke er systematiske tidsforskjeller.

Vi antar så at det er både systematiske regionale forskjeller og systematiske tidsforskjeller. Benytt dummyene for fylke til å estimer modellen med slike effekter.

Tolk resultatene.

Test hypotesene om at det ikke er a) Systematiske regionale b) Systematiske tidsforskjeller forskjellerc) Systematiske regionale eller systematiske tidsforskjeller forskjeller

Test så hypotesene

A) b1=b2=b3=0

B) b1+b2+b3=1

Hvilken modell mener du er den beste?

OppgaveOppgavene bygger på data fra et eksperiment som undersøker investeringsbeslutninger og evalueringshyppighet. Deltakerne er 50 finansrådgivere fra sparebanken1 SR-bank. Instruksjoner for eksperimentet finner dere som dokumentet InstruksjonerFinAdv.doc. Her finner dere instruksjonene for kontrollgruppen (hyppig evaluering av lotteriutfall) og for treatment-gruppen (sjelden evaluering av lotteriutfall). I denne oppgaven skal dere estimere innsatsen i lotteriet. Bruk datasettet FinAdv.xls. Datafilen viser variabelen (bet), som gir gjennomsnitts innsats i lotteriet i hver bolk av tre perioder (periode 1-3, 4-6 og 7-9) målt i kroner for de to gruppene. I tillegg er der oppgitt

Dummy for deltakelse i treatment-gruppen (infrequent=1) Dummy for kjønn, (male=1) Alder (age). Bolk, angir hvilken treperiodebolk variabelen (bet) er fra. (bolk=1 for periode 1-3,

bolk=2 for periode 4-6 og bolk=3 for periode 7-9. Deltaker ID, (subject)

Anta at verdiene til (bet) er uavhengige. a) Lag en tabell med verdier for gjennomsnitt og standardavvik for (bet) og (age) i hhv.

treatment-gruppen og kontrollgruppen.b) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er

deltakelse i treatment-gruppen.c) Kjør en regresjon der avhengig variabel er (bet) og der forklaringsvariablene er

deltakelse i treatment-gruppen i første regresjon og deltaklese i treatment-gruppen,alder og kjønn i andre regresjon. Presenter resultatene fra modellene i oppgave b og c i en tabell.

d) Synes den estimerte betaen til (infrequent) å lide av forventningsskjevhet når man utelater alder og kjønn? Kommenter.

e) Dersom alder og kjønn hadde vært korrelert med innsats i lotteriet; ville betaen til (infrequent) i modell 1 vært forventningsrett dersom eksperimentet ikke var gjennomført korrekt og tildelingen av treatment ikke var tilfeldig? Kommenter.

f) Gjør en test for om treatment-variabelen er tilfeldig fordelt.

Oppgaver fra boken

Flere har spurt etter hva jeg mener er de beste oppgaveforslagene i boken. Under følger en liste for de kapitlene vi har gått igjennom. Jeg har per i dag ikke noen fasit på oppgavene, men forsøker å få tilgang til det fra forlaget.

Kappittel 4

4.1, 4.2, 4.3, 4.6, 4.9

Kapittel 5

5.2, 5.4, 5.5, 5.6, 5.7

Kapittel 6

6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.9

Kapittel 7

7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8 a, 7.8 c, 7.9, 7.10

Kapittel 8

8.2, 8.3, 8.4, 8.6, 8.7

Kapittel 9

9.1, 9.3, 9.5, 9.7, 9.8, 9.9

Documents

Møa 145