Indhold: Inferentiel statistik, bias og regression

Document fra University om Indhold. Pdf'en dækker inferentiel statistik, herunder bias, kausalitet, konfidensintervaller og hypotesetest. Materialet er organiseret i lektioner med fokus på regression og dens anvendelser, samt fejltyper I og II.

See more

57 Pages

Indhold
Forelæsning 1 .................................................................................................................... 2
Forelæsning 2 – eksperimenter og intern validitet ................................................................... 5
Forelæsning 3 | Ekstern validitet .......................................................................................... 6
Forelæsning 4 | Lineær regression ........................................................................................ 8
Forelæsning 5 | Multipel regression .................................................................................... 13
Forelæsning 6 | Statistisk inferens ....................................................................................... 17
Forelæsning 7 | Inferens for gennemsnit og forskelle mellem gennemsnit ................................. 20
UGE 8: STATISTISK INFERENS I REGRESSION .............................................................. 23
Uge 9: Regression med kategoriske afhængige variable ......................................................... 28
Uge 10: Non-lineariteter og post-treatment bias (herunder mediation) ...................................... 31
Forelæsning 11: Interaktion ............................................................................................... 37
Forelæsning 12: Difference-in-Differences .......................................................................... 40
Uge 13: Fixed effects........................................................................................................ 43
Forelæsning 1
Selektionsbias: I fravær af treatment ville vi da stadig have observeret en forskel ml. grupperne?
Udeladte variable og omvendt kausalitet: alt andet er ikke lige
Ceteris paribus
Tre forskellige variable
Y: afhængige variable (outcomes)
X: uafhængige variable generelt
D: Uafhængige variable med to kategorier (D=1 er treatment, D=0 er kontrol)
Kausaleffekt for én enhed
Potentielle udfald (Y)
Der er to potentielle udfald for enhed i:
Y
1i
er det potentielle udfald, hvis enhed i får treatment (D
i
=1)
Y
0i
er det potentielle udfald, hvis enhed i ikke får treatment (D
i
=0)
Den kausale effekt af treatment for enhed i
Den kausale effekt (τ
i
) for enhed i er defineret som forskellen mellem de potentielle udfald:
τ
i
= Y
1i
- Y
0i
Obser-vation
Potentielt
outcome
Potentielt
outcome
Effekt
n
Y
0i
Y
1i
i
1
2
6
4
Kausaleffekt for flere enheder
For multiple enheder, for n enheder
  
󰇛

󰇜



-



Unlock the full PDF for free

Sign up to get full access to the document and start transforming it with AI.

Preview

Indhold

Forelæsning 1. 2 Forelæsning 2 - eksperimenter og intern validitet 5 Forelæsning 3 | Ekstern validitet 6 Forelæsning 4 | Lineær regression 8 Forelæsning 5 | Multipel regression 13 Forelæsning 6 | Statistisk inferens 17 Forelæsning 7 | Inferens for gennemsnit og forskelle mellem gennemsnit. 20 UGE 8: STATISTISK INFERENS I REGRESSION 23 Uge 9: Regression med kategoriske afhængige variable 28 Uge 10: Non-lineariteter og post-treatment bias (herunder mediation) 31 Forelæsning 11: Interaktion 37 Forelæsning 12: Difference-in-Differences 40 Uge 13: Fixed effects 43

Forelæsning 1

Selektionsbias og Kausalitet

Selektionsbias: I fravær af treatment ville vi da stadig have observeret en forskel ml. grupperne? Udeladte variable og omvendt kausalitet: alt andet er ikke lige

  • Ceteris paribus

Variabletyper

Tre forskellige variable

  • Y: afhængige variable (outcomes)
  • X: uafhængige variable generelt
  • D: Uafhængige variable med to kategorier (D=1 er treatment, D=0 er kontrol)

Kausaleffekt for En Enhed

Kausaleffekt for én enhed Potentielle udfald (Y) Der er to potentielle udfald for enhed i:

  • Yli er det potentielle udfald, hvis enhed i får treatment (Di=1)
  • Yoi er det potentielle udfald, hvis enhed i ikke får treatment (Di =0)

Den kausale effekt af treatment for enhed i Den kausale effekt (ti) for enhed i er defineret som forskellen mellem de potentielle udfald: Ti = Yli - Yoi

Obser-vation Potentielt outcome Potentielt outcome Effekt n Yoi Yli Ti 1 2 6 4

Kausaleffekt for Flere Enheder

Kausaleffekt for flere enheder For multiple enheder, for n enheder Average Treatment Effect (ATE) = TATE =Vi interesserer os oftest for ATE Vi observerer enten Y1i eller Yoi > umuligt at observere begge! Med andre ord, vi kan kun realisere et af de potentielle outcomes for hver enhed

Spuriøs Sammenhæng og Selektionsbias

Spuriøs sammenhæng mellem X og Y på grund af tredjevariabel Størrelsen på branden (Z) Antallet af brandbiler (X) Brandskade (Y) Den bias som skabes af et eller flere Z'er kalder vi selektionsbias

Det Fundamentale Problem med Kausal Inferens

The fundamental problem of causal inference Y1i, Yoi= potentielle outcomes, hvoraf vi kun kan observere det ene Hvordan identificerer vi så treatmenteffekten? Sammenligne observerede outcomes (dvs. observerede værdier på den afhængige variabel) for grupper af observationer med variation i treatment/værdier på den uafhængige variabel Dette skaber dog bias hvis grupperne som sammenlignes har forskellige potentielle outcomes Hovedformålet med dette fag er at lære redskaber til at reducere denne bias. Vi kan dog aldrig vide med sikkerhed om vi er kommet helt i mål (og ofte er vi det formentlig ikke!). Ingen bias > Lidt bias > meget bias Vi kan give kvalificerede bud på hvor meget bias der er (og i hvilken retning) på baggrund af den måde data er indsamlet på samt den statistiske metode vi bruger. Selektionsbias: forskel i E(Y) mellem enheder i treatment- og kontrolgruppen i fravær af treatment ("pre-treatment"'). I eksemplet med brandbilerne og brandskaden er det forskellen i brandskade mellem enhederne med få og mange brandbiler som i udgangspunktet var forårsaget af størrelsen på branden.Kaldes selektionsbias, fordi bias forårsages af at forskellige typer af enheder selekterer (aka vælger) sig ind i værdierne på X

  • ikke altid et "valg" (er i princippet altid relevant for observationelle data)
  • forskellige typer = kan forklare systematisk højere/lavere Y

Fejlkilder ved Kausal Inferens

Fejlkilder ved kausal inferens for en population Størrelsen på branden (Z) Antallet af brandbiler (X) Brandskade (Y) Kausaleffekten: Det vi gerne vil estimere (vores kausale inferens er vores bud på denne effekt baseret på data og metode) Stokastiske (dvs. tilfældige) fejl: Vi er mindre bekymrede for disse og lærer statistisk inferens til at håndtere dem i uge 6-8 Selektion: Værdierne på X er ikke tilfældigt tildelt. I teorien ikke i sig selv et problem, men i praksis vil der næsten altid være selektionsbias hvis der er selektion (dvs. én eller flere Z'er påvirker både X og Y). Omvendt kausalitet: Skaber også selektionsbias!

Vurdering af Selektionsbias

Vurdering af selektionsbias: Teoretiser (gerne med reference til litteratur): Ville E[Y] være anderledes for treatment og kontrol, hvis ingen blev treated?

Z Z -/+ -/+ -/+ -/+ X + Y X Y + Positiv bias: Her overestimerer vi den sande positive effekt af X på Y Positiv bias: Her underestimerer vi den sande negative effekt af X på Y

Z Z -/+ +/- -/+ +/- X Y X . Y + Negativ bias: Her underestimerer vi den sande positive effekt af X på YNegativ bias: Her overestimerer vi den sande negative effekt af X på YUdover at teoretisere kan vi også undersøge om treatment og kontrol ligner hinanden på observerbare karakteristika

  • OBS: Treatment og kontrol skal blot have de samme gennemsnitlige potentielle udfald - der behøver ikke være identiske kopier i treatment og kontrol (heldigvis!)
  • Vi kan derfor undersøge om treatment og kontrol i gennemsnit er ens på observerbare karakteristika - balancetabeller.

Forelæsning 2 - eksperimenter og intern validitet

Validitetstyper

  • Intern validitet: Fravær af selektionsbias i stikprøven = høj intern validitet
  • Ekstern validitet: Kan vi bruge resultaterne fra stikprøven til at sige noget om den virkelige verden?
  • Målingsvaliditet: Vurdering af én variabel (ikke sammenhængen mellem variable). Vurdering af hvorvidt variablen måler det koncept vi gerne vil måle ude i virkeligheden. Målingsvaliditet påvirker således den eksterne validitet (inferens til virkeligheden) og ikke den interne validitet (selektionsbias i stikprøven)

Average Treatment Effect (ATE) og Selektionsbias

. Average Treatment Effect (ATE) == 21-1 Yıi -ET=1 Yoi

  • Men vi observerer enten Ynieller Yoi > umuligt at observere begge!
  • Selektionsbias = Avg(Yoi|D=1) - Avg(Yoi|D=0)
  • Forskellen på gruppernes observerede Y-gennemsnit (for n -> %) er = Den sande gennemsnitlige kausaleffekt + selektionsbias

Data Typer

  • Observationelle data er defineret ved at forskeren ikke har kontrol over hvordan treatment fordeles. Forskeren observerer virkeligheden udefra.
  • Eksperimentelle data er defineret ved at forskeren tildeler treatment. Treatment tildeles tilfældigt til enhederne i stikprøven.

Pre- og Post-treatment Variable

  • Pre-treatment variable: Variable der er bestemt før treatment, herunder o Tidsinvariante variable: fx biologisk køn, baggrund osv. - uanset måletidspunkt O Tidsvariante variable: fx holdninger, værdier osv. - målt pre-treatment
  • Post-treatment variable: Variable der er bestemt efter treatment Vi forventer ikke balance på post-treatment variable o O Ligesom vi heller ikke forventer balance på Y

Tilfældig Tildeling og Stikprøvestørrelse

  • Hvis treatment er tildelt tilfældigt, og N er stort, så vil grupperne have (næsten) identiske potentielle udfald. Hvis N er lille kan grupperne muligvis have forskellige potentielle udfald pga. tilfældige fejl (ikke pga. selektionsbias!).
  • Jo større N, desto mere identisk O Der er en nedre grænse o Men 100.000 er langt fra nødvendigt

Eksperimentelle Designs

  • Laboratorieeksperimenter: Treatment tildeles tilfældigt i laboratorie
  • Surveyeksperimenter: Treatment tildeles tilfældigt i survey
  • Felteksperimenter: Treatment tildeles tilfældigt udenfor survey/laboratorie
  • Naturlige/kvasi-eksperimenter: Observationelle data, men hvor det udnyttes at der er sket noget i den virkelige verden som gør at enhederne er treated på en måde som virker tilfældig ("as if random").

Forelæsning 3 | Ekstern validitet

Overensstemmelse i Ekstern Validitet

Ekstern validitet handler grundlæggende om ensartethed/overensstemmelse ("similarity") Mellem:

  1. Undersøgelsens variable og de fænomener, som vi forsøger at måle a. Dvs. bade treatments og outcomes
  2. Undersøgelsens enheder (stikprøven) og den population, vi gerne vil inferere til
  3. Undersøgelsens kontekst/setting og den kontekst/setting, vi gerne vil inferere til

Realisme i Eksperimenter

Mundæn realisme: Er hele situationen, som undersøgelsesdeltagerne er blevet sat i realistisk? Ligner situationen noget, som de ville komme ud for IRL? Eksperimentel realisme (lidt særegent for eksperimenter, men man kan forsøge at overføre logikken til andre studier): Virker treatment troværdigt? Får vi faktisk manipuleret det fænomen, som vi gerne vil manipulere? Vurderes ofte ud fra et såkaldt manipulationstjek. Ansku det egentlige treatment som en variabel T. Ansku det fænomen, som vi gerne vil manipulere som en variabel M. Hvis T har en effekt på M, tyder det på, at den eksperimentelle realisme er høj. Herefter vil en eventuel nuleffekt på outcome Y være mere troværdig.

Intern og Ekstern Validitet

Intern validitet: Gyldigheden af vores kausalslutning. Målet med dette fag er at bedrive kausal inferens med kvantitative metoder. Derfor: Intern validitet er (endnu) vigtigere end ekstern validitet. En ugyldig kausalslutning, der godt kan generaliseres, er ubrugelig. En gyldig kausalslutning med begrænset generaliseringspotentiale er ikke helt ubrugelig. Men vi kan som sagt bestræbe os på både at have høj intern og ekstern validitet. Der er ikke noget trade-off.

Lav intern validitet Høj intern validitet Lav ekstern validitet Useless Brugbart Høj ekstern validitet Useless Målet

Lav intern validitet Høj intern validitet Lav ekstern validitet Observationelt data med Eksperiment ubalancerede grupper Urepræsentativ stikprøve Urepræsentativ stikprøve Selfrapporterede spørgeskemamål til at indfange faktisk adfærd Selfrapporterede spørgeskemamål til at indfange faktisk adfærd Høj ekstern validitet Observationelt data med Eksperiment ubalancerede grupper Repræsentativ stikprøve Repræsentativ stikprøve Registerdata på adfærd Faktisk adfærd målt 'i felten'

Manipulationstjek

Subjektive manipulationstjek (SMC): Måler den opfattelse, som man forsøger at flytte med treatment. Kan ikke kategorisere individer som opmærksomme eller uopmærksomme (fordi det er subjektivt).

Fordel: Vi kan undersøge, om treatment gennemsnitligt er kraftigt nok til at manipulere det, vi gerne vil manipulere. Ulempe: Der er ikke noget faktuelt korrekt svar; vi kan ikke identificere om individuelle respondenter faktisk har læst breve.

Faktuelle manipulationstjek: Spørger til faktuelle forhold i treatment. Kan kategorisere individer som opmærksomme eller uopmærksomme til treatment.

Fordel: Vi kan identificere, om individuelle respondenter har læst brevet (er "attentive to treatment"). Ulempe: Vi kan ikke sige noget om, hvorvidt vi faktisk har flyttet de opfattelser, vi gerne vil flytte med treatment.

Manipulationstjek kan give os et lille praj om ekstern validitet, nemlig angående eksperimentel realisme: Virker treatment troværdigt? Får vi faktisk manipuleret det fænomen, som vi gerne vil manipulere? Men husk, at dette kun er en lille del af ekstern validitet, og manipulationstjek er ikke et redskab til at vurdere den eksterne validitet af et studie som helhed.

Standardafvigelse

Standardafvigelse:

Can’t find what you’re looking for?

Explore more topics in the Algor library or create your own materials with AI.