Metode II: Avancerede statistiske metoder og kausal inferens

Dokument fra Statskundskab Au om Metode II. Pdf'en dækker avancerede statistiske metoder, herunder kausal inferens, lineær og logistisk regression, samt differences-in-differences, nyttigt for universitetsstuderende.

See more

33 Pages

Gustav Langberg Statskundskab, AU Juni 2024
Metode II
Contents
1. Introduktion..........................................................................................................................2
2. Eksperimenter...................................................................................................................... 4
3. Grundprincipper for Statistisk Inferens............................................................................5
4. Univariat Statistisk Inferens: Gennemsnit........................................................................ 8
5. Sammenligning af Gennemsnit......................................................................................... 10
6. Simpel Lineær Regression................................................................................................. 11
7. Multipel Lineær Regression.............................................................................................. 13
8. Statistisk Inferens i Regression......................................................................................... 16
9. Nonlinearitet, Post-Treatment Bias og Mediation...........................................................19
10. Interaktion........................................................................................................................ 21
11. Grupperet data................................................................................................................. 23
12. Differences-in-differences................................................................................................ 25
13. Logistisk Regression.........................................................................................................27
14. Faktoranalyse og intern og ekstern validitet................................................................. 29
1
Gustav Langberg Statskundskab, AU Juni 2024
Metode II
1. Introduktion
Begreb
Definition
Hvorfor statistisk
behandling af
politologiske
spørgsmål?
Håndtering og kvantificering af statistisk usikkerhed forbundet
med empirisk forskning.
Redskab til at inferere fra stikprøve (data) til population
Redskab i estimering af kausale effekter.
Kausalitet
En relation mellem ”fænomener” (i bredest mulig forstand), hvor et
fænomen påvirker eller forårsager et andet
Kausalitetsmodel i (det meste) kvantitativ forskning: Kontrafaktisk
kausalitet
Formuleringer: ”X har en kausal effekt på Y, hvis Y-resultatet havde
været anderledes i fravær af X.”
”Den kausale effekt af treatment X er forskellen i outcome (dvs.
værdi på Y) mellem den situation hvor X er blevet tildelt og hvor X
ikke er blevet tildelt.”
Kausal inferens
Kausalitet kan ikke observeres direkte. At udtale sig kausalt er
derfor altid et spørgsmål om at inferere, dvs. at udlede kausale
sammenhænge på baggrund af empiri, samt at kunne vurdere
troværdigheden af kausale påstande
Det fundamentale
problem ved
kausal inferens
Problemet med kausal inferens er, at den faktiske og den
kontrafaktiske situation ikke kan observeres for samme
enhed/observation/individ
Det er umuligt at observere både treatment og ikke-treatment for
samme enhed
Average Causal
Effect
Forskellen mellem treatment- og kontrolgruppernes gennemsnit
kan under antagelse af fravær af selektionsbias tolkes som den
gennemsnitlige kausale effekt.
Potentielle udfald
For hver enhed er der to mulige udfald:
2

Unlock the full PDF for free

Sign up to get full access to the document and start transforming it with AI.

Preview

Gustav Langberg, Statskundskab, AU

Metode II, Juni 2024

Contents

  1. Introduktion. 2
  2. Eksperimenter. 4
  3. Grundprincipper for Statistisk Inferens. 5
  4. Univariat Statistisk Inferens: Gennemsnit. 8
  5. Sammenligning af Gennemsnit .. 10
  6. Simpel Lineær Regression 11
  7. Multipel Linear Regression. 13
  8. Statistisk Inferens i Regression 16
  9. Nonlinearitet, Post-Treatment Bias og Mediation. .... 19
  10. Interaktion. 21
  11. Grupperet data. .... 23
  12. Differences-in-differences. 25
  13. Logistisk Regression. 27
  14. Faktoranalyse og intern og ekstern validitet. 29

1Gustav Langberg Statskundskab, AU Metode II Juni 2024

Introduktion til Kausalitet og Inferens

Begreb Definition

Hvorfor statistisk behandling af politologiske spørgsmål?

  • Håndtering og kvantificering af statistisk usikkerhed forbundet med empirisk forskning.
  • Redskab til at inferere fra stikprøve (data) til population
  • Redskab i estimering af kausale effekter.

Kausalitet

  • En relation mellem "fænomener" (i bredest mulig forstand), hvor et fænomen påvirker eller forårsager et andet
  • Kausalitetsmodel i (det meste) kvantitativ forskning: Kontrafaktisk kausalitet
  • Formuleringer: "X har en kausal effekt på Y, hvis Y-resultatet havde været anderledes i fravær af X."
  • "Den kausale effekt af treatment X er forskellen i outcome (dvs. værdi på Y) mellem den situation hvor X er blevet tildelt og hvor X ikke er blevet tildelt."

Kausal inferens

  • Kausalitet kan ikke observeres direkte. At udtale sig kausalt er derfor altid et spørgsmål om at inferere, dvs. at udlede kausale sammenhænge på baggrund af empiri, samt at kunne vurdere troværdigheden af kausale påstande

Det fundamentale problem ved kausal inferens

  • Problemet med kausal inferens er, at den faktiske og den kontrafaktiske situation ikke kan observeres for samme enhed/observation/individ
  • Det er umuligt at observere både treatment og ikke-treatment for samme enhed

Average Causal Effect

  • Forskellen mellem treatment- og kontrolgruppernes gennemsnit kan under antagelse af fravær af selektionsbias tolkes som den gennemsnitlige kausale effekt.

Potentielle udfald

  • For hver enhed er der to mulige udfald: 2Gustav Langberg Statskundskab, AU Metode II Juni 2024
  • Udfald 1: Enheden får treatment
  • Udfald 2: Enheden får ikke treatment
  • (I virkeligheden er der et potentielt udfald for alle niveauer af treatmentvariablen X (relevant i regression)).

Selektionsbias

  • Selektionsbias opstår, når der ikke er ens potentielle udfald mellem treatmentgruppe (TG) og kontrolgruppe (KG)
  • Forskel mellem TG og KG i fravær af treatment
  • "TG forskellig fra KG i fravær af treatment"
  • "KG forskellig fra TG, hvis KG havde fået treatment"
  • Fravær af selektionsbias: Alt andet end treatment er lige mellem TG og KG
  • Eller: Treatmentgruppen uden treatment er lig kontrolgruppen
  • Selektion: Bestemte enheder "selekteres" systematisk ind i de forskellige grupper

Balance

  • Angiver i hvor høj grad TG og KG er lige, dvs. er ens på observerbare og uobserverbare karakteristika
  • Ens gruppegennemsnit -> Balance
  • Sikres ved randomiseret treatmenttildeling; her er treatment ikke korreleret med forskelle i subjektkarakteristika -> intet selektionsbias

Intern validitet

  • Intern validitet omhandler i hvor høj grad et forskningsdesign evner at imødegå/eliminere selektionsbias
  • Høj intern validitet -> troværdighed i kausal inferens. 3Gustav Langberg Statskundskab, AU Metode II Juni 2024

Eksperimenter og Datatyper

Begreb Definition

Varians

  • Et mål for spredningen af data.
  • Summen af alle observationernes kvadrerede afvigelse fra gennemsnittet, divideret med stikprøvestørrelse.
  • Problem: Uintuitiv tolkning pga. kvadrerede værdier
  • Løsning: Standardafvigelse: Kvadratroden af varians
  • Std.afv .: Typiske afvigelse fra gns.

Skævhed

  • Måler i hvilken grad data er koncentreret i "siderne" af fordelingen.
  • Eller: Mål for, om de fleste observationer ligger over eller under gennemsnittet
  • Skævhed > 0: Data til højre Venstreskæv
  • Skævhed < 0: Data til venstre Højreskæv
  • Skævhed = 0: Symmetri

Kurtosis

  • Spidshed: Et mål for koncentrationen af data omkring gennemsnittet
  • Større kurtosis: Større koncentration af data
  • Kurtosis = 3: Normalfordeling

Densityplot

  • Visualisering af fordeling af data. Mere "smooth" udgave af histogram. For ikke-kategoriske variable.

Observationelle data

  • Data indsamlet alene ved observation, dvs. uden "manipulation" af treatmenttildeling. Stor risiko for selektionsbias

Eksperimentelle data

  • Data fra eksperimentelle studier, hvor treatment er blevet tilfældigt tildelt. 4Gustav Langberg Statskundskab, AU Metode II Juni 2024
  • Ved korrekt udførsel og ved tilstrækkelig stor stikprøvestørrelse elimineres selektionsbias.

Eksperimentelt forskningsdesign

  • En undersøgelse, der tilfældigt tildeler treatment til en treatmentgruppe og (ikke til en) kontrolgruppe, hvor kontrolgruppen simulerer den kontrafaktisk situation

Styrker ved eksperimenter

  • Eliminerer selektionsbias (hvis også stort N): Alt andet end treatment er lige mellem grupperne; isolering af effekt af treatmentvariabel
  • Skaber pre-treatment balance og sikrer, at grupperne har ens potentielle udfald
  • Det afgørende er her, at grupperne er GENNEMSNITLIGT ENS, dvs. ens på gruppeniveau.

Grundprincipper for Statistisk Inferens

Begreb Definition

Stokastisk variabel

  • En variabel hvori der indgår et element af tilfældighed (i dets fordeling), f.eks. pga. tilfældigheder ved stikprøveudtrækning
  • Betyder ikke, at variablen er tilfældig, dvs. at alle udfald er lige sandsynlige
  • Betyder, at ved gentagne stikprøver så vil værdierne på variablen ikke være identiske.

Sandsynlighedsfordeling

  • Angiver alle de mulige udfald for en variabel samt disse udfalds respektive sandsynligheder

Normalfordeling

  • Data er fordelt symmetrisk omkring gennemsnittet (skævhed = 0) og ca. 95% af data ligger inden for to standardafvigelser fra gennemsnittet (plus kurtosis = 3). 5Gustav Langberg Statskundskab, AU Metode II Juni 2024

Standardnormalfordeling/ Z-fordeling

  • En normalfordeling, der er blevet "standardiseret"
  • Har gennemsnit på 0 og std.afv. på 1
  • Transformeringsprocedure: Afvigelsen af hver observation fra gennemsnittet divideret med std. afv.
  • Alle normalfordelinger kan standardiseres.

T-fordeling

  • Minder om normalfordelingen, men tager højde for større usikkerhed ved lav stikprøvestørrelse -> mere data i halerne (flere ekstreme værdier ved lavt N).

Statistisk inferens

  • Vurdering af gyldigheden af slutninger fra stikprøve til population
  • Fordrer kvantificering af statistisk usikkerhed

Stikprøvefordeling

  • Fordelingen af observationer i en konkret stikprøve.
  • Vi tager stikprøve, fordi vi ikke har adgang til data om hele population
  • Stikprøven kan derfor altid (og "kun") give et estimat af den underliggende populations parametre/værdier
  • På grund af det tilfældige element ved stikprøveudtrækning så er der forbundet en vis statistisk usikkerhed med stikprøven som estimat af populationen.

Stikprøvemålsfordeling

  • Fordelingen af f.eks. stikprøvegennemsnit ved uendeligt mange udtrukne stikprøver.
  • Angiver derfor sandsynlighedsfordelingen for at trække stikprøver med de givne (mulige) gennemsnit.

Simpel tilfældig udtrækning

  • Observationer udtrækkes tilfældigt fra den underliggende population. Betyder at alle udtrukne observationer har samme sandsynlighed for at blive trukket.
  • Hvis dette ikke er opfyldt, dvs. hvis nogle observationer har større sandsynlighed for at blive trukket end andre, så vil der 6Gustav Langberg Statskundskab, AU Metode II Juni 2024
  • opstå bias -> stikprøven er ikke længere repræsentativ for den underliggende population.
  • Sikrer at stikprøven er repræsentativ for population (for større stikprøvestørrelser).

Identically and independently distributed (i.i.d.)

  • Hvis stokastiske variable er tilfældigt udtrukket fra samme underliggende population så vil de være uafhængigt og identisk fordelte.
  • Identisk: Udtrukket fra samme underliggende population.
  • Uafhængighed: Hvis stikprøvens observationer er uafhængige påvirker hver enkel observation ikke de andre.
  • Afhængighed: Grupperet data (niveau 1-observationers værdi er ofte afhængige af deres niveau 2-gruppering).
  • Kan også være samme observation målt flere gange, (hvor observation afhænger af "sig selv" men på et andet tidspunkt).

De Store Tals Lov

  • Som stikprøvestørrelsen vokser, vil stikprøvegennemsnittet gå mod stikprøvemålsfordelingsgennemsnittet (dvs. populationsgennemsnittet) med sandsynlig p 1.

Den Centrale Grænseværdisætning

  • Hvis vi udtager uendeligt mange stikprøver, så vil stikprøvegennemsnittene være normaltfordelte omkring populationsgennemsnittet.
  • Hvis større N mindre varians omkring gennemsnittet, dvs. større efficiens.
  • Gælder også selvom stikprøverne ikke selv er normalfordelte. 7Gustav Langberg Statskundskab, AU Metode II Juni 2024

Univariat Statistisk Inferens: Gennemsnit

Begreb Definition

Estimator

  • En matematisk regel eller funktion, som bruges til at estimere (dvs. komme med et bud på) en parameter i populationen.
  • F.eks. gennemsnittet, hvor "reglen"/funktionen er summen af alle observationer divideret med antal observationer.

Middelret (unbiased)

  • En estimator er unbiased, hvis dens stikprøvemålsfordeling centrerer sig omkring populationsgennemsnittet
  • Hvis vi udtrækker en masse stikprøver, vil en middelret estimator gennemsnitligt ramme populationsparameteren.
  • Bias defineres her som afstanden fra estimatorens værdi og populationsværdien

Efficient

  • En estimator er efficient, hvis variansen i stikprøvemålsfordeling er lav, dvs. hvis fordelingen er koncentreret tæt omkring populationsgennemsnittet.
  • Gør at vi kan udtale os med større statistisk præcision med vores data.

Best Linear Unbiased Estimator (BLUE)

  • Stikprøvegennemsnittet er BLUE
  • Matematisk betyder det, at stikprøvegennemsnittet har de mindste kvadrerede afvigelser fra populationsgennemsnittet af alle de mulige estimatorer herfor.
  • Det betyder altså, at gns. minimerer bias.

Konsistent

  • For større stikprøve N sandsynlighed for, at stikprøvegennemsnittet meget tæt approksimerer populationsgennemsnittet går mod 1. 8Gustav Langberg Statskundskab, AU Metode II Juni 2024

Hypotesetest

  • I en hypotesetest tester vi sandsynligheden for at have trukket en given stikprøve (ofte via dets gennemsnit), under antagelse af, at populationsgennemsnittet antager en given værdi
  • Denne antagne populationsværdi er nulhypotesen (H0). Alternativhypotesen specificerer, hvad der må gælde hvis H0 er falsk.
  • Vi tester, om stikprøvegennemsnittets afvigelse fra H0 blot skyldes statistisk usikkerhed forbundet med stikprøveudtrækning, eller om det skyldes at H0 (sandsynligvis) er falsk.

Trin i hypotesetest

  • Indeholder 6 trin for en gyldig test:
  • 1) Vurdering af antagelser: i.i.d og tilstrækkelig stor N
  • 2) Opstilling af nul- og alternativhypoteser
  • 3) Valg af test-statistisk (vi t-test)
  • 4) Valg af kritisk værdi/signifikansniveau: Ofte p < 0.05
  • 5) Dataindsamling og analyse
  • 6) Fortolkning af p-værdi: Forkast eller acceptér H0?

Standardfejl

  • Standardfejlen er et estimat af standardafvigelsen i et estimats (f.eks. gns.) stikprøvemålsfordeling
  • Angiver altså det typiske stikprøvegennemsnits afvigelse fra populationsgennemsnittet
  • Formel: Divider stikprøvens standardafvigelse med kvadratroden af stikprøvestørrelsen.
  • -unequal (Stata): Bruger robuste standardfejl; tager også højde for uens stikprøver, hvis vi sammenligner gns., dvs. hvis stikprøverne er fra forskellige populationer (ved 9

Can’t find what you’re looking for?

Explore more topics in the Algor library or create your own materials with AI.