Uso delle dummy nel modello di regressione: test delle ipotesi e intervalli di confidenza

Slide sull'uso delle dummy nel modello di regressione. Test delle ipotesi e Intervalli di Confidenza. Il Pdf, utile per studenti universitari di Economia, esplora l'applicazione delle variabili dummy nei modelli di regressione, trattando test delle ipotesi e intervalli di confidenza con esempi pratici e output statistici.

Mostra di più

26 pagine

1
Sezione 4.
Uso delle dummy nel modello di regressione.
Test delle ipotesi e Intervalli di Confidenza
Vincenzo Scoppa
Da Stock-Watson (cap. 5)
Ultima revisione: 05/03/2024
2
Uso delle dummy in un modello di regressione
Esistono delle caratteristiche qualitative che si vogliono prendere in
considerazione in una regressione.
Per esempio,
- Genere: uomo/donna;
- Area geografica: Nord/Centro/Sud
- Scuola superiore: Liceo; Istituto Tecnico; Istituto Professionale;
- Laurea: Economia/Ingegneria/Lettere/Chimica/Biologia/..
- Dimensione impresa: piccola/grande
Le variabili dummy (o variabili binarie) permettono di tener conto di queste
caratteristiche:
Una dummy è una variabile che può assumere solo due valori: 0 o 1

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

Uso delle Dummy nei Modelli di Regressione

Sezione 4. Uso delle dummy nel modello di regressione. Test delle ipotesi e Intervalli di Confidenza Vincenzo Scoppa Da Stock-Watson (cap. 5) Ultima revisione: 05/03/2024

Caratteristiche Qualitative e Variabili Dummy

1Uso delle dummy in un modello di regressione Esistono delle caratteristiche qualitative che si vogliono prendere in considerazione in una regressione. Per esempio,

  • Genere: uomo/donna;
  • Area geografica: Nord/Centro/Sud
  • Scuola superiore: Liceo; Istituto Tecnico; Istituto Professionale;
  • Laurea: Economia/Ingegneria/Lettere/Chimica/Biologia/ ..
  • Dimensione impresa: piccola/grande

Le variabili dummy (o variabili binarie) permettono di tener conto di queste caratteristiche: Una dummy è una variabile che può assumere solo due valori: 0 o 1

Esempi di Variabili Dummy

2Per esempio, la dummy Donna (costruita sulla base di Genere) assume valore 1 per le donne e valore 0 per gli uomini

Remunerazione Genere Donna 13.076 Donna 1 62.393 Uomo 0 15.686 Donna 1 22.596 Donna 1 62.125 Uomo 0 12.179 Uomo 0

La dummy Nord assume valore 1 per i residenti al Nord e 0 per gli altri (Centro o Sud); Centro assume valore 1 per i residenti al Centro e 0 per gli altri (Nord e Sud) e così via

Remunerazione Residenza Nord Centro Sud 23.756 Nord 1 0 0 28.461 Centro 0 1 0 52.393 Sud 0 0 1 31.367 Sud 0 0 1 25.686 Nord 1 0 0

Uso delle Dummy come Variabili Esplicative

3Le dummy possono essere usate in un modello di regressione sia come variabili dipendenti che come variabili esplicative. Per il momento consideriamo solo il secondo caso (il primo caso sarà esaminato con i modelli Probit e Logit più avanti).

Modello di regressione usando una dummy come variabile esplicativa Yi = Bo + B1Donnai + Ui

Quando si usa una dummy, l'interpretazione dei coefficienti è molto diversa, non abbiamo più una intercetta e una pendenza poiché la variabile D non è una variabile continua, ma il modello permette di stimare due medie condizionate e la differenza tra queste medie:

E (YilDonnai = 0) = Bo + B1 * 0 = Bo Se Donna=0: dato che E (ui) = 0 che rappresenta la media del salario condizionata a Donna=0 (cioè per gli uomini)

4Se Donna=1: E (YilDonnai = 1) = Bo + B1 * 1 = Bo + B1 che rappresenta la media del salario condizionata a Donna=1 (cioè per le donne) Prendendo la differenza tra la seconda e la prima, si ottiene: E (Yi|Donnai = 1) - E(Yi|Donnai = 0) = B1 ß1 rappresenta la differenza tra le due medie. Se le medie fossero uguali, ß1 = 0; Se la media per D=1 fosse maggiore, avremmo ß1 > 0 e viceversa.

Esempio Numerico con Dati ch8 cps

Esempio numerico con i dati ch8 cps: ahe, average hourly earnings (salario orario) Salario = 24.27 - 5.05Donnai

5Source SS df MS Number of obs 63,195 F (1, 63193) 2228.12 Model Residual 398187.32 1 398187.32 Prob > F 0.0000 11293215.1 63,193 178.709907 R-squared = 0.0341 Adj R-squared = 0.0340 Total 11691402.4 63,194 185.008109 Root MSE = 13.368 ahe Coef. Std. Err. t P>|t| [95% Conf. Interval] female -5.054193 .1070736 -47.20 0.000 -5.264058 -4.844329 cons 24.27974 . 0712034 340.99 0.000 24.14018 24.4193 sum ahe if female == 1 Variable | Obs Mean Std. Dev. Min Max ahe | 27,946 19.22555 11.59731 2.001 109.8901 . sum ahe if female == 0 Variable | Obs Mean Std. Dev. Min Max ahe | 35,249 24.27974 14.6206 2 131.224 =

6Esercizio: Se con gli stessi dati si stima Yi = Bo + B1Uomoi + ui dove Uomo è una dummy=1 per gli uomini (e zero per le donne), siete in grado di calcolare i coefficienti Bo e ß ?

Effetto della Laurea sulla Remunerazione

7L'EFFETTO DELLA LAUREA SULLA REMUNERAZIONE gen laureato=1 if yrseduc>=16 replace laureato=0 if laureato ==. ta laureato reg ahe laureato Source | SS df MS Number of obs = 63,195 F(1, 63193) 12528.15 Model | 1934355.41 1 1934355.41 Prob > F = 0.0000 Residual | 9757047.03 63,193 154.400757 R-squared = 0.1655 Adj R-squared = 0.1654 Total | 11691402.4 63,194 185.008109 Root MSE = 12.426 ahe | Coef. Std. Err. t P>|t| [95% Conf. Interval] laureato | 11.60967 .1037233 111.93 0.000 11.40637 11.81297 cons | 17.99677 . 0612466 293.84 0.000 17.87673 18.11682 _ =

Test delle Ipotesi nei Modelli di Regressione

8Test delle ipotesi in un modello di regressione Sappiamo che - sotto le 3 ipotesi OLS (no correlazione tra X e u; iid; no outilers) - lo stimatore 31 si distribuisce Normalmente con media B1: B1~NB1,Var(ß1))

Una volta ottenuta la stima di 31, dobbiamo decidere quanto è "affidabile" il valore ottenuto, in particolare se il valore ottenuto è in linea con date ipotesi (ad esempio, se B1 = 0) oppure è in contrasto con esse. In molti contesti, facciamo delle ipotesi e necessitiamo di una risposta chiara: l'ipotesi è vera o è falsa? Esempi:

  • Un certo corso di formazione è efficace o no per i disoccupati?
  • Le donne ottengono un salario minore degli uomini?
  • Le aule più piccole migliorano il rendimento degli studenti?

Il test delle ipotesi consente di rispondere a queste domande, sulla base di un campione casuale di osservazioni.

Passi per il Test delle Ipotesi

9Test delle ipotesi in tre passi 1) Innanzitutto, formuliamo un'ipotesi da testare: ipotesi nulla (Ho) e un'ipotesi alternativa (H1) Si assume che l'ipotesi nulla sia vera fino a che i dati suggeriscono fortemente il contrario, cioè prima di concludere che Ho è falsa e che H1 è vera, dobbiamo avere forte evidenza contro Ho L'ipotesi nulla più importante che vogliamo valutare nel modello di regressione è se B1 = 0, poiché se ß1 = 0 la variabile esplicativa non ha nessuna influenza sulla variabile dipendente. Quindi, Ho: 31 = 0 H1: B1 # 0 (alternativa bilaterale) Conoscendo SE(31) (si ricordi la formula, comunque calcolata dal software), possiamo calcolare la cosiddetta statistica t: t = B1 - B1(Ho) SE(ß1)

10dove B1(Ho) è il valore di ß1 sotto l'ipotesi nulla. Se sottoponiamo a test l'ipotesi ß1=0, la formula si semplifica: t = SE(ß1) La statistica t (nonostante il nome) - in campioni sufficientemente grandi - si distribuisce secondo una Normale Standardizzata (con media 0 e varianza 1). Pertanto, conoscendo le probabilità associate alla Normale, è possibile comprendere quanto è probabile una data ipotesi. Siamo indotti a rifiutare Ho in favore di H1 quando la statistica t è molto differente da quello che possiamo aspettarci sotto Ho Se, per esempio, t=2.8, sappiamo che è molto improbabile che l'ipotesi nulla abbia generato quel valore, e siamo indotti a ritenere poco attendibile quella ipotesi.

110.44 0.3 + 0.2 0.1 -4° -30 -2σ σ 20 30 4σ μ 68,27% 95,45% 99,73% WWW.OKPEDIA.IT Ma dobbiamo determinare precisamente in quali casi rifiutare l'ipotesi nulla, prendendo in considerazione gli errori che possiamo commettere.

Errori nel Test delle Ipotesi

122) Nel test delle ipotesi possiamo commettere due tipi di errori opposti. a. "Errore di I tipo": rigettare l'ipotesi nulla quando è vera b. "Errore di II tipo": non riuscire a rifiutare la nulla quando è falsa (cioè "accettare" Ho) Operativamente, si sceglie una probabilità di commettere un errore del I tipo - il cosiddetto livello di significatività indicato con a - piuttosto piccola (tipicamente, 1%, 5% o 10%): a = Pr(Rifiutare Ho|Ho) La probabilità di rigettare Ho quando Ho è vera è pari a a (livello di significatività). Sulla base della distribuzione di t, assumendo che H0 sia vera, e del livello di significatività del test (a) si determina il valore critico c e quindi la regione di rifiuto. Ad esempio, con un livello di significatività del 5%, la regione di rifiuto è |t|>1.96 Con un livello di significatività dell'1%, la regione di rifiuto è |t|>2.575

Regola di Rifiuto dell'Ipotesi Nulla

133) Se t cade nella regione di rifiuto, si rifiuta l'ipotesi nulla. Se t non cade nella regione di rifiuto, si dice che "non si è in grado di rifiutare l'ipotesi nulla" (o, un po' impropriamente, si dice che si accetta Ho")

P-value e Livello di Significatività

14p-value: livello di significatività osservato In alternativa, è possibile calcolare il p-value (il più basso livello di significatività al quale l'ipotesi nulla può essere rifiutata): PrH0(|t| > |tc |) Rappresenta la probabilità di ottenere una statistica che sia tanto sfavorevole all'ipotesi nulla almeno quanto quella calcolata nel campione, assumendo che l'ipotesi nulla sia corretta Se il p-value è molto basso, diciamo inferiore al 5% (o all'1%), si rifiuta l'ipotesi nulla.

15Graficamente, The p-value is the shaded area in the graph N(0, 1) 0 Z Yact - HY,0 Fact - My,0 -

Applicazione con Dati caschool

16Applicazione con i dati caschool: ß1 = - 2.28 SE(ß1) = 0.52 Ipotesi nulla: Ho: 31 = 0, Ipotesi alternativa: H1: 31 # 0, -2.28 - 0 t= 0.52 = - 4.38 Siccome |t|>1.96, rifiutiamo l'ipotesi nulla p-value=0.00001: del tutto improbabile ottenere il valore stimato, se è vera l'ipotesi nulla. Dato che è l'ipotesi nulla è molto improbabile, siamo indotti a rifiutare tale ipotesi.

17TABLE 1 The Cumulative Standard Normal Distribution Function, +(z) = Pr(Z ≤z) Area = Pr(Z ≤ z) 0 Second Decimal Value of z Z 0 1 2 3 4 5 6 7 8 9 -2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 -2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 -2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 -2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 -2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 -2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.007 0.0069 0.0068 0.0066 0.0064 -2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 -2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 -2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 -2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 -1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 -1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 -1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 -1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 -1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 -1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 -1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 -1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 -1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 -1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 -0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 (Table 1 continued) 10

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.