Slide sull'uso delle dummy nel modello di regressione. Test delle ipotesi e Intervalli di Confidenza. Il Pdf, utile per studenti universitari di Economia, esplora l'applicazione delle variabili dummy nei modelli di regressione, trattando test delle ipotesi e intervalli di confidenza con esempi pratici e output statistici.
Mostra di più26 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Sezione 4. Uso delle dummy nel modello di regressione. Test delle ipotesi e Intervalli di Confidenza Vincenzo Scoppa Da Stock-Watson (cap. 5) Ultima revisione: 05/03/2024
1Uso delle dummy in un modello di regressione Esistono delle caratteristiche qualitative che si vogliono prendere in considerazione in una regressione. Per esempio,
Le variabili dummy (o variabili binarie) permettono di tener conto di queste caratteristiche: Una dummy è una variabile che può assumere solo due valori: 0 o 1
2Per esempio, la dummy Donna (costruita sulla base di Genere) assume valore 1 per le donne e valore 0 per gli uomini
Remunerazione Genere Donna 13.076 Donna 1 62.393 Uomo 0 15.686 Donna 1 22.596 Donna 1 62.125 Uomo 0 12.179 Uomo 0
La dummy Nord assume valore 1 per i residenti al Nord e 0 per gli altri (Centro o Sud); Centro assume valore 1 per i residenti al Centro e 0 per gli altri (Nord e Sud) e così via
Remunerazione Residenza Nord Centro Sud 23.756 Nord 1 0 0 28.461 Centro 0 1 0 52.393 Sud 0 0 1 31.367 Sud 0 0 1 25.686 Nord 1 0 0
3Le dummy possono essere usate in un modello di regressione sia come variabili dipendenti che come variabili esplicative. Per il momento consideriamo solo il secondo caso (il primo caso sarà esaminato con i modelli Probit e Logit più avanti).
Modello di regressione usando una dummy come variabile esplicativa Yi = Bo + B1Donnai + Ui
Quando si usa una dummy, l'interpretazione dei coefficienti è molto diversa, non abbiamo più una intercetta e una pendenza poiché la variabile D non è una variabile continua, ma il modello permette di stimare due medie condizionate e la differenza tra queste medie:
E (YilDonnai = 0) = Bo + B1 * 0 = Bo Se Donna=0: dato che E (ui) = 0 che rappresenta la media del salario condizionata a Donna=0 (cioè per gli uomini)
4Se Donna=1: E (YilDonnai = 1) = Bo + B1 * 1 = Bo + B1 che rappresenta la media del salario condizionata a Donna=1 (cioè per le donne) Prendendo la differenza tra la seconda e la prima, si ottiene: E (Yi|Donnai = 1) - E(Yi|Donnai = 0) = B1 ß1 rappresenta la differenza tra le due medie. Se le medie fossero uguali, ß1 = 0; Se la media per D=1 fosse maggiore, avremmo ß1 > 0 e viceversa.
Esempio numerico con i dati ch8 cps: ahe, average hourly earnings (salario orario) Salario = 24.27 - 5.05Donnai
5Source SS df MS Number of obs 63,195 F (1, 63193) 2228.12 Model Residual 398187.32 1 398187.32 Prob > F 0.0000 11293215.1 63,193 178.709907 R-squared = 0.0341 Adj R-squared = 0.0340 Total 11691402.4 63,194 185.008109 Root MSE = 13.368 ahe Coef. Std. Err. t P>|t| [95% Conf. Interval] female -5.054193 .1070736 -47.20 0.000 -5.264058 -4.844329 cons 24.27974 . 0712034 340.99 0.000 24.14018 24.4193 sum ahe if female == 1 Variable | Obs Mean Std. Dev. Min Max ahe | 27,946 19.22555 11.59731 2.001 109.8901 . sum ahe if female == 0 Variable | Obs Mean Std. Dev. Min Max ahe | 35,249 24.27974 14.6206 2 131.224 =
6Esercizio: Se con gli stessi dati si stima Yi = Bo + B1Uomoi + ui dove Uomo è una dummy=1 per gli uomini (e zero per le donne), siete in grado di calcolare i coefficienti Bo e ß ?
7L'EFFETTO DELLA LAUREA SULLA REMUNERAZIONE gen laureato=1 if yrseduc>=16 replace laureato=0 if laureato ==. ta laureato reg ahe laureato Source | SS df MS Number of obs = 63,195 F(1, 63193) 12528.15 Model | 1934355.41 1 1934355.41 Prob > F = 0.0000 Residual | 9757047.03 63,193 154.400757 R-squared = 0.1655 Adj R-squared = 0.1654 Total | 11691402.4 63,194 185.008109 Root MSE = 12.426 ahe | Coef. Std. Err. t P>|t| [95% Conf. Interval] laureato | 11.60967 .1037233 111.93 0.000 11.40637 11.81297 cons | 17.99677 . 0612466 293.84 0.000 17.87673 18.11682 _ =
8Test delle ipotesi in un modello di regressione Sappiamo che - sotto le 3 ipotesi OLS (no correlazione tra X e u; iid; no outilers) - lo stimatore 31 si distribuisce Normalmente con media B1: B1~NB1,Var(ß1))
Una volta ottenuta la stima di 31, dobbiamo decidere quanto è "affidabile" il valore ottenuto, in particolare se il valore ottenuto è in linea con date ipotesi (ad esempio, se B1 = 0) oppure è in contrasto con esse. In molti contesti, facciamo delle ipotesi e necessitiamo di una risposta chiara: l'ipotesi è vera o è falsa? Esempi:
Il test delle ipotesi consente di rispondere a queste domande, sulla base di un campione casuale di osservazioni.
9Test delle ipotesi in tre passi 1) Innanzitutto, formuliamo un'ipotesi da testare: ipotesi nulla (Ho) e un'ipotesi alternativa (H1) Si assume che l'ipotesi nulla sia vera fino a che i dati suggeriscono fortemente il contrario, cioè prima di concludere che Ho è falsa e che H1 è vera, dobbiamo avere forte evidenza contro Ho L'ipotesi nulla più importante che vogliamo valutare nel modello di regressione è se B1 = 0, poiché se ß1 = 0 la variabile esplicativa non ha nessuna influenza sulla variabile dipendente. Quindi, Ho: 31 = 0 H1: B1 # 0 (alternativa bilaterale) Conoscendo SE(31) (si ricordi la formula, comunque calcolata dal software), possiamo calcolare la cosiddetta statistica t: t = B1 - B1(Ho) SE(ß1)
10dove B1(Ho) è il valore di ß1 sotto l'ipotesi nulla. Se sottoponiamo a test l'ipotesi ß1=0, la formula si semplifica: t = SE(ß1) La statistica t (nonostante il nome) - in campioni sufficientemente grandi - si distribuisce secondo una Normale Standardizzata (con media 0 e varianza 1). Pertanto, conoscendo le probabilità associate alla Normale, è possibile comprendere quanto è probabile una data ipotesi. Siamo indotti a rifiutare Ho in favore di H1 quando la statistica t è molto differente da quello che possiamo aspettarci sotto Ho Se, per esempio, t=2.8, sappiamo che è molto improbabile che l'ipotesi nulla abbia generato quel valore, e siamo indotti a ritenere poco attendibile quella ipotesi.
110.44 0.3 + 0.2 0.1 -4° -30 -2σ σ 20 30 4σ μ 68,27% 95,45% 99,73% WWW.OKPEDIA.IT Ma dobbiamo determinare precisamente in quali casi rifiutare l'ipotesi nulla, prendendo in considerazione gli errori che possiamo commettere.
122) Nel test delle ipotesi possiamo commettere due tipi di errori opposti. a. "Errore di I tipo": rigettare l'ipotesi nulla quando è vera b. "Errore di II tipo": non riuscire a rifiutare la nulla quando è falsa (cioè "accettare" Ho) Operativamente, si sceglie una probabilità di commettere un errore del I tipo - il cosiddetto livello di significatività indicato con a - piuttosto piccola (tipicamente, 1%, 5% o 10%): a = Pr(Rifiutare Ho|Ho) La probabilità di rigettare Ho quando Ho è vera è pari a a (livello di significatività). Sulla base della distribuzione di t, assumendo che H0 sia vera, e del livello di significatività del test (a) si determina il valore critico c e quindi la regione di rifiuto. Ad esempio, con un livello di significatività del 5%, la regione di rifiuto è |t|>1.96 Con un livello di significatività dell'1%, la regione di rifiuto è |t|>2.575
133) Se t cade nella regione di rifiuto, si rifiuta l'ipotesi nulla. Se t non cade nella regione di rifiuto, si dice che "non si è in grado di rifiutare l'ipotesi nulla" (o, un po' impropriamente, si dice che si accetta Ho")
14p-value: livello di significatività osservato In alternativa, è possibile calcolare il p-value (il più basso livello di significatività al quale l'ipotesi nulla può essere rifiutata): PrH0(|t| > |tc |) Rappresenta la probabilità di ottenere una statistica che sia tanto sfavorevole all'ipotesi nulla almeno quanto quella calcolata nel campione, assumendo che l'ipotesi nulla sia corretta Se il p-value è molto basso, diciamo inferiore al 5% (o all'1%), si rifiuta l'ipotesi nulla.
15Graficamente, The p-value is the shaded area in the graph N(0, 1) 0 Z Yact - HY,0 Fact - My,0 -
16Applicazione con i dati caschool: ß1 = - 2.28 SE(ß1) = 0.52 Ipotesi nulla: Ho: 31 = 0, Ipotesi alternativa: H1: 31 # 0, -2.28 - 0 t= 0.52 = - 4.38 Siccome |t|>1.96, rifiutiamo l'ipotesi nulla p-value=0.00001: del tutto improbabile ottenere il valore stimato, se è vera l'ipotesi nulla. Dato che è l'ipotesi nulla è molto improbabile, siamo indotti a rifiutare tale ipotesi.
17TABLE 1 The Cumulative Standard Normal Distribution Function, +(z) = Pr(Z ≤z) Area = Pr(Z ≤ z) 0 Second Decimal Value of z Z 0 1 2 3 4 5 6 7 8 9 -2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 -2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 -2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 -2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 -2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 -2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.007 0.0069 0.0068 0.0066 0.0064 -2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 -2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 -2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 -2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 -1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 -1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 -1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 -1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 -1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 -1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 -1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 -1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 -1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 -1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 -0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 (Table 1 continued) 10