Documento di Università sulla regressione lineare semplice, test di ipotesi e intervalli di previsione. Il Pdf esplora la regressione lineare semplice, focalizzandosi su test di ipotesi per la significatività dei coefficienti e sulla costruzione di intervalli di previsione, con esempi pratici e output di software statistico per Economia.
Mostra di più8 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Sempre con riferimento all'esempio relativo alla quotazione degli immobili, conside- riamo il test (a livello 0.05) per valutare la significatività dell'effetto dell'età sulla quo- tazione media degli immobili, relativo cioè alle ipotesi Ho : 31 - 0 contro H1 : 31 + 0. Poichè -0.08801 = 5.9107 Hasst = = 0.01489 è maggiore di JA-2 = +23 $0.025 = 2.069, si rifiuta l'ipotesi nulla a livello 0.05 e, quindi, €/2 si conclude che c'è evidenza di un effetto dell'età degli immobili sulla loro quotazione media al mq. Stessa conclusione naturalmente si ottiene tramite il p-value, dato da 2P(I > toss|He) - 2P(T ≥ 5.9107|He) ~ 0 < 0.05, per cui si rifiuta l'ipotesi nulla al livello fissato 0.05,
Come detto nell'introduzione, tra gli obiettivi dell'analisi di un modello di regres- sione lineare semplice c'è quello previsivo; si cerca cioè di attribuire alla variabile dipendente Y o alla sua media un valore (o un intervallo di valori), usando i valori della variabile esplicativa x. Si parla di previsione, o anche di stima, di Y o della sua media.
Possiamo distinguere due diversi problemi di previsione. Un primo problema con- siste nel prevedere stimare la media di Y in corrispondenza ad un determinato valore To di x; in altri termini, si tratta di prevedere/stimare, sulla base del modello di re- gressione stimato tramite il campione, il valor medio di Y sulle unità della popolazione per le quali x ha un certo valore x0. Un secondo problema riguarda la previsione di Y, sempre basata sul modello stimato attraverso il campione, su una singola unità per la quale x ha un valore fissato x0. Con riferimento all'esempio relativo alle quo- tazioni degli immobili, il primo problema descritto consiste nel prevedere/stimare la quotazione media degli immobili della città in esame che hanno una certa età, ad 13esempio 10 anni, mentre il secondo problema riguarda la previsione/stima della quo- tazione di un singolo immobile con età 10 anni. E' evidente che si tratta di problemi diversi ed è altrettanto evidente che la seconda previsione risulta più incerta; infatti, la variabilità attorno alla media di Y è certamente inferiore rispetto alla variabilità attorno ad un singolo valore di Y. D'altra parte, a livello di previsione puntuale (cioè singolo valore che ambisce a prevedere/stimare Y o E(Y)) non c'è alcuna dif- ferenza. Riprendiamo l'equazione del modello stimato relativo all'esempio degli im- mobili: 9 = 6.45183 - 0.08801x. Poichè questa equazione è una stima dell'equazione teorica E(Y) = Bo + B1x, la stima/previsione di E(Y) in corrispondenza a x = x0 = 10 si ottiene semplicemente sostituendo 10 alla x nell'equazione del modello stimato. La previsione cercata è dunque yo = 6.45183-0.08801xo = 6.45183-0.08801 . 10 = 5.5717; questo valore rappresenta dunque la previsione/stima della quotazione media degli im- mobili della città che hanno 10 anni di età. Per prevedere invece la quotazione di un singolo immobile di 10 anni, osserviamo che Y = (30 + B1x) + & e che, quindi, la previsione di Y si può ottenere come somma della previsione di E(Y) e di quella di e; quest'ultima però, per le sue caratteristiche, non può essere che 0. Dunque, la previsione puntuale di Y e quella di E(Y), pur avendo significati diversi, numerica- mente coincidono. Nel caso dell'esempio, in corrispondenza a x = x0 = 10, sono pari a yo = 5.5717.
Come detto, i livelli di incertezza connessi con i due tipi di previsione sono però nettamente diversi; molto più alta l'incertezza (ovvero la variabilità) connessa con la previsione di Y rispetto a quella relativa alla previsione di E(Y). Questa differenza si esprime in standard error diversi associati alle previsioni/stime e, quindi, in diversi intervalli di previsione (vengono chiamati intervalli di previsione gli intervalli di confi- denza associati alle previsioni). Di seguito vengono riportati gli intervalli di previsione, 14di livello 1 - a, per i due casi:
Con riferimento agli intervalli riportati sopra possiamo osservare quanto segue; si ri- cordi che, per un qualunque intervallo di confidenza, la minore lunghezza dell'intervallo indica maggiore precisione.
15Per concludere, osserviamo che non è opportuno prevedere/stimare Y in corrispondenza a valori di x che sono al di fuori del range di valori rilevati nel campione; in sostanza, non è opportuno estrapolare la retta di regressione al di fuori dei dati usati per la stima. Infatti, può accadere che un modello lineare (cioè una retta) descriva bene la relazione tra E(Y) e x in un certo intervallo di valori di x, ma sia del tutto inappropriata per descrivere tale relazione al di fuori di questo intervallo. Prolungando la retta oltre questo intervallo e usandola per prevedere Y per valori non compresi nell'intervallo si otterrebbero quindi previsioni totalmente inattendibili.
Con riferimento al solito esempio sulle quotazioni degli immobili, determiniamo gli intervalli, al 95%, per la previsione della quotazione media degli immobili di 10 anni di età e per la previsione della quotazione di un immobile di 10 anni; a questo proposito, si riportano le seguenti sintesi campionarie: >(xi-x)2 =5110; x= 20; min(x) =2 max(x) =50 Gli intervalli sono:
16USO DEL SOFTWARE R NELLA REGRESSIONE LINEARE SEMPLICE La funzione fondamentale di R per il modello di regressione lineare semplice (ed anche, come vedremo, per il modello di regressione lineare multipla) è lm (lm sta per linear model). Attraverso questa funzione, che richiede come argomenti la variabile dipendente Y e quella esplicativa x (non precedute dal nome del dataframe), separate dal simbolo ~, con l'opzione "data=nome dataframe" si crea un oggetto che contiene tutti i risultati necessari all'analisi del modello (le stime dei parametri, gli standard error corrispondenti, il valore osservato della statistica test necessaria per la verifica della significatività dell'effetto, ecc). La funzione summary, applicata all'oggetto creato, include la maggior parte dei risultati dell'analisi (non tutti, come vedremo).
Consideriamo, a titolo di esempio, il dataset CINE (file CINEMA.Rdata), contenente informazioni su un campione di 61 film degli ultimi 30 anni; proponiamoci di studiare, nell'ambito della popolazione di tutti i film degli ultimi 30 anni (di cui questo insieme di film rappresenta un campione), la dipendenza dell'incasso globale dal budget. Di seguito sono riportati i comandi e gli output relativi a questa analisi.
> Is ( )
[1] "CINE"
> str (CINE)
'data . frame' :
61 obs. of 9 variables :
$ titolo : Factor w/ 62 levels "2 FAST 2 FURIOUS
truncated , . . : 1 2 3 4 5 6 7 8 9 10 ...
$
anno
: num
2003 2002 1992 2001 2003
$ incasso: num
127 117 141 145 104 107 134 213 118 251 ...
budget
num
76 41 33 30 55 30 75 63 49 35 .
. .
$ paese
:
Factor w/ 2 levels "NO US", "US": 2 2 2 2 2 2 2 2 2 2.
$ premi
: num
3 9 7 6 3 4 2 5 4 7 ...
$ voti
:
num
7431 15012 22416 19474 10591
$ critica: num
6765547588 ..
$ genere : Factor w/ 4 levels "AZIONE", "COMMEDIA",
. . : 1 4 4 2 2 2 2
241
> modello <- lm (incasso~budget, data=CINE)
> summary (modello)Call:
Im (formula = incasso ~ budget, data=CINE)
Residuals:
Min
1Q
Median
30
Max
-143.82
-51.00
-26.81
36.46
318.09
Coefficients :
Estimate Std. Error t value Pr (> | t | )
(Intercept)
115.6295
19.4182
5.955 1.54e-07
***
budget
0.8364
0.2564
3.263 0.00184
*
Signif. codes: 0 **** / 0.001 *** / 0.01 / 0.05 . 0.1 \/ 1
Residual standard error: 84.88 on 59 degrees of freedom
Multiple R-squared: 0.1528,
Adjusted R-squared: 0.1385
F-statistic: 10.64 on 1 and 59 DF,
p-value: 0.001838
> confint ( modello)
2.5 %
97.5 %
(Intercept) 76.7737404 154.485294
budget
0.3234185
1.349394
> confint (modello, level=0. 99)
0.5 %
99.5 %
(Intercept)
63.9428890 167.316145
budget
0.1540211
1.518791
> anova (modello)
Analysis of Variance Table
Response: incasso
Df Sum Sq Mean Sq F value
Pr ( >F )
budget
1
76687
76687
10.644 0.001838
* *
Residuals 59 425068
7205
Signif. codes: 0 **** / 0.001 *** / 0.01 */ 0.05 . 0.1 1/ 1
Attraverso la funzione lm, è stato creato un oggetto, che abbiamo chiamato modello, che contiene i risultati dell'analisi. Il comando summary(modello) fornisce, come detto, un parte di questi risultati. In particolare, sulle righe "Intercept" e "budget" sono riportati, nell'ordine, le stime, gli standard error, i valori osservati delle statistiche test ed i p-value per i test bilaterali sui due coefficienti - come detto noi siamo interessati essenzialmente al test sul coefficiente