Regressione lineare semplice: test di ipotesi e intervalli di previsione

Documento di Università sulla regressione lineare semplice, test di ipotesi e intervalli di previsione. Il Pdf esplora la regressione lineare semplice, focalizzandosi su test di ipotesi per la significatività dei coefficienti e sulla costruzione di intervalli di previsione, con esempi pratici e output di software statistico per Economia.

Mostra di più

8 pagine

Sempre con riferimento all’esempio relativo alla quotazione degli immobili, conside-
riamo il test (a livello 0.05) per valutare la significativit`a dell’effetto dell’et`a sulla quo-
tazione media degli immobili, relativo cio`e alle ipotesi H
0
: β
1
= 0 contro H
1
: β
1
6= 0.
Poich`e
|t
oss
| =
b
1
s
b
1
=
0.08801
0.01489
= 5.9107
`e maggiore di t
n2
α/2
= t
23
0.025
= 2.069, si rifiuta l’ipotesi nulla a livello 0.05 e, quindi,
si conclude che c’`e evidenza di un effetto dell’et`a degli immobili sulla loro quotazione
media al mq. Stessa conclusione naturalmente si ottiene tramite il p-value, dato da
2P (T |t
oss
||H
0
) = 2P (T 5.9107|H
0
) 0 < 0.05, per cui si rifiuta l’ipotesi nulla al
livello fissato 0.05.
4. PREVISIONE PUNTUALE E INTERVALLI DI PREVISIONE.
Come detto nell’introduzione, tra gli obiettivi dell’analisi di un modello di regres-
sione lineare semplice c’`e quello previsivo; si cerca cio`e di attribuire alla variabile
dipendente Y o alla sua media un valore (o un intervallo di valori), usando i valori
della variabile esplicativa x. Si parla di previsione, o anche di stima, di Y o della sua
media.
Possiamo distinguere due diversi problemi di previsione. Un primo problema con-
siste nel prevedere/stimare la media di Y in corrispondenza ad un determinato valore
x
0
di x; in altri termini, si tratta di prevedere/stimare, sulla base del modello di re-
gressione stimato tramite il campione, il valor medio di Y sulle unit`a della popolazione
per le quali x ha un certo valore x
0
. Un secondo problema riguarda la previsione di
Y , sempre basata sul modello stimato attraverso il campione, su una singola unit`a
per la quale x ha un valore fissato x
0
. Con riferimento all’esempio relativo alle quo-
tazioni degli immobili, il primo problema descritto consiste nel prevedere/stimare la
quotazione media degli immobili della citt`a in esame che hanno una certa et`a, ad
13
esempio 10 anni, mentre il secondo problema riguarda la previsione/stima della quo-
tazione di un singolo immobile con et`a 10 anni. E’ evidente che si tratta di problemi
diversi ed `e altrettanto evidente che la seconda previsione risulta pi`u incerta; infatti,
la variabilit`a attorno alla media di Y `e certamente inferiore rispetto alla variabilit`a
attorno ad un singolo valore di Y . D’altra parte, a livello di previsione puntuale
(cio`e singolo valore che ambisce a prevedere/stimare Y o E(Y )) non c’`e alcuna dif-
ferenza. Riprendiamo l’equazione del modello stimato relativo all’esempio degli im-
mobili: ˆy = 6.45183 0.08801x. Poich`e questa equazione `e una stima dell’equazione
teorica E(Y ) = β
0
+ β
1
x, la stima/previsione di E(Y ) in corrispondenza a x = x
0
= 10
si ottiene semplicemente sostituendo 10 alla x nell’equazione del modello stimato. La
previsione cercata `e dunque ˆy
0
= 6.451830.08801x
0
= 6.451830.08801·10 = 5.5717;
questo valore rappresenta dunque la previsione/stima della quotazione media degli im-
mobili della citt`a che hanno 10 anni di et`a. Per prevedere invece la quotazione di
un singolo immobile di 10 anni, osserviamo che Y = (β
0
+ β
1
x) + ε e che, quindi,
la previsione di Y si pu`o ottenere come somma della previsione di E(Y ) e di quella
di ε; quest’ultima per`o, per le sue caratteristiche, non pu`o essere che 0. Dunque, la
previsione puntuale di Y e quella di E(Y ), pur avendo significati diversi, numerica-
mente coincidono. Nel caso dell’esempio, in corrispondenza a x = x
0
= 10, sono pari a
ˆy
0
= 5.5717.
Come detto, i livelli di incertezza connessi con i due tipi di previsione sono per`o
nettamente diversi; molto pi`u alta l’incertezza (ovvero la variabilit`a) connessa con la
previsione di Y rispetto a quella relativa alla previsione di E(Y ). Questa differenza
si esprime in standard error diversi associati alle previsioni/stime e, quindi, in diversi
intervalli di previsione (vengono chiamati intervalli di previsione gli intervalli di confi-
denza associati alle previsioni). Di seguito vengono riportati gli intervalli di previsione,
14

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

Previsione Puntuale e Intervalli di Previsione

Sempre con riferimento all'esempio relativo alla quotazione degli immobili, conside- riamo il test (a livello 0.05) per valutare la significatività dell'effetto dell'età sulla quo- tazione media degli immobili, relativo cioè alle ipotesi Ho : 31 - 0 contro H1 : 31 + 0. Poichè -0.08801 = 5.9107 Hasst = = 0.01489 è maggiore di JA-2 = +23 $0.025 = 2.069, si rifiuta l'ipotesi nulla a livello 0.05 e, quindi, €/2 si conclude che c'è evidenza di un effetto dell'età degli immobili sulla loro quotazione media al mq. Stessa conclusione naturalmente si ottiene tramite il p-value, dato da 2P(I > toss|He) - 2P(T ≥ 5.9107|He) ~ 0 < 0.05, per cui si rifiuta l'ipotesi nulla al livello fissato 0.05,

Obiettivi dell'Analisi di Regressione Lineare Semplice

Come detto nell'introduzione, tra gli obiettivi dell'analisi di un modello di regres- sione lineare semplice c'è quello previsivo; si cerca cioè di attribuire alla variabile dipendente Y o alla sua media un valore (o un intervallo di valori), usando i valori della variabile esplicativa x. Si parla di previsione, o anche di stima, di Y o della sua media.

Problemi di Previsione

Possiamo distinguere due diversi problemi di previsione. Un primo problema con- siste nel prevedere stimare la media di Y in corrispondenza ad un determinato valore To di x; in altri termini, si tratta di prevedere/stimare, sulla base del modello di re- gressione stimato tramite il campione, il valor medio di Y sulle unità della popolazione per le quali x ha un certo valore x0. Un secondo problema riguarda la previsione di Y, sempre basata sul modello stimato attraverso il campione, su una singola unità per la quale x ha un valore fissato x0. Con riferimento all'esempio relativo alle quo- tazioni degli immobili, il primo problema descritto consiste nel prevedere/stimare la quotazione media degli immobili della città in esame che hanno una certa età, ad 13esempio 10 anni, mentre il secondo problema riguarda la previsione/stima della quo- tazione di un singolo immobile con età 10 anni. E' evidente che si tratta di problemi diversi ed è altrettanto evidente che la seconda previsione risulta più incerta; infatti, la variabilità attorno alla media di Y è certamente inferiore rispetto alla variabilità attorno ad un singolo valore di Y. D'altra parte, a livello di previsione puntuale (cioè singolo valore che ambisce a prevedere/stimare Y o E(Y)) non c'è alcuna dif- ferenza. Riprendiamo l'equazione del modello stimato relativo all'esempio degli im- mobili: 9 = 6.45183 - 0.08801x. Poichè questa equazione è una stima dell'equazione teorica E(Y) = Bo + B1x, la stima/previsione di E(Y) in corrispondenza a x = x0 = 10 si ottiene semplicemente sostituendo 10 alla x nell'equazione del modello stimato. La previsione cercata è dunque yo = 6.45183-0.08801xo = 6.45183-0.08801 . 10 = 5.5717; questo valore rappresenta dunque la previsione/stima della quotazione media degli im- mobili della città che hanno 10 anni di età. Per prevedere invece la quotazione di un singolo immobile di 10 anni, osserviamo che Y = (30 + B1x) + & e che, quindi, la previsione di Y si può ottenere come somma della previsione di E(Y) e di quella di e; quest'ultima però, per le sue caratteristiche, non può essere che 0. Dunque, la previsione puntuale di Y e quella di E(Y), pur avendo significati diversi, numerica- mente coincidono. Nel caso dell'esempio, in corrispondenza a x = x0 = 10, sono pari a yo = 5.5717.

Incertezza e Intervalli di Previsione

Come detto, i livelli di incertezza connessi con i due tipi di previsione sono però nettamente diversi; molto più alta l'incertezza (ovvero la variabilità) connessa con la previsione di Y rispetto a quella relativa alla previsione di E(Y). Questa differenza si esprime in standard error diversi associati alle previsioni/stime e, quindi, in diversi intervalli di previsione (vengono chiamati intervalli di previsione gli intervalli di confi- denza associati alle previsioni). Di seguito vengono riportati gli intervalli di previsione, 14di livello 1 - a, per i due casi:

  • INTERVALLO DI PREVISIONE PER E(Y) in corrispondenza a x = x0: (90 -to-2sev fn-2 1 + (x0-x)2 1 + (x0-x)2 Σ(xi-x)2 n n E(x-x)2, 90 + tn-2 a/2 - Se
  • INTERVALLO DI PREVISIONE PER Y in corrispondenza a x = x0: (yo - ta-se 1+n+ E(x ;- )2, 90 +12Se1++ (x0-₴)2 E(xi-x)2 2 Negli intervalli, come indicato sopra, yo rappresenta la previsione puntuale corrispon- dente al valore xo di x, mentre le altre quantità coinvolte nell'intervallo sono già state descritte in precedenza.

Osservazioni sugli Intervalli di Previsione

Con riferimento agli intervalli riportati sopra possiamo osservare quanto segue; si ri- cordi che, per un qualunque intervallo di confidenza, la minore lunghezza dell'intervallo indica maggiore precisione.

  • l'intervallo di previsione per la media ha, a parità di altre condizioni, sempre lunghezza inferiore rispetto all'intervallo per la singola unità; questo, come detto sopra, è legato alla maggiore variabilità (quindi standard error maggiore) con- nessa con la previsione di una singola unità;
  • la lunghezza di entrambi gli intervalli si riduce al crescere di E(x ;- )2, a parità di altre condizioni; questo significa che una maggiore variabilità di x nei dati disponibili nel campione fornisce più informazioni sul legame tra x e Y e, quindi, rende più precise le stime/previsioni;
  • la lunghezza di ciascuno dei due intervalli aumenta al crescere della distanza di xo da ã; si hanno cioè stime/previsioni più precise in corrispondenza a valori della variabile indipendente posti al "centro" dei valori disponibili nel campione.

Considerazioni sull'Estrapolazione

15Per concludere, osserviamo che non è opportuno prevedere/stimare Y in corrispondenza a valori di x che sono al di fuori del range di valori rilevati nel campione; in sostanza, non è opportuno estrapolare la retta di regressione al di fuori dei dati usati per la stima. Infatti, può accadere che un modello lineare (cioè una retta) descriva bene la relazione tra E(Y) e x in un certo intervallo di valori di x, ma sia del tutto inappropriata per descrivere tale relazione al di fuori di questo intervallo. Prolungando la retta oltre questo intervallo e usandola per prevedere Y per valori non compresi nell'intervallo si otterrebbero quindi previsioni totalmente inattendibili.

Esempio di Intervalli di Previsione per Quotazioni Immobiliari

Con riferimento al solito esempio sulle quotazioni degli immobili, determiniamo gli intervalli, al 95%, per la previsione della quotazione media degli immobili di 10 anni di età e per la previsione della quotazione di un immobile di 10 anni; a questo proposito, si riportano le seguenti sintesi campionarie: >(xi-x)2 =5110; x= 20; min(x) =2 max(x) =50 Gli intervalli sono:

  • INTERVALLO DI PREVISIONE PER la quotazione media degli immobili di 10 anni di età: 5.5717 - 2.069 . 1.0646 V 1 (10-20)2 25 5110 5.5717 + 2.069 . 1.06461 1 1 25 + (10-20)2 5110 = (5.0342, 6.1092)
  • INTERVALLO DI PREVISIONE PER la quotazione di un immobile di 10 anni: 5.5717 - 2.069 . 1.06461/1 + + 5110 (10-20)2 , 5.5717 + 2.069 . 1.06461/1 + 2 + 5110 (10-20)2 = ( (3.3048, 7.8386) Si noti che xo = 10 è un valore interno al range di valori di x osservati nel campione, per cui la previsione richiesta è ammissibile.

Uso del Software R nella Regressione Lineare Semplice

16USO DEL SOFTWARE R NELLA REGRESSIONE LINEARE SEMPLICE La funzione fondamentale di R per il modello di regressione lineare semplice (ed anche, come vedremo, per il modello di regressione lineare multipla) è lm (lm sta per linear model). Attraverso questa funzione, che richiede come argomenti la variabile dipendente Y e quella esplicativa x (non precedute dal nome del dataframe), separate dal simbolo ~, con l'opzione "data=nome dataframe" si crea un oggetto che contiene tutti i risultati necessari all'analisi del modello (le stime dei parametri, gli standard error corrispondenti, il valore osservato della statistica test necessaria per la verifica della significatività dell'effetto, ecc). La funzione summary, applicata all'oggetto creato, include la maggior parte dei risultati dell'analisi (non tutti, come vedremo).

Esempio di Analisi con R: Dataset CINE

Consideriamo, a titolo di esempio, il dataset CINE (file CINEMA.Rdata), contenente informazioni su un campione di 61 film degli ultimi 30 anni; proponiamoci di studiare, nell'ambito della popolazione di tutti i film degli ultimi 30 anni (di cui questo insieme di film rappresenta un campione), la dipendenza dell'incasso globale dal budget. Di seguito sono riportati i comandi e gli output relativi a questa analisi.

> Is ( )
[1] "CINE"
> str (CINE)
'data . frame' :
61 obs. of 9 variables :
$ titolo : Factor w/ 62 levels "2 FAST 2 FURIOUS
truncated , . . : 1 2 3 4 5 6 7 8 9 10 ...
$
anno
: num
2003 2002 1992 2001 2003
$ incasso: num
127 117 141 145 104 107 134 213 118 251 ...
budget
num
76 41 33 30 55 30 75 63 49 35 .
. .
$ paese
:
Factor w/ 2 levels "NO US", "US": 2 2 2 2 2 2 2 2 2 2.
$ premi
: num
3 9 7 6 3 4 2 5 4 7 ...
$ voti
:
num
7431 15012 22416 19474 10591
$ critica: num
6765547588 ..
$ genere : Factor w/ 4 levels "AZIONE", "COMMEDIA",
. . : 1 4 4 2 2 2 2
241
> modello <- lm (incasso~budget, data=CINE)
> summary (modello)Call:
Im (formula = incasso ~ budget, data=CINE)
Residuals:
Min
1Q
Median
30
Max
-143.82
-51.00
-26.81
36.46
318.09
Coefficients :
Estimate Std. Error t value Pr (> | t | )
(Intercept)
115.6295
19.4182
5.955 1.54e-07
***
budget
0.8364
0.2564
3.263 0.00184
*
Signif. codes: 0 **** / 0.001 *** / 0.01 / 0.05 . 0.1 \/ 1
Residual standard error: 84.88 on 59 degrees of freedom
Multiple R-squared: 0.1528,
Adjusted R-squared: 0.1385
F-statistic: 10.64 on 1 and 59 DF,
p-value: 0.001838
> confint ( modello)
2.5 %
97.5 %
(Intercept) 76.7737404 154.485294
budget
0.3234185
1.349394
> confint (modello, level=0. 99)
0.5 %
99.5 %
(Intercept)
63.9428890 167.316145
budget
0.1540211
1.518791
> anova (modello)
Analysis of Variance Table
Response: incasso
Df Sum Sq Mean Sq F value
Pr ( >F )
budget
1
76687
76687
10.644 0.001838
* *
Residuals 59 425068
7205
Signif. codes: 0 **** / 0.001 *** / 0.01 */ 0.05 . 0.1 1/ 1

Risultati dell'Analisi con la Funzione lm

Attraverso la funzione lm, è stato creato un oggetto, che abbiamo chiamato modello, che contiene i risultati dell'analisi. Il comando summary(modello) fornisce, come detto, un parte di questi risultati. In particolare, sulle righe "Intercept" e "budget" sono riportati, nell'ordine, le stime, gli standard error, i valori osservati delle statistiche test ed i p-value per i test bilaterali sui due coefficienti - come detto noi siamo interessati essenzialmente al test sul coefficiente

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.