Analisi di regressione lineare semplice: devianza totale e indice R2

Documento sull'analisi di regressione lineare semplice, focalizzandosi sulla scomposizione della devianza totale e l'indice R2. Il Pdf, adatto per l'Università in Economia, spiega la stima della varianza degli errori e la verifica di ipotesi sui coefficienti di regressione, includendo previsione puntuale e intervalli.

Mostra di più

8 pagine

le cui espressioni sono:
b
1
=
P
n
i=1
(x
i
¯x) · (y
i
¯y)
P
n
i=1
(x
i
¯x)
2
=
s
XY
s
2
X
= r
s
Y
s
X
;
b
0
= ¯y b
1
¯x.
Nelle espressioni (equivalenti) di b
1
, le quantit`a s
XY
, r, s
X
e s
Y
sono la covarianza e
il coefficiente di correlazione lineare delle x
i
e y
i
e le loro deviazioni standard, tutte
rilevate ovviamente nel campione. Determinate le stime, si pu`o scrivere l’equazione
stimata, data da
ˆy = b
0
+ b
1
x.
I calcoli per ottenere le stime, a partire dai dati grezzi di un campione, sono piuttosto
lunghi; un qualunque software statistico, in particolare R, fornisce le stime nell’output
della regressione, come vedremo. Con riferimento all’esempio introdotto in precedenza,
relativo ad un campione di 25 immobili, le stime risultano essere: b
0
= 6.45183 e
b
1
= 0.08801, per cui l’equazione di regressione (stimata) e` yˆ = 6.45183 0.08801x.
L’equazione stimata permette di interpretare l’effetto (ammesso che questo sia significa-
tivo, cosa che valuteremo pi`u avanti attraverso un test) di x sulla media di Y (infatti,
l’equazione yˆ = b
0
+ b
1
x rappresenta una stima dell’equazione E(Y ) = β
0
+ β
1
x):
b
1
`e la stima dell’incremento medio di Y associato ad un incremento unitario di
x. Nell’esempio, possiamo dire che ad un anno in piu` di et`a di un immobile `e
associata, in media, una riduzione (stimata) della sua quotazione al metro quadrato
pari a 0.08801 migliaia di euro (si ha infatti un incremento negativo, quindi una
riduzione).
2. CAPACITA’ ESPLICATIVA DELLA RETTA DI REGRESSIONE: SCOMPO-
SIZIONE DELLA DEVIANZA TOTALE E INDICE R
2
.
6
Come detto all’inizio, uno degli obiettivi dell’analisi di regressione `e ”spiegare”
la variabilit`a di Y tramite x. Nell’esempio in esame, constatato che (ovviamente)
le quotazioni degli immobili variano nella citt`a, ci si chiede se un contributo a tale
variazione sia dato dall’et`a. In altri termini, ci si chiede se le quotazioni degli immobili
sono diverse ”anche perch`e” sono diverse le loro et`a. Si parla, in relazione a questo
aspetto, di capacit`a esplicativa del modello (o della retta) di regressione; possiamo
chiederci: quanta della variabilit`a di Y `e ”spiegata” da x? Il punto di partenza per
ottenere una misura di tale capacit`a esplicativa `e la seguente uguaglianza, nota come
scomposizione della devianza totale:
n
X
i=1
(y
i
¯y)
2
=
n
X
i=1
(y
i
ˆy
i
)
2
+
n
X
i=1
(ˆy
i
¯y)
2
.
La prima delle quantit`a presenti nella formula (ovvero
P
n
i=1
(y
i
¯y)
2
), chiamata
devianza totale (DEV.TOT.), rappresenta l’entit`a della variabilit`a complessiva
delle y
i
osservate nel campione (si tratta in effetti del numeratore della varianza
campionaria).
La seconda quantit`a,
P
n
i=1
(y
i
ˆy
i
)
2
, detta devianza residua (DEV.RES.), o de-
vianza non spiegata, `e ottenuta considerando gli scarti dei valori di Y osservati da
quelli ”previsti” ˆy
i
, posizionati sulla retta; in altri termini, per ogni i = 1, 2, . . . , n,
ˆy
i
= b
0
+ b
1
x
i
. In sostanza, la devianza residua misura l’incertezza associata al
modello, ovvero la variabilit`a delle y
i
dovuta al fatto che il modello non descrive
i dati in modo esatto; in altri termini, `e la variabilit`a delle y
i
attorno alla retta
di regressione.
L’ultima somma presente nell’equazione, chiamata devianza spiegata (DEV.SP.),
rappresenta la variabilit`a di Y che dipende dall’effetto di x nell’ambito del modello
considerato, dipende cio`e dal coefficiente angolare della retta di regressione. In
7

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

Le espressioni e le stime

le cui espressioni sono: I" -1(#-#) - (H) -5) ៛XY SY b = n 2 = = r 2 s X SX ; bo -y - bit. Nelle espressioni (equivalenti) di b1, le quantità sxy, r, sy e sy sono la covarianza e il coefficiente di correlazione lineare delle x, e y, e le loro deviazioni standard, tutte rilevate ovviamente nel campione. Determinate le stime, si può scrivere l'equazione stimata, data da y - bo + b.x. I calcoli per ottenere le stime, a partire dai dati grezzi di un campione, sono piuttosto lunghi; un qualunque software statistico, in particolare R, fornisce le stime nell'output della regressione, come vedremo. Con riferimento all'esempio introdotto in precedenza, relativo ad un campione di 25 immobili, le stime risultano essere: bo = 6.45183 e b4 - - 0.08801, per cui l'equazione di regressione (stimata) è û - 6.45183 - 0.08801x. L'equazione stimata permette di interpretare l'effetto (ammesso che questo sia significa- tivo, cosa che valuteremo più avanti attraverso un test) di x sulla media di Y (infatti, l'equazione ? - b + bx rappresenta una stima dell'equazione E(Y) - 30 + 34x): b1 `è la stima dell'incremento medio di Y associato ad un incremento unitario di €. Nell'esempio, possiamo dire che ad un anno in più' di et'a di un immobile 'e associata, in media, una riduzione (stimata) della sua quotazione al metro quadrato pari a 0.08801 migliaia di euro (si ha infatti un incremento negativo, quindi una riduzione)-

CAPACITA' ESPLICATIVA DELLA RETTA DI REGRESSIONE: SCOMPOSIZIONE DELLA DEVIANZA TOTALE E INDICE R2

6Come detto all'inizio, uno degli obiettivi dell'analisi di regressione è "spiegare' la variabilità di Y tramite x. Nell'esempio in esame, constatato che (ovviamente) le quotazioni degli immobili variano nella città, ci si chiede se un contributo a tale variazione sia dato dall'età. In altri termini, ci si chiede se le quotazioni degli immobili sono diverse "anche perchè" sono diverse le loro età. Si parla, in relazione a questo aspetto, di capacità esplicativa del modello (o della retta) di regressione; possiamo chiederci: quanta della variabilità di Y è "spiegata" da x? Il punto di partenza per ottenere una misura di tale capacità esplicativa è la seguente uguaglianza, nota come scomposizione della devianza totale:

n n n yi-y)2 = (yi -yi)2 +> yi - y)2 . =1 i=1 2=

  • La prima delle quantità presenti nella formula (ovvero ;(yi - 7)2), chiamata devianza totale (DEV.TOT.), rappresenta l'entità della variabilità complessiva delle y¡ osservate nel campione (si tratta in effetti del numeratore della varianza campionaria).
  • La seconda quantità, Zi-1(yi - yi)2, detta devianza residua (DEV.RES.), o de- vianza non spiegata, è ottenuta considerando gli scarti dei valori di Y osservati da quelli "previsti" gi, posizionati sulla retta; in altri termini, per ogni i = 1, 2, ... , n, îi = bo + b1x ¿. In sostanza, la devianza residua misura l'incertezza associata al modello, ovvero la variabilità delle yi dovuta al fatto che il modello non descrive i dati in modo esatto; in altri termini, è la variabilità delle yi attorno alla retta di regressione.
  • L'ultima somma presente nell'equazione, chiamata devianza spiegata (DEV.SP.), rappresenta la variabilità di Y che dipende dall'effetto di x nell'ambito del modello considerato, dipende cioè dal coefficiente angolare della retta di regressione. In 7sostanza, questa parte di variabilità è legata al fatto che Y varia in quanto varia x. E' utile osservare che la devianza spiegata può anche essere scritta come DEV.SP .= b2_7-1(xi-x)2; questo modo diverso di esprimere la devianza spiegata mette in luce in modo chiaro il contributo della stima del coefficiente angolare.

Dalla descrizione fatta sopra, si capisce il significato della scomposizione: la variabilità complessiva di Y (la devianza totale) può essere scomposta in due parti:

  1. una prima parte che dipende dal fatto che il modello non descrive perfettamente la relazione tra x e Y; questa parte quindi non dipende dall'effetto di x, dunque è la parte "non spiegata" da x;
  2. una seconda parte che invece dipende dall'effetto di x, è cioè spiegata da x.

Per chiarire ulteriormente il significato della scomposizione della devianza totale, si considerino i due casi estremi. Se DEV.RES .= 0, ovvero la devianza residua è nulla (cioè l'intera variabilità di Y è spiegata da x), yi = yi per ogni i = 1,2, ... , n; quindi tutti i punti osservati nel campione giacciono sulla retta di regressione, per cui il modello descrive in modo "perfetto" la relazione tra x e Y. In altri termini, non c'è variabilità attorno alla retta. Se DEV.SP .= 0, ovvero la devianza spiegata è nulla, si ha yi = y; questo significa che la retta di regressione è orizzontale, quindi y (stima di E(Y)) non varia al variare di x. In altri termini, « non spiega nulla della variabilità di Y nell'ambito del modello considerato.

Coefficiente di determinazione R2

Usando la scomposizione della devianza totale è possibile definire un indicatore sintetico che misura la capacità esplicativa del modello. Tale indicatore è chiamato coefficiente di determinazione, è indicato con R2 ed è definito come segue:

R 2 ___ (gi- 7)2 DEV.SP. = i=1(yi-7)2 DEV.TOT. 8Il coefficiente di determinazione è quindi definito come rapporto tra la devianza spiegata e la devianza totale e, quindi, rappresenta la proporzione della variabilità totale di Y spiegata da x. E' quindi un indicatore della capacità esplicativa del modello (cioè della retta), ovvero un indicatore della capacità del modello di adattarsi ai dati campionari. Di seguito sono riportate alcune proprietà di questo indice (che per lo più seguono da quanto detto a proposito della scomposizione della devianza totale):

  • R2 assume valori nell'intervallo [0,1];
  • R2 = 1 se e solo se tutta la variabilità di Y è spiegata da x, ovvero la retta di regressione include tutti i punti rilevati nel campione;
  • R2 = 0 se e solo se l'intera variabilità di Y è non spiegata; la retta di regressione è orizzontale;
  • il modello si adatta tanto meglio ai dati (ovvero la capacità esplicativa del modello è tanto migliore) quanto più R2 è elevato;
  • R2 = r2 = (SXY/(sx · Sy))2, ovvero il coefficiente di determinazione coincide con il quadrato del coefficiente di correlazione lineare calcolato sui dati campionari Li e yi.

INTERVALLI DI CONFIDENZA E VERIFICA DI IPOTESI PER I COEFFICIENTI DELLA RETTA DI REGRESSIONE

Attraverso il metodo dei minimi quadrati, sulla base della realizzazione campionaria (x1,31), (x2,y2), ... , (In, yn), si ottengono come visto le stime bo e b1 dei parametri incogniti (coefficienti della retta di regressione "teorica") Bo e 31. Naturalmente tali stime sono le realizzazioni dei corrispondenti stimatori, che indicheremo con B0 e B1 e, come sempre, le proprietà delle stime dipendono dalle distribuzioni degli stimatori. Per 9ottenere queste distribuzioni è necessario aggiungere, alle ipotesi deboli (o standard) sul modello di regressione lineare semplice che abbiamo precisato in precedenza, la seguente ulteriore assunzione:

  • Ei ~ N(0,02) per ogni i = 1,2, ... , n.

Si noti che la nuova assunzione è solo quella di normalità degli errori; il fatto che gli errori abbiano valori attesi nulli e varianze uguali era già precisato dalle ipotesi deboli. Le ipotesi deboli con l'aggiunta di questa nuova assunzione costituiscono quelle che vengono talvolta chiamate ipotesi forti del modello di regressione lineare semplice; d'ora in poi assumeremo sempre la validità di tali ipotesi forti. Dall'assunzione precedente segue, per le proprietà della distribuzione normale, che Y; ~ N(Bo + B1Ci, 02) per ogni i = 1,2, ... ,n. Tornando agli stimatori Bo e B1, si può dimostrare che hanno (assumendo come detto le ipotesi forti) le seguenti distribuzioni:

BO~N 80, 02 1 x B1~N \B1, n xi-x)2 . n i=1 x¯) 2 i=1 Si osservi come i due stimatori siano non distorti (infatti, il valore atteso di B0 è proprio uguale al parametro da stimare 30, così come il valore atteso di B1 è uguale al parametro da stimare 31).

Intervallo di confidenza per il parametro 31

Ottenute le distribuzioni dei due stimatori di Bo e 31, possiamo ora costruire inter- valli di confidenza e test per tali parametri. Ci occupiamo solo del parametro 31, in quanto è ovviamente il più importante nel modello (è quello infatti che determina la relazione tra la variabile dipendente e la variabile esplicativa); in ogni caso, per Bo si segue esattamente la stessa procedura, con le modifiche legate alla diversa distribuzione del suo stimatore B0 precisata sopra. Determiniamo quindi l'intervallo di confidenza per 31. Per farlo, procediamo come sempre cercando un'opportuna "standardizzazione" di B1. Poichè la varianza Li=1(Xi-x)2 σ 2 10 σ 2 + n ¯ 2di B1 contiene una quantità incognita, la varianza degli errori o2, occorre in primo luogo stimare opportunamente quest'ultima. Riprendendo l'equazione del modello, possiamo scrivere, per ogni ¿ = 1, 2, ... , n, Ei = Yi- (Bo + B1;) = Yi- E(Yi); dunque, ogni &; può essere visto come differenza tra Ya e la sua media. Dal momento che E(Yi) = 30 + 31x; ha come stima yi = bo +b1x¿, una stima della varianza comune o2 di tutti gli ¿¡ è data da

Ei-1(yi -yi)2 S = 2 e n-2 . Indicheremo come al solito con S2 lo stimatore di o2 corrispondente a tale stima; il denominatore n - 2 serve a rendere non distorto lo stimatore. Tornando allo stimatore B1, possiamo a questo punto stimarne la varianza El-1 (xi-x ) 2 -2 mediante la stima su = Li- (x ;- )2 e, dunque, "standardizzare" B1 come segue:

se T = . B1 - B1 Sb1 In analogia a quanto si è visto in altre situazioni, si può dimostrare che la variabile aleatoria T ha distribuzione t di Student, con n - 2 gradi di libertà. Usando questa distribuzione e procedendo come fatto per tutti gli altri intervalli di confidenza, si ottiene l'intervallo di confidenza, a livello 1 - a, per il parametro incognito 31:

(b1-tm-2sb1, b1++™-2sb1). La struttura dell'intervallo è la solita: (stima-ME, stima+ME), dove il margine di er- rore ME è il prodotto di un quantile per lo standard error della stima, che in questo caso è Sb1 = Vs2/ Li-1 (C; - )2. Ovviamente anche l'interpretazione è la solita, in termini di "fiducia" nell'appartenenza del parametro incognito all'intervallo (o equivalente- mente in termini "frequentisti", come visto a suo tempo). Ad esempio, riprendendo l'analisi della dipendenza della quotazione di un immobile dalla sua età, si ottiene per 11

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.