Documento sull'analisi di regressione lineare semplice, focalizzandosi sulla scomposizione della devianza totale e l'indice R2. Il Pdf, adatto per l'Università in Economia, spiega la stima della varianza degli errori e la verifica di ipotesi sui coefficienti di regressione, includendo previsione puntuale e intervalli.
Mostra di più8 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
le cui espressioni sono: I" -1(#-#) - (H) -5) ៛XY SY b = n 2 = = r 2 s X SX ; bo -y - bit. Nelle espressioni (equivalenti) di b1, le quantità sxy, r, sy e sy sono la covarianza e il coefficiente di correlazione lineare delle x, e y, e le loro deviazioni standard, tutte rilevate ovviamente nel campione. Determinate le stime, si può scrivere l'equazione stimata, data da y - bo + b.x. I calcoli per ottenere le stime, a partire dai dati grezzi di un campione, sono piuttosto lunghi; un qualunque software statistico, in particolare R, fornisce le stime nell'output della regressione, come vedremo. Con riferimento all'esempio introdotto in precedenza, relativo ad un campione di 25 immobili, le stime risultano essere: bo = 6.45183 e b4 - - 0.08801, per cui l'equazione di regressione (stimata) è û - 6.45183 - 0.08801x. L'equazione stimata permette di interpretare l'effetto (ammesso che questo sia significa- tivo, cosa che valuteremo più avanti attraverso un test) di x sulla media di Y (infatti, l'equazione ? - b + bx rappresenta una stima dell'equazione E(Y) - 30 + 34x): b1 `è la stima dell'incremento medio di Y associato ad un incremento unitario di €. Nell'esempio, possiamo dire che ad un anno in più' di et'a di un immobile 'e associata, in media, una riduzione (stimata) della sua quotazione al metro quadrato pari a 0.08801 migliaia di euro (si ha infatti un incremento negativo, quindi una riduzione)-
6Come detto all'inizio, uno degli obiettivi dell'analisi di regressione è "spiegare' la variabilità di Y tramite x. Nell'esempio in esame, constatato che (ovviamente) le quotazioni degli immobili variano nella città, ci si chiede se un contributo a tale variazione sia dato dall'età. In altri termini, ci si chiede se le quotazioni degli immobili sono diverse "anche perchè" sono diverse le loro età. Si parla, in relazione a questo aspetto, di capacità esplicativa del modello (o della retta) di regressione; possiamo chiederci: quanta della variabilità di Y è "spiegata" da x? Il punto di partenza per ottenere una misura di tale capacità esplicativa è la seguente uguaglianza, nota come scomposizione della devianza totale:
n n n yi-y)2 = (yi -yi)2 +> yi - y)2 . =1 i=1 2=
Dalla descrizione fatta sopra, si capisce il significato della scomposizione: la variabilità complessiva di Y (la devianza totale) può essere scomposta in due parti:
Per chiarire ulteriormente il significato della scomposizione della devianza totale, si considerino i due casi estremi. Se DEV.RES .= 0, ovvero la devianza residua è nulla (cioè l'intera variabilità di Y è spiegata da x), yi = yi per ogni i = 1,2, ... , n; quindi tutti i punti osservati nel campione giacciono sulla retta di regressione, per cui il modello descrive in modo "perfetto" la relazione tra x e Y. In altri termini, non c'è variabilità attorno alla retta. Se DEV.SP .= 0, ovvero la devianza spiegata è nulla, si ha yi = y; questo significa che la retta di regressione è orizzontale, quindi y (stima di E(Y)) non varia al variare di x. In altri termini, « non spiega nulla della variabilità di Y nell'ambito del modello considerato.
Usando la scomposizione della devianza totale è possibile definire un indicatore sintetico che misura la capacità esplicativa del modello. Tale indicatore è chiamato coefficiente di determinazione, è indicato con R2 ed è definito come segue:
R 2 ___ (gi- 7)2 DEV.SP. = i=1(yi-7)2 DEV.TOT. 8Il coefficiente di determinazione è quindi definito come rapporto tra la devianza spiegata e la devianza totale e, quindi, rappresenta la proporzione della variabilità totale di Y spiegata da x. E' quindi un indicatore della capacità esplicativa del modello (cioè della retta), ovvero un indicatore della capacità del modello di adattarsi ai dati campionari. Di seguito sono riportate alcune proprietà di questo indice (che per lo più seguono da quanto detto a proposito della scomposizione della devianza totale):
Attraverso il metodo dei minimi quadrati, sulla base della realizzazione campionaria (x1,31), (x2,y2), ... , (In, yn), si ottengono come visto le stime bo e b1 dei parametri incogniti (coefficienti della retta di regressione "teorica") Bo e 31. Naturalmente tali stime sono le realizzazioni dei corrispondenti stimatori, che indicheremo con B0 e B1 e, come sempre, le proprietà delle stime dipendono dalle distribuzioni degli stimatori. Per 9ottenere queste distribuzioni è necessario aggiungere, alle ipotesi deboli (o standard) sul modello di regressione lineare semplice che abbiamo precisato in precedenza, la seguente ulteriore assunzione:
Si noti che la nuova assunzione è solo quella di normalità degli errori; il fatto che gli errori abbiano valori attesi nulli e varianze uguali era già precisato dalle ipotesi deboli. Le ipotesi deboli con l'aggiunta di questa nuova assunzione costituiscono quelle che vengono talvolta chiamate ipotesi forti del modello di regressione lineare semplice; d'ora in poi assumeremo sempre la validità di tali ipotesi forti. Dall'assunzione precedente segue, per le proprietà della distribuzione normale, che Y; ~ N(Bo + B1Ci, 02) per ogni i = 1,2, ... ,n. Tornando agli stimatori Bo e B1, si può dimostrare che hanno (assumendo come detto le ipotesi forti) le seguenti distribuzioni:
BO~N 80, 02 1 x B1~N \B1, n xi-x)2 . n i=1 x¯) 2 i=1 Si osservi come i due stimatori siano non distorti (infatti, il valore atteso di B0 è proprio uguale al parametro da stimare 30, così come il valore atteso di B1 è uguale al parametro da stimare 31).
Ottenute le distribuzioni dei due stimatori di Bo e 31, possiamo ora costruire inter- valli di confidenza e test per tali parametri. Ci occupiamo solo del parametro 31, in quanto è ovviamente il più importante nel modello (è quello infatti che determina la relazione tra la variabile dipendente e la variabile esplicativa); in ogni caso, per Bo si segue esattamente la stessa procedura, con le modifiche legate alla diversa distribuzione del suo stimatore B0 precisata sopra. Determiniamo quindi l'intervallo di confidenza per 31. Per farlo, procediamo come sempre cercando un'opportuna "standardizzazione" di B1. Poichè la varianza Li=1(Xi-x)2 σ 2 10 σ 2 + n ¯ 2di B1 contiene una quantità incognita, la varianza degli errori o2, occorre in primo luogo stimare opportunamente quest'ultima. Riprendendo l'equazione del modello, possiamo scrivere, per ogni ¿ = 1, 2, ... , n, Ei = Yi- (Bo + B1;) = Yi- E(Yi); dunque, ogni &; può essere visto come differenza tra Ya e la sua media. Dal momento che E(Yi) = 30 + 31x; ha come stima yi = bo +b1x¿, una stima della varianza comune o2 di tutti gli ¿¡ è data da
Ei-1(yi -yi)2 S = 2 e n-2 . Indicheremo come al solito con S2 lo stimatore di o2 corrispondente a tale stima; il denominatore n - 2 serve a rendere non distorto lo stimatore. Tornando allo stimatore B1, possiamo a questo punto stimarne la varianza El-1 (xi-x ) 2 -2 mediante la stima su = Li- (x ;- )2 e, dunque, "standardizzare" B1 come segue:
se T = . B1 - B1 Sb1 In analogia a quanto si è visto in altre situazioni, si può dimostrare che la variabile aleatoria T ha distribuzione t di Student, con n - 2 gradi di libertà. Usando questa distribuzione e procedendo come fatto per tutti gli altri intervalli di confidenza, si ottiene l'intervallo di confidenza, a livello 1 - a, per il parametro incognito 31:
(b1-tm-2sb1, b1++™-2sb1). La struttura dell'intervallo è la solita: (stima-ME, stima+ME), dove il margine di er- rore ME è il prodotto di un quantile per lo standard error della stima, che in questo caso è Sb1 = Vs2/ Li-1 (C; - )2. Ovviamente anche l'interpretazione è la solita, in termini di "fiducia" nell'appartenenza del parametro incognito all'intervallo (o equivalente- mente in termini "frequentisti", come visto a suo tempo). Ad esempio, riprendendo l'analisi della dipendenza della quotazione di un immobile dalla sua età, si ottiene per 11