Slide dall'Università degli Studi di Perugia su relazione tra caratteri, regressione e correlazione. Il Pdf, utile per lo studio della statistica sociale a livello universitario, include esempi di calcolo e grafici a dispersione per illustrare i concetti.
Mostra di più10 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Corso di Laurea in Scienze per l'Investigazione e la Sicurezza
Prof. Maurizio Pertichetti Statistica sociale
Come si è detto, nell'analisi dei dati si è sempre più interessati a studiare se tra due o più caratteri, congiuntamente considerati sulle unità statistiche di una popolazione, vi possa essere una qualche relazione ed eventualmente quale ne possa essere la misura. Ed anche che una particolare attenzione è posta nello studio sull'esistenza di forme di dipendenza (o indipendenza) attraverso l'esplicitazione di una funzione analitica. Anche qui si limiterà l'analisi alle relazioni tra due soli caratteri. In termini assai sintetici, la correlazione informa se esiste una relazione tra le due variabili quantitative (come e quanto variano insieme), la regressione da indicazione sulla forma della loro relazione. Naturalmente il confronto tra le variabili potrà effettuarsi solo se tra di esse vi è un legame logico. Nell'analisi statistica per regressione si intende la ricerca di un modello appropriato atto a descrivere la relazione esistente tra una variabile dipendente e una o più variabili indipendenti o esplicative, tutte comunque di natura quantitativa. La scelta dell'una o dell'altra variabile come indipendente non è arbitraria ma legata alla natura del fenomeno, nel senso che si sceglie come indipendente la variabile che sia logicamente antecedente rispetto all'altra. Per effettuare una regressione si fa riferimento a modelli teorici di vario tipo: lineare, parabolico, esponenziale, logaritmico, etc. Per cui una volta accertata l'esistenza di una relazione tra due variabili, si deve cercare di trovare la funzione statistica, ovvero l'espressione analitica di tale relazione sotto forma di equazione che leghi fra loro le variabili. Per stabilire il tipo di legame tra le variabili è assai utili fare ricorso al diagramma in coordinate cartesiane, o a dispersione, o scatter plot, ossia alla rappresentazione delle n coppie di osservazioni sulle variabili attraverso una nuvola di punti.
y y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x x
y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x In generale una funzione statistica è rappresentata in termini grafici da una linea, in cui si assumono come variabili indipendenti le modalità del carattere X, poste sull'asse delle ascisse, e come variabili dipendenti le corrispondenti modalità di Y, poste sull'asse delle ordinate.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
Dall'analisi del diagramma a dispersione è spesso possibile avere una rappresentazione intuitiva del tipo di relazione e di conseguenza di quale modello teorico (lineare, parabolico, esponenziale, logaritmico, etc come detto) adottare. Con il termine interpolazione si intende il procedimento che consente di individuare la funzione matematica che passa per tutti i punti dati (x,y) o fra di essi, ovvero che approssima l'andamento di un insieme di punti. Il procedimento si attua sia in termini analitici che grafici:
Per attuare una corretta rappresentazione analitica tramite un procedimento di interpolazione, si deve:
Limiteremo l'analisi all'ipotesi in cui la relazione tra variabili (causa - effetto) sia di tipo lineare e pertanto che la funzione teorica atta a rappresentare tale relazione sia un'equazione di primo grado, ovvero che ad interpolare efficacemente la nuvola di punti sia una retta. La retta sarà detta retta di regressione e la sua equazione sarà chiamata equazione di regressione di Y su X. Posta in forma esplicita, la generica equazione canonica di primo grado in due incognite della retta di regressione è data, in questo caso, da y ;*= a+bx; , dove y ;* è il valore stimato di Y in corrispondenza dell'osservazione i di X e X¡ è il valore empirico di X per la stessa osservazione i. Ad ogni equazione di questo tipo, una volta assegnati i valori ad a e b, corrisponde una e una sola retta del piano cartesiano. Questi parametri cui devono essere associati numeri reali non contemporaneamente nulli rappresentano:
Yi yi *= a+bx;
a b
+ + o Xi
A seconda del valore assunto dal coefficiente b si desume l'associazione tra X e Y, infatti se:
b>0 b<0 b = 0 E' bene dire che l'eventuale assenza di una relazione lineare tra le variabili non implica come conseguenza la mancanza di un legame, ma solo che tra le stesse non vi è un legame lineare. Se dunque è una retta, retta di regressione, il modello più appropriato in grado di descrivere la relazione tra le variabili il problema che si pone è dunque quello di individuare la coppia di parametri a e b in grado di generare la migliore retta interpolante da utilizzare. Esistono diversi metodi per determinare i parametri di una funzione matematica in un procedimento di interpolazione, tuttavia quello più utilizzato è il metodo dei minimi quadrati che si definisce come quel metodo che consente di determinare valori dei parametri tali per cui la retta teorica che ne risulta ha la proprietà di rendere minima la somma dei quadrati degli scarti tra valori teorici e valori osservati . Immaginiamo di aver effettuato alcune osservazioni e di aver riportato i risultati sul un diagramma in coordinate cartesiane.
Y11
● Y8
● Y10
● Y12
● Y6
● ● Y5
● Y2
● Y4
● Y1
● + o ×1 ×2 ×3 X4 X5 X6 X7 X8 X9 X10 X11 X12 Ipotizzando l'esistenza di una relazione lineare, il problema, per descrivere tale relazione tra le variabili, è quello di individuare in maniera analitica la migliore retta interpolante.
● y
● ● ● ● ● ● ● ● ● ● ● o x
● ●
la retta, una volta trovata, diverrà la regolarità matematica che sostituirà, o meglio dire approssimerà, l'esperienza statistica, cosicché ciascuno dei valori yi delle osservazioni, ovvero della distribuzione empirica, in corrispondenza di ciascun valore di X¡ sarà sostituito da quello teorico y ;* del modello che verrà ad incrociarsi con la retta.
● y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● o x Avendo stabilito che per ciascun valore di Xi , i valori teorici sono dati dalle yi*, mentre i valori osservati sono dati dalle y; , e altresì che la funzione interpolatrice è Y *= f(x; a,b), quello dei minimi quadrati è il metodo che consente di determinare i valori dei parametri di quella retta teorica in grado di rendere la Σ (yi *- yi)2= min, ovvero di rendere minima la somma dei quadrati degli scarti (nel grafico che segue, dove ne sono stati presi due a caso come esempio, gli scarti sono quelli evidenziati in rosso) tra valori teorici e valori osservati.
Vi .- - - yj* Vi* Yi
● H o Xi Xj Date due variabili X e Y, se la funzione teorica è lineare, cioè del tipo Y* = a + bX , la teoria dimostra che i parametri a e b determinati con il metodo dei minimi quadrati corrispondono alle seguenti espressioni:
η ΣΧΥ-ΣΧΣΥ b = η ΣΧ2 - (ΣΧ)2 a = py-bux E si dimostra altresì che la retta dei minimi quadrati ha la caratteristica di passare per il baricentro della nuvola dei punti, baricentro che viene identificato dalle coordinate (Hy, Ix), ovvero le medie delle distribuzioni dei due caratteri.
●
x y xy X 4 1 4 16 7 3 21 49 Hx= 9,2 10 5 50 100 My= 4,6 11 6 66 121 14 8 112 196 46 23 253 482
b = η ΣΧΥ-ΣΧΣΥ η ΣΧ2 - (ΣΧ)2 = 5*253-46*23 207,0 = 0,7041 5*482-(46)2 253-(46*23)/5 = 253,0 - 211,6 41,4 = 0,7041 [x2-(Ex)2/n 482-(46)2/n 482,0 - 423,2 58,8
a = py-bux = 4,6-0,7041*9,2 = - 1,8776 Y* = a + bX Y* = - 1,8776 + 0,7041X
Verifica per accertare che la retta di regressione passi per il baricentro Y* = - 1,8776 + 0,7041X = - 1,8776 + 0,7041*9,2 = 4,6
Ulteriori espressioni per il calcolo del parametro b. x y xy x (Χ-μ) (Υ-μ) (Χ-μ)*(Υ-μ) (X-u)2 4 1 4 16 -5,2 -3,6 18,72 27,04 7 3 21 49 μx= 9,2 -2,2 -1,6 3,52 4,84 10 5 50 100 4,6 0,8 0,4 0,32 0,64 11 6 66 121 1,8 1,4 2,52 3,24 14 8 112 196 4,8 3,4 16,32 23,04 46 23 253 482 0,0 0,0 41,4 58,8
b = = 41,4000 = 0,7041 Σ(Χ-μ)2 58,8000 Cov (X,Y) Σ(ΧΥ)/n-(μγ*μγ) 253 / 5 - 9,20 * 4,60 8,280 = 0,7041 = Var (X) = ΣΧ2/n-(μχ)2 = = Una volta scelta la funzione da adattare alla distribuzione empirica e i relativi parametri, l'esigenza che si pone è quella di valutare il grado di affidabilità del modello. Si rende opportuno cioè misurare la dispersione dei dati osservati intorno alla retta prescelta. Tra i diversi indici elaborati vi è in particolare l'indice di determinazione lineare. Si tratta di un indice che esprime la bontà di accostamento della retta di regressione alla nuvola di punti osservati. In formula:
R2 = 1 - Σ (y- y* )2 0< R2<1 Σ (Υ- μγ )2 = 294,0 ΣΧΥ-Σxy/n oppure b = - = = Σ(Χ-μ)*(Υ-μ) b 482 / 5 - 84,64 11,760 2