Relazione tra caratteri, regressione e correlazione, Università di Perugia

Slide dall'Università degli Studi di Perugia su relazione tra caratteri, regressione e correlazione. Il Pdf, utile per lo studio della statistica sociale a livello universitario, include esempi di calcolo e grafici a dispersione per illustrare i concetti.

Mostra di più

10 pagine

Prof. Maurizio Pertichetti
LA REGRESSIONE E LA CORRELAZIONE
UNIVERSITA’ DEGLI STUDI DI PERUGIA
DIPARTIMENTO DI FILOSOFIA SCIENZE SOCIALI UMANE E DELLA FORMAZIONE
Corso di Laurea in Scienze per l'Investigazione e la Sicurezza
8. RELAZIONE TRA CARATTERI
Statistica sociale
y y
x x
y
x
8. RELAZIONE TRA CARATTERI: LA REGRESSIONE E LA CORRELAZIONE
La scelta dell'una o dell'altra variabile come indipendente non è arbitraria ma legata alla natura del fenomeno,
nel senso che si sceglie come indipendente la variabile che sia logicamente antecedente rispetto all'altra.
Nell'analisi statistica per regressione si intende la ricerca di un modello appropriato atto a descrivere la
relazione esistente tra una variabile dipendente e una o più variabili indipendenti o esplicative, tutte comunque
di natura quantitativa.
Per effettuare una regressione si fa riferimento a modelli teorici di vario tipo: lineare, parabolico, esponenziale,
logaritmico, etc. Per cui una volta accertata l'esistenza di una relazione tra due variabili, si deve cercare di
trovare la funzione statistica, ovvero l'espressione analitica di tale relazione sotto forma di equazione che leghi
fra loro le variabili.
Per stabilire il tipo di legame tra le variabili è assai utili fare ricorso al diagramma in coordinate cartesiane, o a
dispersione, o scatter plot, ossia alla rappresentazione delle n coppie di osservazioni sulle variabili attraverso
una nuvola di punti.
Come si è detto, nell'analisi dei dati si è sempre più interessati a studiare se tra due o più caratteri,
congiuntamente considerati sulle unità statistiche di una popolazione, vi possa essere una qualche relazione ed
eventualmente quale ne possa essere la misura. Ed anche che una particolare attenzione è posta nello studio
sull'esistenza di forme di dipendenza (o indipendenza) attraverso l'esplicitazione di una funzione analitica.
Anche qui si limiterà l'analisi alle relazioni tra due soli caratteri.
In generale una funzione statistica è rappresentata in termini grafici da una linea, in cui si assumono come
variabili indipendenti le modalità del carattere X, poste sull'asse delle ascisse, e come variabili dipendenti le
corrispondenti modalità di Y, poste sull'asse delle ordinate.
In termini assai sintetici, la correlazione informa se esiste una relazione tra le due variabili quantitative (come e
quanto variano insieme), la regressione da indicazione sulla forma della loro relazione. Naturalmente il
confronto tra le variabili potrà effettuarsi solo se tra di esse vi è un legame logico.

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

UNIVERSITA' DEGLI STUDI DI PERUGIA

DIPARTIMENTO DI FILOSOFIA SCIENZE SOCIALI UMANE E DELLA FORMAZIONE

Corso di Laurea in Scienze per l'Investigazione e la Sicurezza

RELAZIONE TRA CARATTERI

LA REGRESSIONE E LA CORRELAZIONE

Prof. Maurizio Pertichetti Statistica sociale

RELAZIONE TRA CARATTERI: LA REGRESSIONE E LA CORRELAZIONE

Come si è detto, nell'analisi dei dati si è sempre più interessati a studiare se tra due o più caratteri, congiuntamente considerati sulle unità statistiche di una popolazione, vi possa essere una qualche relazione ed eventualmente quale ne possa essere la misura. Ed anche che una particolare attenzione è posta nello studio sull'esistenza di forme di dipendenza (o indipendenza) attraverso l'esplicitazione di una funzione analitica. Anche qui si limiterà l'analisi alle relazioni tra due soli caratteri. In termini assai sintetici, la correlazione informa se esiste una relazione tra le due variabili quantitative (come e quanto variano insieme), la regressione da indicazione sulla forma della loro relazione. Naturalmente il confronto tra le variabili potrà effettuarsi solo se tra di esse vi è un legame logico. Nell'analisi statistica per regressione si intende la ricerca di un modello appropriato atto a descrivere la relazione esistente tra una variabile dipendente e una o più variabili indipendenti o esplicative, tutte comunque di natura quantitativa. La scelta dell'una o dell'altra variabile come indipendente non è arbitraria ma legata alla natura del fenomeno, nel senso che si sceglie come indipendente la variabile che sia logicamente antecedente rispetto all'altra. Per effettuare una regressione si fa riferimento a modelli teorici di vario tipo: lineare, parabolico, esponenziale, logaritmico, etc. Per cui una volta accertata l'esistenza di una relazione tra due variabili, si deve cercare di trovare la funzione statistica, ovvero l'espressione analitica di tale relazione sotto forma di equazione che leghi fra loro le variabili. Per stabilire il tipo di legame tra le variabili è assai utili fare ricorso al diagramma in coordinate cartesiane, o a dispersione, o scatter plot, ossia alla rappresentazione delle n coppie di osservazioni sulle variabili attraverso una nuvola di punti.

y y

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x x

y

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x In generale una funzione statistica è rappresentata in termini grafici da una linea, in cui si assumono come variabili indipendenti le modalità del carattere X, poste sull'asse delle ascisse, e come variabili dipendenti le corrispondenti modalità di Y, poste sull'asse delle ordinate.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

Analisi del Diagramma a Dispersione

Dall'analisi del diagramma a dispersione è spesso possibile avere una rappresentazione intuitiva del tipo di relazione e di conseguenza di quale modello teorico (lineare, parabolico, esponenziale, logaritmico, etc come detto) adottare. Con il termine interpolazione si intende il procedimento che consente di individuare la funzione matematica che passa per tutti i punti dati (x,y) o fra di essi, ovvero che approssima l'andamento di un insieme di punti. Il procedimento si attua sia in termini analitici che grafici:

  • la rappresentazione analitica è data da una funzione matematica che rappresenti nel modo migliore possibile la nuvola dei punti e quindi la distribuzione osservata del fenomeno;
  • la rappresentazione grafica consiste nel sostituire alla nuvola dei punti ovvero alla distribuzione osservata del fenomeno la curva teorica associata alla funzione matematica.

Per attuare una corretta rappresentazione analitica tramite un procedimento di interpolazione, si deve:

  • mutuare dalla matematica una funzione teorica, ovvero la legge matematica in grado di rappresentare la distribuzione empirica. Questa funzione teorica, una volta trovata, sostituirà nelle diverse applicazioni la legge statistica;
  • determinare il valore numerico dei parametri che compaiono nella funzione matematica;
  • verificare il grado di accostamento , o se vogliamo gli scarti tra i valori teorici ottenuti con la funzione matematica e i valori empirici osservati delle frequenze o delle intensità.

Limiteremo l'analisi all'ipotesi in cui la relazione tra variabili (causa - effetto) sia di tipo lineare e pertanto che la funzione teorica atta a rappresentare tale relazione sia un'equazione di primo grado, ovvero che ad interpolare efficacemente la nuvola di punti sia una retta. La retta sarà detta retta di regressione e la sua equazione sarà chiamata equazione di regressione di Y su X. Posta in forma esplicita, la generica equazione canonica di primo grado in due incognite della retta di regressione è data, in questo caso, da y ;*= a+bx; , dove y ;* è il valore stimato di Y in corrispondenza dell'osservazione i di X e X¡ è il valore empirico di X per la stessa osservazione i. Ad ogni equazione di questo tipo, una volta assegnati i valori ad a e b, corrisponde una e una sola retta del piano cartesiano. Questi parametri cui devono essere associati numeri reali non contemporaneamente nulli rappresentano:

  • a l'intercetta della retta sull'asse delle Y, ovvero il valore della Y quando X = 0 ;
  • b il coeficiente angolare della retta che indica la sua pendenza, ovvero l'angolo che essa forma con l'asse delle ascisse, e fornisce la quantità di cui varia Y al variare di una unità di X.

Yi yi *= a+bx;

a b

+ + o Xi

Coefficiente b e Associazione tra X e Y

A seconda del valore assunto dal coefficiente b si desume l'associazione tra X e Y, infatti se:

  • b > 0 , c'è concordanza, cioè al crescere di x anche y cresce. Vi è una correlazione lineare positiva;
  • b < 0, c'è discordanza, cioè mentre x cresce y diminuisce. Vi è una correlazione lineare negativa;
  • b = 0, non esiste legame lineare tra x e y.

b>0 b<0 b = 0 E' bene dire che l'eventuale assenza di una relazione lineare tra le variabili non implica come conseguenza la mancanza di un legame, ma solo che tra le stesse non vi è un legame lineare. Se dunque è una retta, retta di regressione, il modello più appropriato in grado di descrivere la relazione tra le variabili il problema che si pone è dunque quello di individuare la coppia di parametri a e b in grado di generare la migliore retta interpolante da utilizzare. Esistono diversi metodi per determinare i parametri di una funzione matematica in un procedimento di interpolazione, tuttavia quello più utilizzato è il metodo dei minimi quadrati che si definisce come quel metodo che consente di determinare valori dei parametri tali per cui la retta teorica che ne risulta ha la proprietà di rendere minima la somma dei quadrati degli scarti tra valori teorici e valori osservati . Immaginiamo di aver effettuato alcune osservazioni e di aver riportato i risultati sul un diagramma in coordinate cartesiane.

Y11

● Y8

● Y10

● Y12

● Y6

● ● Y5

● Y2

● Y4

● Y1

● + o ×1 ×2 ×3 X4 X5 X6 X7 X8 X9 X10 X11 X12 Ipotizzando l'esistenza di una relazione lineare, il problema, per descrivere tale relazione tra le variabili, è quello di individuare in maniera analitica la migliore retta interpolante.

● y

● ● ● ● ● ● ● ● ● ● ● o x

● ●

Regolarità Matematica e Valori Teorici

la retta, una volta trovata, diverrà la regolarità matematica che sostituirà, o meglio dire approssimerà, l'esperienza statistica, cosicché ciascuno dei valori yi delle osservazioni, ovvero della distribuzione empirica, in corrispondenza di ciascun valore di X¡ sarà sostituito da quello teorico y ;* del modello che verrà ad incrociarsi con la retta.

● y

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● o x Avendo stabilito che per ciascun valore di Xi , i valori teorici sono dati dalle yi*, mentre i valori osservati sono dati dalle y; , e altresì che la funzione interpolatrice è Y *= f(x; a,b), quello dei minimi quadrati è il metodo che consente di determinare i valori dei parametri di quella retta teorica in grado di rendere la Σ (yi *- yi)2= min, ovvero di rendere minima la somma dei quadrati degli scarti (nel grafico che segue, dove ne sono stati presi due a caso come esempio, gli scarti sono quelli evidenziati in rosso) tra valori teorici e valori osservati.

Vi .- - - yj* Vi* Yi

● H o Xi Xj Date due variabili X e Y, se la funzione teorica è lineare, cioè del tipo Y* = a + bX , la teoria dimostra che i parametri a e b determinati con il metodo dei minimi quadrati corrispondono alle seguenti espressioni:

η ΣΧΥ-ΣΧΣΥ b = η ΣΧ2 - (ΣΧ)2 a = py-bux E si dimostra altresì che la retta dei minimi quadrati ha la caratteristica di passare per il baricentro della nuvola dei punti, baricentro che viene identificato dalle coordinate (Hy, Ix), ovvero le medie delle distribuzioni dei due caratteri.

Esempio di Determinazione dell'Equazione Canonica

Retta di regressione di Y su X

x y xy X 4 1 4 16 7 3 21 49 Hx= 9,2 10 5 50 100 My= 4,6 11 6 66 121 14 8 112 196 46 23 253 482

b = η ΣΧΥ-ΣΧΣΥ η ΣΧ2 - (ΣΧ)2 = 5*253-46*23 207,0 = 0,7041 5*482-(46)2 253-(46*23)/5 = 253,0 - 211,6 41,4 = 0,7041 [x2-(Ex)2/n 482-(46)2/n 482,0 - 423,2 58,8

a = py-bux = 4,6-0,7041*9,2 = - 1,8776 Y* = a + bX Y* = - 1,8776 + 0,7041X

Verifica del Baricentro

Verifica per accertare che la retta di regressione passi per il baricentro Y* = - 1,8776 + 0,7041X = - 1,8776 + 0,7041*9,2 = 4,6

Ulteriori Espressioni per il Calcolo del Parametro b

Ulteriori espressioni per il calcolo del parametro b. x y xy x (Χ-μ) (Υ-μ) (Χ-μ)*(Υ-μ) (X-u)2 4 1 4 16 -5,2 -3,6 18,72 27,04 7 3 21 49 μx= 9,2 -2,2 -1,6 3,52 4,84 10 5 50 100 4,6 0,8 0,4 0,32 0,64 11 6 66 121 1,8 1,4 2,52 3,24 14 8 112 196 4,8 3,4 16,32 23,04 46 23 253 482 0,0 0,0 41,4 58,8

b = = 41,4000 = 0,7041 Σ(Χ-μ)2 58,8000 Cov (X,Y) Σ(ΧΥ)/n-(μγ*μγ) 253 / 5 - 9,20 * 4,60 8,280 = 0,7041 = Var (X) = ΣΧ2/n-(μχ)2 = = Una volta scelta la funzione da adattare alla distribuzione empirica e i relativi parametri, l'esigenza che si pone è quella di valutare il grado di affidabilità del modello. Si rende opportuno cioè misurare la dispersione dei dati osservati intorno alla retta prescelta. Tra i diversi indici elaborati vi è in particolare l'indice di determinazione lineare. Si tratta di un indice che esprime la bontà di accostamento della retta di regressione alla nuvola di punti osservati. In formula:

R2 = 1 - Σ (y- y* )2 0< R2<1 Σ (Υ- μγ )2 = 294,0 ΣΧΥ-Σxy/n oppure b = - = = Σ(Χ-μ)*(Υ-μ) b 482 / 5 - 84,64 11,760 2

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.