Documento di Università sulla Statistica Descrittiva Bivariata. Il Pdf, utile per lo studio della Matematica a livello universitario, esplora l'analisi congiunta di due caratteri, le tabelle di contingenza e le frequenze assolute e relative, con esempi pratici.
Mostra di più26 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Chiara Tommasi Molto spesso nella pratica due o più caratteri vengono rilevati congiuntamente (contemporaneamente) su n unità statistiche. In questo contesto l'obiettivo princi- pale della statistica è indagare gli eventuali legami tra i caratteri rilevati. In questo capitolo si considera solo il caso di due variabili (quantitative o categoriali) rileva- te sulle stesse unità statistiche, ma gli strumenti statistici descritti possono essere opportunamente estesi allo studio di più di due variabili.
Quando si studiano congiuntamente due caratteri il primo obiettivo è stabilire se esiste un qualche legame tra i due. A questo scopo in letteratura sono stati proposti svariati indici; nel Paragrafo 3 ci si limita a presentarne uno, l'indice X2 di Pearson normalizzato.
Appurato che esiste un legame tra le variabili studiate, vale la pena indagare di che tipo di legame si tratti. A questo scopo nel Paragrafo 5 si introducono il concetto di dipendenza in media e un indice che la misura.
Nel Paragrafo 8 si considera invece la dipendenza lineare tra due variabili quan- titative e si definisce il coefficiente di correlazione lineare atto a misurarla.
Tuttavia, come descritto nel capitolo precedente, prima di una qualsiasi analisi statistica è necessario operare una sintesi dei dati riclassificandoli in forma tabellare; è questo l'argomento trattato nel seguente paragrafo.
1 Tabelle di contingenza: frequenze assolute e rela- tive Siano X e Y due caratteri rilevati congiuntamente su n unità statistiche e sia {(x1,31), (x2,32), ... , (xi, yi), ... (In, yn)} la serie di dati grezzi ottenuti con questa rilevazione. Supponiamo che i caratteri X e Y si manifestino rispettivamente attraverso h e k modalità distinte: {x1, x2, ... , xh} e {y1, 32, ... , hk} e che alcune coppie di valori rilevati si ripetano, allora una prima sintesi delle informazioni contenute nei dati è la tabella di contingenza o tabella a doppia entrata:
La quantità nij è detta frequenza assoluta congiunta ed è il numero di unità statistiche che presentano la coppia di modalità (xi,yj), per i = 1, ... ,h e j=1, ... ,k.
Le frequenze riportate nell'ultima colonna ni. = Ej=i nij , con i = 1, ... ,h, sono dette frequenze marginali di X; ni. rappresenta il numero di unità statistiche che presentano modalità x¿ del carattere X.
Le frequenze riportate nell'ultima riga n.j = Sii nij , con j = 1, ... , k, sono dette frequenze marginali di Y; n.j rappresenta il numero di unità statistiche che pre- sentano modalità yj del carattere Y.
1Y X y1 . yj yk ni. X1 n11 ... n1j ... nik n1. : : ... : : Xi nil ... nij . . nik ni. : : : ... : Ih nh1 ... nhj . . nhk nh. n.j n.1 ... n.j n.k n Tabella 1: Tabella di contingenza h x k Ovviamente la somma delle frequenze assolute congiunte è pari alla somma delle frequense assolute marginali e al totale delle unità statistiche n, ossia h k h 52
Un esempio numerico chiarisce immediatamente i concetti di frequenza assoluta congiunta e marginale.
Esempio 1. Supponiamo che per uno studio sul mercato del lavoro si siano inter- vistati 20 lavoratori e si siano rilevati congiuntamente i caratteri "classe stipendiale" e "grado di istruzione", ottenendo la seguente serie di dati:
{(Bassa; Licenza media); (Bassa; Licenza media);(Bassa; Licenza media);(Media; Li- cenza media); (Alta; Licenza media);(Bassa; Licenza superiore);(Bassa; Licenza superio- re); (Media; Licenza superiore); (Media; Licenza superiore); (Media; Licenza superiore); (Media; Licenza superiore);(Alta; Licenza superiore); (Alta; Licenza superiore); (Alta; Licenza supe- riore);(Bassa; Laurea); (Media; Laurea); (Media; Laurea); (Alta; Laurea);(Alta; Laurea); (Alta; Laurea) } Il numero di modalità distinte del carattere X="classe stipendiale" è h = 3; il numero di modalità distinte del carattere Y ="grado di istruzione" è k = 3; la corrispondente tabella di contingenza 3 × 3 è
Classe stipendiale (X) Grado di istruzione (Y) Licenza media Licenza superiore Laurea ni. Bassa n11 = 3 n12 = 2 n13 = 1 n1 .= 3+2+1=6 Media n21 = 1 n22 = 4 n23 = 2 n2 .= 1+4+2=7 Alta n31 = 1 n32 = 3 n33 = 3 n3. = 1+3+3=7 n.j n.1=3+1+1=5 n.2=2+4+3=9 n.3=1+2+3=6 20 Tabella 2: Tabella di contingenza delle frequenze assolute
Come per l'analisi di un fenomeno univariato anche nello studio congiunto di due fenomeni possiamo ragionare in termini di proporzioni e fare riferimento alle fre- quenze relative, date dal rapporto tra le frequenze assolute e il totale delle unità statistiche. La quantità fij = nij/n è detta frequenza relativa congiunta e in- dica la proporzione di unità statistiche che presentano la coppia di modalità (xi, yj), 2per i=1, ... ,hej=1, ... , k.
Le frequenze fi. = Ej=1 fij = ni./n , con i = 1, ... , h, sono dette frequenze rela- tive marginali di X e rappresentano la proporzione di unità statistiche che hanno modalità x¿ del carattere X.
Le frequenze f.j = Li-1fij = n.j/n, con j = 1,., k, sono dette frequenze rela- tive marginali di Y e rappresentano la proporzione di unità statistiche che presen- tano modalità yj del carattere Y.
Ovviamente la somma delle frequenze relative congiunte coincide con la somma delle frequense relative marginali ed è pari a 1, ossia ZiiE ;- ifij = Si-ifi. = E ;- i f.j = 1
Esempio 1 (continua). Con riferimento all'Esempio 1, la corrispondente tabella delle frequenze relative è
Grado di istruzione (Y) Classe stipendiale (X) Licenza media Licenza superiore Laurea fi. = ni./n Bassa f11 = 3/20 = 0.15 f12 = 2/20 =0.1 f13 = 1/20 = 0.05 f1. = 6/20 = 0.3 Media f21 = 1/20 = 0.05 f22 =4/20 =0.2 f23 = 2/20 =0.1 f2. = 7/20 = 0.35 Alta f31 = 1/20 = 0.05 f32 = 3/20 = 0.15 f33 = 3/20 = 0.15 f3. = 7 =0.35 f.j= n.j/n f.1 = 5/20 = 0.25 f.2 = 9/20 = 0.45 f.3 = 6/20 = 0.3 1 Tabella 3: Tabella di contingenza delle frequenze relative
In una tabella a doppia entrata oltre alle frequenze relative possiamo definire le fre- quenze relative condizionate che giocano un ruolo fondamentale poiché, come si vedrà nei Paragrafi 3 e 5, permettono di studiare la presenza di eventuali legami tra i fenomeni indagati X e Y. Le frequenze relative condizionate sono definite nel paragrafo seguente.
2 Le frequenze relative condizionate La prima colonna della tabella a doppia entrata dei dati riporta le modalità distinte del carattere X. Se volessimo studiare il fenomeno X a prescindere dal carattere Y allora faremmo riferimento alla sola distribuzione marginale di X:
X ni. x1 n1. : : ni. : : Ch nh. n ottenuta dalla prima e dall'ultima colonna della tabella a doppia entrata. Diversa- mente si potrebbe voler studiare il comportamento del fenomeno X anziché su tutte 3le unità statistiche, sulle sole n.j unità che presentano modalità yj del carattere Y. In questo caso bisognerebbe far riferimento alla seguente tabella di frequenze, detta distribuzione delle frequenze (assolute) di X condizionata a yj:
X Frequenze condizionate a yj x1 n1j : : nij : : Th nhj n.j Poiché Y si manifesta attraverso k modalità distinte si possono individuare k sot- toinsiemi di unità statistiche, uno per ciascuna modalità di Y. La prima colonna della Tabella 1 unitamente a ciascuna delle colonne centrali costituiscono le k di- stribuzioni condizionate di X. Poiché le k sottopopolazioni individuate dalle varie modalità di Y hanno numerosità diversa, rispettivamente n.1, ... , n.k, per operare confronti (relativi al comportamento di X nei k gruppi) è necessario ragionare in termini relativi; per questa ragione si definiscono le distribuzioni condizionate relative di X come rapporto tra le frequenze assolute e il totale delle unità stati- stiche nel gruppo di appartenenza. Le colonne centrali della seguente tabella sono le frequenze relative di X, condizionate alle varie modalità di Y (ossia le frequenze relative di X all'interno delle k sottopolazioni individuate dalle diverse modalità di Y); l'ultima colonna riporta le frequenze relative marginali di X e descrive il com- portamento di X in tutte le unità statistiche indagate (sull'intera popolazione di n unità):
Modalità del fenomeno d'interesse X Freq. relative condizionate a Freq. relative marginali y1 y . . yk x1 n11 ... n.j . . . n.k f1. = 11. n ... ... : : : nil . .. n.j ... n.k fi. = ni. n : . : ... . : Ih n.1 .. . nhj n.j . .. n.k fh. = n Totali 1 . .. 1 ... 1 1 nij nik n.1 nij nik n.1 nhl nhk nh. Invertendo i ruoli tra X e Y, si può essere interessati a studiare il fenomeno Y marginalmente ossia su tutte le unità statistiche (a prescindere da X); in tal caso dovremmo considerare la sola distribuzione marginale di Y:
4Y n.j y1 n.1 : : yj n.j : : yk n.k n ottenuta dalla prima e dall'ultima riga della Tabella 1. Se invece siamo interessati a studiare il fenomeno Y nel sottoinsieme di unità statistiche che presentano modalità X¿ del carattere X allora dobbiamo fare riferimento alla seguente tabella di frequenze, detta distribuzione delle frequenze (assolute) di Y condizionata a xį:
Y Frequenze condizionate a xi y1 ni1 : yj nij : : yk nik ni. Poiché X si manifesta in h diverse modalità si possono individuare h distinte sottopo- polazioni, una per ciascuna modalità di X. In questo caso la prima riga unitamente alle righe centrali della Tabella 1 costituiscono le distribuzioni di frequenza condi- zionate di Y alle modalità di X. Poiché le h sottopopolazioni individuate dalle mo- dalità di X hanno numerosità diversa, rispettivamente ni., ... , nh., per confrontare il comportamento di Y nelle varie sottopopolazioni è necessario fare riferimento alle distribuzioni condizionate relative di Y, ottenute dividendo ciascuna frequen- za congiunta per il totale della sottopopolazione di riferimento. Le h distribuzioni condizionate relative di Y sono riportate nella seguente tabella:
Modalità del fenomeno d'interesse Y Freq. relative condizionate a x1 xh Li nil nhl y1 n1. ni. nh. f.1 = 2.1 n ... . . . : f.j = n.j n .. : . .. : : yk n1. . .. nik ni. ... nh f.k = n Totali 1 .. . 1 ... 1 1 In una tabella di contingenza si possono dunque individuare più distribuzioni di frequenza:
yj n1j ... nij ni. . .. nh. : nik nhk n.k Freq. relative marginali n11 . .. nhj n1.