Documento di Università sulla statistica descrittiva, focalizzato sulla misurazione della variabilità in contesti clinici. Il Pdf, utile per lo studio universitario, esplora indicatori come range, differenza interquartile, varianza e coefficiente di variazione, con esempi e tabelle esplicative.
Mostra di più16 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Prof. Danila Azzolina STATISTICA DESCRITTIVA 2° PARTE La scorsa volta avete visto insieme al professor Braga alcuni cenni di epidemiologia; oggi, torniamo alla parte più quantitativa di statistica medica; finiamo la statistica descrittiva per poi passare a dei cenni relativi al calcolo della probabilità.
Come accennato in precedenza, quando descriviamo i dati dei nostri pazienti abbiamo un duplice obiettivo:
La variabilità è l'attitudine di un qualsiasi carattere, di un qualsiasi fenomeno, a cambiare sui vostri dati, sui vostri pazienti.
Esistono degli indicatori che sono, se vogliamo, "cugini" degli indici di posizione e l'utilizzo di un indicatore piuttosto che un altro, dipende dalla natura del dato che stiamo studiando. Gli indici di variabilità si distinguono per le variabili quantitative in:
Vediamo insieme quali sono e come si interpretano.
La prima misura di variabilità, e, se vogliamo, la più triviale che possiamo calcolare sui dati dei nostri pazienti, è il cosiddetto campo di variazione, detto anche range. Non è altro che la differenza tra il valore massimo e il valore minimo assunti dalla variabile nella serie di dati. Vale a dire, per esempio, il massimo dell'altezza - il minimo dell'altezza (dati presi sui vostri pazienti)
1Qual è il problema? Innanzitutto, questa misura vi dà un'idea di come si ID N. caffè ID 4 O 9 5 0 disperdono, di qual è lo spazio, il supporto di variazione 12 7 0 13 31 1 14 35 1 20 dei vostri dati; tuttavia, questo indicatore dipende solo e 51 1 21 52 22 54 1 23 soltanto dai due valori estremi, il massimo e il minimo. 56 24 10 2 25 15 2 26 Magari può succedere che avete degli estremi 16 2 30 19 2 32 28 2 34 2 41 particolarmente grandi dal punto di vista del massimo e del 33 38 2 42 39 2 43 46 40 2 minimo, ma magari gli altri valori dei vostri dati non sono 47 2 55 53 2 58 particolarmente concentrati. Non potete saperlo in quanto l'indicatore si sta calcolando solo sul massimo e sul minimo. Per questo motivo questo indicatore probabilmente non va bene, dobbiamo usarne un altro.
1
N. caffè ID N. caffè 3 60 3 2 2 4 3 3 6 1 3 8 4 3 17 4 3 36 4 3 45 3 48 4 3 50 3 57 3 59 4 3 1 3 11 5 3 29 5 3 44 5 3 49 5 3 18 6 3 27 6 3 37 6 Campo di variazione: 6 - 0 = 6 caffè Come si calcola? È banale, possiamo anche non soffermarci più di tanto. Nell'immagine, notiamo la distribuzione dell'assunzione di caffè dei nostri pazienti ricoverati per sospetto infarto. Sui vostri dati grezzi, questi sono 60 pazienti; prendo il massimo (il paziente beve 6 caffè al giorno) e tolgo il minimo (il paziente beve 0 caffè al giorno) e ottengo uno spazio di 6 caffè giornalieri.
Tuttavia, come già accennato, quest'indicatore presenta delle problematiche. Generalmente, quando decidete di sintetizzare i dati in termini di mediana (vi ricordo che la mediana rispetto alla media è robusta, è un valore anomalo rispetto alle code); quindi se decidete che in locazione, come centralità, usate la mediana per i vostri dati, magari, come misura di variabilità associata, potete scegliere un altro indicatore che si chiama differenza, o range, interquartile.
Una volta imparato a calcolare i quartili, è banale la differenza, o range, interquartile. È definita come la differenza, quindi lo scarto, che intercorre tra il 3º quartile, che vi ricordo essere il valore che lascia alle spalle il 75% dei dati, e il 1º quartile, che vi ricordo essere il valore della variabile che lascia alle spalle il 25% dei dati, che sono dati ordinati. Questo significa che quando vado a valutare la differenza tra il terzo e il primo quartile, io riesco a capire in quale spazio si colloca la metà dei dati presi sui miei pazienti. Quindi, immaginate, se questo spazio è particolarmente ampio, il fenomeno che tate studiando è abbastanza eterogeneo, abbastanza disperso; se invece questo spazio è piccolo, allora il fenomeno che state studiando presenta poca eterogeneità, poca variabilità. Dire se il range interquartile è piccolo o grande dipende anche un po' dalla natura del fenomeno clinico che state analizzando e dal tipo di casistica e di pazienti considerati.
2Il calcolo, in realtà, è anche qui banale; una volta imparato a calcolare il quartile e la mediana, lo abbiamo visto le scorse volte, la differenza interquartile è veramente molto semplice.
Se vi ricordate, noi avevamo preso come un esempio di variabile di carattere, preso sui pazienti che sono ricoverati per rischio di infarto al miocardio, questo biomarcatore, il CPK, che è un indicatore del rischio cardiovascolare.
Seq. ID CPK Seq. ID CPK Seq. ID CPK 1 54 0 21 12 118 41 46 164 2 6 7 22 25 118 42 59 165 3 38 18 23 17 121 43 10 167 4 44 39 24 42 122 44 58 169 5 13 42 25 31 123 45 40 172 172 + 173 Q3 -= 172,5 UI /L 7 28 67 27 9 128 47 4 174 8 56 68 28 37 129 48 33 175 9 55 78 29 22 132 49 41 177 10 11 79 30 29 1332 50 35 183 133+140 11 21 87 31 57 140 51 27 184 12 24 92 32 36 144 52 30 188 13 8 93 33 39 145 53 20 192 14 16 93 34 23 146 54 14 194 15 2 97 35 26 149 55 48 214 16 45 99 36 52 151 56 5 219 17 60 100 37 47 156 57 18 225 18 15 109 38 1 159 58 53 232 19 19 111 39 32 161 59 43 239 1°quartile = 20 49 114 40 34 163 60 51 270 = 172,5 - 98 =74,5 UI/L Q1 97+99 2 -= 98 UI/L Dunque, avevamo identificato già la scorsa volta la mediana, che da 136,5 UI/L, il terzo quartile (Q3) 172,5 UI/L e il primo (Q1) 98. Il range interquartile è semplice: prendo il 3º quartile, 172,5 UI/L, e gli sottraggo il 1º quartile, che è 98 UI/L. Quindi ottengo il range interquartile IQR, la differenza interquartile, che è di 74,5 UI/L.
Io sto dicendo che la metà dei pazienti considerati nello studio presenta un valore del CPK, che è un marcatore di infarto, compreso in uno spazio di 74,5. Adesso, dire se clinicamente quel valore indica una grossa eterogeneità dipende anche dalla natura del fenomeno. Non so bene come si distribuisce questo marcatore nella popolazione; tuttavia, immagino che, essendo dei soggetti già ricoverati per storia di infarto oppure magari a rischio, rispetto alla popolazione generale potrebbero avere dei valori del CPK che sono sì più concentrati, e probabilmente spostati su valori più alti. Questo ovviamente da verificare anche in base alla letteratura.
Se i dati presentano dei valori anomali piuttosto che code, asimmetrie, li sintetizziamo in locazioni usando la mediana e come variabilità usiamo il range interquartile, perché sono tutte statistiche d'ordine, robuste rispetto ai dati estremi.
3
6 3 51 26 50 127 46 7 173 2 Me = = 136,5 UI/L 2 Differenza interquartile = 3°quartile -Invece che cosa succede se la mia distribuzione è simmetrica? Abbiamo detto che se la distribuzione è simmetrica, la mediana e la media coincidono. Perché, sostanzialmente, la media presenta la caratteristica di essere attratta dai valori estremi; se non ci sono valori estremi o code, quindi la distribuzione è simmetrica, diciamo che media e mediana più o meno coincidono. Quindi se la vostra distribuzione è simmetrica, ed esistono dei test per verificare questa cosa, non li facciamo in questa sede tuttavia ci sono, allora in tal caso si sintetizza il dato usando la media, e le si associano, sono cugini, questi indicatori.
Al di là della matematica, che cosa vi racconta dal punto di vista interpretativo questa formula che avete in alto?
La varianza in statistica è semplice. La varianza della popolazione si esprime con lettera greca; quindi quel «2 indica la varianza della popolazione.
Guardiamola un attimo insieme: al numeratore noi abbiamo lo scarto, la sommatoria su tutti i pazienti delle differenze fra xi, quindi i valori della variabile, vale a dire la pressione, il colesterolo, quello che state studiando, e quell' M (o x segnato o u, dipende da come viene rappresentato sui libri di testo) che indica la media.
σ' Σ(x,-Μ)2 n = Varianza della popolazione Il numeratore _(x, -M)2 si chiama Devianza σ = Σ (x, -Μ)2 n = Deviazione standard della popolazione (scarto quadratico medio) Per dati in distribuzione di frequenza: 0 = n Σ(x,-Μ)2 x η,
Quindi al numeratore voi avete la somma per ogni paziente degli scarti tra la variabile e la media della distribuzione, tutto elevato al quadrato.
Se vi ricordate, avevamo detto che la media ha una proprietà; se io facessi la somma degli scarti, delle differenze tra i valori della vostra altezza e la media delle vostre altezze, la somma di queste differenze si compenserebbe, andrebbe a 0. Allora, quando è stata definita la formula della varianza, per evitare questo problema, al numeratore la somma degli scarti è stata elevata al quadrato. Diviso n che è la numerosità campionaria.
Adesso, se voi guardate bene quella formula, detto del quadrato, quella quantità vi sta dicendo a quanto ammonta in media l'entità delle differenze tra i valori della variabile, presa sui vostri pazienti, e il centro della
4