Statistica descrittiva: valutazione della variabilità in ambito clinico

Documento di Università sulla statistica descrittiva, focalizzato sulla misurazione della variabilità in contesti clinici. Il Pdf, utile per lo studio universitario, esplora indicatori come range, differenza interquartile, varianza e coefficiente di variazione, con esempi e tabelle esplicative.

Mostra di più

16 pagine

Statistica, Lezione 4, 03/05/2024

Prof. Danila Azzolina

STATISTICA DESCRITTIVA 2° PARTE

La scorsa volta avete visto insieme al professor Braga alcuni cenni di epidemiologia; oggi, torniamo alla parte più

quantitativa di statistica medica; finiamo la statistica descrittiva per poi passare a dei cenni relativi al calcolo della

probabilità.

Valutazione della variabilità dei fenomeni in campo clinico

Come accennato in precedenza, quando descriviamo i dati dei nostri pazienti abbiamo un duplice obiettivo:

1. verificare la locazione del fenomeno, la distribuzione, quindi la centralità, tramite media, mediana e

moda;

2. quantificare l’attitudine del fenomeno a cambiare sui nostri pazienti;

es. se il collettivo dei vostri pazienti è particolarmente variegato, magari ne misurate l’indice di massa

corporea e avrà una grossa variabilità, una grossa dispersione; se prendete l’indice di massa corporea

nel sottoinsieme degli atleti iscritti al CUS di Ferrara, probabilmente il fenomeno sarà più

concentrato, avrete minor variabilità sulle vostre unità d’analisi

Che cos’è dunque la variabilità e come viene quantificata?

La variabilità è l’attitudine di un qualsiasi carattere, di un qualsiasi fenomeno, a cambiare sui vostri dati, sui

vostri pazienti.

Esistono degli indicatori che sono, se vogliamo, “cugini” degli indici di posizione e l'utilizzo di un indicatore

piuttosto che un altro, dipende dalla natura del dato che stiamo studiando. Gli indici di variabilità si distinguono

per le variabili quantitative in:

- indici assoluti: espressi nell'unità di misura del fenomeno che state studiando, quindi dipendenti

dall’unità di misura della variabile; (ad esempio, mg piuttosto che cm, se è l’altezza, ecc)

- indici relativi: esprimono l'attitudine del fenomeno a variare i suoi dati ma su scala adimensionale;

(ad esempio in percentuale)

Vediamo insieme quali sono e come si interpretano.

Campo di variazione

La prima misura di variabilità, e, se vogliamo, la più triviale che possiamo calcolare sui dati dei nostri pazienti,

è il cosiddetto campo di variazione, detto anche range. Non è altro che la differenza tra il valore massimo e

il valore minimo assunti dalla variabile nella serie di dati. Vale a dire, per esempio, il massimo dell’altezza - il

minimo dell’altezza (dati presi sui vostri pazienti)

Qual è il problema?

Innanzitutto, questa misura vi dà un’idea di come si

disperdono, di qual è lo spazio, il supporto di variazione

dei vostri dati; tuttavia, questo indicatore dipende solo e

soltanto dai due valori estremi, il massimo e il minimo.

Magari può succedere che avete degli estremi

particolarmente grandi dal punto di vista del massimo e del

minimo, ma magari gli altri valori dei vostri dati non sono

particolarmente concentrati. Non potete saperlo in quanto

l’indicatore si sta calcolando solo sul massimo e sul minimo.

Per questo motivo questo indicatore probabilmente non va bene, dobbiamo usarne un altro.

Come si calcola?

È banale, possiamo anche non soffermarci più di tanto. Nell’immagine, notiamo la distribuzione

dell’assunzione di caffè dei nostri pazienti ricoverati per sospetto infarto. Sui vostri dati grezzi, questi sono 60

pazienti; prendo il massimo (il paziente beve 6 caffè al giorno) e tolgo il minimo (il paziente beve 0 caffè al

giorno) e ottengo uno spazio di 6 caffè giornalieri.

Tuttavia, come già accennato, quest’indicatore presenta delle problematiche. Generalmente, quando decidete

di sintetizzare i dati in termini di mediana (vi ricordo che la mediana rispetto alla media è robusta, è un valore

anomalo rispetto alle code); quindi se decidete che in locazione, come centralità, usate la mediana per i vostri

dati, magari, come misura di variabilità associata, potete scegliere un altro indicatore che si chiama differenza,

o range, interquartile.

Differenza interquartile

Una volta imparato a calcolare i quartili, è banale la differenza, o range, interquartile.

È definita come la differenza, quindi lo scarto, che intercorre tra il 3° quartile, che vi ricordo essere il valore

che lascia alle spalle il 75% dei dati, e il 1° quartile, che vi ricordo essere il valore della variabile che lascia

alle spalle il 25% dei dati, che sono dati ordinati.

Questo significa che quando vado a valutare la differenza tra il terzo e il primo quartile, io riesco a capire in

quale spazio si colloca la metà dei dati presi sui miei pazienti. Quindi, immaginate, se questo spazio è

particolarmente ampio, il fenomeno che tate studiando è abbastanza eterogeneo, abbastanza disperso; se invece

questo spazio è piccolo, allora il fenomeno che state studiando presenta poca eterogeneità, poca variabilità.

Dire se il range interquartile è piccolo o grande dipende anche un po’ dalla natura del fenomeno clinico che

state analizzando e dal tipo di casistica e di pazienti considerati.

Anteprima

Statistica, Lezione 4, 03/05/2024

Prof. Danila Azzolina STATISTICA DESCRITTIVA 2° PARTE La scorsa volta avete visto insieme al professor Braga alcuni cenni di epidemiologia; oggi, torniamo alla parte più quantitativa di statistica medica; finiamo la statistica descrittiva per poi passare a dei cenni relativi al calcolo della probabilità.

Valutazione della variabilità dei fenomeni in campo clinico

Come accennato in precedenza, quando descriviamo i dati dei nostri pazienti abbiamo un duplice obiettivo:

verificare la locazione del fenomeno, la distribuzione, quindi la centralità, tramite media, mediana e moda;
quantificare l'attitudine del fenomeno a cambiare sui nostri pazienti; es. se il collettivo dei vostri pazienti è particolarmente variegato, magari ne misurate l'indice di massa corporea e avrà una grossa variabilità, una grossa dispersione; se prendete l'indice di massa corporea nel sottoinsieme degli atleti iscritti al CUS di Ferrara, probabilmente il fenomeno sarà più concentrato, avrete minor variabilità sulle vostre unità d'analisi

Che cos'è dunque la variabilità e come viene quantificata?

La variabilità è l'attitudine di un qualsiasi carattere, di un qualsiasi fenomeno, a cambiare sui vostri dati, sui vostri pazienti.

Esistono degli indicatori che sono, se vogliamo, "cugini" degli indici di posizione e l'utilizzo di un indicatore piuttosto che un altro, dipende dalla natura del dato che stiamo studiando. Gli indici di variabilità si distinguono per le variabili quantitative in:

indici assoluti: espressi nell'unità di misura del fenomeno che state studiando, quindi dipendenti dall'unità di misura della variabile; (ad esempio, mg piuttosto che cm, se è l'altezza, ecc)
indici relativi: esprimono l'attitudine del fenomeno a variare i suoi dati ma su scala adimensionale; (ad esempio in percentuale)

Vediamo insieme quali sono e come si interpretano.

Campo di variazione

La prima misura di variabilità, e, se vogliamo, la più triviale che possiamo calcolare sui dati dei nostri pazienti, è il cosiddetto campo di variazione, detto anche range. Non è altro che la differenza tra il valore massimo e il valore minimo assunti dalla variabile nella serie di dati. Vale a dire, per esempio, il massimo dell'altezza - il minimo dell'altezza (dati presi sui vostri pazienti)

1Qual è il problema? Innanzitutto, questa misura vi dà un'idea di come si ID N. caffè ID 4 O 9 5 0 disperdono, di qual è lo spazio, il supporto di variazione 12 7 0 13 31 1 14 35 1 20 dei vostri dati; tuttavia, questo indicatore dipende solo e 51 1 21 52 22 54 1 23 soltanto dai due valori estremi, il massimo e il minimo. 56 24 10 2 25 15 2 26 Magari può succedere che avete degli estremi 16 2 30 19 2 32 28 2 34 2 41 particolarmente grandi dal punto di vista del massimo e del 33 38 2 42 39 2 43 46 40 2 minimo, ma magari gli altri valori dei vostri dati non sono 47 2 55 53 2 58 particolarmente concentrati. Non potete saperlo in quanto l'indicatore si sta calcolando solo sul massimo e sul minimo. Per questo motivo questo indicatore probabilmente non va bene, dobbiamo usarne un altro.

Distribuzione del numero di caffè bevuti al giorno dai 60 pazienti ricoverati

N. caffè ID N. caffè 3 60 3 2 2 4 3 3 6 1 3 8 4 3 17 4 3 36 4 3 45 3 48 4 3 50 3 57 3 59 4 3 1 3 11 5 3 29 5 3 44 5 3 49 5 3 18 6 3 27 6 3 37 6 Campo di variazione: 6 - 0 = 6 caffè Come si calcola? È banale, possiamo anche non soffermarci più di tanto. Nell'immagine, notiamo la distribuzione dell'assunzione di caffè dei nostri pazienti ricoverati per sospetto infarto. Sui vostri dati grezzi, questi sono 60 pazienti; prendo il massimo (il paziente beve 6 caffè al giorno) e tolgo il minimo (il paziente beve 0 caffè al giorno) e ottengo uno spazio di 6 caffè giornalieri.

Tuttavia, come già accennato, quest'indicatore presenta delle problematiche. Generalmente, quando decidete di sintetizzare i dati in termini di mediana (vi ricordo che la mediana rispetto alla media è robusta, è un valore anomalo rispetto alle code); quindi se decidete che in locazione, come centralità, usate la mediana per i vostri dati, magari, come misura di variabilità associata, potete scegliere un altro indicatore che si chiama differenza, o range, interquartile.

Differenza interquartile

Una volta imparato a calcolare i quartili, è banale la differenza, o range, interquartile. È definita come la differenza, quindi lo scarto, che intercorre tra il 3º quartile, che vi ricordo essere il valore che lascia alle spalle il 75% dei dati, e il 1º quartile, che vi ricordo essere il valore della variabile che lascia alle spalle il 25% dei dati, che sono dati ordinati. Questo significa che quando vado a valutare la differenza tra il terzo e il primo quartile, io riesco a capire in quale spazio si colloca la metà dei dati presi sui miei pazienti. Quindi, immaginate, se questo spazio è particolarmente ampio, il fenomeno che tate studiando è abbastanza eterogeneo, abbastanza disperso; se invece questo spazio è piccolo, allora il fenomeno che state studiando presenta poca eterogeneità, poca variabilità. Dire se il range interquartile è piccolo o grande dipende anche un po' dalla natura del fenomeno clinico che state analizzando e dal tipo di casistica e di pazienti considerati.

2Il calcolo, in realtà, è anche qui banale; una volta imparato a calcolare il quartile e la mediana, lo abbiamo visto le scorse volte, la differenza interquartile è veramente molto semplice.

Se vi ricordate, noi avevamo preso come un esempio di variabile di carattere, preso sui pazienti che sono ricoverati per rischio di infarto al miocardio, questo biomarcatore, il CPK, che è un indicatore del rischio cardiovascolare.

Valori della CPK nei 60 pazienti ricoverati

Seq. ID CPK Seq. ID CPK Seq. ID CPK 1 54 0 21 12 118 41 46 164 2 6 7 22 25 118 42 59 165 3 38 18 23 17 121 43 10 167 4 44 39 24 42 122 44 58 169 5 13 42 25 31 123 45 40 172 172 + 173 Q3 -= 172,5 UI /L 7 28 67 27 9 128 47 4 174 8 56 68 28 37 129 48 33 175 9 55 78 29 22 132 49 41 177 10 11 79 30 29 1332 50 35 183 133+140 11 21 87 31 57 140 51 27 184 12 24 92 32 36 144 52 30 188 13 8 93 33 39 145 53 20 192 14 16 93 34 23 146 54 14 194 15 2 97 35 26 149 55 48 214 16 45 99 36 52 151 56 5 219 17 60 100 37 47 156 57 18 225 18 15 109 38 1 159 58 53 232 19 19 111 39 32 161 59 43 239 1°quartile = 20 49 114 40 34 163 60 51 270 = 172,5 - 98 =74,5 UI/L Q1 97+99 2 -= 98 UI/L Dunque, avevamo identificato già la scorsa volta la mediana, che da 136,5 UI/L, il terzo quartile (Q3) 172,5 UI/L e il primo (Q1) 98. Il range interquartile è semplice: prendo il 3º quartile, 172,5 UI/L, e gli sottraggo il 1º quartile, che è 98 UI/L. Quindi ottengo il range interquartile IQR, la differenza interquartile, che è di 74,5 UI/L.

Significato del valore di CPK

Io sto dicendo che la metà dei pazienti considerati nello studio presenta un valore del CPK, che è un marcatore di infarto, compreso in uno spazio di 74,5. Adesso, dire se clinicamente quel valore indica una grossa eterogeneità dipende anche dalla natura del fenomeno. Non so bene come si distribuisce questo marcatore nella popolazione; tuttavia, immagino che, essendo dei soggetti già ricoverati per storia di infarto oppure magari a rischio, rispetto alla popolazione generale potrebbero avere dei valori del CPK che sono sì più concentrati, e probabilmente spostati su valori più alti. Questo ovviamente da verificare anche in base alla letteratura.

Se i dati presentano dei valori anomali piuttosto che code, asimmetrie, li sintetizziamo in locazioni usando la mediana e come variabilità usiamo il range interquartile, perché sono tutte statistiche d'ordine, robuste rispetto ai dati estremi.

6 3 51 26 50 127 46 7 173 2 Me = = 136,5 UI/L 2 Differenza interquartile = 3°quartile -Invece che cosa succede se la mia distribuzione è simmetrica? Abbiamo detto che se la distribuzione è simmetrica, la mediana e la media coincidono. Perché, sostanzialmente, la media presenta la caratteristica di essere attratta dai valori estremi; se non ci sono valori estremi o code, quindi la distribuzione è simmetrica, diciamo che media e mediana più o meno coincidono. Quindi se la vostra distribuzione è simmetrica, ed esistono dei test per verificare questa cosa, non li facciamo in questa sede tuttavia ci sono, allora in tal caso si sintetizza il dato usando la media, e le si associano, sono cugini, questi indicatori.

Varianza e deviazione standard

Al di là della matematica, che cosa vi racconta dal punto di vista interpretativo questa formula che avete in alto?

La varianza in statistica è semplice. La varianza della popolazione si esprime con lettera greca; quindi quel «2 indica la varianza della popolazione.

Che cos'è questa varianza, questa misura di variabilità che vedete nella formula?

Guardiamola un attimo insieme: al numeratore noi abbiamo lo scarto, la sommatoria su tutti i pazienti delle differenze fra xi, quindi i valori della variabile, vale a dire la pressione, il colesterolo, quello che state studiando, e quell' M (o x segnato o u, dipende da come viene rappresentato sui libri di testo) che indica la media.

MISURE DI VARIABILITÀ: Varianza e Deviazione standard (Scarto Quadratico Medio)

σ' Σ(x,-Μ)2 n = Varianza della popolazione Il numeratore _(x, -M)2 si chiama Devianza σ = Σ (x, -Μ)2 n = Deviazione standard della popolazione (scarto quadratico medio) Per dati in distribuzione di frequenza: 0 = n Σ(x,-Μ)2 x η,

Quindi al numeratore voi avete la somma per ogni paziente degli scarti tra la variabile e la media della distribuzione, tutto elevato al quadrato.

Perché elevato al quadrato?

Se vi ricordate, avevamo detto che la media ha una proprietà; se io facessi la somma degli scarti, delle differenze tra i valori della vostra altezza e la media delle vostre altezze, la somma di queste differenze si compenserebbe, andrebbe a 0. Allora, quando è stata definita la formula della varianza, per evitare questo problema, al numeratore la somma degli scarti è stata elevata al quadrato. Diviso n che è la numerosità campionaria.

Adesso, se voi guardate bene quella formula, detto del quadrato, quella quantità vi sta dicendo a quanto ammonta in media l'entità delle differenze tra i valori della variabile, presa sui vostri pazienti, e il centro della

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.

Statistica descrittiva: valutazione della variabilità in ambito clinico

Genera con l’AI

Anteprima

Statistica, Lezione 4, 03/05/2024

Valutazione della variabilità dei fenomeni in campo clinico

Che cos'è dunque la variabilità e come viene quantificata?

Campo di variazione

Distribuzione del numero di caffè bevuti al giorno dai 60 pazienti ricoverati

Differenza interquartile

Valori della CPK nei 60 pazienti ricoverati

Significato del valore di CPK

Varianza e deviazione standard

Che cos'è questa varianza, questa misura di variabilità che vedete nella formula?

MISURE DI VARIABILITÀ: Varianza e Deviazione standard (Scarto Quadratico Medio)

Perché elevato al quadrato?

Contenuti correlati