Statistica Medica: Inferenza statistica e interpretazione dell'intervallo di confidenza

Slide dal Dipartimento di Medicina Traslazionale su Statistica Medica. Il Pdf introduce l'inferenza statistica, definendola come un insieme di metodi per trarre conclusioni sulla popolazione da un campione, e si concentra sull'interpretazione dell'intervallo di confidenza, spiegando il suo significato e la sua applicazione pratica per l'Università.

Mostra di più

25 pagine

Statistica Medica

Lezione 5

Prof.ssa Daniela Ferrante

Dipartimento di Medicina Traslazionale

daniela.ferrante@med.uniupo.it

Corso di Laurea in Educazione Professionale

a.a. 2023-2024

Inferenza statistica

L’inferenza statistica è un insieme di metodi con cui si

cerca di trarre una conclusione sulla popolazione sulla

base di alcune informazioni ricavate da un campione

estratto da quella popolazione.

Il percorso dell’inferenza statistica si svolge secondo le

seguenti fasi:

1. estrazione di un campione della popolazione

2. calcolo delle statistiche campionarie, cioè dei valori

corrispondenti ai dati contenuti nel campione

3. stima dei parametri nella popolazione in base ai risultati

forniti dal campione

Anteprima

Inferenza Statistica

L'inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione.

Il percorso dell'inferenza statistica si svolge secondo le seguenti fasi:

estrazione di un campione della popolazione
calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione
stima dei parametri nella popolazione in base ai risultati forniti dal campione

Popolazione e Campionamento

Popolazione: Insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. Può essere finita (comunque molto grande) o infinita

6. Sampling and Variability 1. Populations and sampling CAST 2.6 1. Census or sample? Show About thi Sampling from the population 0. Prefac 1. Introd 2. Displa Sufficiently accurate information can often be obtained from a sample. 3. Bivaria 4. Time S 5. Catego 6. Sampl 1. Pop Sampling people 2. Infin 3. Prob 4. Varia 5. Distr 6. Norr 7. Distr 8. Sam 7. Design 8. Estima Take Sample 9. Testing 10. Comp 11. Regre: 12. Indepe Only show Gender 13. Analys Index Datasets Population Population Click Only show Gender to concentrate on gender

Campione Rappresentativo

Campione: Raccolta finita di elementi estratti da una popolazione Scopo dell'estrazione è quello di ottenere informazioni sulla popolazione Il campione deve essere rappresentativo della popolazione da cui viene estratto ('non viziato') Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.

Stima Puntuale e Intervallare

Una stima puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene come risultato un singolo valore numerico usato come stima del parametro dell'intera popolazione Es. stima della media X = x i n

Una stima intervallare è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ha come risultato un insieme di valori che con un certo grado di fiducia conterrà il parametro da stimare

Medie Campionarie e Incertezza

- Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse - Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell'incertezza causata dall'errore campionario

Dati 50 campioni, di numerosità 20 da distribuzione gaussiana con media=0 e deviazione standard=1, osserviamo che in tre casi (6% dei campioni) l'intervallo di confidenza al 95% non comprende la media. Le barre rappresentano l'intervallo di confidenza al 95% 1.0 0.5 T T D 0 0.0 0 0 - 0 -0.5 -1.0 t + - CInterpretazione dell'intervallo di confidenza: Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell'intervallo

Intervallo di Confidenza Pratico

In pratica abbiamo a disposizione un solo campione. Come facciamo a sapere se il nostro campione è tra quelli del 95% (che comprendono il valore del parametro) o del 5% (che NON lo comprendono)? Non possiamo dire con certezza se è uno dei 'fortunati 95%' il cui intervallo comprende il valore del parametro ma siamo fiduciosi al 95% che lo sia.

L'ampiezza dell'intervallo è proporzionale al grado di confidenza, se vogliamo che il grado di confidenza sia maggiore, anche l'intervallo dovrà essere più ampio. 152 151 150 149 148 1 147 146 145 IC 99% IC_95% IC 90%

Stima Intervallare della Media Campionaria

Conoscenza della Deviazione Standard della Popolazione

Se conosco o (deviazione standard della popolazione) - (x-z1-a12 * 0 - ;x+Z1-a/2 * n ) vn Z1-a/2 Coefficiente di attendibilità Normal Distribution: Mean = 0, St. Dev. = 1 Se a=0,05 0.40 0.35 0,95 0.30 0.25 0.20 f(z) 0.15 0,025 0.10- 0,025 0.05 0.00 T -4 -3 -1 0 1 3 4 -1,96 +1,96

Esempio di Calcolo con Deviazione Standard Nota

La media della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota, tuttavia la deviazione standard è o=11,8 mmHg. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg. Calcolare un intervallo di confidenza al 95% per la media della popolazione

Esempio * 0 - ;x+Z (x-Z, 1-a/2 Jn * -1-a/2 O n ) (130 - 1,96 * 11,8 10 ;130 + 1,96 * 11,8 V10 ) V IC95%(122,7;137,3)

La Distribuzione t di Student

William Sealey Gosset Nel caso in cui non conosciamo la deviazione standard della popolazione, possiamo ricorrere alla deviazione standard campionaria. In questo caso facciamo riferimento alla distribuzione t di Student. Il t di Student è un test di statistica parametrica. E' fondato sulle caratteristiche della distribuzione normale.

Caratteristiche della Distribuzione t

La distribuzione t: - Ha media 0 - E' simmetrica intorno alla media - Rispetto alla distribuzione normale è meno appuntita al centro e ha code più alte - Tende alla distribuzione normale quando n è sufficientemente grande - E' caratterizzata dai gradi di libertà che misurano la quantità di informazione disponibile nei dati per stimare o2. Per ogni valore dei gradi di libertà c'è una diversa distribuzione di t. All'aumentare dei gradi di libertà la distribuzione della t si avvicina alla distribuzione normale

Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30 gradi di libertà 1 ca 0.2 02 01 0.1 00 0 4 4 1 1 1 co 02 02 02 01 00 00 00 0 2 0 2 1 Grafici tratti da: http://en.wikipedia.org/wiki/Student's_t-distribution

Calcolo dell'Intervallo di Confidenza con Distribuzione t

Il procedimento per il calcolo dell'intervallo di confidenza della media nel caso in cui sia necessario ricorrere alla distribuzione t di Student è analogo al caso precedente ma si sostituisce il valore di o con il valore s (deviazione standard campionaria) (x-t1-a /2 * Vn s In - ; x + t1-a /2 * s n ) S = E (xi -x)2 n-1 Gradi di libertà = n-1 I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di libertà per stimare la media

Esempio di Calcolo con Deviazione Standard Campionaria

· Riprendiamo l'esempio precedente supponendo di non conoscere o. La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg e la deviazione standard campionaria pari a 20. Calcolare un intervallo di confidenza al 95% per la media della popolazione.

Esempio (x-t1-a /2 * s - ; x +t1-a /2 * vn (130 - 2,26 * 20 V10 ;130 + 2,26 * 20 V10 s n ) ) IC95%(115,70;144,30) 0,5 t1-a /2 =2,26 0,95 0,4 0,3 0,2 0,1 0,0 T -5 -4 -3 -2 -1 0 1 2 3 4 £ 5 g.d.l = n-1 = 9; a=0.05

Esercizi Pratici

Esercizio 1: Pressione Arteriosa Sistolica

Viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati: 130, 125, 141, 123, 150 Calcolare la media, la deviazione standard e l'errore standard del campione; utilizzare poi i dati necessari per costruire l'intervallo di confidenza al 95% per la media

Esercizio X = 133,8 s = 11,4 s/Vn = 5,1 133,8 ± 2,78 * 5,1 IC95%(119,6; 147,9)

Esercizio 2: Pressione Sistolica e Diastolica

Le medie delle distribuzioni della pressione sistolica e diastolica delle donne diabetiche di età compresa tra 30 e 34 anni non sono note. Tuttavia, le loro deviazioni standard sono rispettivamente Os=11,8 mmHg e od=9,1 mmHg a. Un campione casuale di dieci donne è selezionato da questa popolazione. La pressione sistolica media del campione è x s= 130 mmHg. Calcolare un intervallo di confidenza al 95% per la reale pressione sistolica media b. La pressione diastolica media del campione è x d=84 mmHg. Calcolare un intervallo di confidenza al 90% per la reale pressione diastolica media c. Calcolare un intervallo di confidenza al 99% per ud

Esercizio Limite superiore dell' Int. conf. 95%= 130+ 1,960 *(11,8/110) =130+7,31 =137,31 Limite inferiore dell' Int. conf. 95%= 130 - 1,960 *(11,8/110) = 130-7,31 =122,69 Intervallo di confidenza al 95%: (122,69 ; 137,31) Limite superiore dell' Int. conf. 90% = 84+ 1,645 *(9,1/110) =84+4,734 =88,734 Limite inferiore dell' Int. conf. 90%= 84 - 1,645 *(9,1/10) = 84-4,734 = 79,266 Intervallo di confidenza al 90%: (79,266 ; 88,734)Esercizio Limite superiore dell' Int. conf. 99%= 84+ 2,576 *(9,1/10) =84+7,413=91,413 Limite inferiore dell' Int. conf. 99%= 84 - 2,576 *(9,1/10) =84-7,413=76,587 Intervallo di confidenza al 99%: (76,587 ; 91,413)

Esercizio 3: Efficacia del Vaccino

Esercizio Table 3. Vaccine Efficacy Overall and by Subgroup in Participants without Evidence of Infection before 7 Days after Dose 2. Efficacy End-Point Subgroup BNT162b2 (N=18,198) Placebo (N=18,325) Vaccine Efficacy, % (95% CI) ** No. of Cases Surveillance Time (No. at Risk)* No. of Cases Surveillance Time (No. at Risk)* Overall 8 2.214 (17,411) 162 2.222 (17,511) 95.0 (90.0-97.9) Age group 16 to 55 yr 5 1.234 (9,897) 114 1.239 (9,955) 95.6 (89.4-98.6) >55 yr 3 0.980 (7,500) 48 0.983 (7,543) 93.7 (80.6-98.8) ≥65 yr 1 0.508 (3,848) 19 0.511 (3,880) 94.7 (66.7-99.9) ≥75 yr 0 0.102 (774) 5 0.106 (785) 100.0 (-13.1-100.0) Sex Male 3 1.124 (8,875) 81 1.108 (8,762) 96.4 (88.9-99.3) Female 5 1.090 (8,536) 81 1.114 (8,749) 93.7 (84.7-98.0) Race or ethnic groupt White 7 1.889 (14,504) 146 1.903 (14,670) 95.2 (89.8-98.1) Black or African American 0 0.165 (1,502) 7 0.164 (1,486) 100.0 (31.2-100.0) All others 1 0.160 (1,405) 9 0.155 (1,355) 89.3 (22.6-99.8) Hispanic or Latinx 3 0.605 (4,764) 53 0.600 (4,746) 94.4 (82.7-98.9) Non-Hispanic, non-Latinx 5 1.596 (12,548) 109 1.608 (12,661) 95.4 (88.9-98.5) Country Argentina 1 0.351 (2,545) 35 0.346 (2,521) 97.2 (83.3-99.9) Brazil 1 0.119 (1,129) 8 0.117 (1,121) 87.7 (8.1-99.7) United States 6 1.732 (13,359) 119 1.747 (13,506) 94.9 (88.6-98.2) * Surveillance time is the total time in 1000 person-years for the given end point across all participants within each group at risk for the end point. The time period for Covid-19 case accrual is from 7 days after the second dose to the end of the surveillance period. ¡ The confidence interval (CI) for vaccine efficacy is derived according to the Clopper-Pearson method, adjusted for surveillance time. ¿ Race or ethnic group was reported by the participants. "All others" included the following categories: American Indian or Alaska Native, Asian, Native Hawaiian or other Pacific Islander, multiracial, and not reported.

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.