Slide dal Dipartimento di Medicina Traslazionale su Statistica Medica. Il Pdf introduce l'inferenza statistica, definendola come un insieme di metodi per trarre conclusioni sulla popolazione da un campione, e si concentra sull'interpretazione dell'intervallo di confidenza, spiegando il suo significato e la sua applicazione pratica per l'Università.
Mostra di più25 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
L'inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione.
Il percorso dell'inferenza statistica si svolge secondo le seguenti fasi:
Popolazione: Insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. Può essere finita (comunque molto grande) o infinita
6. Sampling and Variability 1. Populations and sampling CAST 2.6 1. Census or sample? Show About thi Sampling from the population 0. Prefac 1. Introd 2. Displa Sufficiently accurate information can often be obtained from a sample. 3. Bivaria 4. Time S 5. Catego 6. Sampl 1. Pop Sampling people 2. Infin 3. Prob 4. Varia 5. Distr 6. Norr 7. Distr 8. Sam 7. Design 8. Estima Take Sample 9. Testing 10. Comp 11. Regre: 12. Indepe Only show Gender 13. Analys Index Datasets Population Population Click Only show Gender to concentrate on gender
Campione: Raccolta finita di elementi estratti da una popolazione Scopo dell'estrazione è quello di ottenere informazioni sulla popolazione Il campione deve essere rappresentativo della popolazione da cui viene estratto ('non viziato') Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.
Una stima puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene come risultato un singolo valore numerico usato come stima del parametro dell'intera popolazione Es. stima della media X = x i n
Una stima intervallare è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ha come risultato un insieme di valori che con un certo grado di fiducia conterrà il parametro da stimare
- Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse - Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell'incertezza causata dall'errore campionario
Dati 50 campioni, di numerosità 20 da distribuzione gaussiana con media=0 e deviazione standard=1, osserviamo che in tre casi (6% dei campioni) l'intervallo di confidenza al 95% non comprende la media. Le barre rappresentano l'intervallo di confidenza al 95% 1.0 0.5 T T D 0 0.0 0 0 - 0 -0.5 -1.0 t + - CInterpretazione dell'intervallo di confidenza: Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell'intervallo
In pratica abbiamo a disposizione un solo campione. Come facciamo a sapere se il nostro campione è tra quelli del 95% (che comprendono il valore del parametro) o del 5% (che NON lo comprendono)? Non possiamo dire con certezza se è uno dei 'fortunati 95%' il cui intervallo comprende il valore del parametro ma siamo fiduciosi al 95% che lo sia.
L'ampiezza dell'intervallo è proporzionale al grado di confidenza, se vogliamo che il grado di confidenza sia maggiore, anche l'intervallo dovrà essere più ampio. 152 151 150 149 148 1 147 146 145 IC 99% IC_95% IC 90%
Se conosco o (deviazione standard della popolazione) - (x-z1-a12 * 0 - ;x+Z1-a/2 * n ) vn Z1-a/2 Coefficiente di attendibilità Normal Distribution: Mean = 0, St. Dev. = 1 Se a=0,05 0.40 0.35 0,95 0.30 0.25 0.20 f(z) 0.15 0,025 0.10- 0,025 0.05 0.00 T -4 -3 -1 0 1 3 4 -1,96 +1,96
La media della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota, tuttavia la deviazione standard è o=11,8 mmHg. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg. Calcolare un intervallo di confidenza al 95% per la media della popolazione
Esempio * 0 - ;x+Z (x-Z, 1-a/2 Jn * -1-a/2 O n ) (130 - 1,96 * 11,8 10 ;130 + 1,96 * 11,8 V10 ) V IC95%(122,7;137,3)
William Sealey Gosset Nel caso in cui non conosciamo la deviazione standard della popolazione, possiamo ricorrere alla deviazione standard campionaria. In questo caso facciamo riferimento alla distribuzione t di Student. Il t di Student è un test di statistica parametrica. E' fondato sulle caratteristiche della distribuzione normale.
La distribuzione t: - Ha media 0 - E' simmetrica intorno alla media - Rispetto alla distribuzione normale è meno appuntita al centro e ha code più alte - Tende alla distribuzione normale quando n è sufficientemente grande - E' caratterizzata dai gradi di libertà che misurano la quantità di informazione disponibile nei dati per stimare o2. Per ogni valore dei gradi di libertà c'è una diversa distribuzione di t. All'aumentare dei gradi di libertà la distribuzione della t si avvicina alla distribuzione normale
Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30 gradi di libertà 1 ca 0.2 02 01 0.1 00 0 4 4 1 1 1 co 02 02 02 01 00 00 00 0 2 0 2 1 Grafici tratti da: http://en.wikipedia.org/wiki/Student's_t-distribution
Il procedimento per il calcolo dell'intervallo di confidenza della media nel caso in cui sia necessario ricorrere alla distribuzione t di Student è analogo al caso precedente ma si sostituisce il valore di o con il valore s (deviazione standard campionaria) (x-t1-a /2 * Vn s In - ; x + t1-a /2 * s n ) S = E (xi -x)2 n-1 Gradi di libertà = n-1 I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di libertà per stimare la media
· Riprendiamo l'esempio precedente supponendo di non conoscere o. La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg e la deviazione standard campionaria pari a 20. Calcolare un intervallo di confidenza al 95% per la media della popolazione.
Esempio (x-t1-a /2 * s - ; x +t1-a /2 * vn (130 - 2,26 * 20 V10 ;130 + 2,26 * 20 V10 s n ) ) IC95%(115,70;144,30) 0,5 t1-a /2 =2,26 0,95 0,4 0,3 0,2 0,1 0,0 T -5 -4 -3 -2 -1 0 1 2 3 4 £ 5 g.d.l = n-1 = 9; a=0.05
Viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati: 130, 125, 141, 123, 150 Calcolare la media, la deviazione standard e l'errore standard del campione; utilizzare poi i dati necessari per costruire l'intervallo di confidenza al 95% per la media
Esercizio X = 133,8 s = 11,4 s/Vn = 5,1 133,8 ± 2,78 * 5,1 IC95%(119,6; 147,9)
Le medie delle distribuzioni della pressione sistolica e diastolica delle donne diabetiche di età compresa tra 30 e 34 anni non sono note. Tuttavia, le loro deviazioni standard sono rispettivamente Os=11,8 mmHg e od=9,1 mmHg a. Un campione casuale di dieci donne è selezionato da questa popolazione. La pressione sistolica media del campione è x s= 130 mmHg. Calcolare un intervallo di confidenza al 95% per la reale pressione sistolica media b. La pressione diastolica media del campione è x d=84 mmHg. Calcolare un intervallo di confidenza al 90% per la reale pressione diastolica media c. Calcolare un intervallo di confidenza al 99% per ud
Esercizio Limite superiore dell' Int. conf. 95%= 130+ 1,960 *(11,8/110) =130+7,31 =137,31 Limite inferiore dell' Int. conf. 95%= 130 - 1,960 *(11,8/110) = 130-7,31 =122,69 Intervallo di confidenza al 95%: (122,69 ; 137,31) Limite superiore dell' Int. conf. 90% = 84+ 1,645 *(9,1/110) =84+4,734 =88,734 Limite inferiore dell' Int. conf. 90%= 84 - 1,645 *(9,1/10) = 84-4,734 = 79,266 Intervallo di confidenza al 90%: (79,266 ; 88,734)Esercizio Limite superiore dell' Int. conf. 99%= 84+ 2,576 *(9,1/10) =84+7,413=91,413 Limite inferiore dell' Int. conf. 99%= 84 - 2,576 *(9,1/10) =84-7,413=76,587 Intervallo di confidenza al 99%: (76,587 ; 91,413)
Esercizio Table 3. Vaccine Efficacy Overall and by Subgroup in Participants without Evidence of Infection before 7 Days after Dose 2. Efficacy End-Point Subgroup BNT162b2 (N=18,198) Placebo (N=18,325) Vaccine Efficacy, % (95% CI) ** No. of Cases Surveillance Time (No. at Risk)* No. of Cases Surveillance Time (No. at Risk)* Overall 8 2.214 (17,411) 162 2.222 (17,511) 95.0 (90.0-97.9) Age group 16 to 55 yr 5 1.234 (9,897) 114 1.239 (9,955) 95.6 (89.4-98.6) >55 yr 3 0.980 (7,500) 48 0.983 (7,543) 93.7 (80.6-98.8) ≥65 yr 1 0.508 (3,848) 19 0.511 (3,880) 94.7 (66.7-99.9) ≥75 yr 0 0.102 (774) 5 0.106 (785) 100.0 (-13.1-100.0) Sex Male 3 1.124 (8,875) 81 1.108 (8,762) 96.4 (88.9-99.3) Female 5 1.090 (8,536) 81 1.114 (8,749) 93.7 (84.7-98.0) Race or ethnic groupt White 7 1.889 (14,504) 146 1.903 (14,670) 95.2 (89.8-98.1) Black or African American 0 0.165 (1,502) 7 0.164 (1,486) 100.0 (31.2-100.0) All others 1 0.160 (1,405) 9 0.155 (1,355) 89.3 (22.6-99.8) Hispanic or Latinx 3 0.605 (4,764) 53 0.600 (4,746) 94.4 (82.7-98.9) Non-Hispanic, non-Latinx 5 1.596 (12,548) 109 1.608 (12,661) 95.4 (88.9-98.5) Country Argentina 1 0.351 (2,545) 35 0.346 (2,521) 97.2 (83.3-99.9) Brazil 1 0.119 (1,129) 8 0.117 (1,121) 87.7 (8.1-99.7) United States 6 1.732 (13,359) 119 1.747 (13,506) 94.9 (88.6-98.2) * Surveillance time is the total time in 1000 person-years for the given end point across all participants within each group at risk for the end point. The time period for Covid-19 case accrual is from 7 days after the second dose to the end of the surveillance period. ¡ The confidence interval (CI) for vaccine efficacy is derived according to the Clopper-Pearson method, adjusted for surveillance time. ¿ Race or ethnic group was reported by the participants. "All others" included the following categories: American Indian or Alaska Native, Asian, Native Hawaiian or other Pacific Islander, multiracial, and not reported.