Documento dall'Università su statistica e curve di neutralizzazione. Il Pdf, utile per lo studio universitario, tratta argomenti come la distribuzione di probabilità per variabili continue, misure di locazione e dispersione, e le curve di neutralizzazione in chimica, inclusa la titolazione e il calcolo della concentrazione incognita.
Mostra di più44 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Grandezza popolazione Campione Media μ x (oppure m) Deviazione standard σ s Varianza s2 prima di tutto nomenclatura statistica:
dp e dx definizione chiara: Dx rappresenta un pezzettino piccolissimo dell'intervallo della variabile x. Dp è la probabilità di cadere in quell'intervallo piccolissimo. Dp/dx è quanto è alta la curva in quel punto, quando li divido, ottengo quanto è probabile trovare valori intorno a quel punto x e questa è la densità di probabilità indicata con f(x) che è uguale a dp/dx
Metafora pratica e semplice: Voglio sapere quanta gente si trova in un tratto piccolissimo di strada - dx è la lunghezza del tratto che sto osservando - dp è la quantità di gente che trovo lì - Dp/dx quanta gente c'è per ogni metro, se è alta vuol dire che quel tratto è più "probabile"
ISTOGRAMMA CUMULATO: Permette di analizzare l'andamento complessivo dei dati Confrontare gruppi o situazioni diverse tra loro Valutare la concentrazione dei dati. Mostra per ogni valore quanti dati sono minori o uguali a quel valore Nella forma continua la distribuzione di probabilità cumulata F(x) rappresenta la probabilità che una variabile assuma un valore minore o uguale a x ed è data dall'integrale della densità di probabilità. Infatti quando raccogliamo dati, ad esempio il gradimento dei professori da parte di 250 studenti, possiamo organizzare questi dati in una distribuzione di frequenza e questo ci dice quante volte ogni livello di gradimento (scarso, medio, alto) si è verificato. Quando però vogliamo capire quanti studenti hanno espresso un gradimento uguale o inferiore ad un certo livello, costruiamo un istogramma cumulato. La frequenza cumulata associata alla modalità, ovvero a un valore o una classe di valori, è la somma della sua frequenza e di tutte le frequenze che la precedono: 250 studenti hanno dato un voto ad un professore da 1 a 5 L'istogramma cumulato si può usare quando i dati sono ordinabili logicamente e quindi cumulabili x F(x)= § f(t)dx g2 = (x- u)2f(x) dx +00 s? = > (xi - m)2/Ī I
i=1 MISURE DI LOCAZIONE E DISPERSIONE DI UNA DISTRIBUZIONE DI PROBABILITA' -LOCAZIONE: un valore della X che indica dove è i=1 centrato il grosso della probabilità -DISPERSIONE: misura di quanto ampio sia l'intervallo in cui si hanno valori significativi della probabilità, quanto la distribuzione di probabilità è più o meno spanciata, slargata s2 = >(xi-m)2 7-1 I
MISURE DI LOCAZIONE: sono le misure usate per esprimere la locazione -media: classica aritmetica -mediana: ordino i dati dal < al >, se sono pari faccio la media tra i due centrali, se Ono dispari prendo il dato centrale, è la più robusta e "accurata" perché non risente di dati anomali dato che gli estremi non sono considerati -moda: valore della x per cui si ha il massimo della distribuzione, il dato + frequente.
SALTO in ALTO (metri) CORSA (sec) 1.85 11.7 1.92 11.3 1.95 11.4 1.94 11.2 1.94 11.6 MEDIA 1.92 11.44 DEV.ST 0.04 0.21 CV% 2.1% 1.8% Siccome le due serie di dati sono espresse in unità di misura diverse (metri e secondi), per confrontare la loro variabilità si ricorre al COEFFICIENTE DI VARIAZIONE, il cui valore è un numero puro, svincolato cioè dall'unità di misura.
MISURE DI DISPERSIONE: -varianza: dispersione dei valori intorno alla media, > è la varianza > è la dispersione CV == × 100 μ CV = S × 100 m In greco popolazione in latino campione -deviazione standard: ci dice quanto i dati sono dispersi si indica con sigmaQuando si considera la deviazione standard del campione, al denominatore non indichiamo I ma I-1, ovvero i gradi di libertà. -deviazione standard relativa o coefficiente di variazione CV: permette di valutare la dispersione dei valori intorno alla media; è un indice di dispersione che permette di confrontare misure di fenomeni con unità di misura differenti. x-μ 2 = 6 -intervallo -intervallo interquartile: divido la probabilità i 4 interquartili ognuno con il 25% di probabilità Più la distribuzione è spanciata più l'intervallo è grande. È una misura assoluta della dispersione centrale dei dati. Serve a misurare quanto sono "larghi" i dati centrali ovvero quelli che stanno tra il 25% e il 75% della distribuzione. È la distanza tra Q3 e Q1, quanto sono sparsi i dati centrali, ovvero il 50% dei valori che stanno tra il 25% e il 75% della distribuzione.
0.40 (x)} Secondo quartile Primo quartile x Intervallo interquartili DISTRIBUZIONE Z: è una forma standardizzata della distribuzione normale, serve per semplificare e confrontare diversi set di dati che seguono la distribuzione normale o gaussiana. 0.35 0.30 (z) } 0.25 0.20 0.15 0.10 0.05 0.00 -4 -3 -2 -1 0 1 2 3 7 In particolare nei dati sperimentali spesso seguono una distribuzione normale ma ogni esperimento può avere una media e una deviazione standard diversa, allora per confrontarli li trasformiamo tutti nella stessa scala, grazie alla distribuzione z Dove: X è il valore originale Mu è la media del campione Sigma la deviazione standard
Quartile Percentuale Valore z approssimato Q1 25% z= - 0,674 Q2 50% z=0 (mediana) Q3 75% Z= +0,674 Questi valori z ti dicono a quante deviazioni standard dalla media si trovano i quartili in una distribuzione normale. in una distribuzione normale standard, il 50% centrale dei dati cade tra -0.6740 e +0.6740, cioè in un intervallo di 1.348o. Questo trasforma ogni valore x nella sua distanza dalla media in unità di deviazione standardQuindi, se: - z= 0 -> il valore è uguale alla media - z= 1 -> il valore è una deviazione standard sopra la media - z= 3 -> il valore è due deviazioni standard sopra la media. La trasformata z permette di mettere i dati sulla stessa scala per capire quanto è "strano" o "normale" un determinato risultato rispetto alla sua distribuzione. La distribuzione normale standard z ha: - media: mu=0 - Varianza sigma quadro =1 quindi con sigma=1
Densità di probabilità della distribuzione Z: È espressa con una funzione che descrive quanto è probabile trovare un valore z, il classico campanile di gauss centrato in 0. 2 = L'area sotto la curva tra due valori z1 e z2 da la probabilità che un valore cada in quell'intervallo. Poiché la curva è simmetrica e ben nota, i quartili hanno valori z fissi:
INTERVALLO DI FIDUCIA: Un intervallo di fiducia rappresenta un intervallo di valori plausibili entro cui ci aspettiamo che cada il vero valore di un parametro con un certo livello di sicurezza. L'intervallo si costruisce sulla base della distribuzione normale, usando i valori critici Z. Ad esempio, un intervallo di confidenza al 95% va da -1.96 a +1.96 deviazioni standard. È uno strumento fondamentale per esprimere l'incertezza in modo quantitativo nelle misure sperimentali. Ad ogni intervallo di confidenza viene associato un livello di confidenza (1 - a) che rappresenta il grado di attendibilità del nostro intervallo, è la probabilità che il vero valore sia dentro l'intervallo Quindi, ad esempio, un intervallo al 95% di livello di confidenza ti dice: "Ho il 95% di probabilità che il vero valore cada tra -1.960 e +1.960 dalla media." Il più comune - in una distribuzione Z normale standard: La curva è simmetrica rispetto allo 0 I due valori v1 e v2 (gli estremi dell'intervallo) sono simmetrici: v1= - zp v2= +zp Per questo motivo la probabilità di errore alfa si divide in due code uguali [M - Zp · O , M + Zp . O] pzp<x<u+ozp La probabilità di fiducia è l'area centrale della curva, "dove spancia": È l'area sotto la curva normale compresa tra i due estremi dell'intervallo di fiducia (es. tra -1.96 e +1.96 per un livello di confidenza del 95%). L'intervallo di fiducia è il segmento centrale della curva, tra questi due punti: È l'intervallo in cui è contenuto il vero valore del parametro con una certa probabilità (es. 95%). Le due code laterali sono le aree di significato cioè la probabilità di errore a, che è divisa equamente tra: la coda sinistra (valori molto piccoli improbabili), e la coda destra (valori molto grandi improbabili). x-OZp << x+ozp
INTERVALLO DI FIDUCIA DEL RISULTATO INTORNO ALLA MEDIA DELLA POPOLAZIONE: Es domanda: "Qual è la probabilità che un singolo risultato dell'esperimento cada vicino alla media vera?"