Introduzione alla statistica: principi, metodologie e analisi dei dati

Documento di Alessandra Piazza su Introduzione Alla Statistica. Il Pdf, un appunto universitario di Matematica, esplora i principi della statistica, le metodologie di rilevazione, le distribuzioni di frequenza e i test di ipotesi, offrendo una panoramica completa della materia.

Mostra di più

17 pagine

1.0 INTRODUZIONE ALLA STATISTICA
La statistica è una disciplina che, mediante il metodo matematico, consente di studiare, descrivere,
analizzare ed interpretare qualunque fenomeno collettivo, per il quale sia possibile una raccolta di dati. !
Lo scopo della statistica è quello di dare una risposta numerica alla variabilità che ci circonda. La statistica
si occupa dei modi in cui una realtà fenomenica può essere sintetizzata e quindi compresa. La statistica ha
due anime: descrittiva ed inferenziale.!
1.0.1 La statistica descrittiva può essere definita come l'insieme dei metodi che concernono la rilevazione,
la raccolta, la classificazione, la sintesi e la presentazione di un insieme di dati per descrivere in maniera
adeguata le varie caratteristiche, operando una sintesi delle informazioni relative a una popolazione oggetto
di studio. Gli strumenti di sintesi sono essenzialmente di tre tipi: tabelle, rappresentazioni grafiche e indici
sintetici.!
1.0.2 La statistica inferenziale è il procedimento per cui si deducono le caratteristiche di una popolazione
dall'osservazione di una parte di essa, detta campione. Mediante l'inferenza statistica è possibile estendere
le conclusioni, relative ad un campione, a tutta la popolazione di riferimento. !
1.1 LE RILEVAZIONI
Le rilevazioni possono essere: totali (coinvolgono tutti gli elementi di una popolazione; la rilevazione totale
non è sempre praticabile perché comporta eccessivi oneri in termini di costo e di tempo, pertanto molto
spesso si ricorre ad indagini parziali), parziali (la rilevazione è estesa solo ad una parte di popolazione,
opportunamente scelta detta campione; spesso infatti, studiando un certo fenomeno, non è possibile
esaminare tutte le sue manifestazioni, ma bisogna selezionare un campione di osservazioni; se il campione
è rappresentativo della popolazione, allora i dati campionari permettono di ricavare delle inferenze sull'intera
popolazione, mediante il procedimento di inferenza statistica).!
Nel caso in cui siano noti i caratteri di tutte le unità che compongono la popolazione, si ha la certezza di
prendere la decisione esatta, ossia che si accetti una certa ipotesi quando è vera e la si respinga quando è
falsa; in tal caso, disponendo di tutte le informazioni necessarie, si ha il caso di informazione completa.!
Ma quando si opera per campioni, si dispone di informazioni limitate per cui l'accettazione ed il rigetto di
una certa ipotesi diventa più complessa.!
1.1.1 La Rilevazione Totale non è sempre praticabile perché ha un costo eccessivo o richiede grandi
organizzazioni (il censimento generale si realizza ogni 10 anni) e richiede troppo tempo (l'intervista di tutti i
lavoratori dipendenti richiederebbe tanti anni che, una volta finita, la popolazione attuale sarebbe molto
diversa dalla censita). La rilevazione totale è superflua, ad esempio per valutare l'inquinamento di un tratto
di mare non bisogna esaminarne tutta l'acqua; è rischiosa, poiché prima di somministrare un nuovo vaccino
all'intera popolazione è bene sperimentarne su poche unità la tossicità e l'ecacia; e' distruttiva, per
stimare la durata di una batteria di 1.5 volt si deve per forza farla esaurire, ma se si esauriscono tutte, che
cosa si vende?; non è veloce per conoscere i risultati delle elezioni non si possono aspettare gli esiti
uciali, più immediati e precisi possono essere gli exit poll (intervista casuale). !
1.2 FASI DI UN'INDAGINE
Le fasi di un’indagine statistica comprendono: definizione degli obiettivi; pianificazione della raccolta dei
dati; rilevazione dei dati; elaborazione metodologica; presentazione dei risultati; utilizzazione dei risultati
della ricerca. !
1.3 NOMENCLATURA STATISTICA.
L’unità statistica è l'elemento di base della popolazione sul quale viene eettuata la rilevazione o la
misurazione di uno o più fenomeni oggetto di studio. La popolazione statistica è la totalità degli elementi
aventi una certa caratteristica (i bambini residenti nel comune di Messina). II campione è un sottoinsieme
della popolazione che si seleziona per l'analisi. !
Prende il nome di carattere il fenomeno oggetto di studio che è rilevato sulle unità statistiche. Esso si
manifesta attraverso diverse modalità. Esempi: il carattere "Colore dei capelli" si manifesta attraverso le
modalità Biondo, Castano, Rosso, etc»; il carattere "Numero di figli per donna" ha come modalità i numeri
interi positivi e lo zero.!
Secondo la tipologia, i caratteri possono distinguersi in: quantitativi (le modalità sono esprimibili mediante
numeri, in tal caso si parla di variabili statistiche), qualitativi (le modalità sono esprimibili mediante attributi,
aggettivazioni, non mediante indicazioni numericheì, in tal caso si parla di mutabili statistiche).!
1.3.1 Un carattere qualitativo viene distinto in carattere sconnesso e carattere ordinato. Il carattere è
sconnesso (o con scala nominale) se date due sue modalità è possibile aermare solo se sono uguali o
diverse. Esempi di caratteri sconnessi sono sesso, stato civile, religione, razza. Tra le modalità di ciascuno
di questi caratteri non è possibile stabilire un ordinamento e quindi le modalità possono essere elencate in
modo del tutto arbitrario. Il carattere è ordinato (o con scala ordinale) se date due modalità è possibile solo
1
ALESSANDRA PIAZZA
dare un ordine, specificando che una precede l'altra. Esempi sono il grado di soddisfazione (poco,
abbastanza, molto), il titolo di studio (senza titolo, licenza elementare, licenza media, diploma, laurea,
dottorato). I caratteri ordinati si dicono: rettilinei, se possiedono una modalità iniziale ed una finale, ad
esempio il titolo di studio; ciclici, se non hanno vere e proprie modalità iniziali e finali ma vengono spesso
fissate in modo convenzionale, ad esempio la direzione del vento o le stagioni (si nota che le modalità
estreme sono in realtà molto prossime tra loro).!
1.3.2 I caratteri quantitativi vengono distinti in: discreti, se sono in numero finito o al più un'infinità
numerabile, ad esempio il numero di figli, numero di pezzi prodotti, voto ad un esame; continui, se
prendendo due valori a caso è sempre possibile trovare un altro valore compreso tra i due valori presi a
caso, ad esempio il peso o l'altezza. !
1.3.3 Un carattere viene detto trasferibile se ha senso immaginare che un'unità statistica possa cedere
tutto o parte del carattere posseduto ad un'altra unità statistica.!
1.3.4 I caratteri dicotomici detti anche variabili logiche, dummy, variabili indicatrici binarie, hanno solo due
modalità: maschi e femmine, vivi o morti, ecc.!
Le unità statistiche sono classificate in base alla classificazione per dicotomia: presenza /assenza di un
dato attributo. Alle modalità "presenza" si attribuisce, convenzionalmente, valore a e alle modalità
"assenza" valore b, con a e b simboli qualsiasi (ad esempio 0 e 1).!
1.4 SUDDIVISIONE IN CLASSI DI UN CARATTERE QUANTITATIVO
Se il carattere che si vuole analizzare presenta moltissime modalità distinte, si possono avere notevoli
dicoltà nella comprensione dei dati osservati. Esempi: altezza, peso, ecc. In questi casi può essere
necessario o conveniente procedere ad un accorpamento delle modalità. Si definisce quindi suddivisione
del carattere in classi l'operazione consistente nel suddividere l'insieme di possibili valori in intervalli tra
loro disgiunti. Questa operazione consente di ottenere una immagine sintetica della distribuzione osservata,
anche se a prezzo di una certa perdita di informazione. Le classi possono avere uguale o diversa ampiezza;
per ampiezza si intende la dierenza tra estremo superiore ed estremo inferiore.!
E' opportuno definire le classi in modo tale che: il loro numero sia abbastanza piccolo da fornire una sintesi
adeguata ma sucientemente grande da mantenere l'informazione con un livello accettabile di dettaglio;
siano tra loro disgiunte; comprendano tutte le possibili modalità del carattere; abbiano, se possibile, la
stessa ampiezza. Nello stabilire gli estremi della classe occorre tener presente che ognuna delle
determinazioni del carattere deve essere compresa in una ed una sola classe.!
Per considerare sia il limite inferiore che il limite superiore appartenenti alla stessa classe, è necessario
utilizzare un apposito simbolo di separazione, un trattino orizzontale chiuso ad entrambi i lati mediante due
rette verticali.!
0|--| 4 da zero a quattro incluso!
4 --|6 da quattro (escluso) a sei (incluso)!
7|-- 8 da sette (incluso) a 8 (escluso)!
La chiusura soltanto a destra indica la presenza di un intervallo chiuso con un estremo superiore incluso
nella classe. La chiusura soltanto a sinistra, invece, indica un intervallo chiuso con l'estremo inferiore
incluso nella classe.!
L'esperienza insegna che un numero troppo basso di classi, raggruppando eccessivamente i dati,
determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; un
numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione.!
2.0 LE DISTRIBUZIONI
Dalle distribuzioni unitarie alle distribuzioni di frequenza. Dopo le fasi di acquisizione e di registrazione dei
dati, si passa al loro controllo e quindi alla loro elaborazione. L'insieme dei dati è costituito da tutte le
misurazioni eettuate su ognuna delle unità statistiche prese in esame: ad ogni unità corrispondono le
modalità osservate per ciascuno dei caratteri; ad ogni carattere corrisponde l'insieme delle modalità
osservate sul collettivo.!
Si definisce distribuzione unitaria semplice di un carattere l'elencazione delle modalità osservate, unità
per unità, nel collettivo preso in esame. Si parla di distribuzione unitaria multipla quando tale elencazione si
riferisce a più di un carattere.!
2.1 DEFINIZIONE DI FREQUENZA.
Si definisce frequenza assoluta o semplicemente frequenza il numero di volte che una data modalità si
manifesta nel collettivo di riferimento. La distribuzione di frequenze descritte come il fenomeno in esame si
manifesta nella popolazione o campione che si sta esaminando. Oltre le frequenze assolute, ovvero quelle
direttamente rilevate sulle unità statistiche, si distinguono le: frequenze relative, rapporto tra il dato
numerico e la somma di tutti i dati, le frequenze relative sono numeri compresi tra 0 e 1 e la loro somma è
2
ALESSANDRA PIAZZA

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

INTRODUZIONE ALLA STATISTICA

La statistica è una disciplina che, mediante il metodo matematico, consente di studiare, descrivere, analizzare ed interpretare qualunque fenomeno collettivo, per il quale sia possibile una raccolta di dati. Lo scopo della statistica è quello di dare una risposta numerica alla variabilità che ci circonda. La statistica si occupa dei modi in cui una realtà fenomenica può essere sintetizzata e quindi compresa. La statistica ha due anime: descrittiva ed inferenziale.

Statistica descrittiva

La statistica descrittiva può essere definita come l'insieme dei metodi che concernono la rilevazione, la raccolta, la classificazione, la sintesi e la presentazione di un insieme di dati per descrivere in maniera adeguata le varie caratteristiche, operando una sintesi delle informazioni relative a una popolazione oggetto di studio. Gli strumenti di sintesi sono essenzialmente di tre tipi: tabelle, rappresentazioni grafiche e indici sintetici.

Statistica inferenziale

La statistica inferenziale è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione. Mediante l'inferenza statistica è possibile estendere le conclusioni, relative ad un campione, a tutta la popolazione di riferimento.

LE RILEVAZIONI

Le rilevazioni possono essere: totali (coinvolgono tutti gli elementi di una popolazione; la rilevazione totale non è sempre praticabile perché comporta eccessivi oneri in termini di costo e di tempo, pertanto molto spesso si ricorre ad indagini parziali), parziali (la rilevazione è estesa solo ad una parte di popolazione, opportunamente scelta detta campione; spesso infatti, studiando un certo fenomeno, non è possibile esaminare tutte le sue manifestazioni, ma bisogna selezionare un campione di osservazioni; se il campione è rappresentativo della popolazione, allora i dati campionari permettono di ricavare delle inferenze sull'intera popolazione, mediante il procedimento di inferenza statistica). Nel caso in cui siano noti i caratteri di tutte le unità che compongono la popolazione, si ha la certezza di prendere la decisione esatta, ossia che si accetti una certa ipotesi quando è vera e la si respinga quando è falsa; in tal caso, disponendo di tutte le informazioni necessarie, si ha il caso di informazione completa. Ma quando si opera per campioni, si dispone di informazioni limitate per cui l'accettazione ed il rigetto di una certa ipotesi diventa più complessa.

Rilevazione totale: limiti e rischi

La Rilevazione Totale non è sempre praticabile perché ha un costo eccessivo o richiede grandi organizzazioni (il censimento generale si realizza ogni 10 anni) e richiede troppo tempo (l'intervista di tutti i lavoratori dipendenti richiederebbe tanti anni che, una volta finita, la popolazione attuale sarebbe molto diversa dalla censita). La rilevazione totale è superflua, ad esempio per valutare l'inquinamento di un tratto di mare non bisogna esaminarne tutta l'acqua; è rischiosa, poiché prima di somministrare un nuovo vaccino all'intera popolazione è bene sperimentarne su poche unità la tossicità e l'efficacia; e' distruttiva, per stimare la durata di una batteria di 1.5 volt si deve per forza farla esaurire, ma se si esauriscono tutte, che cosa si vende ?; non è veloce per conoscere i risultati delle elezioni non si possono aspettare gli esiti ufficiali, più immediati e precisi possono essere gli exit poll (intervista casuale).

FASI DI UN'INDAGINE

Le fasi di un'indagine statistica comprendono: definizione degli obiettivi; pianificazione della raccolta dei dati; rilevazione dei dati; elaborazione metodologica; presentazione dei risultati; utilizzazione dei risultati della ricerca.

NOMENCLATURA STATISTICA

L'unità statistica è l'elemento di base della popolazione sul quale viene effettuata la rilevazione o la misurazione di uno o più fenomeni oggetto di studio. La popolazione statistica è la totalità degli elementi aventi una certa caratteristica (i bambini residenti nel comune di Messina). II campione è un sottoinsieme della popolazione che si seleziona per l'analisi. Prende il nome di carattere il fenomeno oggetto di studio che è rilevato sulle unità statistiche. Esso si manifesta attraverso diverse modalità. Esempi: il carattere "Colore dei capelli" si manifesta attraverso le modalità Biondo, Castano, Rosso, etc»; il carattere "Numero di figli per donna" ha come modalità i numeri interi positivi e lo zero. Secondo la tipologia, i caratteri possono distinguersi in: quantitativi (le modalità sono esprimibili mediante numeri, in tal caso si parla di variabili statistiche), qualitativi (le modalità sono esprimibili mediante attributi, aggettivazioni, non mediante indicazioni numericheì, in tal caso si parla di mutabili statistiche).

Caratteri qualitativi: sconnessi e ordinati

Un carattere qualitativo viene distinto in carattere sconnesso e carattere ordinato. Il carattere è sconnesso (o con scala nominale) se date due sue modalità è possibile affermare solo se sono uguali o diverse. Esempi di caratteri sconnessi sono sesso, stato civile, religione, razza. Tra le modalità di ciascuno di questi caratteri non è possibile stabilire un ordinamento e quindi le modalità possono essere elencate in modo del tutto arbitrario. Il carattere è ordinato (o con scala ordinale) se date due modalità è possibile solo ALESSANDRA PIAZZA 1 1dare un ordine, specificando che una precede l'altra. Esempi sono il grado di soddisfazione (poco, abbastanza, molto), il titolo di studio (senza titolo, licenza elementare, licenza media, diploma, laurea, dottorato). I caratteri ordinati si dicono: rettilinei, se possiedono una modalità iniziale ed una finale, ad esempio il titolo di studio; ciclici, se non hanno vere e proprie modalità iniziali e finali ma vengono spesso fissate in modo convenzionale, ad esempio la direzione del vento o le stagioni (si nota che le modalità estreme sono in realtà molto prossime tra loro).

Caratteri quantitativi: discreti e continui

I caratteri quantitativi vengono distinti in: discreti, se sono in numero finito o al più un'infinità numerabile, ad esempio il numero di figli, numero di pezzi prodotti, voto ad un esame; continui, se prendendo due valori a caso è sempre possibile trovare un altro valore compreso tra i due valori presi a caso, ad esempio il peso o l'altezza.

Caratteri trasferibili

Un carattere viene detto trasferibile se ha senso immaginare che un'unità statistica possa cedere tutto o parte del carattere posseduto ad un'altra unità statistica.

Caratteri dicotomici

I caratteri dicotomici detti anche variabili logiche, dummy, variabili indicatrici binarie, hanno solo due modalità: maschi e femmine, vivi o morti, ecc. Le unità statistiche sono classificate in base alla classificazione per dicotomia: presenza /assenza di un dato attributo. Alle modalità "presenza" si attribuisce, convenzionalmente, valore a e alle modalità "assenza" valore b, con a e b simboli qualsiasi (ad esempio 0 e 1).

SUDDIVISIONE IN CLASSI DI UN CARATTERE QUANTITATIVO

Se il carattere che si vuole analizzare presenta moltissime modalità distinte, si possono avere notevoli difficoltà nella comprensione dei dati osservati. Esempi: altezza, peso, ecc. In questi casi può essere necessario o conveniente procedere ad un accorpamento delle modalità. Si definisce quindi suddivisione del carattere in classi l'operazione consistente nel suddividere l'insieme di possibili valori in intervalli tra loro disgiunti. Questa operazione consente di ottenere una immagine sintetica della distribuzione osservata, anche se a prezzo di una certa perdita di informazione. Le classi possono avere uguale o diversa ampiezza; per ampiezza si intende la differenza tra estremo superiore ed estremo inferiore. E' opportuno definire le classi in modo tale che: il loro numero sia abbastanza piccolo da fornire una sintesi adeguata ma sufficientemente grande da mantenere l'informazione con un livello accettabile di dettaglio; siano tra loro disgiunte; comprendano tutte le possibili modalità del carattere; abbiano, se possibile, la stessa ampiezza. Nello stabilire gli estremi della classe occorre tener presente che ognuna delle determinazioni del carattere deve essere compresa in una ed una sola classe. Per considerare sia il limite inferiore che il limite superiore appartenenti alla stessa classe, è necessario utilizzare un apposito simbolo di separazione, un trattino orizzontale chiuso ad entrambi i lati mediante due rette verticali.

0| -- | 4 da zero a quattro incluso 4 -- |6 da quattro (escluso) a sei (incluso) 7| -- 8 da sette (incluso) a 8 (escluso) La chiusura soltanto a destra indica la presenza di un intervallo chiuso con un estremo superiore incluso nella classe. La chiusura soltanto a sinistra, invece, indica un intervallo chiuso con l'estremo inferiore incluso nella classe. L'esperienza insegna che un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione.

LE DISTRIBUZIONI

Dalle distribuzioni unitarie alle distribuzioni di frequenza. Dopo le fasi di acquisizione e di registrazione dei dati, si passa al loro controllo e quindi alla loro elaborazione. L'insieme dei dati è costituito da tutte le misurazioni effettuate su ognuna delle unità statistiche prese in esame: ad ogni unità corrispondono le modalità osservate per ciascuno dei caratteri; ad ogni carattere corrisponde l'insieme delle modalità osservate sul collettivo. Si definisce distribuzione unitaria semplice di un carattere l'elencazione delle modalità osservate, unità per unità, nel collettivo preso in esame. Si parla di distribuzione unitaria multipla quando tale elencazione si riferisce a più di un carattere.

DEFINIZIONE DI FREQUENZA

Si definisce frequenza assoluta o semplicemente frequenza il numero di volte che una data modalità si manifesta nel collettivo di riferimento. La distribuzione di frequenze descritte come il fenomeno in esame si manifesta nella popolazione o campione che si sta esaminando. Oltre le frequenze assolute, ovvero quelle direttamente rilevate sulle unità statistiche, si distinguono le: frequenze relative, rapporto tra il dato numerico e la somma di tutti i dati, le frequenze relative sono numeri compresi tra 0 e 1 e la loro somma è ALESSANDRA PIAZZA 2

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.