Algoritmi di Machine Learning: modelli supervisionati e non supervisionati

Slide da Fey sugli algoritmi di Machine Learning. Il Pdf, una presentazione didattica di livello universitario in Informatica, esplora i concetti di ML, i modelli supervisionati (classificazione, regressione) e non supervisionati (clustering), e il ciclo di vita del dato.

Mostra di più

43 pagine

Algoritmi di ML
Obiettivi didattici
- Definire il concetto di Machine
Learning
- Modelli supervisionati:
classificazione e regressione
- Modelli non-supervisionati:
clustering
- Serie Temporali

Visualizza gratis il Pdf completo

Registrati per accedere all’intero documento e trasformarlo con l’AI.

Anteprima

Obiettivi didattici

+
O
O
O
O
1
O
o
Algoritmi di MLObiettivi didattici
3
2
A
- Definire il concetto di Machine
Learning
- Modelli supervisionati:
classificazione e regressione
- Modelli non-supervisionati:
clustering
- Serie Temporali

MACHINE LEARNING

Machine Learning

Artificial Intelligence
Machine
Learning
Deep
Learning
Con Machine Learning (ML) intendiamo
lo studio di algoritmi statistici che
possono imparare dai dati osservati,
generalizzare su nuovi dati e quindi
completare uno o più compiti
autonomamente.

Come "impara" un algoritmo?

METHOD:
Unsupervised
Supervised
recognize images
imagine pictures
question & answer
generate videos
describe
image
model languages
translate
language
write creatively
analyze sentiments
Environment
synthesize speech
recognize speech
Reward
Action
Interpreter
State
Un algoritmo impara a svolgere un
compito (task) dai dati a disposizione:
· Supervised Learning
· Unsupervised Learning
. Reinforcement Learning

Supervised Learning

Labelled data
Unlabelled data
Dog
Dog
Cat
Cat
Il nostro algoritmo impara da
dati etichettati (labeled data)
Questi algoritmi vengono
usati per due tipologie di task:
classificazione e regressione

Supervised Learning - Classificazione

Training a Supervised Learner
Cat
Training
Dog
Supervised Learning
Algorithm
Chicken
Making Predictions
Dog
Cat
Unknown
Prediction
Supervised Learning
Algorithm
Chicken
Classificazione: identificare a quale
categoria (classe) appartiene un
osservabile

Supervised Learning - Regressione

Regressione: stima della relazione tra
una variabile dipendente (Y) ed una o
più variabili indipendenti (X).
Y = @1.x] + @2. x3 + @3. x3+ ...
Yi = (Mi - Xi) * Ôi

Unsupervised Learning

Labelled data
Unlabelled data
Dog
Dog
Cat
Cat
Il nostro algoritmo impara da
dati non-etichettati (unlabeled
data)
Usato generalmente per
task generative e clustering

Reinforcement Learning

Environment
Reward
Action
Interpreter
State
Agent
Un agente è lasciato libero di
compiere azioni in un dato
ambiente con l'obiettivo di
massimizzare una ricompensa.

Reinforcement Learning

98684
1

Concetti Fondamentali
del Machine Learning

Dati e Caratteristiche

0
O
O
L
Data
Quality
La Data Quality risulta cruciale per
sviluppare dei forti modelli di ML:
· Completamento e pulizia
· Bilanciamento dei dati
· Normalizzazione

Dati e Caratteristiche

All Features
Feature Selection
Final Features
Le caratteristiche (features) sono
variabili individuali che vengono usate
come input per i modelli.
Tecniche statistiche (es. Chi-quadrato) o
unsupervised (es. PCA) vengono
impiegate per selezionare le
caratteristiche ottimali per il modello.

Il ciclo del dato

PIANIFICAZIONE
(obiettivo)
RE-UTILIZZO
RACCOLTA
DATI
CICLO DI VITA
DEL DATO
CONSERVAZIONE
ELABORAZIONE
e
ANALISI
COMUNICAZIONE
(visulizzazione)
· Prepararsi al lavoro sui dati
· Trovare e/o raccogliere i dati
· Pulire e sistemare i dati
· Analizzare i dati
· Comunicare i risultati
15

Overfitting e Underfitting

X
XX
XX
X
X
X
O
XX.
Underfitting
Overfitting
Overfitting: sovradattamento di un
modello rispetto ai dati osservati. Questo
comporta una scarsa capacità di
generalizzazione. Solitamente causato
da modelli troppo complessi.

Overfitting e Underfitting

X
XX
XX
X
X
X
O
XX
Underfitting
Overfitting
Underfitting: sottoadattamento di un
modello rispetto ai dati osservati. Questo
comporta una incapacità di catturare
adeguatamente la struttura sottostante
dei dati. Solitamente causato da modelli
troppo semplici.

Regolarizzazione

Impact of Regularization
1
-
Without Regularization
(Overfit)
With Regularization
(Good fit)
Regolarizzazione: insieme di tecniche
atte a ridurre l'overfitting e a migliorare
l'abilità a generalizzare.
Il primo passo quando si allenano
algoritmi di ML è la suddivisione dei dati
in Training Set, Validation Set e Test Set.

VALUTARE
MODELLI

Metriche

Predicted
0
1
Actual
0
TN
FP
1
FN
TP
Precision
TP
TP+FP
TP
Recall
TP+FN
Le metriche servono a
valutare l'andamento
di un modello supervisionato.
Classificazione:
. Accuracy
· Precision

Recall
· F1-Score

Metriche

Y
MAE
·
Output
MSE
X
Inputs
Le metriche servono a
valutare l'andamento
di un modello supervisionato.
Regressione:
· Mean Absolute Error (MAE)
. Mean Squared Error (MSE)

CLASSIFICAZIONE

Supervised Learning - Algoritmi

Weather
Sunny
Cloudy
Rainy
Humidity
Yes
Wind
High
Normal
Strong
Weak
No
Yes
No
Yes
Decision Tree: algoritmo predittivo
gerarchico con struttura ad albero
che utilizza delle condizioni di
controllo per ciascuna variabile
(nodi).
Esempio Colab

Supervised Learning - Algoritmi

X2
Category A:3 neighbors
Category B:2 neighbors
Category B
New Data
point
Category A
X1
k-nearest neighbors (k-NN): riceve in input i
k esempi più vicini,
· In classificazione, restituisce la classe di
appartenenza ottenuta per votazione dai
k vicini;
· In regressione, restituisce la media dei
valori di una data variabile dei k vicini.
Esempio Colab

Supervised Learning - Algoritmi

1
0's
0.8-
1's
Probability (1/0)
0.6-
0.4
0.2-
0
-20
-10
0
10
20
Model Output
Logistic Regression: modello che
stima la probabilità che un
osservabile appartenga ad una certa
classe. Viene utilizzato per la
creazione di classificatori binari.
Esempio Colab

REGRESSIONE

Supervised Learning - Algoritmi

15
30
25
20
15
10
5
.
D
25
50
75
100
125
150
176
Cricket Chips Per Minute
Regressione lineare semplice:
modello che stima una relazione tra
variabile dipendente ed una sola
variabile indipendente.
Y = BO + B1X + E
Esempio Colab
AI for Culture - Algoritmi di ML

Supervised Learning - Algoritmi

45
.
40
35
.
30
MPG
25
20
15
10
5
2000
250
3000
200
150
4000
100
5000
50
Weight
Horsepower
Regressione lineare multipla:
modello che stima una relazione tra
variabile dipendente ed n variabili
indipendenti.
Y = 30+B1X1+B2X2+ ... +BnXn+E
Esempio Colab
AI for Culture - Algoritmi di ML

Supervised Learning - Algoritmi

4.0
N= 1
3.5
Prezzo per mq (migliaia di €)
N= 3
N = 5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
Distanza dal centro (km)
Regressione polinomiale:
le variabili indipendenti vengono
elevate a potenze superiori per
catturare le relazioni non lineari tra le
variabili indipendenti e la variabile
dipendente.
Y= 30+31X+32X2+ ... +3nXn+8
Esempio Colab
AI for Culture - Algoritmi di ML

CLUSTERING

Unsupervised Learning - k-means

Before K-Means
After K-Means
K-Means
k-means: algoritmo per la
ripartizione di n osservabili in
k cluster (gruppi).
Esempio Colab

SERIE TEMPORALI

Serie Temporali

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Una serie temporale è una
sequenza di dati misurati in
momenti successivi nel tempo.
Caratteristiche dei dati:
· Temporalità: dati
raccolti ed ordinati nel
tempo;
· Continuità: valori
continui o discreti.

Serie Temporali - Componenti

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
· Trend: variazione a lungo
termine in una direzione;
· Stagionalità: eventi che
ripetono ad intervalli
regolari

Ciclo: fluttuazioni dovute a
fattori (economici) ciclici;
· Rumore: variazioni casuali
ed imprevedibili.

Serie Temporali

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Stazionarietà
i dati non hanno trend o
stagionalità

Serie Temporali

Example of a Stationary White Noise Series
2
-2 -1 0 1
Values
T
0
20
40
60
80
100
Time
Stazionarietà
i dati non hanno trend o
stagionalità

Serie Temporali - Perchè studiarle

600
500
400
1
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
-
Forecasted
Previsione:
Prevedere eventi futuri basandosi
su dati storici.
Pianificazione:
Supportare la pianificazione strategica e
decisionale.
Identificazione di Pattern:
Aiuta a identificare e comprendere
tendenze e cicli.

Serie Temporali - Modello ARIMA

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
ARIMA:
AR (AutoRegressive)
I (Integrated)
MA (Moving Average)

Serie Temporali

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
ARI - Moving Average
Media mobile (per esempio, la
media degli ultimi 6 mesi),
per 'lisciare' i dati e rimuovere il
rumore.

Serie Temporali

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Auto-ARIMA
Abbastanza simile alla regressione
lineare
La funzione auto-arima, disponibile in
molti software, permette di calcolare
automaticamente i parametri p,d,q.

Serie Temporali - Residui

Holt Winters Forecast
Passenger Volume
-
- Train
600
-
- Test
500
- Forecast
400
Will
300
200
100
1950
1952
1954
1956
1958
1960
Date
I residui di una serie
temporale sono le differenze
tra i valori osservati della
serie temporale e i valori
previsti dal modello.
Servono per valutare la
performance del modello e
per identificare eventuali
pattern (modello fallace).

Serie Temporali

600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Esempio

FUTURE
EDUCATION
MODENA

info@fem.digital | www.fem.digital

Non hai trovato quello che cercavi?

Esplora altri argomenti nella Algor library o crea direttamente i tuoi materiali con l’AI.