Slide da Fey sugli algoritmi di Machine Learning. Il Pdf, una presentazione didattica di livello universitario in Informatica, esplora i concetti di ML, i modelli supervisionati (classificazione, regressione) e non supervisionati (clustering), e il ciclo di vita del dato.
Mostra di più43 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
+
O
O
O
O
1
O
o
Algoritmi di MLObiettivi didattici
3
2
A
- Definire il concetto di Machine
Learning
- Modelli supervisionati:
classificazione e regressione
- Modelli non-supervisionati:
clustering
- Serie Temporali
Artificial Intelligence
Machine
Learning
Deep
Learning
Con Machine Learning (ML) intendiamo
lo studio di algoritmi statistici che
possono imparare dai dati osservati,
generalizzare su nuovi dati e quindi
completare uno o più compiti
autonomamente.
METHOD:
Unsupervised
Supervised
recognize images
imagine pictures
question & answer
generate videos
describe
image
model languages
translate
language
write creatively
analyze sentiments
Environment
synthesize speech
recognize speech
Reward
Action
Interpreter
State
Un algoritmo impara a svolgere un
compito (task) dai dati a disposizione:
· Supervised Learning
· Unsupervised Learning
. Reinforcement Learning
Labelled data
Unlabelled data
Dog
Dog
Cat
Cat
Il nostro algoritmo impara da
dati etichettati (labeled data)
Questi algoritmi vengono
usati per due tipologie di task:
classificazione e regressione
Training a Supervised Learner
Cat
Training
Dog
Supervised Learning
Algorithm
Chicken
Making Predictions
Dog
Cat
Unknown
Prediction
Supervised Learning
Algorithm
Chicken
Classificazione: identificare a quale
categoria (classe) appartiene un
osservabile
Regressione: stima della relazione tra
una variabile dipendente (Y) ed una o
più variabili indipendenti (X).
Y = @1.x] + @2. x3 + @3. x3+ ...
Yi = (Mi - Xi) * Ôi
Labelled data
Unlabelled data
Dog
Dog
Cat
Cat
Il nostro algoritmo impara da
dati non-etichettati (unlabeled
data)
Usato generalmente per
task generative e clustering
Environment
Reward
Action
Interpreter
State
Agent
Un agente è lasciato libero di
compiere azioni in un dato
ambiente con l'obiettivo di
massimizzare una ricompensa.
98684
1
0
O
O
L
Data
Quality
La Data Quality risulta cruciale per
sviluppare dei forti modelli di ML:
· Completamento e pulizia
· Bilanciamento dei dati
· Normalizzazione
All Features
Feature Selection
Final Features
Le caratteristiche (features) sono
variabili individuali che vengono usate
come input per i modelli.
Tecniche statistiche (es. Chi-quadrato) o
unsupervised (es. PCA) vengono
impiegate per selezionare le
caratteristiche ottimali per il modello.
PIANIFICAZIONE
(obiettivo)
RE-UTILIZZO
RACCOLTA
DATI
CICLO DI VITA
DEL DATO
CONSERVAZIONE
ELABORAZIONE
e
ANALISI
COMUNICAZIONE
(visulizzazione)
· Prepararsi al lavoro sui dati
· Trovare e/o raccogliere i dati
· Pulire e sistemare i dati
· Analizzare i dati
· Comunicare i risultati
15
X
XX
XX
X
X
X
O
XX.
Underfitting
Overfitting
Overfitting: sovradattamento di un
modello rispetto ai dati osservati. Questo
comporta una scarsa capacità di
generalizzazione. Solitamente causato
da modelli troppo complessi.
X
XX
XX
X
X
X
O
XX
Underfitting
Overfitting
Underfitting: sottoadattamento di un
modello rispetto ai dati osservati. Questo
comporta una incapacità di catturare
adeguatamente la struttura sottostante
dei dati. Solitamente causato da modelli
troppo semplici.
Impact of Regularization
1
-
Without Regularization
(Overfit)
With Regularization
(Good fit)
Regolarizzazione: insieme di tecniche
atte a ridurre l'overfitting e a migliorare
l'abilità a generalizzare.
Il primo passo quando si allenano
algoritmi di ML è la suddivisione dei dati
in Training Set, Validation Set e Test Set.
Predicted
0
1
Actual
0
TN
FP
1
FN
TP
Precision
TP
TP+FP
TP
Recall
TP+FN
Le metriche servono a
valutare l'andamento
di un modello supervisionato.
Classificazione:
. Accuracy
· Precision
●
Recall
· F1-Score
Y
MAE
·
Output
MSE
X
Inputs
Le metriche servono a
valutare l'andamento
di un modello supervisionato.
Regressione:
· Mean Absolute Error (MAE)
. Mean Squared Error (MSE)
Weather
Sunny
Cloudy
Rainy
Humidity
Yes
Wind
High
Normal
Strong
Weak
No
Yes
No
Yes
Decision Tree: algoritmo predittivo
gerarchico con struttura ad albero
che utilizza delle condizioni di
controllo per ciascuna variabile
(nodi).
Esempio Colab
X2
Category A:3 neighbors
Category B:2 neighbors
Category B
New Data
point
Category A
X1
k-nearest neighbors (k-NN): riceve in input i
k esempi più vicini,
· In classificazione, restituisce la classe di
appartenenza ottenuta per votazione dai
k vicini;
· In regressione, restituisce la media dei
valori di una data variabile dei k vicini.
Esempio Colab
1
0's
0.8-
1's
Probability (1/0)
0.6-
0.4
0.2-
0
-20
-10
0
10
20
Model Output
Logistic Regression: modello che
stima la probabilità che un
osservabile appartenga ad una certa
classe. Viene utilizzato per la
creazione di classificatori binari.
Esempio Colab
15
30
25
20
15
10
5
.
D
25
50
75
100
125
150
176
Cricket Chips Per Minute
Regressione lineare semplice:
modello che stima una relazione tra
variabile dipendente ed una sola
variabile indipendente.
Y = BO + B1X + E
Esempio Colab
AI for Culture - Algoritmi di ML
45
.
40
35
.
30
MPG
25
20
15
10
5
2000
250
3000
200
150
4000
100
5000
50
Weight
Horsepower
Regressione lineare multipla:
modello che stima una relazione tra
variabile dipendente ed n variabili
indipendenti.
Y = 30+B1X1+B2X2+ ... +BnXn+E
Esempio Colab
AI for Culture - Algoritmi di ML
4.0
N= 1
3.5
Prezzo per mq (migliaia di €)
N= 3
N = 5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
Distanza dal centro (km)
Regressione polinomiale:
le variabili indipendenti vengono
elevate a potenze superiori per
catturare le relazioni non lineari tra le
variabili indipendenti e la variabile
dipendente.
Y= 30+31X+32X2+ ... +3nXn+8
Esempio Colab
AI for Culture - Algoritmi di ML
Before K-Means
After K-Means
K-Means
k-means: algoritmo per la
ripartizione di n osservabili in
k cluster (gruppi).
Esempio Colab
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Una serie temporale è una
sequenza di dati misurati in
momenti successivi nel tempo.
Caratteristiche dei dati:
· Temporalità: dati
raccolti ed ordinati nel
tempo;
· Continuità: valori
continui o discreti.
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
· Trend: variazione a lungo
termine in una direzione;
· Stagionalità: eventi che
ripetono ad intervalli
regolari
●
Ciclo: fluttuazioni dovute a
fattori (economici) ciclici;
· Rumore: variazioni casuali
ed imprevedibili.
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Stazionarietà
i dati non hanno trend o
stagionalità
Example of a Stationary White Noise Series
2
-2 -1 0 1
Values
T
0
20
40
60
80
100
Time
Stazionarietà
i dati non hanno trend o
stagionalità
600
500
400
1
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
-
Forecasted
Previsione:
Prevedere eventi futuri basandosi
su dati storici.
Pianificazione:
Supportare la pianificazione strategica e
decisionale.
Identificazione di Pattern:
Aiuta a identificare e comprendere
tendenze e cicli.
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
ARIMA:
AR (AutoRegressive)
I (Integrated)
MA (Moving Average)
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
ARI - Moving Average
Media mobile (per esempio, la
media degli ultimi 6 mesi),
per 'lisciare' i dati e rimuovere il
rumore.
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Auto-ARIMA
Abbastanza simile alla regressione
lineare
La funzione auto-arima, disponibile in
molti software, permette di calcolare
automaticamente i parametri p,d,q.
Holt Winters Forecast
Passenger Volume
-
- Train
600
-
- Test
500
- Forecast
400
Will
300
200
100
1950
1952
1954
1956
1958
1960
Date
I residui di una serie
temporale sono le differenze
tra i valori osservati della
serie temporale e i valori
previsti dal modello.
Servono per valutare la
performance del modello e
per identificare eventuali
pattern (modello fallace).
600
500
400
300
200
100
2013
2014
2015
2016
2017
2018
2019
-
Actual
Forecasted
Esempio
info@fem.digital | www.fem.digital