Documento di Informatica sull'Advanced Machine Learning. Il Pdf esplora concetti avanzati di Machine Learning, coprendo l'apprendimento supervisionato e non supervisionato, la valutazione dei modelli e le architetture di reti neurali per il rilevamento di oggetti, come R-CNN e Faster R-CNN, per lo studio universitario.
Mostra di più64 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Lisa Giacobazzi 11
OBIETTIVO: Un sistema deve migliorare la sua performance P in una data Task T attraverso l'esperienza E. Vogliamo che i sistemi siano adattivi, robusti e fault tolerant.
Nel supervised Learning l'algoritmo impara da degli esempi labeled (xi, yi) e stima una funzione che predice y su dei dati non labeled. Possiamo fare Binary Classification, Multiclass Classification e Regressione Queste si distinguono perchè hanno rispettivamente:
Analizza dei dati non labeled e identifica dei pattern nascosti. L'output è la struttura latente che emerge dai dati (es. clustering, riduzione di dimensionalità).
25. Rappresentare i dati: Rappresentare le feature e modello di classificazione - posso decidere ad esempio se diminuire il numero di features tramite la dimensionality reduction
L'apprendimento supervisionato stima la relazione tra input e output. I due modelli sono quello discriminativo e quello generativo.
Un estimator è una funzione o metodo che stima un parametro sconosciuto a partire da dati osservati. Hai dei dati, ma non conosci alcuni parametri del fenomeno che li ha generati (es. la media vera, la relazione tra variabili, ecc), un estimator prova a indovinare questi valori a partire dai dati.
La linear regression è uno stimatore in quanto trova la linea retta che "riassume" una nuvola di punti.
MSE = Bias2 + Varianza Il Mean Squared Error è uno dei metodi più efficaci per valutare la qualità di uno stimatore in quanto combina il bias e la varianza in un'unica metrica. Misura quanto lo stimatore si discosta dal valore vero, in media, al quadrato. Al quadrato perchè penalizza di più gli errori grandi e mantiene tutto positivo Anche se uno stimatore è biasato, può avere MSE più basso di uno non biasato, se ha varianza molto più piccola.
È un modo per scomporre l'errore totale di un modello in tre parti:
Aumentare la complessità del modello tende a ridurre il bias ma aumentare la varianza, e viceversa.
Cose principali nell'apprendimento supervisionato (valide anche per deep learning):
Ma cosa differenzia ML e DL?
42.1 Loss e True Risk La loss misura l'errore tra la predizione h(x)e la vera etichetta y = f(x). La loss è la funzione obiettivo che si minimizza durante l'addestramento. E' una funzione che misura l'errore tra la predizione assegnata (fatta dal modello) e la correct labeling function, che è una funzione ideale che simuliamo con le etichette nei dati di input. Si calcola durante la fase di training per aggiornare i pesi (Il bias invece si calcola dopo) Esempio di loss 0-1: L(h(x), y) = < 1 0 se h(x) +y se h(x) = y La loss è una misura empirica. Il true risk rappresenta l'errore medio del modello su tutta la distribuzione D dei dati. E' la probabilità che NON venga predetta la label corretta in un data point random di D RD(h) := P[h(X)= f(X)] = [h(X) +Y] Il true risk di un learner h è quindi il valore atteso della loss, misura la capacità del modello di generalizzare In pratica: quanto spesso sbaglia il modello nel mondo reale.
L'empirical risk diventa una stima necessaria quando la distribuzione D è ignota. Se conosces- simo D potremmo calcolare direttamente il true risk del modello h, ma nella pratica non conos- ciamo mai veramente D. Quando non conosciamo la distribuzione, usiamo i dati di training - che sono stati campionati da D - per stimare il rischio empirico, ossia l'errore sul dataset di training: Rs(h) = rischio empirico: ci dice quanto bene il modello ha imparato dai dati di training. L'empirical risk è la miglior proxy che abbiamo del true risk quando non possiamo accedere a tutta la distribuzione dei dati reali, cosa che succede praticamente sempre. Non garantisce che generalizzi bene su dati nuovi. Il rischio empirico è la media della loss sul training set.
Il Bayes Classifier opera con l'assunzione che l'input space sia discreto. Il suo obiettivo è trovare una funzione che minimizzi la probabilità di misclassificazione, ossia il true risk. Vuole quindi minimizzare P[h(X) + Y], che può essere espressa come la sommatoria su tutti gli input x del prodotto P(h(X) +Y|X = x)P(X = x) Per ogni specifica x settiamo h(x) in modo che minimizzi la probabilità condizionata P(h(X) + Y|X = x), cosa che corrisponde a massimizzare la probabilità P(h(X) = Y|X = x) Il Bayes Classifier h*(x) è ottimale, in quanto assegna ad ogni x l'etichetta y che massimizza la probabilità a posteriori: 5h*(x) = arg max P[Y = y | X = x] yEY Il Bayes Risk RD(h*) è l'errore minimo teoricamente raggiungibile sotto la distribuzione D. E' il true risk più basso ottenibile. Nessun algoritmo può andare meglio del Bayes Risk. È il limite inferiore dell'errore.
Senza fare assunzioni sul problema o sulla distribuzione dei dati, nessun algoritmo può garantire di apprendere bene in generale. Implicazione: ogni algoritmo può funzionare bene solo su alcune classi di problemi - non su tutti. Nella teoria dell'apprendimento, si vorrebbe idealmente che l'algoritmo trovi sempre una funzione esattamente corretta, su tutti i dati. Nella pratica questo è irrealizzabile. Quindi si fa una relaxation (rilassamento della garanzia):
| Tipo di relax | Significato | Parametro |
| Approximately correct | L'ipotesi h può avere un piccolo errore | ε |
| Probably correct | Possiamo tollerare un po' di incertezza nel suc- cesso dell'apprendimento | δ |
In apprendimento automatico esistono quindi diversi livelli di garanzie. Alcuni algoritmi sono solo approximately correct (errore basso, ma senza garanzie probabilistiche). Altri sono only probably correct (corretti solo con alta probabilità, ma magari con errore alto). Gli algoritmi più solidi sono PAC: garantiscono errore basso con alta probabilità. Infine, molti algoritmi moderni funzionano bene in pratica, ma non offrono nessuna garanzia teorica PAC combina entrambe le garanzie: Probably (con confidenza 1 - 8) approximately (er- rore ≤ &) correct. Non possiamo imparare perfettamente in generale, ma possiamo imparare con alta prob- abilità (probably) una funzione quasi corretta (approximately correct). Nel PAC learning il learner opera senza avere una prior knowledge sulla distribuzione D o sul classificatore Bayesiano, ma deve avere:
Il leaner avrà due parametri key
Il learner può avere un dataset di training con m(€, 8) samples, la grandezza di questo dataset dipende quindi dai requisiti di accuratezza e confidenza. L'obbiettivo è di produrre una ipotesi h tale che 6