SSD: SECS-S/01
CFU: 6
Insegnamenti propedeutici (se previsti dall'Ordinamento del CdS)
Nessuno.
Eventuali prerequisiti
Conoscenze di base di matematica e algebra lineare, modelli di probabilità.
Obiettivi formativi
Il corso si propone di fornire agli studenti la logica della statistica e le competenze metodologiche del paradigma dello Statistical Learning: Data Mining, Inferenza e Predizione, nei domini applicativi dell'Ingegneria e delle Scienze di Base. Nello specifico, gli studenti vengono esposti e formati sui metodi fondamentali per l'analisi esplorativa dei dati e la modellazione statistica per l'inferenza e la previsione nei problemi di classificazione e regressione.
Il ritmo di apprendimento è mantenuto da esercitazioni pratiche svolte con linguaggi di programmazione open-source, in modo che l'acquisizione di tali metodi e competenze sia rafforzata attraverso lo sviluppo di opportuni casi di studio basati su dati del mondo reale.
Risultati di apprendimento attesi
Conoscenza e capacità di comprensione
Il corso fornisce agli studenti la metodologia statistica per l'apprendimento dai dati, come trasformare i problemi reali in sfide statistiche, come esplorare i dati ed estrarre importanti tipologie, come costruire modelli per il processo decisionale e predittivo, come validare i risultati, come interpretare e comunicare i risultati dell'analisi statistica dei dati.
Lo studente deve dimostrare di aver imparato a scegliere l'approccio e il metodo adatti, a implementare l'algoritmo e ne conosce i requisiti per affrontare problemi reali utilizzando la metodologia statistica.
Capacità di applicare conoscenza e comprensione
Lo studente deve inoltre dimostrare la conoscenza delle fasi principali dell'analisi dei dati statistici in un project work utilizzando set di dati del mondo reale o pianificando uno studio di simulazione. Lo studente dimostra la sua abilità nel processo di apprendimento presentando lo storytelling quantitativo con i risultati e fornendo le corrette interpretazioni dei risultati.
Programma - Syllabus
- Introduzione alla Statistica, Technè-Logia, Analisi dei Dati (0.50 CFU*)
- Fondamenti di Statistica
- Tipo di variabili e terminologia
- Approccio esplorativo versus approccio confermativo
- Statistica descrittiva versus Inferenza
- Technè-Logia
- La logica della strategia di apprendimento statistico: da teoria a pratica
- Approccio euristico versus approccio algoritmico
- Analisi dei Dati
- I “passaggi chiave” nell’apprendimento dai dati
- Introduzione al Data Mining secondo D. Hand
- Introduzione alla Teoria dello Statistical Learning secondo Vapnik
- Apprendimento Non-Supervisionato (1 CFU)
- Metodi di Clustering o Analisi dei Gruppi
- Metodi gerarchici
- Metodi non gerarchici (K-Means Clustering, K-Medoids Clustering)
- Soft K-Means Clustering e Fuzzy Clustering
- Validazione interna e validazione esterna
- Metodi Fattoriali
- Analisi delle Componenti Principali
- Analisi delle Componenti Indipendenti e Projection Pursuit
- Introduzione all’Apprendimento Supervisionato (0.50 CFU)
- Teoria dell’Apprendimento Statistico di Vapnik
- Macchina di apprendimento, funzione perdita e rischio funzionale
- Problemi di regressione/classificazione/stima di densità
- Principio della minimizzazione del rischio empirico e principio della minimizzazione del rischio strutturale
- La VC (Vapnik and Chervonenkis) dimensionalità e misura dell’abilità della macchina di apprendimento
- Trade-off Accuratezza-Complessità del modello
- Trade-off Distorsione-Varianza
- Overview dei Modelli Statistici, Apprendimento Supervisionato e Approssimazione di Funzioni
- Metodi Parametrici versus Metodi Non Parametrici
- Accuratezza versus Interpretabilità
- Valutazione del modello versus Selezione del modello
- Metodi lineari (1 CFU)
- Regressione lineare e diagnostica di regressione
- Modelli lineari per l’analisi delle serie temporali
- Regressione logistica
- Analisi discriminante
- Selezione del modello lineare (0.25 CFU)
- Algoritmi selettivi e Stepwise Regression
- Metodi di riduzione della dimensionalità
- Principal Component Regression
- Partial Least Squares Regression
- Metodi Shrinkage
- Ridge Regression
- Lasso Regression
- Elastic-Net Regression
- Metodi di ricampionamento (0.25 CFU)
- Valutazione del modello via Bootstrap
- Selezione del modello via Cross-validation
- Metodi basati su strutture ad albero (0.75 CFU)
- Alberi di classificazione e regressione
- Procedure di partizione ricorsiva
- Pruning e selezione dell’albero di decisione
- Metodi Ensemble
- Bagging
- Boosting
- Random Forest
- Metodi per gestire la non linearità (1 CFU)
- Espansioni di base e regolarizzazione
- Regressione polinomiale e funzioni gradino
- Regressione polinomiale a tratti
- Smoothing Splines
- Metodi di Kernel Smoothing
- Kernel Smoother e regression locale
- Stima di densità con il Kernel
- Modelli Additivi Generalizzati
- Algoritmo Backfitting
- Algoritmo Local Scoring
- Machine Learning (0.75 CFU)
- Support Vector Machines
- Projection Pursuit Regression
- Reti neurali e Deep Learning
- Espansioni di base e regolarizzazione
- Alberi di classificazione e regressione
- Teoria dell’Apprendimento Statistico di Vapnik
- Metodi di Clustering o Analisi dei Gruppi
- Fondamenti di Statistica
*1 CFU = 8 Hour
Materiale didattico
Slide e materiale didattico a cura del docente. Si veda il sito web del docente della materia.
Modalità di svolgimento dell'insegnamento
Descrivere le modalità in cui verrà erogata la didattica: lezioni frontali, esercitazioni, laboratorio, tirocinio o stage seminari, altro.
Eventualmente indicare anche la strumentazione adottata (lezioni registrate, supporti multimediali, software specialistico, materiale on line ecc.).
Verifica di apprendimento e criteri di valutazione
Modalità di esame
L'esame si articola in una discussione di un elaborato progettuale.