Vinaora Nivo Slider 3.x

Statistical Learning and Data Mining

Stella inattivaStella inattivaStella inattivaStella inattivaStella inattiva
 

SSD: SECS-S/01
CFU: 6

Insegnamenti propedeutici (se previsti dall'Ordinamento del CdS)

Nessuno.

Eventuali prerequisiti

Conoscenze di base di matematica e algebra lineare, modelli di probabilità.

Obiettivi formativi

Il corso si propone di fornire agli studenti la logica della statistica e le competenze metodologiche del paradigma dello Statistical Learning: Data Mining, Inferenza e Predizione, nei domini applicativi dell'Ingegneria e delle Scienze di Base. Nello specifico, gli studenti vengono esposti e formati sui metodi fondamentali per l'analisi esplorativa dei dati e la modellazione statistica per l'inferenza e la previsione nei problemi di classificazione e regressione.

Il ritmo di apprendimento è mantenuto da esercitazioni pratiche svolte con linguaggi di programmazione open-source, in modo che l'acquisizione di tali metodi e competenze sia rafforzata attraverso lo sviluppo di opportuni casi di studio basati su dati del mondo reale.

Risultati di apprendimento attesi

Conoscenza e capacità di comprensione

Il corso fornisce agli studenti la metodologia statistica per l'apprendimento dai dati, come trasformare i problemi reali in sfide statistiche, come esplorare i dati ed estrarre importanti tipologie, come costruire modelli per il processo decisionale e predittivo, come validare i risultati, come interpretare e comunicare i risultati dell'analisi statistica dei dati.

Lo studente deve dimostrare di aver imparato a scegliere l'approccio e il metodo adatti, a implementare l'algoritmo e ne conosce i requisiti per affrontare problemi reali utilizzando la metodologia statistica.

Capacità di applicare conoscenza e comprensione

Lo studente deve inoltre dimostrare la conoscenza delle fasi principali dell'analisi dei dati statistici in un project work utilizzando set di dati del mondo reale o pianificando uno studio di simulazione. Lo studente dimostra la sua abilità nel processo di apprendimento presentando lo storytelling quantitativo con i risultati e fornendo le corrette interpretazioni dei risultati.

Programma - Syllabus

  • Introduzione alla Statistica, Technè-Logia, Analisi dei Dati (0.50 CFU*)
    • Fondamenti di Statistica
      • Tipo di variabili e terminologia
      • Approccio esplorativo versus approccio confermativo
      • Statistica descrittiva versus Inferenza
    • Technè-Logia
      • La logica della strategia di apprendimento statistico: da teoria a pratica
      • Approccio euristico versus approccio algoritmico
    • Analisi dei Dati
      • I “passaggi chiave” nell’apprendimento dai dati
      • Introduzione al Data Mining secondo D. Hand
      • Introduzione alla Teoria dello Statistical Learning secondo Vapnik
    • Apprendimento Non-Supervisionato (1 CFU)
      • Metodi di Clustering o Analisi dei Gruppi
        • Metodi gerarchici
        • Metodi non gerarchici (K-Means ClusteringK-Medoids Clustering)
        • Soft K-Means Clustering e Fuzzy Clustering
        • Validazione interna e validazione esterna
      • Metodi Fattoriali
        • Analisi delle Componenti Principali
        • Analisi delle Componenti Indipendenti e Projection Pursuit
      • Introduzione all’Apprendimento Supervisionato (0.50 CFU)
        • Teoria dell’Apprendimento Statistico di Vapnik
          • Macchina di apprendimento, funzione perdita e rischio funzionale
          • Problemi di regressione/classificazione/stima di densità
          • Principio della minimizzazione del rischio empirico e principio della minimizzazione del rischio strutturale
          • La VC (Vapnik and Chervonenkis) dimensionalità e misura dell’abilità della macchina di apprendimento
          • Trade-off Accuratezza-Complessità del modello
          • Trade-off Distorsione-Varianza
        • Overview dei Modelli Statistici, Apprendimento Supervisionato e Approssimazione di Funzioni
          • Metodi Parametrici versus Metodi Non Parametrici
          • Accuratezza versus Interpretabilità
          • Valutazione del modello versus Selezione del modello
        • Metodi lineari (1 CFU)
          • Regressione lineare e diagnostica di regressione
          • Modelli lineari per l’analisi delle serie temporali
          • Regressione logistica
          • Analisi discriminante
        • Selezione del modello lineare (0.25 CFU)
          • Algoritmi selettivi e Stepwise Regression
          • Metodi di riduzione della dimensionalità
            • Principal Component Regression
            • Partial Least Squares Regression
          • Metodi Shrinkage
            • Ridge Regression
            • Lasso Regression
            • Elastic-Net Regression
          • Metodi di ricampionamento (0.25 CFU)
            • Valutazione del modello via Bootstrap
            • Selezione del modello via Cross-validation
          • Metodi basati su strutture ad albero (0.75 CFU)
            • Alberi di classificazione e regressione
              • Procedure di partizione ricorsiva
              • Pruning e selezione dell’albero di decisione
            • Metodi Ensemble
              • Bagging
              • Boosting
              • Random Forest
            • Metodi per gestire la non linearità (1 CFU)
              • Espansioni di base e regolarizzazione
                • Regressione polinomiale e funzioni gradino
                • Regressione polinomiale a tratti
                • Smoothing Splines
              • Metodi di Kernel Smoothing
                • Kernel Smoother e regression locale
                • Stima di densità con il Kernel
              • Modelli Additivi Generalizzati
                • Algoritmo Backfitting
                • Algoritmo Local Scoring
              • Machine Learning (0.75 CFU)
                • Support Vector Machines
                • Projection Pursuit Regression
                • Reti neurali e Deep Learning 

*1 CFU = 8 Hour

Materiale didattico

Slide e materiale didattico a cura del docente. Si veda il sito web del docente della materia.

Modalità di svolgimento dell'insegnamento

Descrivere le modalità in cui verrà erogata la didattica: lezioni frontali, esercitazioni, laboratorio, tirocinio o stage seminari, altro.

Eventualmente indicare anche la strumentazione adottata (lezioni registrate, supporti multimediali, software specialistico, materiale on line ecc.).

Verifica di apprendimento e criteri di valutazione

Modalità di esame

L'esame si articola in una discussione di un elaborato progettuale.