42186 Model-based machine learning

2021/2022

Kursusinformation
Model-based machine learning
Engelsk
5
Kandidat
F4B (fre 8-12)
Campus Lyngby
Forelæsning og praktisk laboratorie med iPython notebook
13-uger
Bedømmelse af øvelser og rapport(er)
The evaluation consists of two mini-tests (15% of the grade each), and one group project with individualized report (70% of the grade).
2 timer
Alle hjælpemidler er tilladt
7-trins skala , intern bedømmelse
02806/02450/02807/42184/02402/02403 , Forudgående godt kendskab til sandsynlighed, statistik og programmering anbefales.
Filipe M Pereira Duarte Rodrigues , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 6530 , rodr@dtu.dk
Francisco Camara Pereira , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 1496 , camara@dtu.dk
42 Institut for Teknologi, Ledelse og Økonomi
I studieplanlæggeren
Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere, statistikere eller relaterede fagfolk, der ønsker at udføre avancerede dataanalyser i deres fremtidige forskning eller praksis. Modelbaseret maskinindlæring svarer til en klasse af algoritmer, kaldet Probabilistiske grafiske modeller (PGMs), der på en meget enkel måde tillader kombinationen af domæneviden med data drevne metoder.

Følgende forventes: grundlæggende statistik og sandsynlighed (f.eks. 42585 Business Analytics); kendskab til programmering (f.eks. Python, R, Matlab, Julia, C++, Java).

Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk, Gauss processer, Support Vector Machines, Decision Trees, osv.) som har den fordel at være "trykknap" løsninger, så er disse sjældent kompatible, når det ikke vedrører det originale design. Opgaven bliver at omdanne problem og data og få det tilpasset den enkelte algoritme. Ofte mistes relevant information (som f.eks. kendt forhold mellem 2 variabler, forskellig støj distribution i indgangsvariabler), hvilket kan have en skadelig indflydelse på resultaterne.

PGMs tillader at omfatte forudgående viden, parametrisk og non-parametriske (under)-modeller, samt usikkerheden om input og parametre. PGMs fungerer perfekt til at kombinere forskellige typer af data, og i løbet af de senere år, har et voksende fællesskab udviklet værktøjer til PGMs, der forenkler design og inferens proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor Maskine Læring og datamining forskning, der er afgørende i bearbejdning af Big og Small data.

Selvom dette kursus i sagens natur handler om metodologi, er det baseret på en række eksempler på applikationer, der hovedsagelig er fokuseret på udfordringer indenfor transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forklare centrale koncepter i modelbaseret maskinlæring (MBML), såsom PGM, tidligere, posterior, sandsynlighed, Bayesian inference og tro udbredelse.
  • Forklare og være i stand til at manipulere de forskellige blokke af et probabilistisk program (fx i STAN-sprog).
  • Genkende anvendelsen af de forskellige probabilistiske grafiske modeller præsenteret på kurset samt kunne redegøre for deres underliggende antagelser.
  • Udarbejde en ny model, ud fra en given problemformulering og data.
  • Anvendelse af de forskellige tilgængelige inferensmetoder i de indøvede værktøjer.
  • Forstå praktiske datamodelleringsaspekter, såsom overfitting, systemer (f.eks. spatio-temporal) dynamik, betinget uafhængighed, imputation, konjugat forud?
  • Evaluere forskellige modellers kvalitet for en given problemstilling og data.
  • Præsentere og være i stand til at argumentere for et projekt baseret på PGM
  • Forbinde eksisterende problemer og data (især fra transportområdet), med modelleringsmetoder til at tackle disse.
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt laboratorie arbejde udført med interaktive værktøjer (Jupyter notebooks in Python using a probabilistic programming language like Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt i hvert modul, under og efter den teoretiske del, for at tilegne sig nye koncepter. Kurset er designet til at være trinvis og stærkt understøttet af praksis.

Moduler:

- Gennemgang af grundprincipperne-stokastisk variable, sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk, faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske modeller, Temporale modeller, Emnemodeller, Gaussiske processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher Bishop, Thomas Diethe, http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir Friedman
Sidst opdateret
21. april, 2021